Fine-tuning vs RAG vs prompt engineering — kiedy co (2026 update)
Po 47 wdrożeniach mamy twardą regułę: 90% problemów rozwiązuje dobry prompt z dobrym kontekstem, 8% wymaga RAG, 2% naprawdę potrzebuje fine-tuningu. Pokazujemy decyzję krok po kroku — z konkretnymi przykładami z polskich firm i kosztami każdej drogi. Plus: kiedy fine-tuning Bielika ma sens, a kiedy lepiej zostawić Claude'a.
Pytanie „fine-tunować czy RAG?" pojawia się na co drugim spotkaniu z klientem. Zwykle odpowiedź brzmi „ani jedno, ani drugie — potrzebujecie lepszego prompta". Ten artykuł pokazuje, jak rozróżnić te trzy strategie i podjąć decyzję na konkretnych liczbach, a nie modach z Linkedina.
Trzy strategie — definicje
Zacznijmy od podstaw, żebyśmy mówili o tym samym:
- Prompt engineering — piszemy precyzyjne instrukcje dla modelu w wiadomości systemowej. Bez modyfikacji modelu, bez bazy zewnętrznej.
- RAG (Retrieval-Augmented Generation) — przy każdym pytaniu pobieramy z bazy wektorowej fragmenty tekstu i wklejamy do prompta jako kontekst.
- Fine-tuning — dotrenowujemy model na własnych danych, zmieniamy jego wagi. Wynik to nowy model.
Reguła decyzji w 4 pytaniach
Po 47 wdrożeniach stosujemy ten algorytm:
- Czy w prompcie systemowym (do 8 000 tokenów) zmieści się to, co model musi wiedzieć? Jeśli tak — prompt engineering wystarczy.
- Czy odpowiedź wymaga konkretnych faktów z dużej, zmieniającej się bazy? Tak — RAG.
- Czy model musi mówić specyficznym tonem/stylem/strukturą, którego nie da się opisać promptem? Tak — może fine-tuning.
- Czy zadanie jest tak powtarzalne i wąskie, że taniej zrobić mniejszy model dedykowany? Tak — fine-tuning małego modelu (np. Bielik 4.5B).
Przykład 1 — czat helpdesku (prompt wystarczy)
Klient z branży telekomunikacyjnej chciał czat odpowiadający na pytania klientów. 280 najczęstszych pytań, 1 200 odpowiedzi w bazie wiedzy. Zaczęli od planu fine-tuningu (wycena: 38 000 zł od zewnętrznego dostawcy). Pokazaliśmy, że prompt systemowy z 6 500 tokenami kontekstu (FAQ skompresowane przez nas) daje 94% trafność. Koszt wdrożenia: 4 800 zł.
Przykład 2 — wyszukiwanie w 240 000 dokumentów (RAG)
Kancelaria z Warszawy ma 240 000 dokumentów prawnych (orzeczenia, opinie, umowy). Pełny katalog nie zmieści się w prompcie. RAG z bazą wektorową (Qdrant) + reranker (Cohere Rerank) + Claude Sonnet 4.5 daje 91% trafność „w top 5 wyników". Koszt: 38 godzin wdrożenia + 1 200 zł miesięcznie utrzymanie.
Przykład 3 — generator opisów produktów w specyficznym stylu (fine-tuning)
E-commerce z odzieżą dla młodzieży chciał opisy w bardzo konkretnym stylu (slang, długość 80-120 słów, schemat „hook → cecha → emocja → CTA"). Próbowaliśmy promptem przez 3 tygodnie — wyniki były ok 75%, ale za dużo „odlatywania". Fine-tuning Llama 3.3 8B na 1 800 ręcznie napisanych przykładach dał 96% trafność stylu. Koszt fine-tuningu: 14 000 zł, koszt inferencji: 280 zł/mies.
| Strategia | Koszt jednorazowy | Koszt mies. | Czas wdrożenia |
|---|---|---|---|
| Prompt engineering | 2-8 tys. zł | 200-2 000 zł | 1-2 tyg. |
| RAG | 12-40 tys. zł | 800-4 000 zł | 3-6 tyg. |
| Fine-tuning | 14-80 tys. zł | 280-3 000 zł | 4-12 tyg. |
Kiedy fine-tuning Bielika ma sens
Bielik 2.3 (11B) jest dobry „od pudełka" do polskiego, ale nie wie nic o specyficznej terminologii Waszej firmy. Fine-tuning na 800-2 000 przykładach daje model, który: mieści się na jednym GPU 24 GB, generuje 40-60 tokenów/s, kosztuje 80 zł miesięcznie w infrastrukturze. Sensowny przy: >500 000 wywołań miesięcznie, wąskie zadanie, ograniczenia dot. wysyłania danych do USA.
Nasza rekomendacja
Zaczynajcie od prompta. Zawsze. Nawet jeśli koniec końców i tak zrobicie fine-tuning — dobry prompt jest niezbędny do generowania danych treningowych. Jeśli prompt daje >85% trafności — zostawcie. Jeśli <75% — sprawdźcie, czy problem to dane (RAG), czy styl/struktura (fine-tuning).
Chętnie zbudujemy z Wami decyzję na Waszym konkretnym problemie — umówcie 30 minut. Często wystarczy jeden warsztat, żeby uniknąć wydatku 50 tys. zł na niepotrzebny fine-tuning.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo