Architektura

Fine-tuning vs RAG vs prompt engineering — kiedy co (2026 update)

Po 47 wdrożeniach mamy twardą regułę: 90% problemów rozwiązuje dobry prompt z dobrym kontekstem, 8% wymaga RAG, 2% naprawdę potrzebuje fine-tuningu. Pokazujemy decyzję krok po kroku — z konkretnymi przykładami z polskich firm i kosztami każdej drogi. Plus: kiedy fine-tuning Bielika ma sens, a kiedy lepiej zostawić Claude'a.

⏱ 9 min czytania · 📅 13.02.2026 · 👁 800 wyświetleń

Pytanie „fine-tunować czy RAG?" pojawia się na co drugim spotkaniu z klientem. Zwykle odpowiedź brzmi „ani jedno, ani drugie — potrzebujecie lepszego prompta". Ten artykuł pokazuje, jak rozróżnić te trzy strategie i podjąć decyzję na konkretnych liczbach, a nie modach z Linkedina.

Trzy strategie — definicje

Zacznijmy od podstaw, żebyśmy mówili o tym samym:

  • Prompt engineering — piszemy precyzyjne instrukcje dla modelu w wiadomości systemowej. Bez modyfikacji modelu, bez bazy zewnętrznej.
  • RAG (Retrieval-Augmented Generation) — przy każdym pytaniu pobieramy z bazy wektorowej fragmenty tekstu i wklejamy do prompta jako kontekst.
  • Fine-tuning — dotrenowujemy model na własnych danych, zmieniamy jego wagi. Wynik to nowy model.

Reguła decyzji w 4 pytaniach

Po 47 wdrożeniach stosujemy ten algorytm:

  1. Czy w prompcie systemowym (do 8 000 tokenów) zmieści się to, co model musi wiedzieć? Jeśli tak — prompt engineering wystarczy.
  2. Czy odpowiedź wymaga konkretnych faktów z dużej, zmieniającej się bazy? Tak — RAG.
  3. Czy model musi mówić specyficznym tonem/stylem/strukturą, którego nie da się opisać promptem? Tak — może fine-tuning.
  4. Czy zadanie jest tak powtarzalne i wąskie, że taniej zrobić mniejszy model dedykowany? Tak — fine-tuning małego modelu (np. Bielik 4.5B).

Przykład 1 — czat helpdesku (prompt wystarczy)

Klient z branży telekomunikacyjnej chciał czat odpowiadający na pytania klientów. 280 najczęstszych pytań, 1 200 odpowiedzi w bazie wiedzy. Zaczęli od planu fine-tuningu (wycena: 38 000 zł od zewnętrznego dostawcy). Pokazaliśmy, że prompt systemowy z 6 500 tokenami kontekstu (FAQ skompresowane przez nas) daje 94% trafność. Koszt wdrożenia: 4 800 zł.

Przykład 2 — wyszukiwanie w 240 000 dokumentów (RAG)

Kancelaria z Warszawy ma 240 000 dokumentów prawnych (orzeczenia, opinie, umowy). Pełny katalog nie zmieści się w prompcie. RAG z bazą wektorową (Qdrant) + reranker (Cohere Rerank) + Claude Sonnet 4.5 daje 91% trafność „w top 5 wyników". Koszt: 38 godzin wdrożenia + 1 200 zł miesięcznie utrzymanie.

Przykład 3 — generator opisów produktów w specyficznym stylu (fine-tuning)

E-commerce z odzieżą dla młodzieży chciał opisy w bardzo konkretnym stylu (slang, długość 80-120 słów, schemat „hook → cecha → emocja → CTA"). Próbowaliśmy promptem przez 3 tygodnie — wyniki były ok 75%, ale za dużo „odlatywania". Fine-tuning Llama 3.3 8B na 1 800 ręcznie napisanych przykładach dał 96% trafność stylu. Koszt fine-tuningu: 14 000 zł, koszt inferencji: 280 zł/mies.

StrategiaKoszt jednorazowyKoszt mies.Czas wdrożenia
Prompt engineering2-8 tys. zł200-2 000 zł1-2 tyg.
RAG12-40 tys. zł800-4 000 zł3-6 tyg.
Fine-tuning14-80 tys. zł280-3 000 zł4-12 tyg.

Kiedy fine-tuning Bielika ma sens

Bielik 2.3 (11B) jest dobry „od pudełka" do polskiego, ale nie wie nic o specyficznej terminologii Waszej firmy. Fine-tuning na 800-2 000 przykładach daje model, który: mieści się na jednym GPU 24 GB, generuje 40-60 tokenów/s, kosztuje 80 zł miesięcznie w infrastrukturze. Sensowny przy: >500 000 wywołań miesięcznie, wąskie zadanie, ograniczenia dot. wysyłania danych do USA.

Nasza rekomendacja

Zaczynajcie od prompta. Zawsze. Nawet jeśli koniec końców i tak zrobicie fine-tuning — dobry prompt jest niezbędny do generowania danych treningowych. Jeśli prompt daje >85% trafności — zostawcie. Jeśli <75% — sprawdźcie, czy problem to dane (RAG), czy styl/struktura (fine-tuning).

Chętnie zbudujemy z Wami decyzję na Waszym konkretnym problemie — umówcie 30 minut. Często wystarczy jeden warsztat, żeby uniknąć wydatku 50 tys. zł na niepotrzebny fine-tuning.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.