GPT-5 po dwóch miesiącach — co się sprawdziło w polskich wdrożeniach, co nie
OpenAI wypuścił GPT-5 w sierpniu 2025 z dużą fanfarą. Po 60 dniach mamy 23 produkcyjne wdrożenia u polskich klientów i twarde dane: gdzie GPT-5 wygrał, gdzie przegrał z Claude Sonnet, i kiedy taniej zostać przy GPT-4o. Bez marketingowego entuzjazmu — surowy raport z pola.
7 sierpnia 2025 OpenAI ogłosił GPT-5 jako "model następnej generacji". Polski rynek zareagował entuzjastycznie — w pierwsze 2 tygodnie odebraliśmy 41 zapytań o migrację. Po 2 miesiącach wiemy, które migracje miały sens, a które okazały się drogim eksperymentem. Ten tekst to surowy bilans 23 wdrożeń.
Co OpenAI obiecywał, a co dostarczył
W komunikacie premierowym OpenAI podkreślał trzy rzeczy: lepsze rozumowanie, mniejsze halucynacje i unified model (jeden model zamiast rodziny). W naszych testach pierwsze dwa są prawdą, trzecie — z gwiazdką.
Rozumowanie
Na zadaniach łańcuchowych (multi-step reasoning) widać realny skok. W naszym benchmarku 89 zadań logicznych GPT-5 trafił 81%, GPT-4o 67%, Claude Sonnet 4 76%. Dla zadań typu "policz prowizję dla 18 handlowców z trzech segmentów po dwóch promocjach" — GPT-5 jest dziś najbardziej niezawodny.
Halucynacje
Spadek realny, ale nierównomierny. Dla domeny prawnej spadek z 4,2% do 1,8%. Dla domeny medycznej z 6,1% do 3,9%. Dla nazw własnych firm i osób — z 8,4% do 5,1%. Czyli lepiej, ale weryfikacja człowieka dalej obowiązkowa.
| Zadanie | GPT-4o | GPT-5 | Claude Sonnet 4 |
|---|---|---|---|
| Reasoning łańcuchowy (89 zadań) | 67% | 81% | 76% |
| Halucynacje prawne (na 1000 odp.) | 42 | 18 | 23 |
| Polskie idiomy / kontekst kulturowy | 3,8/5 | 3,9/5 | 4,4/5 |
| Generowanie kodu PHP 8.3 | 74% | 82% | 83% |
| Koszt 1M tokenów wej. (USD) | 2,5 | 5,0 | 3,0 |
| Latencja p50 (ms, prompt 4k) | 1 240 | 1 870 | 1 420 |
Gdzie GPT-5 nie wygrał
Po pierwsze: polski. Mimo poprawy GPT-5 dalej traci do Claude Sonnet 4 w naturalności języka polskiego, zwłaszcza w pismach formalnych i komunikacji biznesowej. Po drugie: latencja. GPT-5 jest o ~35% wolniejszy od 4o, co dla call center i czatu na żywo jest istotne. Po trzecie: cena. 2x droższy niż 4o przy nieproporcjonalnej do ceny poprawie w łatwych zadaniach.
23 wdrożenia — co wybrali nasi klienci
- 9 firm zostało przy GPT-4o (proste klasyfikacje, krótkie odpowiedzi, koszt).
- 7 firm przeszło na GPT-5 dla podzbioru zadań reasoning-heavy.
- 5 firm wybrało hybrid: GPT-5 dla planowania, Claude Sonnet 4 dla generowania tekstu po polsku.
- 2 firmy wróciły z GPT-5 do GPT-4o po 3 tygodniach — koszt nie zwracał się.
Praktyka: SaaS B2B z Krakowa
Klient: platforma do zarządzania flotą, 340 użytkowników płacących. Workflow: chatbot dla kierowców (proste FAQ) + asystent analityczny dla dyspozytora (raporty, optymalizacja tras). Dyspozytor poszedł na GPT-5 — zadania reasoning, krytyczne. Chatbot kierowców został na 4o-mini. Koszt łączny: 1 870 zł/mies. (było 2 240 zł na samym 4o), poprawa NPS o 14 punktów dla dyspozytorów.
Kiedy wybrać GPT-5
- Zadania multi-step reasoning z konkretnym wymogiem poprawności (finanse, prowizje, planowanie).
- Generowanie kodu dla zespołu, który już używa OpenAI w stacku.
- Analizy dokumentów z dużą liczbą warunków logicznych.
Kiedy GPT-5 nie ma sensu
- Dialog po polsku z naciskiem na styl — Claude Sonnet bije.
- Tani throughput (1000+ klasyfikacji/min) — Haiku albo 4o-mini.
- Czat na żywo z wymogiem <1s latencji.
Podsumowanie
GPT-5 to dobry model, ale nie automatyczne ulepszenie wszystkiego. W RedAI traktujemy go jako jedną z czterech głównych opcji obok Claude Opus 4.1, Sonnet 4 i Bielika 2.3 dla scenariuszy on-premise. Wybór modelu = wybór kompromisu między ceną, latencją, polskim i reasoning. Pokażemy wam macierz decyzyjną dopasowaną do waszych workflowów.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo