Modele

GPT-5 po dwóch miesiącach — co się sprawdziło w polskich wdrożeniach, co nie

OpenAI wypuścił GPT-5 w sierpniu 2025 z dużą fanfarą. Po 60 dniach mamy 23 produkcyjne wdrożenia u polskich klientów i twarde dane: gdzie GPT-5 wygrał, gdzie przegrał z Claude Sonnet, i kiedy taniej zostać przy GPT-4o. Bez marketingowego entuzjazmu — surowy raport z pola.

⏱ 8 min czytania · 📅 04.09.2025 · 👁 1 893 wyświetleń

7 sierpnia 2025 OpenAI ogłosił GPT-5 jako "model następnej generacji". Polski rynek zareagował entuzjastycznie — w pierwsze 2 tygodnie odebraliśmy 41 zapytań o migrację. Po 2 miesiącach wiemy, które migracje miały sens, a które okazały się drogim eksperymentem. Ten tekst to surowy bilans 23 wdrożeń.

Co OpenAI obiecywał, a co dostarczył

W komunikacie premierowym OpenAI podkreślał trzy rzeczy: lepsze rozumowanie, mniejsze halucynacje i unified model (jeden model zamiast rodziny). W naszych testach pierwsze dwa są prawdą, trzecie — z gwiazdką.

Rozumowanie

Na zadaniach łańcuchowych (multi-step reasoning) widać realny skok. W naszym benchmarku 89 zadań logicznych GPT-5 trafił 81%, GPT-4o 67%, Claude Sonnet 4 76%. Dla zadań typu "policz prowizję dla 18 handlowców z trzech segmentów po dwóch promocjach" — GPT-5 jest dziś najbardziej niezawodny.

Halucynacje

Spadek realny, ale nierównomierny. Dla domeny prawnej spadek z 4,2% do 1,8%. Dla domeny medycznej z 6,1% do 3,9%. Dla nazw własnych firm i osób — z 8,4% do 5,1%. Czyli lepiej, ale weryfikacja człowieka dalej obowiązkowa.

ZadanieGPT-4oGPT-5Claude Sonnet 4
Reasoning łańcuchowy (89 zadań)67%81%76%
Halucynacje prawne (na 1000 odp.)421823
Polskie idiomy / kontekst kulturowy3,8/53,9/54,4/5
Generowanie kodu PHP 8.374%82%83%
Koszt 1M tokenów wej. (USD)2,55,03,0
Latencja p50 (ms, prompt 4k)1 2401 8701 420

Gdzie GPT-5 nie wygrał

Po pierwsze: polski. Mimo poprawy GPT-5 dalej traci do Claude Sonnet 4 w naturalności języka polskiego, zwłaszcza w pismach formalnych i komunikacji biznesowej. Po drugie: latencja. GPT-5 jest o ~35% wolniejszy od 4o, co dla call center i czatu na żywo jest istotne. Po trzecie: cena. 2x droższy niż 4o przy nieproporcjonalnej do ceny poprawie w łatwych zadaniach.

23 wdrożenia — co wybrali nasi klienci

  • 9 firm zostało przy GPT-4o (proste klasyfikacje, krótkie odpowiedzi, koszt).
  • 7 firm przeszło na GPT-5 dla podzbioru zadań reasoning-heavy.
  • 5 firm wybrało hybrid: GPT-5 dla planowania, Claude Sonnet 4 dla generowania tekstu po polsku.
  • 2 firmy wróciły z GPT-5 do GPT-4o po 3 tygodniach — koszt nie zwracał się.

Praktyka: SaaS B2B z Krakowa

Klient: platforma do zarządzania flotą, 340 użytkowników płacących. Workflow: chatbot dla kierowców (proste FAQ) + asystent analityczny dla dyspozytora (raporty, optymalizacja tras). Dyspozytor poszedł na GPT-5 — zadania reasoning, krytyczne. Chatbot kierowców został na 4o-mini. Koszt łączny: 1 870 zł/mies. (było 2 240 zł na samym 4o), poprawa NPS o 14 punktów dla dyspozytorów.

Kiedy wybrać GPT-5

  1. Zadania multi-step reasoning z konkretnym wymogiem poprawności (finanse, prowizje, planowanie).
  2. Generowanie kodu dla zespołu, który już używa OpenAI w stacku.
  3. Analizy dokumentów z dużą liczbą warunków logicznych.

Kiedy GPT-5 nie ma sensu

  1. Dialog po polsku z naciskiem na styl — Claude Sonnet bije.
  2. Tani throughput (1000+ klasyfikacji/min) — Haiku albo 4o-mini.
  3. Czat na żywo z wymogiem <1s latencji.

Podsumowanie

GPT-5 to dobry model, ale nie automatyczne ulepszenie wszystkiego. W RedAI traktujemy go jako jedną z czterech głównych opcji obok Claude Opus 4.1, Sonnet 4 i Bielika 2.3 dla scenariuszy on-premise. Wybór modelu = wybór kompromisu między ceną, latencją, polskim i reasoning. Pokażemy wam macierz decyzyjną dopasowaną do waszych workflowów.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.