GPT-5 — pierwsze 72 godziny w naszych testach
OpenAI wydało GPT-5 7 sierpnia 2025. W ciągu 72 godzin uruchomiliśmy go na pięciu wewnętrznych testach RedAI — segregacja maili, generowanie ofert, analiza umów, code review, raport finansowy. Pokazujemy realne wyniki, porównania z Claude Opus 4 i ceny po pierwszym tygodniu produkcji.
GPT-5 ogłoszony 7 sierpnia 2025 to największe wydanie OpenAI od GPT-4. Marketingowe obietnice: jednolity model bez konieczności wyboru (o3 / o4 / 4o), lepsze reasoning, "doktorat z każdej dziedziny". W RedAI nie wierzymy w marketingowe slajdy — wierzymy w testy. Po trzech dniach mamy 240 zapytań testowych w pięciu klasach problemów.
Co to jest GPT-5 — szybkie sprostowanie marketingu
GPT-5 to nie jeden model, tylko system routingu, który automatycznie decyduje czy zapytanie idzie do "szybkiej" wersji, czy do "myślącej" (reasoning). Dla użytkownika to upraszcza — nie trzeba wybierać między gpt-4o a o3. Dla developera oznacza to mniejszą kontrolę nad kosztem i latencją: szybkie zapytania kosztują tyle co dawne gpt-4o, "myślące" wielokrotnie więcej.
Cennik (stan na 10 sierpnia 2025)
| Wariant | Input (1M tok.) | Output (1M tok.) | Średnia latencja |
|---|---|---|---|
| GPT-5 (router auto) | 1,25 USD | 10,00 USD | 2,4 s (szybkie) / 18 s (reasoning) |
| GPT-5 mini | 0,25 USD | 2,00 USD | 1,1 s |
| GPT-5 nano | 0,05 USD | 0,40 USD | 0,4 s |
| Claude Opus 4 (dla porównania) | 15,00 USD | 75,00 USD | 3,8 s |
| Claude Sonnet 4 (dla porównania) | 3,00 USD | 15,00 USD | 1,8 s |
Cena GPT-5 jest agresywnie niska. Przy mieszanym ruchu (80% szybkie, 20% reasoning) wychodzi około 2-3× taniej niż Sonnet 4 i 12× taniej niż Opus 4.
Pięć testów w 72 godzinach
Test 1: segregacja 1 200 maili od kontrahentów
Dane z klienta logistycznego (anonimizowane). Klasyfikacja: pilne / standard / spam / wymaga uwagi. Zwycięzca: GPT-5 (97,4% trafność) vs Sonnet 4 (96,8%) — różnica statystycznie nieistotna. Koszt: GPT-5: 0,38 zł / 1000 maili. Sonnet 4: 1,12 zł / 1000 maili.
Test 2: generowanie ofert z szablonu
120 zapytań ofertowych, model generuje ofertę po polsku w stałym formacie firmowym. Wygrał Sonnet 4 — jakość polszczyzny subiektywnie lepsza (oceniało 3 niezależnych redaktorów: Sonnet 4,3/5, GPT-5 3,8/5). GPT-5 robił "kalki" z angielskiego ("dostarczamy wartość", "rozwiązujemy ból"), Sonnet używał bardziej naturalnej polszczyzny biznesowej.
Test 3: analiza umowy NDA (24 strony)
Pytanie: znajdź wszystkie klauzule odbiegające od standardu rynkowego. GPT-5 w trybie reasoning znalazł 11 z 14, Opus 4 znalazł 13 z 14. Czas: GPT-5: 47 sekund. Opus 4: 1 minuta 14 sekund. Tu Opus nadal trzyma prowadzenie w trudnych zadaniach analitycznych.
Test 4: code review
240 plików PHP z legacy systemu klienta. Zadanie: znaleźć krytyczne bugi i security issues. GPT-5 znalazł 38 (z czego 4 false positive), Opus 4 znalazł 34 (z czego 1 false positive). Liczbowo wygrał GPT-5, jakościowo Opus (mniej false positive — ważne, bo każdy false positive to godzina tracona dewelopera).
Test 5: raport finansowy z 12 plików Excel
Konsolidacja danych miesięcznych do raportu zarządowego. Tu GPT-5 zaskoczył — output był bezbłędny pod względem matematyki (240 testowych sum, 0 błędów), Opus 4 miał 2 błędy zaokrągleń w naszych testach. Czas: GPT-5: 38 sekund. Opus 4: 1 minuta 2 sekundy.
Co nas martwi w GPT-5
Trzy konkretne obawy z pierwszego tygodnia produkcji:
- Brak kontroli nad routingiem — czasem GPT-5 wpada w tryb reasoning dla prostych zapytań i koszt skacze 8×. OpenAI obiecuje parametr
reasoning_effort, ale na razie nie działa konsekwentnie. - Polszczyzna — wyraźnie słabsza niż Claude w copy. Do raportów, klasyfikacji, kodu — bez znaczenia. Do treści marketingowych — Sonnet 4 wygrywa.
- Niestabilność API w pierwszym tygodniu — 3 razy dostaliśmy 503, w sumie 22 minuty downtime'u. Anthropic w analogicznym okresie po wydaniu Opus 4 miał 0 minut.
Nasza strategia na sierpień-wrzesień 2025
U klientów RedAI nie robimy migracji "wszystko na GPT-5". Zamiast tego — dwa modele równolegle, każdy do swoich zadań:
- GPT-5 / GPT-5 mini — klasyfikacja maili, code review, raporty z danych, analiza Excela, OCR i transkrypcje.
- Claude Sonnet 4 / Opus 4 — generowanie treści po polsku, analiza długich umów, copywriting, komunikacja z klientami.
- Bielik 2 / Magistral Small (lokalnie) — wrażliwe dane, których nie wolno wysyłać poza infrastrukturę klienta.
Realny koszt mixed-model setup
U klienta produkcyjnego (45 osób, średni ruch AI):
- Zanim: 100% Sonnet 4, koszt 1 366 zł/mies.
- Po: 70% GPT-5 mini, 25% Sonnet 4, 5% Opus 4 — koszt 720 zł/mies.
- Oszczędność: 47%, jakość mierzalnie taka sama lub lepsza.
To jest realna zaleta posiadania kilku modeli w pipeline — przy każdym wydaniu można optymalizować bez przepisywania aplikacji. Pokazujemy ten setup na żywo klientom rozważającym pierwsze wdrożenie.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo