Modele

GPT-5 — pierwsze 72 godziny w naszych testach

OpenAI wydało GPT-5 7 sierpnia 2025. W ciągu 72 godzin uruchomiliśmy go na pięciu wewnętrznych testach RedAI — segregacja maili, generowanie ofert, analiza umów, code review, raport finansowy. Pokazujemy realne wyniki, porównania z Claude Opus 4 i ceny po pierwszym tygodniu produkcji.

⏱ 9 min czytania · 📅 11.08.2025 · 👁 1 246 wyświetleń

GPT-5 ogłoszony 7 sierpnia 2025 to największe wydanie OpenAI od GPT-4. Marketingowe obietnice: jednolity model bez konieczności wyboru (o3 / o4 / 4o), lepsze reasoning, "doktorat z każdej dziedziny". W RedAI nie wierzymy w marketingowe slajdy — wierzymy w testy. Po trzech dniach mamy 240 zapytań testowych w pięciu klasach problemów.

Co to jest GPT-5 — szybkie sprostowanie marketingu

GPT-5 to nie jeden model, tylko system routingu, który automatycznie decyduje czy zapytanie idzie do "szybkiej" wersji, czy do "myślącej" (reasoning). Dla użytkownika to upraszcza — nie trzeba wybierać między gpt-4o a o3. Dla developera oznacza to mniejszą kontrolę nad kosztem i latencją: szybkie zapytania kosztują tyle co dawne gpt-4o, "myślące" wielokrotnie więcej.

Cennik (stan na 10 sierpnia 2025)

WariantInput (1M tok.)Output (1M tok.)Średnia latencja
GPT-5 (router auto)1,25 USD10,00 USD2,4 s (szybkie) / 18 s (reasoning)
GPT-5 mini0,25 USD2,00 USD1,1 s
GPT-5 nano0,05 USD0,40 USD0,4 s
Claude Opus 4 (dla porównania)15,00 USD75,00 USD3,8 s
Claude Sonnet 4 (dla porównania)3,00 USD15,00 USD1,8 s

Cena GPT-5 jest agresywnie niska. Przy mieszanym ruchu (80% szybkie, 20% reasoning) wychodzi około 2-3× taniej niż Sonnet 4 i 12× taniej niż Opus 4.

Pięć testów w 72 godzinach

Test 1: segregacja 1 200 maili od kontrahentów

Dane z klienta logistycznego (anonimizowane). Klasyfikacja: pilne / standard / spam / wymaga uwagi. Zwycięzca: GPT-5 (97,4% trafność) vs Sonnet 4 (96,8%) — różnica statystycznie nieistotna. Koszt: GPT-5: 0,38 zł / 1000 maili. Sonnet 4: 1,12 zł / 1000 maili.

Test 2: generowanie ofert z szablonu

120 zapytań ofertowych, model generuje ofertę po polsku w stałym formacie firmowym. Wygrał Sonnet 4 — jakość polszczyzny subiektywnie lepsza (oceniało 3 niezależnych redaktorów: Sonnet 4,3/5, GPT-5 3,8/5). GPT-5 robił "kalki" z angielskiego ("dostarczamy wartość", "rozwiązujemy ból"), Sonnet używał bardziej naturalnej polszczyzny biznesowej.

Test 3: analiza umowy NDA (24 strony)

Pytanie: znajdź wszystkie klauzule odbiegające od standardu rynkowego. GPT-5 w trybie reasoning znalazł 11 z 14, Opus 4 znalazł 13 z 14. Czas: GPT-5: 47 sekund. Opus 4: 1 minuta 14 sekund. Tu Opus nadal trzyma prowadzenie w trudnych zadaniach analitycznych.

Test 4: code review

240 plików PHP z legacy systemu klienta. Zadanie: znaleźć krytyczne bugi i security issues. GPT-5 znalazł 38 (z czego 4 false positive), Opus 4 znalazł 34 (z czego 1 false positive). Liczbowo wygrał GPT-5, jakościowo Opus (mniej false positive — ważne, bo każdy false positive to godzina tracona dewelopera).

Test 5: raport finansowy z 12 plików Excel

Konsolidacja danych miesięcznych do raportu zarządowego. Tu GPT-5 zaskoczył — output był bezbłędny pod względem matematyki (240 testowych sum, 0 błędów), Opus 4 miał 2 błędy zaokrągleń w naszych testach. Czas: GPT-5: 38 sekund. Opus 4: 1 minuta 2 sekundy.

Co nas martwi w GPT-5

Trzy konkretne obawy z pierwszego tygodnia produkcji:

  • Brak kontroli nad routingiem — czasem GPT-5 wpada w tryb reasoning dla prostych zapytań i koszt skacze 8×. OpenAI obiecuje parametr reasoning_effort, ale na razie nie działa konsekwentnie.
  • Polszczyzna — wyraźnie słabsza niż Claude w copy. Do raportów, klasyfikacji, kodu — bez znaczenia. Do treści marketingowych — Sonnet 4 wygrywa.
  • Niestabilność API w pierwszym tygodniu — 3 razy dostaliśmy 503, w sumie 22 minuty downtime'u. Anthropic w analogicznym okresie po wydaniu Opus 4 miał 0 minut.

Nasza strategia na sierpień-wrzesień 2025

U klientów RedAI nie robimy migracji "wszystko na GPT-5". Zamiast tego — dwa modele równolegle, każdy do swoich zadań:

  1. GPT-5 / GPT-5 mini — klasyfikacja maili, code review, raporty z danych, analiza Excela, OCR i transkrypcje.
  2. Claude Sonnet 4 / Opus 4 — generowanie treści po polsku, analiza długich umów, copywriting, komunikacja z klientami.
  3. Bielik 2 / Magistral Small (lokalnie) — wrażliwe dane, których nie wolno wysyłać poza infrastrukturę klienta.

Realny koszt mixed-model setup

U klienta produkcyjnego (45 osób, średni ruch AI):

  • Zanim: 100% Sonnet 4, koszt 1 366 zł/mies.
  • Po: 70% GPT-5 mini, 25% Sonnet 4, 5% Opus 4 — koszt 720 zł/mies.
  • Oszczędność: 47%, jakość mierzalnie taka sama lub lepsza.

To jest realna zaleta posiadania kilku modeli w pipeline — przy każdym wydaniu można optymalizować bez przepisywania aplikacji. Pokazujemy ten setup na żywo klientom rozważającym pierwsze wdrożenie.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.