GPT-5.1 w lutym 2026 — test na polskich zadaniach biznesowych
OpenAI wydał GPT-5.1 w pierwszym tygodniu lutego. Przebiegliśmy go przez nasz standardowy zestaw 8 zadań na polskich danych: streszczenia raportów, ekstrakcja z umów, klasyfikacja maili, generowanie copy. Porównujemy z GPT-5, Claude Sonnet 4.5 i Opus 4.6. Bez marketingu — surowe liczby z naszego stanowiska testowego.
OpenAI 5 lutego 2026 wypuścił GPT-5.1 — pierwsze poważne odświeżenie GPT-5 (sierpień 2025). Marketingowo: „lepsze rozumowanie, mniejsze halucynacje, niższy koszt". Co to znaczy w praktyce na polskich danych? Przerobiliśmy 8 zadań z naszego standardowego zestawu testowego.
Metodologia
Każde z 8 zadań ma 30-120 przykładów testowych z „złotymi" odpowiedziami przygotowanymi ręcznie przez nas i 2 niezależnych ekspertów (księgowość, prawo, marketing). Modele oceniamy ślepą metodą — ekspert nie wie, który model wygenerował którą odpowiedź.
Test 1 — streszczenie polskiego raportu rocznego (n=60)
Wejście: raport roczny polskiej spółki z GPW (PDF, 80-180 stron). Output: streszczenie executive na 1 stronę. Oceniane: dokładność liczbowa, kompletność kluczowych wątków, czytelność.
| Model | Trafność | Halucynacje liczb | Czas (s) |
|---|---|---|---|
| GPT-5.1 | 8,4/10 | 3,2% | 42 |
| GPT-5 | 7,8/10 | 5,7% | 38 |
| Claude Opus 4.6 | 8,9/10 | 2,1% | 51 |
| Claude Sonnet 4.5 | 8,2/10 | 3,8% | 24 |
Test 2 — ekstrakcja z polskich umów (n=80)
Wejście: umowa B2B (10-30 stron, PDF). Output: JSON z 18 polami (strony, daty, kwoty, klauzule kar). Oceniane: trafność per pole.
GPT-5.1 osiągnął 91,2% trafność, GPT-5 — 87,4%, Claude Opus 4.6 — 94,7%, Claude Sonnet 4.5 — 92,1%. Pole „kara umowna" było najtrudniejsze — GPT-5.1 trafił 78%, Opus 4.6 — 88%.
Test 3 — klasyfikacja maili B2B do 8 kategorii (n=480)
Tutaj różnice były niewielkie. GPT-5.1: 95,2%. GPT-5: 93,8%. Opus 4.6: 96,1%. Sonnet 4.5: 94,7%. Dla tego zadania wybór modelu zależy od ceny i latencji, nie jakości.
Test 4 — generowanie maila handlowego po polsku (n=120)
Tu GPT-5.1 zaskoczył. Średnia ocena 8,7/10 (przy 8,1/10 GPT-5). Naturalność polskiego — niemal nie do odróżnienia od Sonneta 4.5. Wcześniejszy GPT-5 miał problem z „kalkami z angielskiego", w 5.1 jest dużo lepiej.
Co naprawdę się zmieniło między 5 a 5.1
- Polski naturalny — wyraźny skok, mniej kalk, lepsza odmiana.
- Halucynacje liczb — spadek z 5,7% do 3,2% przy streszczeniach.
- Cena input — zostaje (3 USD/M), cena output spadła z 15 USD/M do 12 USD/M.
- Context window — z 200k do 280k tokenów.
- Function calling — bardziej stabilne formatowanie JSON, mniej „odpowiedzi obok schemy".
Kiedy GPT-5.1 ma sens vs Claude
GPT-5.1 jest dziś realną alternatywą dla Sonneta 4.5 w średniej jakości zadaniach z lekką przewagą Sonneta na polskim. Opus 4.6 dla najwyższej jakości zadań nadal pozostaje pierwszym wyborem. GPT-5.1 wygrywa w 2 sytuacjach:
- Wymóg „nie używamy Anthropica" (klient lub partner ma exclusive z OpenAI).
- Bardzo duże okno kontekstu (>200k tokenów) bez podziału na chunki.
Koszt na 1 mln zapytań
Symulacja: 1 mln zapytań po średnio 2 000 tokenów input + 600 tokenów output. GPT-5.1: 13 200 USD. GPT-5: 15 000 USD. Claude Sonnet 4.5: 12 000 USD. Claude Opus 4.6: 60 000 USD (z prompt cache: 39 000 USD). Hybryda Sonnet + Opus dla trudnych: 18 500 USD.
Rekomendacja
Jeśli macie wdrożenie na GPT-5 — uaktualnijcie do 5.1. Migracja to flip flagi, jakościowo zyskujecie nieco, kosztowo również. Jeśli wybieracie pomiędzy „GPT-5.1 vs Claude" do nowego wdrożenia — testujcie oba na swoich danych. Różnice są niewielkie, w 70% przypadków decyduje wygoda integracji, cena, polityka prywatności providera.
Pomożemy zrobić Wasz test porównawczy — napiszcie. Mamy gotowe stanowisko i jeśli macie 30-50 reprezentatywnych przykładów, w tydzień dostajecie raport.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo