Modele

GPT-5.1 w lutym 2026 — test na polskich zadaniach biznesowych

OpenAI wydał GPT-5.1 w pierwszym tygodniu lutego. Przebiegliśmy go przez nasz standardowy zestaw 8 zadań na polskich danych: streszczenia raportów, ekstrakcja z umów, klasyfikacja maili, generowanie copy. Porównujemy z GPT-5, Claude Sonnet 4.5 i Opus 4.6. Bez marketingu — surowe liczby z naszego stanowiska testowego.

⏱ 8 min czytania · 📅 22.02.2026 · 👁 492 wyświetleń

OpenAI 5 lutego 2026 wypuścił GPT-5.1 — pierwsze poważne odświeżenie GPT-5 (sierpień 2025). Marketingowo: „lepsze rozumowanie, mniejsze halucynacje, niższy koszt". Co to znaczy w praktyce na polskich danych? Przerobiliśmy 8 zadań z naszego standardowego zestawu testowego.

Metodologia

Każde z 8 zadań ma 30-120 przykładów testowych z „złotymi" odpowiedziami przygotowanymi ręcznie przez nas i 2 niezależnych ekspertów (księgowość, prawo, marketing). Modele oceniamy ślepą metodą — ekspert nie wie, który model wygenerował którą odpowiedź.

Test 1 — streszczenie polskiego raportu rocznego (n=60)

Wejście: raport roczny polskiej spółki z GPW (PDF, 80-180 stron). Output: streszczenie executive na 1 stronę. Oceniane: dokładność liczbowa, kompletność kluczowych wątków, czytelność.

ModelTrafnośćHalucynacje liczbCzas (s)
GPT-5.18,4/103,2%42
GPT-57,8/105,7%38
Claude Opus 4.68,9/102,1%51
Claude Sonnet 4.58,2/103,8%24

Test 2 — ekstrakcja z polskich umów (n=80)

Wejście: umowa B2B (10-30 stron, PDF). Output: JSON z 18 polami (strony, daty, kwoty, klauzule kar). Oceniane: trafność per pole.

GPT-5.1 osiągnął 91,2% trafność, GPT-5 — 87,4%, Claude Opus 4.6 — 94,7%, Claude Sonnet 4.5 — 92,1%. Pole „kara umowna" było najtrudniejsze — GPT-5.1 trafił 78%, Opus 4.6 — 88%.

Test 3 — klasyfikacja maili B2B do 8 kategorii (n=480)

Tutaj różnice były niewielkie. GPT-5.1: 95,2%. GPT-5: 93,8%. Opus 4.6: 96,1%. Sonnet 4.5: 94,7%. Dla tego zadania wybór modelu zależy od ceny i latencji, nie jakości.

Test 4 — generowanie maila handlowego po polsku (n=120)

Tu GPT-5.1 zaskoczył. Średnia ocena 8,7/10 (przy 8,1/10 GPT-5). Naturalność polskiego — niemal nie do odróżnienia od Sonneta 4.5. Wcześniejszy GPT-5 miał problem z „kalkami z angielskiego", w 5.1 jest dużo lepiej.

Co naprawdę się zmieniło między 5 a 5.1

  • Polski naturalny — wyraźny skok, mniej kalk, lepsza odmiana.
  • Halucynacje liczb — spadek z 5,7% do 3,2% przy streszczeniach.
  • Cena input — zostaje (3 USD/M), cena output spadła z 15 USD/M do 12 USD/M.
  • Context window — z 200k do 280k tokenów.
  • Function calling — bardziej stabilne formatowanie JSON, mniej „odpowiedzi obok schemy".

Kiedy GPT-5.1 ma sens vs Claude

GPT-5.1 jest dziś realną alternatywą dla Sonneta 4.5 w średniej jakości zadaniach z lekką przewagą Sonneta na polskim. Opus 4.6 dla najwyższej jakości zadań nadal pozostaje pierwszym wyborem. GPT-5.1 wygrywa w 2 sytuacjach:

  • Wymóg „nie używamy Anthropica" (klient lub partner ma exclusive z OpenAI).
  • Bardzo duże okno kontekstu (>200k tokenów) bez podziału na chunki.

Koszt na 1 mln zapytań

Symulacja: 1 mln zapytań po średnio 2 000 tokenów input + 600 tokenów output. GPT-5.1: 13 200 USD. GPT-5: 15 000 USD. Claude Sonnet 4.5: 12 000 USD. Claude Opus 4.6: 60 000 USD (z prompt cache: 39 000 USD). Hybryda Sonnet + Opus dla trudnych: 18 500 USD.

Rekomendacja

Jeśli macie wdrożenie na GPT-5 — uaktualnijcie do 5.1. Migracja to flip flagi, jakościowo zyskujecie nieco, kosztowo również. Jeśli wybieracie pomiędzy „GPT-5.1 vs Claude" do nowego wdrożenia — testujcie oba na swoich danych. Różnice są niewielkie, w 70% przypadków decyduje wygoda integracji, cena, polityka prywatności providera.

Pomożemy zrobić Wasz test porównawczy — napiszcie. Mamy gotowe stanowisko i jeśli macie 30-50 reprezentatywnych przykładów, w tydzień dostajecie raport.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.