Modele

Claude Opus 4.1 miesiąc po premierze — co się sprawdziło w polskich firmach

Anthropic wypuścił Claude Opus 4.1 w sierpniu 2025. Po czterech tygodniach mamy 18 wdrożeń u polskich klientów (kancelarie, biura księgowe, firmy produkcyjne). Sprawdzamy, gdzie 4.1 zauważalnie wygrał z 4.0, gdzie różnica jest kosmetyczna, i kiedy nie warto migrować budżetu.

⏱ 7 min czytania · 📅 02.09.2025 · 👁 1 604 wyświetleń

Anthropic wypuścił Claude Opus 4.1 5 sierpnia 2025 jako iteracyjne odświeżenie linii Opus. Po miesiącu mamy konkretne dane z 18 polskich wdrożeń — 7 kancelarii prawnych, 4 biura księgowe, 3 firmy produkcyjne, 2 SaaS-y B2B, 2 hurtownie. Ten artykuł nie jest changelogiem Anthropic — to nasza notatka z pola, z liczbami, kosztami i pułapkami.

Co realnie zmieniło się względem Opus 4.0

Opus 4.1 to nie skok generacyjny — to dopracowanie. Anthropic celował głównie w długie konteksty, agentic coding i redukcję halucynacji w zadaniach z dużą liczbą plików. W naszym wewnętrznym benchmarku RedAI (137 zadań z 9 domen) widać poprawę w 4 obszarach.

Długie konteksty (powyżej 80k tokenów)

Tu różnica jest realna. W 4.0 widzieliśmy spadek precyzji w okolicach 90k — model gubił szczegóły z połowy kontekstu. 4.1 trzyma jakość do 160k bez wyraźnego załamania. Dla kancelarii analizujących wielotomowe akta to konkretny zysk.

Agentic coding

SWE-bench Verified: 72,5% (4.0) → 74,5% (4.1). W praktyce: refaktor 12-plikowy w Symfony, który 4.0 kończył z 2 błędami testów, 4.1 kończy bez błędów w 7 z 10 prób.

ZadanieOpus 4.0Opus 4.1Różnica
Analiza umowy 47-stronnicowej (PL)87% trafień93% trafień+6 pp
Refaktor PHP 8.3 (8 plików)3,1 błędu/zadanie1,4 błędu/zadanie-55%
Klasyfikacja faktur (1 248 szt.)96,2%96,8%+0,6 pp
Generowanie odpowiedzi reklamacyjnej4,1/54,3/5+0,2
Koszt 1M tokenów wejściowych (USD)1515bez zmian

Gdzie 4.1 nie zrobił różnicy

Część zadań nie zmieniła się w ogóle albo zmieniła się o szum statystyczny. Klasyfikacja prostych dokumentów, generowanie krótkich maili, ekstrakcja danych z faktur PDF — tu 4.0 był już bardzo dobry, a Haiku 3.5 załatwiał 80% pracy za 1/12 ceny.

Kiedy migrować, a kiedy poczekać

Sformułowaliśmy prostą zasadę: jeśli twoje workflowy operują na dokumentach powyżej 60k tokenów albo masz pipeline agentic z więcej niż 5 krokami, migracja 4.0 → 4.1 zwraca się w pierwszym tygodniu. Jeśli robisz proste klasyfikacje i krótkie generacje — zostań przy taniej rodzinie Haiku/Sonnet, bo Opus 4.1 to dalej cena premium.

Lista kontrolna migracji

  • Przepisz 5 najtrudniejszych promptów i odpal A/B na próbie 200 rekordów.
  • Zmierz latencję — 4.1 jest o ok. 8% wolniejsze przy bardzo długich wejściach.
  • Sprawdź temperature i top_p — domyślne mogą wymagać tuningu.
  • Zaktualizuj system prompts, jeśli używaliście trików dla 4.0.
  • Przelicz koszty miesięczne — cena per token się nie zmieniła, ale liczba prób często spada.

Praktyka: kancelaria z Wrocławia, 23 osoby

Migracja w 11 dni. Workflow: wczytanie akt z e-Kancelarii, ekstrakcja kluczowych dat i osób, dopasowanie do precedensów. Na 4.0 prawnik weryfikował ~38% wyników. Na 4.1 — 24%. Realna oszczędność: 7 godzin pracy seniora tygodniowo. Koszt API wzrósł o 12%, ale TCO spadło, bo seniora kosztują więcej niż tokeny.

Ryzyka i pułapki

  1. Nadprodukcja kontekstu — 4.1 trzyma 160k bez załamania, więc inżynierowie zaczynają wrzucać wszystko. Koszt rośnie liniowo, jakość nie zawsze.
  2. Stare evaluation suity — jeśli wasze testy były projektowane pod 4.0, mogą nie wyłapać regresji w specyficznych przypadkach 4.1.
  3. Tool use — 4.1 czasem agresywniej woła narzędzia. Trzeba przeglądnąć system prompts, żeby nie generować zbędnych wywołań.

Podsumowanie

Opus 4.1 to dobra aktualizacja dla zespołów już pracujących na 4.0 — bez bólu migracji, z mierzalnym zyskiem na trudnych zadaniach. Dla nowych wdrożeń RedAI od września 2025 to nasz domyślny model do zadań premium. Chcecie zobaczyć, jak wygląda audyt promptów pod 4.1 w waszym przypadku? Umówmy 30-minutowe demo — pokażemy A/B na waszych dokumentach.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.