Claude Opus 4.1 miesiąc po premierze — co się sprawdziło w polskich firmach
Anthropic wypuścił Claude Opus 4.1 w sierpniu 2025. Po czterech tygodniach mamy 18 wdrożeń u polskich klientów (kancelarie, biura księgowe, firmy produkcyjne). Sprawdzamy, gdzie 4.1 zauważalnie wygrał z 4.0, gdzie różnica jest kosmetyczna, i kiedy nie warto migrować budżetu.
Anthropic wypuścił Claude Opus 4.1 5 sierpnia 2025 jako iteracyjne odświeżenie linii Opus. Po miesiącu mamy konkretne dane z 18 polskich wdrożeń — 7 kancelarii prawnych, 4 biura księgowe, 3 firmy produkcyjne, 2 SaaS-y B2B, 2 hurtownie. Ten artykuł nie jest changelogiem Anthropic — to nasza notatka z pola, z liczbami, kosztami i pułapkami.
Co realnie zmieniło się względem Opus 4.0
Opus 4.1 to nie skok generacyjny — to dopracowanie. Anthropic celował głównie w długie konteksty, agentic coding i redukcję halucynacji w zadaniach z dużą liczbą plików. W naszym wewnętrznym benchmarku RedAI (137 zadań z 9 domen) widać poprawę w 4 obszarach.
Długie konteksty (powyżej 80k tokenów)
Tu różnica jest realna. W 4.0 widzieliśmy spadek precyzji w okolicach 90k — model gubił szczegóły z połowy kontekstu. 4.1 trzyma jakość do 160k bez wyraźnego załamania. Dla kancelarii analizujących wielotomowe akta to konkretny zysk.
Agentic coding
SWE-bench Verified: 72,5% (4.0) → 74,5% (4.1). W praktyce: refaktor 12-plikowy w Symfony, który 4.0 kończył z 2 błędami testów, 4.1 kończy bez błędów w 7 z 10 prób.
| Zadanie | Opus 4.0 | Opus 4.1 | Różnica |
|---|---|---|---|
| Analiza umowy 47-stronnicowej (PL) | 87% trafień | 93% trafień | +6 pp |
| Refaktor PHP 8.3 (8 plików) | 3,1 błędu/zadanie | 1,4 błędu/zadanie | -55% |
| Klasyfikacja faktur (1 248 szt.) | 96,2% | 96,8% | +0,6 pp |
| Generowanie odpowiedzi reklamacyjnej | 4,1/5 | 4,3/5 | +0,2 |
| Koszt 1M tokenów wejściowych (USD) | 15 | 15 | bez zmian |
Gdzie 4.1 nie zrobił różnicy
Część zadań nie zmieniła się w ogóle albo zmieniła się o szum statystyczny. Klasyfikacja prostych dokumentów, generowanie krótkich maili, ekstrakcja danych z faktur PDF — tu 4.0 był już bardzo dobry, a Haiku 3.5 załatwiał 80% pracy za 1/12 ceny.
Kiedy migrować, a kiedy poczekać
Sformułowaliśmy prostą zasadę: jeśli twoje workflowy operują na dokumentach powyżej 60k tokenów albo masz pipeline agentic z więcej niż 5 krokami, migracja 4.0 → 4.1 zwraca się w pierwszym tygodniu. Jeśli robisz proste klasyfikacje i krótkie generacje — zostań przy taniej rodzinie Haiku/Sonnet, bo Opus 4.1 to dalej cena premium.
Lista kontrolna migracji
- Przepisz 5 najtrudniejszych promptów i odpal A/B na próbie 200 rekordów.
- Zmierz latencję — 4.1 jest o ok. 8% wolniejsze przy bardzo długich wejściach.
- Sprawdź temperature i top_p — domyślne mogą wymagać tuningu.
- Zaktualizuj system prompts, jeśli używaliście trików dla 4.0.
- Przelicz koszty miesięczne — cena per token się nie zmieniła, ale liczba prób często spada.
Praktyka: kancelaria z Wrocławia, 23 osoby
Migracja w 11 dni. Workflow: wczytanie akt z e-Kancelarii, ekstrakcja kluczowych dat i osób, dopasowanie do precedensów. Na 4.0 prawnik weryfikował ~38% wyników. Na 4.1 — 24%. Realna oszczędność: 7 godzin pracy seniora tygodniowo. Koszt API wzrósł o 12%, ale TCO spadło, bo seniora kosztują więcej niż tokeny.
Ryzyka i pułapki
- Nadprodukcja kontekstu — 4.1 trzyma 160k bez załamania, więc inżynierowie zaczynają wrzucać wszystko. Koszt rośnie liniowo, jakość nie zawsze.
- Stare evaluation suity — jeśli wasze testy były projektowane pod 4.0, mogą nie wyłapać regresji w specyficznych przypadkach 4.1.
- Tool use — 4.1 czasem agresywniej woła narzędzia. Trzeba przeglądnąć system prompts, żeby nie generować zbędnych wywołań.
Podsumowanie
Opus 4.1 to dobra aktualizacja dla zespołów już pracujących na 4.0 — bez bólu migracji, z mierzalnym zyskiem na trudnych zadaniach. Dla nowych wdrożeń RedAI od września 2025 to nasz domyślny model do zadań premium. Chcecie zobaczyć, jak wygląda audyt promptów pod 4.1 w waszym przypadku? Umówmy 30-minutowe demo — pokażemy A/B na waszych dokumentach.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo