Claude Opus 4.6 — co naprawdę zmienia w pracy polskich zespołów
Anthropic wypuścił Claude Opus 4.6 w pierwszej dekadzie lutego. Przerobiliśmy go przez 11 realnych zadań z naszych wdrożeń: analiza umów, ekstrakcja z PDF, code review, raportowanie. Pokazujemy, gdzie skok jakości jest wyraźny, gdzie kosmetyczny, a gdzie Opus 4.5 wciąż wystarczy. Plus: nowa polityka cenowa i wpływ na rachunek dla firmy 50-osobowej.
Claude Opus 4.6 trafił do API 4 lutego 2026. Po dwóch tygodniach testów w naszych wdrożeniach mamy dane, a nie tylko marketingowe slajdy. Ten tekst pokazuje, co w nowej wersji jest faktyczną zmianą, a co kosmetyką — w kontekście polskich firm 5-200 osób, nie laboratoryjnych benchmarków.
Co nowego w Opus 4.6 wobec 4.5
Anthropic podaje trzy główne osie poprawy: rozumowanie długoterminowe (long-horizon reasoning), praca z narzędziami w pętli (agentic loops) i obsługa kodu w językach kompilowanych. W naszych testach najbardziej odczuwalna jest druga — model rzadziej gubi kontekst po 6-8 wywołaniach narzędzi z rzędu.
Trzy konkretne różnice, które zobaczycie
- Stabilność w długich pętlach — odsetek przerwanych zadań spadł z 14% (Opus 4.5) do 4,7% w naszej próbce 240 uruchomień.
- Lepsze rozumienie polskich umów handlowych — w teście ekstrakcji 28 klauzul z 12 umów B2B trafność wzrosła z 89% do 94%.
- Mniej halucynacji w danych liczbowych — przy raportowaniu z arkuszy Excel odsetek pomyłek w sumach i przeliczeniach spadł z 6,2% do 2,1%.
Test 1 — analiza umowy najmu lokalu (47 stron)
Wzięliśmy realną umowę najmu (47 stron, PDF skanowany OCR-em) i kazaliśmy modelowi wskazać 14 klauzul ryzyka oraz porównać je z naszym wewnętrznym standardem. Opus 4.5 trafnie wskazał 11/14, ale w dwóch przypadkach pomylił numerację paragrafów. Opus 4.6 trafił 13/14 i poprawnie cytował paragrafy z numerami.
Co to znaczy dla działu prawnego
Przy 80 umowach miesięcznie różnica między 79% a 93% trafności oznacza ok. 11 dodatkowych poprawnie zlokalizowanych klauzul ryzyka, których prawnik nie musi szukać ręcznie. W naszym wdrożeniu w firmie deweloperskiej z Wrocławia oszczędność czasu wyniosła 7 godzin tygodniowo dla jednego prawnika.
Test 2 — code review w PHP 8.3
Daliśmy modelowi pull request o 1 248 linii zmian w projekcie symfonicznym (PHP 8.3, Doctrine ORM, PHPUnit). Opus 4.6 znalazł 17 z 19 znanych nam problemów (89%), Opus 4.5 — 14/19 (74%). GPT-5.1 w tym samym teście: 12/19 (63%). Bielik 2.3 w wersji 11B: 8/19 (42%).
| Model | Trafność CR | Czas (s) | Koszt (USD) |
|---|---|---|---|
| Claude Opus 4.6 | 89% | 38 | 0,42 |
| Claude Opus 4.5 | 74% | 41 | 0,38 |
| Claude Sonnet 4.5 | 71% | 19 | 0,11 |
| GPT-5.1 | 63% | 29 | 0,34 |
Polityka cenowa — co zmienia się w rachunku
Cena wejściowa Opus 4.6 to nadal 15 USD/M tokenów input, 75 USD/M output — tak jak 4.5. Anthropic dodał jednak rabat 35% przy włączonym prompt caching dla promptów >4 096 tokenów. Dla naszego klienta z branży księgowej, który przepuszcza 240 mln tokenów input miesięcznie przez stały prompt systemowy, oznacza to oszczędność 1 260 USD/mies. Realny rachunek spadł z 5 480 USD do 4 220 USD.
Kiedy Opus 4.5 nadal wystarczy
- Krótkie odpowiedzi na pytania klientów (czat, helpdesk) — różnica niezauważalna.
- Klasyfikacja maili do 6 kategorii — oba modele trafiają >96%.
- Generowanie krótkich opisów produktów do sklepu — koszt 4.6 nie uzasadnia 2 pp różnicy jakości.
Co rekomendujemy klientom RedAI
Wszystkim nowym wdrożeniom od 14 lutego stawiamy Opus 4.6 jako domyślny model do zadań „głębokich" (analiza dokumentów >20 stron, code review, długie pętle agentowe). Sonnet 4.5 zostaje jako koń roboczy do klasyfikacji, krótkich odpowiedzi i ekstrakcji. Istniejących klientów migrujemy stopniowo — przełączenie samego modelu w warstwie routingu zajmuje 14 minut na środowisko.
Jeśli macie u siebie wdrożenie sprzed grudnia 2025 i zastanawiacie się, czy aktualizacja ma sens — napiszcie do nas. Pokażemy na Waszych danych, gdzie 4.6 daje skok, a gdzie 4.5 wystarczy.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo