Modele

Claude Opus 4.6 — co naprawdę zmienia w pracy polskich zespołów

Anthropic wypuścił Claude Opus 4.6 w pierwszej dekadzie lutego. Przerobiliśmy go przez 11 realnych zadań z naszych wdrożeń: analiza umów, ekstrakcja z PDF, code review, raportowanie. Pokazujemy, gdzie skok jakości jest wyraźny, gdzie kosmetyczny, a gdzie Opus 4.5 wciąż wystarczy. Plus: nowa polityka cenowa i wpływ na rachunek dla firmy 50-osobowej.

⏱ 8 min czytania · 📅 06.02.2026 · 👁 529 wyświetleń

Claude Opus 4.6 trafił do API 4 lutego 2026. Po dwóch tygodniach testów w naszych wdrożeniach mamy dane, a nie tylko marketingowe slajdy. Ten tekst pokazuje, co w nowej wersji jest faktyczną zmianą, a co kosmetyką — w kontekście polskich firm 5-200 osób, nie laboratoryjnych benchmarków.

Co nowego w Opus 4.6 wobec 4.5

Anthropic podaje trzy główne osie poprawy: rozumowanie długoterminowe (long-horizon reasoning), praca z narzędziami w pętli (agentic loops) i obsługa kodu w językach kompilowanych. W naszych testach najbardziej odczuwalna jest druga — model rzadziej gubi kontekst po 6-8 wywołaniach narzędzi z rzędu.

Trzy konkretne różnice, które zobaczycie

  • Stabilność w długich pętlach — odsetek przerwanych zadań spadł z 14% (Opus 4.5) do 4,7% w naszej próbce 240 uruchomień.
  • Lepsze rozumienie polskich umów handlowych — w teście ekstrakcji 28 klauzul z 12 umów B2B trafność wzrosła z 89% do 94%.
  • Mniej halucynacji w danych liczbowych — przy raportowaniu z arkuszy Excel odsetek pomyłek w sumach i przeliczeniach spadł z 6,2% do 2,1%.

Test 1 — analiza umowy najmu lokalu (47 stron)

Wzięliśmy realną umowę najmu (47 stron, PDF skanowany OCR-em) i kazaliśmy modelowi wskazać 14 klauzul ryzyka oraz porównać je z naszym wewnętrznym standardem. Opus 4.5 trafnie wskazał 11/14, ale w dwóch przypadkach pomylił numerację paragrafów. Opus 4.6 trafił 13/14 i poprawnie cytował paragrafy z numerami.

Co to znaczy dla działu prawnego

Przy 80 umowach miesięcznie różnica między 79% a 93% trafności oznacza ok. 11 dodatkowych poprawnie zlokalizowanych klauzul ryzyka, których prawnik nie musi szukać ręcznie. W naszym wdrożeniu w firmie deweloperskiej z Wrocławia oszczędność czasu wyniosła 7 godzin tygodniowo dla jednego prawnika.

Test 2 — code review w PHP 8.3

Daliśmy modelowi pull request o 1 248 linii zmian w projekcie symfonicznym (PHP 8.3, Doctrine ORM, PHPUnit). Opus 4.6 znalazł 17 z 19 znanych nam problemów (89%), Opus 4.5 — 14/19 (74%). GPT-5.1 w tym samym teście: 12/19 (63%). Bielik 2.3 w wersji 11B: 8/19 (42%).

ModelTrafność CRCzas (s)Koszt (USD)
Claude Opus 4.689%380,42
Claude Opus 4.574%410,38
Claude Sonnet 4.571%190,11
GPT-5.163%290,34

Polityka cenowa — co zmienia się w rachunku

Cena wejściowa Opus 4.6 to nadal 15 USD/M tokenów input, 75 USD/M output — tak jak 4.5. Anthropic dodał jednak rabat 35% przy włączonym prompt caching dla promptów >4 096 tokenów. Dla naszego klienta z branży księgowej, który przepuszcza 240 mln tokenów input miesięcznie przez stały prompt systemowy, oznacza to oszczędność 1 260 USD/mies. Realny rachunek spadł z 5 480 USD do 4 220 USD.

Kiedy Opus 4.5 nadal wystarczy

  • Krótkie odpowiedzi na pytania klientów (czat, helpdesk) — różnica niezauważalna.
  • Klasyfikacja maili do 6 kategorii — oba modele trafiają >96%.
  • Generowanie krótkich opisów produktów do sklepu — koszt 4.6 nie uzasadnia 2 pp różnicy jakości.

Co rekomendujemy klientom RedAI

Wszystkim nowym wdrożeniom od 14 lutego stawiamy Opus 4.6 jako domyślny model do zadań „głębokich" (analiza dokumentów >20 stron, code review, długie pętle agentowe). Sonnet 4.5 zostaje jako koń roboczy do klasyfikacji, krótkich odpowiedzi i ekstrakcji. Istniejących klientów migrujemy stopniowo — przełączenie samego modelu w warstwie routingu zajmuje 14 minut na środowisko.

Jeśli macie u siebie wdrożenie sprzed grudnia 2025 i zastanawiacie się, czy aktualizacja ma sens — napiszcie do nas. Pokażemy na Waszych danych, gdzie 4.6 daje skok, a gdzie 4.5 wystarczy.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.