Modele

Claude Opus 4.1 — co zmienia drobna aktualizacja sierpniowa

Anthropic 5 sierpnia 2025 wydało Claude Opus 4.1 — drobną aktualizację rodziny Claude 4. Numer "4.1" sugeruje minor update, ale w naszych testach na realnych zadaniach klientów zauważyliśmy konkretne usprawnienia — głównie w kodowaniu i analizie długich dokumentów. Pokazujemy co się zmieniło i czy warto migrować.

⏱ 7 min czytania · 📅 18.08.2025 · 👁 1 105 wyświetleń

5 sierpnia 2025 Anthropic ogłosiło Claude Opus 4.1. Aktualizacja minor — nie jest to nowa generacja (to dopiero Claude 4.5 we wrześniu / Opus 4.5 w grudniu). Ale 4.1 ma kilka wartych odnotowania ulepszeń, szczególnie w kontekście pracy z kodem i długimi dokumentami. Testujemy od 6 sierpnia, mamy dwa tygodnie danych.

Co się zmieniło — od Anthropic

Oficjalne usprawnienia (wg notatek wydania):

  • Wyższe wyniki w benchmarkach kodowania (SWE-bench, +3-4 punkty względem Opus 4)
  • Lepsze "agentic" zachowania — model rzadziej "się gubi" w długich sesjach narzędziowych
  • Cennik bez zmian (taki sam jak Opus 4: 15 USD input / 75 USD output)
  • Drop-in replacement — wystarczy zmienić ID modelu (claude-opus-4-1)

Nasze testy na pięciu zadaniach

Test 1: SWE-bench-style — naprawianie bugów

Wzięliśmy 40 zgłoszonych bugów z naszego wewnętrznego trackera RedAI (kod produkcyjny PHP/JS, realne issue od klientów). Claude Opus 4 vs Opus 4.1, ten sam prompt, ta sama instrukcja narzędziowa (Claude Code).

MetrykaOpus 4Opus 4.1
Bugi naprawione w 1. iteracji22/4027/40
Bugi naprawione w 2-3 iteracjach11/409/40
Nie naprawione (>3 iteracje lub błędne fix)7/404/40
Średni czas naprawy11,4 min8,8 min
Średni koszt naprawy0,82 USD0,71 USD

Realna poprawa: ~22% więcej bugów w pierwszej iteracji, czyli mniej "krzyż pochylony" przy debugu. Senior dev z naszego zespołu komentuje: "różnica jest odczuwalna, ale to nie jest game changer — to ulepszenie poziomu, którego oczekuje się od minor update".

Test 2: analiza umowy 80-stronicowej

Ta sama umowa NDA, te same zadania (wyciągnij klauzule, porównaj ze standardem, zaproponuj poprawki). Opus 4 vs 4.1.

  • Opus 4: wykrył 13 z 14 odbiegających klauzul, 1 false positive
  • Opus 4.1: wykrył 14 z 14, 0 false positive

Drobna poprawa, ale w prawie każdy "1" ma znaczenie.

Test 3: długie sesje agentic (Claude Code)

To miejsce, gdzie 4.1 wyraźnie wygrywa. Sesja z 24+ wywołaniami narzędzi (czytanie plików, edycje, uruchomienie testów, kolejne poprawki). Opus 4 czasem "zapominał" pierwotnego celu i odchodzł od zadania. Opus 4.1 trzyma się instrukcji znacznie konsekwentniej.

Konkretne porównanie: 12 sesji testowych, każda z minimum 15 wywołaniami tools. Opus 4 "zboczył z celu" w 3 sesjach (wymagało powtórnego prompt'owania). Opus 4.1 — 0 razy.

Test 4: tłumaczenie + analiza polszczyzny

Tu różnicy praktycznie nie ma. Polszczyzna obu modeli na poziomie bardzo dobrym, jakość tłumaczeń z 5 języków porównywalna.

Test 5: koszt produkcyjny u klienta

U klienta z kancelarii prawnej (8 prawników, ~620 zapytań/dzień, średnio 22% przez Opus) zrobiliśmy A/B test przez 5 dni:

  • Dni 1-2: Opus 4, koszt API: 168 zł i 174 zł
  • Dni 3-5: Opus 4.1, koszt API: 152 zł, 161 zł, 158 zł

Średni spadek kosztu: ~9% przy mniejszej liczbie iteracji potrzebnych do uzyskania satysfakcjonującej odpowiedzi.

Czy migrować

Krótka odpowiedź: TAK, ale spokojnie. Migracja to dosłownie zmiana stringa modelu w configu. Brak breaking changes, brak nowych parametrów, brak innych pricing. Realne korzyści (5-10% szybciej, ~10% taniej, mniej false positive) są dostępne za darmo.

Nasza procedura migracji

  1. Tydzień 1: nowy klient → domyślnie Opus 4.1.
  2. Tydzień 2: istniejący klienci → A/B test 5 dni na 20% ruchu, porównanie metryk.
  3. Tydzień 3-4: rollout do 100% jeśli A/B pozytywne.

Co dalej

Anthropic pre-anonsował Claude 4.5 na wrzesień 2025 (większy update z nowymi capabilities) i Claude Opus 4.5 na koniec roku. Strategia firmy jest jasna: kwartalne minor update, roczne major. To zdrowy rytm — pozwala planować, ale wymaga regularnego A/B testingu.

Pełen raport z 5 testów na 100+ zapytaniach (z przykładami zapytań i odpowiedzi) udostępniamy klientom w panelu. Jeśli używacie Claude w produkcji i chcecie strategię migracji bez ryzyka — porozmawiajmy 30 minut.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.