Claude Opus 4.1 — co zmienia drobna aktualizacja sierpniowa
Anthropic 5 sierpnia 2025 wydało Claude Opus 4.1 — drobną aktualizację rodziny Claude 4. Numer "4.1" sugeruje minor update, ale w naszych testach na realnych zadaniach klientów zauważyliśmy konkretne usprawnienia — głównie w kodowaniu i analizie długich dokumentów. Pokazujemy co się zmieniło i czy warto migrować.
5 sierpnia 2025 Anthropic ogłosiło Claude Opus 4.1. Aktualizacja minor — nie jest to nowa generacja (to dopiero Claude 4.5 we wrześniu / Opus 4.5 w grudniu). Ale 4.1 ma kilka wartych odnotowania ulepszeń, szczególnie w kontekście pracy z kodem i długimi dokumentami. Testujemy od 6 sierpnia, mamy dwa tygodnie danych.
Co się zmieniło — od Anthropic
Oficjalne usprawnienia (wg notatek wydania):
- Wyższe wyniki w benchmarkach kodowania (SWE-bench, +3-4 punkty względem Opus 4)
- Lepsze "agentic" zachowania — model rzadziej "się gubi" w długich sesjach narzędziowych
- Cennik bez zmian (taki sam jak Opus 4: 15 USD input / 75 USD output)
- Drop-in replacement — wystarczy zmienić ID modelu (
claude-opus-4-1)
Nasze testy na pięciu zadaniach
Test 1: SWE-bench-style — naprawianie bugów
Wzięliśmy 40 zgłoszonych bugów z naszego wewnętrznego trackera RedAI (kod produkcyjny PHP/JS, realne issue od klientów). Claude Opus 4 vs Opus 4.1, ten sam prompt, ta sama instrukcja narzędziowa (Claude Code).
| Metryka | Opus 4 | Opus 4.1 |
|---|---|---|
| Bugi naprawione w 1. iteracji | 22/40 | 27/40 |
| Bugi naprawione w 2-3 iteracjach | 11/40 | 9/40 |
| Nie naprawione (>3 iteracje lub błędne fix) | 7/40 | 4/40 |
| Średni czas naprawy | 11,4 min | 8,8 min |
| Średni koszt naprawy | 0,82 USD | 0,71 USD |
Realna poprawa: ~22% więcej bugów w pierwszej iteracji, czyli mniej "krzyż pochylony" przy debugu. Senior dev z naszego zespołu komentuje: "różnica jest odczuwalna, ale to nie jest game changer — to ulepszenie poziomu, którego oczekuje się od minor update".
Test 2: analiza umowy 80-stronicowej
Ta sama umowa NDA, te same zadania (wyciągnij klauzule, porównaj ze standardem, zaproponuj poprawki). Opus 4 vs 4.1.
- Opus 4: wykrył 13 z 14 odbiegających klauzul, 1 false positive
- Opus 4.1: wykrył 14 z 14, 0 false positive
Drobna poprawa, ale w prawie każdy "1" ma znaczenie.
Test 3: długie sesje agentic (Claude Code)
To miejsce, gdzie 4.1 wyraźnie wygrywa. Sesja z 24+ wywołaniami narzędzi (czytanie plików, edycje, uruchomienie testów, kolejne poprawki). Opus 4 czasem "zapominał" pierwotnego celu i odchodzł od zadania. Opus 4.1 trzyma się instrukcji znacznie konsekwentniej.
Konkretne porównanie: 12 sesji testowych, każda z minimum 15 wywołaniami tools. Opus 4 "zboczył z celu" w 3 sesjach (wymagało powtórnego prompt'owania). Opus 4.1 — 0 razy.
Test 4: tłumaczenie + analiza polszczyzny
Tu różnicy praktycznie nie ma. Polszczyzna obu modeli na poziomie bardzo dobrym, jakość tłumaczeń z 5 języków porównywalna.
Test 5: koszt produkcyjny u klienta
U klienta z kancelarii prawnej (8 prawników, ~620 zapytań/dzień, średnio 22% przez Opus) zrobiliśmy A/B test przez 5 dni:
- Dni 1-2: Opus 4, koszt API: 168 zł i 174 zł
- Dni 3-5: Opus 4.1, koszt API: 152 zł, 161 zł, 158 zł
Średni spadek kosztu: ~9% przy mniejszej liczbie iteracji potrzebnych do uzyskania satysfakcjonującej odpowiedzi.
Czy migrować
Krótka odpowiedź: TAK, ale spokojnie. Migracja to dosłownie zmiana stringa modelu w configu. Brak breaking changes, brak nowych parametrów, brak innych pricing. Realne korzyści (5-10% szybciej, ~10% taniej, mniej false positive) są dostępne za darmo.
Nasza procedura migracji
- Tydzień 1: nowy klient → domyślnie Opus 4.1.
- Tydzień 2: istniejący klienci → A/B test 5 dni na 20% ruchu, porównanie metryk.
- Tydzień 3-4: rollout do 100% jeśli A/B pozytywne.
Co dalej
Anthropic pre-anonsował Claude 4.5 na wrzesień 2025 (większy update z nowymi capabilities) i Claude Opus 4.5 na koniec roku. Strategia firmy jest jasna: kwartalne minor update, roczne major. To zdrowy rytm — pozwala planować, ale wymaga regularnego A/B testingu.
Pełen raport z 5 testów na 100+ zapytaniach (z przykładami zapytań i odpowiedzi) udostępniamy klientom w panelu. Jeśli używacie Claude w produkcji i chcecie strategię migracji bez ryzyka — porozmawiajmy 30 minut.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo