Claude Opus 4 — pierwsze tygodnie w polskich wdrożeniach
Anthropic wydało Claude Opus 4 i Sonnet 4 pod koniec maja 2025. Po trzech tygodniach intensywnych testów na realnych dokumentach klientów — fakturach VAT, umowach najmu, korespondencji urzędowej — opisujemy co działa lepiej niż w Sonnet 3.7, gdzie nadal trzeba go pilnować, i ile faktycznie kosztuje obsługa jednego klienta księgowego dziennie.
22 maja 2025 Anthropic ogłosiło Claude Opus 4 i Sonnet 4. W RedAI zaczęliśmy testy następnego dnia rano — na ośmiu wdrożeniach produkcyjnych, w których wcześniej działał Sonnet 3.7. Po trzech tygodniach mamy dane: gdzie skok jakości jest realny, gdzie marketingowy, i co to znaczy w złotówkach dla 30-osobowej firmy.
Co się zmieniło względem Sonnet 3.7
Nowa rodzina to nie jest "Sonnet 3.7 plus 10%". To dwa modele o różnych zastosowaniach: Sonnet 4 zastępuje 3.7 w codziennej pracy (szybszy, dwukrotnie tańszy w naszych testach na zadaniach księgowych), a Opus 4 to nowa kategoria — kosztuje 7,5× więcej niż Sonnet 4, ale w zadaniach wymagających rozumowania wieloetapowego (porównanie 12-stronicowej umowy z aneksem, analiza zwrotów VAT za 6 miesięcy) zauważyliśmy spadek pomyłek o około 38% w naszym wewnętrznym benchmarku 240 przypadków.
Najlepiej widać różnicę na długich dokumentach
Kancelaria prawna z Wrocławia, dla której przetwarzamy umowy najmu komercyjnego, miała w Sonnet 3.7 pomyłki w wykrywaniu klauzul o waloryzacji — w 14 z 100 testowych dokumentów model gubił warunki indeksacji. Po przesiadce na Opus 4 (przy nieskazitelnym tym samym prompcie) liczba pomyłek spadła do 3 z 100. Trzy nadal są, więc nie wyłączamy walidacji ludzkiej — ale obciążenie prawnika spadło o około 4,2 godziny tygodniowo.
Cennik i realny koszt dnia pracy
Anthropic utrzymuje strukturę cenową w dolarach, ale od czerwca 2025 zaczęliśmy raportować klientom miesięczne koszty w PLN po średnim kursie NBP. Poniżej dane z trzech wdrożeń:
| Klient | Model | Tokeny in/out dziennie | Koszt dzienny (PLN) | Miesiąc (22 dni rob.) |
|---|---|---|---|---|
| Biuro księgowe (12 osób) | Sonnet 4 | 1,8M / 320 tys. | 34,80 zł | 765,60 zł |
| Kancelaria prawna (8 osób) | Opus 4 | 620 tys. / 180 tys. | 71,40 zł | 1 570,80 zł |
| Firma logistyczna (45 osób) | Sonnet 4 + Opus 4 (escalation) | 3,1M / 480 tys. | 62,10 zł | 1 366,20 zł |
W praktyce: nawet najdroższy z naszych klientów (kancelaria z Opus 4 na każdym zapytaniu) płaci za API mniej niż za jednego stażystę. A zaoszczędzone 4 godziny prawnika tygodniowo to przy stawce 320 zł/h netto około 5 600 zł miesięcznie.
Czego Opus 4 nadal nie umie
Cztery konkretne ograniczenia, które zaobserwowaliśmy w produkcji:
- Polskie kwoty słownie — przy fakturach z kwotą "trzy tysiące osiemset czterdzieści dwa złote i 15/100" w 6 z 50 testów Opus 4 zaokrąglił do 3 842,00 zł zamiast 3 842,15 zł. Sonnet 4 ma identyczny problem.
- Pieczątki i podpisy odręczne — model nie ma vision wbudowanego w warstwę księgową; trzeba dorzucić osobne OCR (u nas Tesseract 5.4 + post-processing).
- KRS i NIP — Opus 4 czasem "halucynuje" sufix NIP-u jeśli faktura jest niewyraźna. Rozwiązanie: walidacja przez API GUS, robimy to po stronie naszego backendu.
- Polskie skróty branżowe — "WZ" (wydanie zewnętrzne) w branży logistycznej rozpoznaje, ale "MM" (przesunięcie międzymagazynowe) miesza z monetarnym milionem w 11% przypadków.
Migracja Sonnet 3.7 → Sonnet 4: praktyka
Migracja u nas trwała średnio 2 dni robocze na klienta. Zmiana w API to dosłownie podmiana stringa modelu, ale prompty wymagały drobnego retuningu:
- Sonnet 4 lepiej radzi sobie z krótszymi instrukcjami systemowymi. U dwóch klientów skróciliśmy system prompt z 1 800 do 920 słów bez utraty jakości.
- Nowy model jest bardziej "asertywny" przy niejednoznacznych wejściach — częściej dopisuje "potrzebuję doprecyzowania". To dobre w produkcji, ale wymagało doszkolenia użytkowników, żeby nie ignorowali tych pytań.
- Temperature 0.2 zamiast 0.3 — przy zadaniach klasyfikacyjnych Sonnet 4 jest na tyle pewniejszy, że niższa temperatura daje stabilniejszy output.
Prywatna instancja czy API
U trzech klientów z sektora prawniczego, gdzie dane są wyjątkowo wrażliwe, uruchomiliśmy prywatną instancję RedAI — Claude 4 dostępny przez nasz proxy w Waszej infrastrukturze, dane nie wychodzą poza firmę poza tym, co fizycznie jedzie do API Anthropic w zaszyfrowanym kanale (bez storage'u, bez treningu). Pozostałych pięciu klientów korzysta z bezpośredniego API z naszym audytem.
Rekomendacje na lipiec 2025
Po trzech tygodniach mamy gotową checklistę dla nowych wdrożeń:
- Zadania klasyfikacji, ekstrakcji danych z faktur, mailingi serwisowe — Sonnet 4.
- Analiza umów, porównania dokumentów, raporty syntetyczne, copywriting marketingowy z konsystencją tonu — Opus 4.
- Mieszane środowisko — domyślnie Sonnet 4, eskalacja do Opus 4 gdy zapytanie ma {{kontekst}} > 25 tys. tokenów albo zawiera słowa kluczowe ("porównaj", "wybierz najlepsze z", "uzasadnij prawnie").
Pełen raport benchmarku Q2 2025 (240 przypadków testowych, 8 branż) udostępniamy klientom RedAI w panelu. Jeśli rozważacie migrację z innego modelu — umówcie 30-min rozmowę i pokażemy Wasz typ dokumentów na Opus 4 na żywo, bez prezentacji marketingowej.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo