Modele

Claude Opus 4 — pierwsze tygodnie w polskich wdrożeniach

Anthropic wydało Claude Opus 4 i Sonnet 4 pod koniec maja 2025. Po trzech tygodniach intensywnych testów na realnych dokumentach klientów — fakturach VAT, umowach najmu, korespondencji urzędowej — opisujemy co działa lepiej niż w Sonnet 3.7, gdzie nadal trzeba go pilnować, i ile faktycznie kosztuje obsługa jednego klienta księgowego dziennie.

⏱ 9 min czytania · 📅 12.06.2025 · 👁 1 532 wyświetleń

22 maja 2025 Anthropic ogłosiło Claude Opus 4 i Sonnet 4. W RedAI zaczęliśmy testy następnego dnia rano — na ośmiu wdrożeniach produkcyjnych, w których wcześniej działał Sonnet 3.7. Po trzech tygodniach mamy dane: gdzie skok jakości jest realny, gdzie marketingowy, i co to znaczy w złotówkach dla 30-osobowej firmy.

Co się zmieniło względem Sonnet 3.7

Nowa rodzina to nie jest "Sonnet 3.7 plus 10%". To dwa modele o różnych zastosowaniach: Sonnet 4 zastępuje 3.7 w codziennej pracy (szybszy, dwukrotnie tańszy w naszych testach na zadaniach księgowych), a Opus 4 to nowa kategoria — kosztuje 7,5× więcej niż Sonnet 4, ale w zadaniach wymagających rozumowania wieloetapowego (porównanie 12-stronicowej umowy z aneksem, analiza zwrotów VAT za 6 miesięcy) zauważyliśmy spadek pomyłek o około 38% w naszym wewnętrznym benchmarku 240 przypadków.

Najlepiej widać różnicę na długich dokumentach

Kancelaria prawna z Wrocławia, dla której przetwarzamy umowy najmu komercyjnego, miała w Sonnet 3.7 pomyłki w wykrywaniu klauzul o waloryzacji — w 14 z 100 testowych dokumentów model gubił warunki indeksacji. Po przesiadce na Opus 4 (przy nieskazitelnym tym samym prompcie) liczba pomyłek spadła do 3 z 100. Trzy nadal są, więc nie wyłączamy walidacji ludzkiej — ale obciążenie prawnika spadło o około 4,2 godziny tygodniowo.

Cennik i realny koszt dnia pracy

Anthropic utrzymuje strukturę cenową w dolarach, ale od czerwca 2025 zaczęliśmy raportować klientom miesięczne koszty w PLN po średnim kursie NBP. Poniżej dane z trzech wdrożeń:

KlientModelTokeny in/out dziennieKoszt dzienny (PLN)Miesiąc (22 dni rob.)
Biuro księgowe (12 osób)Sonnet 41,8M / 320 tys.34,80 zł765,60 zł
Kancelaria prawna (8 osób)Opus 4620 tys. / 180 tys.71,40 zł1 570,80 zł
Firma logistyczna (45 osób)Sonnet 4 + Opus 4 (escalation)3,1M / 480 tys.62,10 zł1 366,20 zł

W praktyce: nawet najdroższy z naszych klientów (kancelaria z Opus 4 na każdym zapytaniu) płaci za API mniej niż za jednego stażystę. A zaoszczędzone 4 godziny prawnika tygodniowo to przy stawce 320 zł/h netto około 5 600 zł miesięcznie.

Czego Opus 4 nadal nie umie

Cztery konkretne ograniczenia, które zaobserwowaliśmy w produkcji:

  • Polskie kwoty słownie — przy fakturach z kwotą "trzy tysiące osiemset czterdzieści dwa złote i 15/100" w 6 z 50 testów Opus 4 zaokrąglił do 3 842,00 zł zamiast 3 842,15 zł. Sonnet 4 ma identyczny problem.
  • Pieczątki i podpisy odręczne — model nie ma vision wbudowanego w warstwę księgową; trzeba dorzucić osobne OCR (u nas Tesseract 5.4 + post-processing).
  • KRS i NIP — Opus 4 czasem "halucynuje" sufix NIP-u jeśli faktura jest niewyraźna. Rozwiązanie: walidacja przez API GUS, robimy to po stronie naszego backendu.
  • Polskie skróty branżowe — "WZ" (wydanie zewnętrzne) w branży logistycznej rozpoznaje, ale "MM" (przesunięcie międzymagazynowe) miesza z monetarnym milionem w 11% przypadków.

Migracja Sonnet 3.7 → Sonnet 4: praktyka

Migracja u nas trwała średnio 2 dni robocze na klienta. Zmiana w API to dosłownie podmiana stringa modelu, ale prompty wymagały drobnego retuningu:

  1. Sonnet 4 lepiej radzi sobie z krótszymi instrukcjami systemowymi. U dwóch klientów skróciliśmy system prompt z 1 800 do 920 słów bez utraty jakości.
  2. Nowy model jest bardziej "asertywny" przy niejednoznacznych wejściach — częściej dopisuje "potrzebuję doprecyzowania". To dobre w produkcji, ale wymagało doszkolenia użytkowników, żeby nie ignorowali tych pytań.
  3. Temperature 0.2 zamiast 0.3 — przy zadaniach klasyfikacyjnych Sonnet 4 jest na tyle pewniejszy, że niższa temperatura daje stabilniejszy output.

Prywatna instancja czy API

U trzech klientów z sektora prawniczego, gdzie dane są wyjątkowo wrażliwe, uruchomiliśmy prywatną instancję RedAI — Claude 4 dostępny przez nasz proxy w Waszej infrastrukturze, dane nie wychodzą poza firmę poza tym, co fizycznie jedzie do API Anthropic w zaszyfrowanym kanale (bez storage'u, bez treningu). Pozostałych pięciu klientów korzysta z bezpośredniego API z naszym audytem.

Rekomendacje na lipiec 2025

Po trzech tygodniach mamy gotową checklistę dla nowych wdrożeń:

  • Zadania klasyfikacji, ekstrakcji danych z faktur, mailingi serwisowe — Sonnet 4.
  • Analiza umów, porównania dokumentów, raporty syntetyczne, copywriting marketingowy z konsystencją tonu — Opus 4.
  • Mieszane środowisko — domyślnie Sonnet 4, eskalacja do Opus 4 gdy zapytanie ma {{kontekst}} > 25 tys. tokenów albo zawiera słowa kluczowe ("porównaj", "wybierz najlepsze z", "uzasadnij prawnie").

Pełen raport benchmarku Q2 2025 (240 przypadków testowych, 8 branż) udostępniamy klientom RedAI w panelu. Jeśli rozważacie migrację z innego modelu — umówcie 30-min rozmowę i pokażemy Wasz typ dokumentów na Opus 4 na żywo, bez prezentacji marketingowej.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.