Modele

Claude Sonnet 4.5 — premiera i pierwsza analiza w polskich firmach

Anthropic wypuścił Claude Sonnet 4.5 29 września 2025 jako najmocniejszy model do agentic coding i complex agents. Jeden z najważniejszych release-ów roku. Mamy 36 godzin testów na 9 zestawach zadań i wczesne wnioski dla polskiego biznesu. Co zmienia, dla kogo, ile kosztuje, czy migrować.

⏱ 8 min czytania · 📅 30.09.2025 · 👁 694 wyświetleń

29 września 2025 Anthropic wypuścił Claude Sonnet 4.5 jako odpowiedź na GPT-5 i nadchodzącego Gemini 3. Model pozycjonowany jako "best for coding and agents" — z istotnym skokiem na SWE-bench, lepszą kontrolą narzędzi i znaczną redukcją błędów w długich pipelinach. Ten artykuł powstał 36 godzin po premierze. Wczesne wnioski, surowe dane, pierwsza rekomendacja dla polskiego biznesu.

Co Anthropic dostarczył

Claude Sonnet 4.5 to ewolucja Sonneta 4, ale z dużym akcentem na agentic workflows. Trzy zauważalne zmiany:

  • SWE-bench Verified — 77,2% (Sonnet 4 było 72,7%, Opus 4.1 było 74,5%). Sonnet wyprzedził Opus 4.1 w kodowaniu — to nowość.
  • Tool use — wyraźnie pewniejsze wywołania, mniej halucynowanych argumentów, lepsza decyzja kiedy NIE wołać narzędzia.
  • Długie konteksty — 200k z stabilną jakością, włącznie z trudnymi zadaniami "needle in haystack" w środku kontekstu.

Benchmark RedAI — pierwsze 36 godzin

ZadanieSonnet 4Sonnet 4.5Opus 4.1
Refaktor PHP 8.3 (8 plików)2,8 błędu1,1 błędu1,4 błędu
Analiza umowy PL (47 stron)89%94%93%
Agentic 7-step (planowanie + exec)61%83%78%
Klasyfikacja faktur96,4%97,1%96,8%
Generowanie pism PL4,4/54,5/54,5/5
Koszt 1M tokenów wej. (USD)3315
Latencja p50 (ms)1 4201 3801 870

Najbardziej intrygujący wynik

Sonnet 4.5 w agentic workflows (7-krokowe pipeline-y planowania + wykonania) wypadł lepiej niż Opus 4.1, przy 5x niższej cenie. To może oznaczać, że dla wielu wdrożeń Sonnet 4.5 stanie się nowym defaultem, a Opus zostanie dla zadań extreme reasoning.

Polski język

Najmocniejszy w klasie. Pisma formalne, korespondencja biznesowa, parsing polskich dokumentów urzędowych — w naszych testach niezmiennie 4,4-4,6/5 na blind review. Sonnet 4.5 utrzymuje pozycję lidera Claude w polskim kontekście.

Dla kogo warto migrować już w pierwszym tygodniu

  • Zespoły deweloperskie używające Claude Code lub Cursor — bezpośredni zysk na każdym zadaniu.
  • Wdrożenia agentic z 4+ krokami pipeline'u — duży skok jakości.
  • Operacje dokumentowe (kancelarie, biura księgowe) — drobny, ale mierzalny zysk.

Dla kogo NIE ma sensu spieszyć się

  • Jeśli używacie Haiku 3.5 do prostych klasyfikacji i wam działa — zostańcie.
  • Jeśli macie krytyczne workflow z evaluation suite na Sonnet 4 — najpierw odpalcie A/B.
  • Jeśli pracujecie offline / on-premise — czekajcie na sprawdzone wdrożenia Bielika lub Llama.

Plan migracji 4 → 4.5 w 5 dni

  1. Dzień 1: A/B na 200-rekordowej próbie. Mierz: jakość, latencja, koszt, halucynacje.
  2. Dzień 2: Przegląd system prompts — czy używaliście trików dla 4? Niektóre teraz przeszkadzają.
  3. Dzień 3: Tool definitions — sprawdź, czy 4.5 nie woła agresywniej narzędzi.
  4. Dzień 4: Canary deploy (10% ruchu).
  5. Dzień 5: Pełny roll-out + monitoring 72h.

Praktyka: SaaS B2B z Gdańska, 41 osób

Klient: platforma dla biur podróży. Workflow: planowanie ofert (multi-step), generowanie maili do klientów, automatyczne odpowiedzi. Pierwsze 24h na Sonnet 4.5: jakość ofert wzrosła wg klientów wewn. z 3,9 do 4,4 (Likert), koszt API spadł o 18% (mniej iteracji). Decyzja: pełna migracja w 4 dni.

Co dalej

Spodziewamy się Haiku 4.5 w październiku (light model) oraz Opus 4.5 w grudniu lub I kw. 2026. Anthropic ewidentnie wszedł w nowy rytm release-ów. Pokażemy wam A/B Sonnet 4 vs 4.5 na waszych workflowach — 90% naszych klientów po teście wybiera migrację.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.