Claude Sonnet 4.5 — premiera i pierwsza analiza w polskich firmach
Anthropic wypuścił Claude Sonnet 4.5 29 września 2025 jako najmocniejszy model do agentic coding i complex agents. Jeden z najważniejszych release-ów roku. Mamy 36 godzin testów na 9 zestawach zadań i wczesne wnioski dla polskiego biznesu. Co zmienia, dla kogo, ile kosztuje, czy migrować.
29 września 2025 Anthropic wypuścił Claude Sonnet 4.5 jako odpowiedź na GPT-5 i nadchodzącego Gemini 3. Model pozycjonowany jako "best for coding and agents" — z istotnym skokiem na SWE-bench, lepszą kontrolą narzędzi i znaczną redukcją błędów w długich pipelinach. Ten artykuł powstał 36 godzin po premierze. Wczesne wnioski, surowe dane, pierwsza rekomendacja dla polskiego biznesu.
Co Anthropic dostarczył
Claude Sonnet 4.5 to ewolucja Sonneta 4, ale z dużym akcentem na agentic workflows. Trzy zauważalne zmiany:
- SWE-bench Verified — 77,2% (Sonnet 4 było 72,7%, Opus 4.1 było 74,5%). Sonnet wyprzedził Opus 4.1 w kodowaniu — to nowość.
- Tool use — wyraźnie pewniejsze wywołania, mniej halucynowanych argumentów, lepsza decyzja kiedy NIE wołać narzędzia.
- Długie konteksty — 200k z stabilną jakością, włącznie z trudnymi zadaniami "needle in haystack" w środku kontekstu.
Benchmark RedAI — pierwsze 36 godzin
| Zadanie | Sonnet 4 | Sonnet 4.5 | Opus 4.1 |
|---|---|---|---|
| Refaktor PHP 8.3 (8 plików) | 2,8 błędu | 1,1 błędu | 1,4 błędu |
| Analiza umowy PL (47 stron) | 89% | 94% | 93% |
| Agentic 7-step (planowanie + exec) | 61% | 83% | 78% |
| Klasyfikacja faktur | 96,4% | 97,1% | 96,8% |
| Generowanie pism PL | 4,4/5 | 4,5/5 | 4,5/5 |
| Koszt 1M tokenów wej. (USD) | 3 | 3 | 15 |
| Latencja p50 (ms) | 1 420 | 1 380 | 1 870 |
Najbardziej intrygujący wynik
Sonnet 4.5 w agentic workflows (7-krokowe pipeline-y planowania + wykonania) wypadł lepiej niż Opus 4.1, przy 5x niższej cenie. To może oznaczać, że dla wielu wdrożeń Sonnet 4.5 stanie się nowym defaultem, a Opus zostanie dla zadań extreme reasoning.
Polski język
Najmocniejszy w klasie. Pisma formalne, korespondencja biznesowa, parsing polskich dokumentów urzędowych — w naszych testach niezmiennie 4,4-4,6/5 na blind review. Sonnet 4.5 utrzymuje pozycję lidera Claude w polskim kontekście.
Dla kogo warto migrować już w pierwszym tygodniu
- Zespoły deweloperskie używające Claude Code lub Cursor — bezpośredni zysk na każdym zadaniu.
- Wdrożenia agentic z 4+ krokami pipeline'u — duży skok jakości.
- Operacje dokumentowe (kancelarie, biura księgowe) — drobny, ale mierzalny zysk.
Dla kogo NIE ma sensu spieszyć się
- Jeśli używacie Haiku 3.5 do prostych klasyfikacji i wam działa — zostańcie.
- Jeśli macie krytyczne workflow z evaluation suite na Sonnet 4 — najpierw odpalcie A/B.
- Jeśli pracujecie offline / on-premise — czekajcie na sprawdzone wdrożenia Bielika lub Llama.
Plan migracji 4 → 4.5 w 5 dni
- Dzień 1: A/B na 200-rekordowej próbie. Mierz: jakość, latencja, koszt, halucynacje.
- Dzień 2: Przegląd system prompts — czy używaliście trików dla 4? Niektóre teraz przeszkadzają.
- Dzień 3: Tool definitions — sprawdź, czy 4.5 nie woła agresywniej narzędzi.
- Dzień 4: Canary deploy (10% ruchu).
- Dzień 5: Pełny roll-out + monitoring 72h.
Praktyka: SaaS B2B z Gdańska, 41 osób
Klient: platforma dla biur podróży. Workflow: planowanie ofert (multi-step), generowanie maili do klientów, automatyczne odpowiedzi. Pierwsze 24h na Sonnet 4.5: jakość ofert wzrosła wg klientów wewn. z 3,9 do 4,4 (Likert), koszt API spadł o 18% (mniej iteracji). Decyzja: pełna migracja w 4 dni.
Co dalej
Spodziewamy się Haiku 4.5 w październiku (light model) oraz Opus 4.5 w grudniu lub I kw. 2026. Anthropic ewidentnie wszedł w nowy rytm release-ów. Pokażemy wam A/B Sonnet 4 vs 4.5 na waszych workflowach — 90% naszych klientów po teście wybiera migrację.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo