Claude Opus 4.5 — premiera grudnia 2025. Co zmienia dla polskich firm
Anthropic wypuścił Claude Opus 4.5 z trybem agentic-first, sub-agentami w SDK i kontekstem 1M tokenów. Przetestowaliśmy go na 4 realnych zadaniach z naszych wdrożeń. Pokazujemy, gdzie wygrywa z Sonnetem 4.5, a gdzie nie warto przepłacać 5-krotnie wyższej ceny za tokeny.
3 grudnia 2025 Anthropic wypuścił Claude Opus 4.5. To pierwszy model wyraźnie zoptymalizowany pod scenariusze agentic — sub-agenty w SDK, kontekst 1M tokenów, drastyczne ulepszenia w narzędziach. Sprawdziliśmy go na 4 realnych zadaniach z naszych wdrożeń. Poniżej konkretne liczby i rekomendacja, czy warto przepłacać 5-krotnie wyższą cenę za token wobec Sonneta 4.5.
Co konkretnie pojawiło się 3 grudnia
Opus 4.5 to nie tylko "lepszy Sonnet". Anthropic przearchitekował sposób, w jaki model wykonuje narzędzia. Najważniejsze zmiany:
- Native sub-agents w SDK — model sam wywołuje pomocnicze instancje siebie z węższym kontekstem dla podzadań.
- Context 1M tokenów dostępny z poziomu API (wcześniej tylko Enterprise).
- Tool-use accuracy 94,3% na wewnętrznym benchmarku Anthropic vs. 87,1% dla Sonneta 4.5.
- Streamowanie z thinkingiem — myślenie modelu jako oddzielny strumień, możliwy do podglądu bez czekania na finalną odpowiedź.
Cennik (stan na 4 grudnia 2025)
| Model | Input / 1M tok. | Output / 1M tok. | Caching |
|---|---|---|---|
| Claude Opus 4.5 | 15,00 USD | 75,00 USD | 90% rabatu |
| Claude Sonnet 4.5 | 3,00 USD | 15,00 USD | 90% rabatu |
| Claude Haiku 4.5 | 0,80 USD | 4,00 USD | 90% rabatu |
Cztery testy na realnych zadaniach
Wzięliśmy 4 zadania z bieżących projektów i porównaliśmy Opusa 4.5 z Sonnetem 4.5. Każdy test prowadziliśmy 3-krotnie i uśredniliśmy wyniki.
Test 1: agent do analizy 89-stronicowego SIWZ
Zadanie: znaleźć 18 wymaganych kryteriów oceny ofert i wystawić tabelę odpowiedzi. Opus 4.5 znalazł wszystkie 18, Sonnet 4.5 znalazł 16 (dwa rozproszone w aneksach). Czas: Opus 4 min 12 s, Sonnet 2 min 48 s. Koszt: Opus 0,42 USD, Sonnet 0,09 USD.
Test 2: refactoring 1 400-liniowego pliku PHP
Tu Sonnet 4.5 dorównał Opusowi. Obie wersje przeszły testy. Sonnet kosztował 0,06 USD, Opus 0,31 USD. Nie warto przepłacać.
Test 3: multi-step debugging w 12-modułowym repo
Opus z sub-agentami był wyraźnie lepszy — znalazł root cause w 1 iteracji, Sonnet potrzebował 4 prób. Tutaj różnica w koszcie się zwraca.
Test 4: generowanie ofert handlowych z polskimi cenami
Bez różnicy. Sonnet wystarczy.
Sub-agenty w praktyce
Najciekawsza nowość to natywne sub-agenty. Wcześniej trzeba było je modelować ręcznie w SDK (Task tool albo własna pętla). Teraz Opus sam decyduje, kiedy odpalić wątek-córkę z węższym kontekstem.
from anthropic import Anthropic
client = Anthropic()
response = client.messages.create(
model="claude-opus-4-5",
max_tokens=4096,
tools=[{"type": "sub_agent_20251203", "name": "research_subagent"}],
messages=[{
"role": "user",
"content": "Przeanalizuj 12 ofert PDF w katalogu /tenders/ i zwroc top 3"
}]
)
Sub-agent dziedziczy system prompt parenta, ale dostaje świeży kontekst. Wyniki wracają w formie zwięzłego podsumowania — parent nie widzi pełnej historii sub-agenta, co oszczędza tokeny.
Rekomendacja dla polskich firm 5-200 osób
Trzy zasady, których trzymamy się od premiery:
- Default — Sonnet 4.5. 90% workloadu w naszych wdrożeniach zostaje na nim. Stosunek jakości do ceny niezmieniony.
- Opus 4.5 — tylko orchestrator. Tam, gdzie potrzeba wieloetapowych decyzji z wywołaniami narzędzi. Reszta — Sonnet/Haiku.
- Haiku 4.5 — predyklasyfikatory i routing. Tania pierwsza linia dla 70% prostych zapytań.
Co dalej
Spodziewamy się Sonneta 5 w okolicach kwietnia-maja 2026 (Anthropic trzyma 8-9 miesięczny cykl). Do tego czasu Opus 4.5 zostaje top of the line. Jeśli planujecie wdrożenie agentic w styczniu 2026, umówmy się na demo — pokażemy działający setup z sub-agentami na waszych danych.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo