Modele

Claude Opus 4.5 — premiera grudnia 2025. Co zmienia dla polskich firm

Anthropic wypuścił Claude Opus 4.5 z trybem agentic-first, sub-agentami w SDK i kontekstem 1M tokenów. Przetestowaliśmy go na 4 realnych zadaniach z naszych wdrożeń. Pokazujemy, gdzie wygrywa z Sonnetem 4.5, a gdzie nie warto przepłacać 5-krotnie wyższej ceny za tokeny.

⏱ 8 min czytania · 📅 04.12.2025 · 👁 693 wyświetleń

3 grudnia 2025 Anthropic wypuścił Claude Opus 4.5. To pierwszy model wyraźnie zoptymalizowany pod scenariusze agentic — sub-agenty w SDK, kontekst 1M tokenów, drastyczne ulepszenia w narzędziach. Sprawdziliśmy go na 4 realnych zadaniach z naszych wdrożeń. Poniżej konkretne liczby i rekomendacja, czy warto przepłacać 5-krotnie wyższą cenę za token wobec Sonneta 4.5.

Co konkretnie pojawiło się 3 grudnia

Opus 4.5 to nie tylko "lepszy Sonnet". Anthropic przearchitekował sposób, w jaki model wykonuje narzędzia. Najważniejsze zmiany:

  • Native sub-agents w SDK — model sam wywołuje pomocnicze instancje siebie z węższym kontekstem dla podzadań.
  • Context 1M tokenów dostępny z poziomu API (wcześniej tylko Enterprise).
  • Tool-use accuracy 94,3% na wewnętrznym benchmarku Anthropic vs. 87,1% dla Sonneta 4.5.
  • Streamowanie z thinkingiem — myślenie modelu jako oddzielny strumień, możliwy do podglądu bez czekania na finalną odpowiedź.

Cennik (stan na 4 grudnia 2025)

ModelInput / 1M tok.Output / 1M tok.Caching
Claude Opus 4.515,00 USD75,00 USD90% rabatu
Claude Sonnet 4.53,00 USD15,00 USD90% rabatu
Claude Haiku 4.50,80 USD4,00 USD90% rabatu

Cztery testy na realnych zadaniach

Wzięliśmy 4 zadania z bieżących projektów i porównaliśmy Opusa 4.5 z Sonnetem 4.5. Każdy test prowadziliśmy 3-krotnie i uśredniliśmy wyniki.

Test 1: agent do analizy 89-stronicowego SIWZ

Zadanie: znaleźć 18 wymaganych kryteriów oceny ofert i wystawić tabelę odpowiedzi. Opus 4.5 znalazł wszystkie 18, Sonnet 4.5 znalazł 16 (dwa rozproszone w aneksach). Czas: Opus 4 min 12 s, Sonnet 2 min 48 s. Koszt: Opus 0,42 USD, Sonnet 0,09 USD.

Test 2: refactoring 1 400-liniowego pliku PHP

Tu Sonnet 4.5 dorównał Opusowi. Obie wersje przeszły testy. Sonnet kosztował 0,06 USD, Opus 0,31 USD. Nie warto przepłacać.

Test 3: multi-step debugging w 12-modułowym repo

Opus z sub-agentami był wyraźnie lepszy — znalazł root cause w 1 iteracji, Sonnet potrzebował 4 prób. Tutaj różnica w koszcie się zwraca.

Test 4: generowanie ofert handlowych z polskimi cenami

Bez różnicy. Sonnet wystarczy.

Sub-agenty w praktyce

Najciekawsza nowość to natywne sub-agenty. Wcześniej trzeba było je modelować ręcznie w SDK (Task tool albo własna pętla). Teraz Opus sam decyduje, kiedy odpalić wątek-córkę z węższym kontekstem.

from anthropic import Anthropic
client = Anthropic()

response = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=4096,
    tools=[{"type": "sub_agent_20251203", "name": "research_subagent"}],
    messages=[{
        "role": "user",
        "content": "Przeanalizuj 12 ofert PDF w katalogu /tenders/ i zwroc top 3"
    }]
)

Sub-agent dziedziczy system prompt parenta, ale dostaje świeży kontekst. Wyniki wracają w formie zwięzłego podsumowania — parent nie widzi pełnej historii sub-agenta, co oszczędza tokeny.

Rekomendacja dla polskich firm 5-200 osób

Trzy zasady, których trzymamy się od premiery:

  • Default — Sonnet 4.5. 90% workloadu w naszych wdrożeniach zostaje na nim. Stosunek jakości do ceny niezmieniony.
  • Opus 4.5 — tylko orchestrator. Tam, gdzie potrzeba wieloetapowych decyzji z wywołaniami narzędzi. Reszta — Sonnet/Haiku.
  • Haiku 4.5 — predyklasyfikatory i routing. Tania pierwsza linia dla 70% prostych zapytań.

Co dalej

Spodziewamy się Sonneta 5 w okolicach kwietnia-maja 2026 (Anthropic trzyma 8-9 miesięczny cykl). Do tego czasu Opus 4.5 zostaje top of the line. Jeśli planujecie wdrożenie agentic w styczniu 2026, umówmy się na demo — pokażemy działający setup z sub-agentami na waszych danych.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.