Modele

Claude Haiku 4.5 — light model, który zaskoczył benchmarkami

Anthropic wypuścił Claude Haiku 4.5 15 października 2025 jako "small, fast, cheap" model do zadań wolumenowych. Niespodzianka: w niektórych benchmarkach dorównuje Sonnetowi 4, kosztując 3x mniej. Mamy 4 dni testów na 6 zestawach zadań i wnioski, czy zastąpić Haiku 3.5 od razu, czy poczekać.

⏱ 7 min czytania · 📅 16.10.2025 · 👁 726 wyświetleń

15 października 2025 Anthropic dodał do rodziny Claude 4 model Haiku 4.5 — light, fast, tani. Z pozoru iteracyjna aktualizacja Haiku 3.5, ale benchmarki pokazują coś więcej: w zadaniach kodowania i agentic Haiku 4.5 dorównuje Sonnetowi 4 sprzed kilku miesięcy. Po 4 dniach testów mamy konkretne dane, co Haiku 4.5 zmienia w stack-u polskiej firmy.

Pozycjonowanie modelu

Anthropic nazwał Haiku 4.5 "near-frontier intelligence at small-model speed and cost". W praktyce: 3,3x szybszy niż Sonnet 4.5, 5x tańszy, ze stratą jakości tylko 4-9 pp na trudnych benchmarkach, a w łatwiejszych zadaniach niemal bez straty.

Cennik (per 1M tokenów)

ModelWejścieWyjścieWzgl. cena
Haiku 3.5$0,80$4,001x
Haiku 4.5$1,00$5,001,25x
Sonnet 4.5$3,00$15,003,75x
Opus 4.1$15,00$75,0018,75x

Haiku 4.5 jest 25% droższy niż 3.5, ale jakość znacząco wyższa. Nadal jest light modelem cenowym.

Benchmark RedAI — Haiku 3.5 vs 4.5 vs Sonnet 4

ZadanieHaiku 3.5Haiku 4.5Sonnet 4
Klasyfikacja faktur94,2%96,7%96,4%
Klasyfikacja tematu maila89%93%94%
Ekstrakcja danych (NER)87%94%96%
SWE-bench Verified40,6%73,3%72,7%
Agentic 4-step54%71%76%
Polski pism formalny3,8/54,2/54,4/5
Latencja p50 (ms)6205401 420

Wniosek z benchmarku

Haiku 4.5 to nie jest tańszy Sonnet 4 — to bardzo dobry tani model do zadań średniej trudności. W klasyfikacji i ekstrakcji NER dorównuje Sonnetowi. W kodowaniu — niespodzianka — bije Sonneta 4. W generowaniu pism po polsku — gorszy. Trzeba dobierać do zadania.

Kiedy migrować 3.5 → 4.5

  • Workflow OCR + klasyfikacja — od razu. Poprawa NER 7 pp warta jest 25% wyższej ceny.
  • Asystenci chatu — od razu. Latencja niższa, polski lepszy.
  • Pipeline-y agentic z prostymi krokami — Haiku 4.5 wystarcza tam, gdzie 3.5 wcześniej zawodziła.
  • Krótkie generacje tekstowe — sprawdź A/B. Czasem 4.5 daje dłuższe odpowiedzi (re-tune temperature).

Kiedy nie migrować

  • Workflow z naprawdę prostymi klasyfikacjami binary, gdzie 3.5 daje 99%+ — 25% wyższa cena nie zwróci się.
  • Krytyczne pipelines z pełnym evaluation suite na 3.5 — najpierw test, potem rollout.

Nowy stack rekomendowany

Od października 2025 RedAI rekomenduje dla nowych wdrożeń:

  1. Haiku 4.5 — domyślny model do klasyfikacji, ekstrakcji, prostych pipelines.
  2. Sonnet 4.5 — generowanie tekstu po polsku, analiza dokumentów, agentic z 5+ krokami.
  3. Opus 4.1 — extreme reasoning, najtrudniejsze przypadki, weryfikacja krytyczna.
  4. Bielik 2.3 — wszędzie, gdzie dane nie mogą opuścić infrastruktury klienta.

Praktyka: SaaS B2B z Krakowa, 28 osób

Klient: platforma do fakturowania. Workflow: klasyfikacja ~12 000 faktur/dzień. Migracja Haiku 3.5 → 4.5 w 2 dni. Koszt API wzrósł o 25% (z 1 240 zł/mies. do 1 550 zł), ale liczba "ludzkich interwencji" spadła z 8,4% do 3,1%. Real saving: 78 godz./mies. pracy backoffice. Decyzja jednoznaczna — migracja stała.

Tryb thinking w Haiku 4.5

Haiku 4.5 wspiera "extended thinking" — tryb, w którym model myśli dłużej przed odpowiedzią. Włączamy go dla najtrudniejszych zadań klasyfikacji "borderline". Koszt rośnie ~2x, ale jakość w trudnych przypadkach skok 5-9 pp.

Podsumowanie

Haiku 4.5 to model, który zmienia kalkulację dla większości polskich wdrożeń. Nie zastępuje Sonneta dla wszystkiego, ale zastępuje go w ~60% przypadków, gdzie wcześniej "musieliśmy" iść na Sonneta. Stack przyszłości to: Haiku 4.5 dla 80% volumenu, Sonnet 4.5 dla 20% gdy potrzebny. Zróbmy A/B na waszych workflowach — w 3 dni mamy odpowiedź, ile to oszczędzi.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.