Polski model językowy w produkcji — Bielik 2.3 vs Claude Sonnet 4.5
Bielik 2.3 (11B) wyszedł w styczniu. Czy polski open-source dorównuje w polskim Claude Sonnet 4.5? Przetestowaliśmy oba na 8 zadaniach: streszczenia, ekstrakcja, klasyfikacja, generowanie maili B2B. Pokazujemy, gdzie Bielik wygrywa (koszt, prywatność), gdzie przegrywa (rozumowanie wieloetapowe), i kiedy ma sens hybryda.
Bielik 2.3 — najnowsza wersja polskiego open-source'owego modelu od SpeakLeash — trafił na Hugging Face na początku stycznia 2026. Pytanie, które słyszymy co drugi tydzień: czy nadaje się do produkcji zamiast Claude'a? Odpowiedź zależy od zadania. Pokazujemy 8 testów na realnych polskich danych.
Krótka charakterystyka
Bielik 2.3 to model 11B parametrów, dostępny w wagach pełnych oraz w wersji 4-bit (3 GB). Wymaga ok. 24 GB VRAM przy pełnej precyzji albo 8 GB przy kwantyzacji. Inferencja na pojedynczym RTX 4090: 40-65 tokenów/s.
Co Bielik robi dobrze
- Polski naturalny język — odmiana, składnia, idiomy.
- Klasyfikacja krótkich tekstów.
- Streszczenia 1-2 stron.
- Generowanie typowych dokumentów (maile, oferty, opisy).
Co Bielik robi słabo
- Rozumowanie wieloetapowe (math word problems, analiza przyczynowo-skutkowa).
- Praca z długim kontekstem >16 000 tokenów.
- Generowanie kodu (PHP, Python — często działa, ale błędy w >30% przypadków).
- Trzymanie się formatu strukturalnego (JSON, XML — wycieki tekstu poza schemę).
Testy — 8 zadań na polskich danych
Test 1 — klasyfikacja maila do 6 kategorii (n=480)
Bielik 2.3: 91,5% trafność. Claude Sonnet 4.5: 96,2%. Różnica 4,7 pp przy 13× niższym koszcie inferencji u nas — Bielik wygrywa.
Test 2 — streszczenie raportu finansowego (n=80)
Bielik 2.3: 7,3/10 średnia ocena (ocenia 2 niezależnych ekspertów). Claude Sonnet 4.5: 8,9/10. Tutaj Sonnet wyraźnie lepiej — szczególnie przy uchwyceniu kontekstu liczbowego.
Test 3 — generowanie maila handlowego po polsku (n=120)
Bielik 2.3: 8,1/10. Claude Sonnet 4.5: 8,4/10. Praktycznie remis. Bielik czasem bardziej naturalny stylistycznie, Sonnet trzymał lepszą strukturę.
Test 4 — ekstrakcja klauzul z umów (n=40)
Bielik 2.3: 76% trafność. Claude Sonnet 4.5: 93%. Tu Sonnet wyraźnie lepszy.
| Zadanie | Bielik 2.3 | Sonnet 4.5 | Wskazanie |
|---|---|---|---|
| Klasyfikacja maili | 91,5% | 96,2% | Bielik (koszt) |
| Streszczenia raportów | 7,3/10 | 8,9/10 | Sonnet |
| Maile B2B | 8,1/10 | 8,4/10 | Remis |
| Ekstrakcja klauzul | 76% | 93% | Sonnet |
| Generowanie JSON | 82% | 99% | Sonnet |
| Q&A na FAQ | 88% | 94% | Bielik (koszt) |
| Rozumowanie math | 48% | 87% | Sonnet (znacząco) |
| Code review PHP | 42% | 71% | Sonnet |
Kiedy Bielik wygrywa — 3 sytuacje
- Wysokie wolumeny, proste zadania — klasyfikacja, prosta ekstrakcja, Q&A na FAQ.
- Wymóg „dane nie wychodzą z infrastruktury" — szczególnie sektor publiczny, ochrona zdrowia, prawnicze.
- Budżet < 1 500 zł/mies. na AI — Claude przy tym budżecie ograniczy nas do ~300 000 tokenów dziennie, Bielik na własnej karcie graficznej obsłuży miliony.
Hybryda — kiedy ma sens
W 4 naszych wdrożeniach jest model hybrydowy: Bielik 2.3 do 80% wywołań (proste), Claude Sonnet 4.5 do 20% (skomplikowane). Routing decyduje na podstawie długości promptu i typu zadania. U klienta logistycznego z 240 000 wywołań/mies. dało to 62% oszczędności wobec „wszystko na Sonnecie".
Rekomendacja
Bielik jest dziś realnym narzędziem produkcyjnym, ale nie zastępuje Claude'a we wszystkich zadaniach. Jeśli wdrażacie AI od zera — startujcie od Claude'a (szybciej dojdziecie do działającego MVP), potem optymalizujcie przenosząc proste zadania na Bielika.
Chętnie pomożemy zaprojektować architekturę hybrydową — napiszcie. Mamy doświadczenie z 4 wdrożeniami hybrydowymi w Polsce.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo