Bielik 2 — gdzie się sprawdza, gdzie zawodzi (3 miesiące praktyki)
Bielik 2 to projekt SpeakLeash i Politechniki Wrocławskiej — pierwszy polski LLM klasy 11B, który realnie nadaje się do produkcji. Od kwietnia 2025 testujemy go u trzech klientów na zadaniach gdzie Claude nie może wejść (dane wrażliwe, brak budżetu na API). Po trzech miesiącach mamy konkretne wnioski.
Bielik 2 11B Instruct wszedł w produkcję u trzech klientów RedAI w drugim kwartale 2025. Dla każdego z nich Claude lub GPT były wykluczone — ze względu na koszty, wrażliwość danych albo wymagania prawne. Po 92 dniach pracy 24/7 pokazujemy: co Bielik robi dobrze, czego nie robi, ile kosztuje setup i utrzymanie.
Dla kogo Bielik 2, dla kogo Claude
To nie jest "który lepszy" — to dwie różne klasy narzędzi. Bielik 2 11B ma 11 miliardów parametrów (Sonnet 4 — szacunki mówią o setkach miliardów, dokładnej liczby Anthropic nie ujawnia). Bielik wygrywa w trzech sytuacjach:
- Dane nie mogą opuścić infrastruktury klienta i nie ma budżetu na enterprise plan żadnego dostawcy.
- Zadania prostsze (klasyfikacja, ekstrakcja danych z polskich dokumentów), gdzie 11B wystarcza.
- Bardzo wysoki throughput — gdy klient potrzebuje 10 000+ zapytań dziennie i koszt API by się rozjechał.
Klient 1: kancelaria patentowa, 11 osób
Wymóg: analiza i klasyfikacja zgłoszeń patentowych w języku polskim, dane absolutnie nie mogą wyjść z infrastruktury klienta (klauzule poufności z klientami enterprise). Budżet IT: 28 tys. zł na rok na rozwiązanie AI.
Setup
- Maszyna w infrastrukturze klienta (Ryzen 9 7950X, 64 GB RAM, NVIDIA RTX 4090 24 GB)
- Bielik 2 11B Instruct w kwantyzacji Q5_K_M (8,2 GB VRAM)
- Inference engine: llama.cpp + własny serwer FastAPI
- Throughput: 12 zapytań równolegle, średnia latencja 1,8 s dla zapytania 4k tokenów
Wyniki po 3 miesiącach
| Zadanie | Trafność | Akceptowalne dla klienta? |
|---|---|---|
| Klasyfikacja zgłoszenia do kategorii IPC | 87% | TAK (po dwustopniowej walidacji) |
| Ekstrakcja danych zgłaszającego z formularzy | 96% | TAK |
| Wykrywanie kolizji z istniejącymi patentami (polskie) | 72% | NIE (zostaliśmy przy ekspertach) |
| Streszczenie zgłoszenia (200 słów) | 4,1/5 ocena | TAK |
Klient 2: 28-osobowa firma usługowa, BOK
Wymóg: klasyfikacja zgłoszeń klientów (problem techniczny / billing / reklamacja / inne) + sugerowana odpowiedź. Ruch: 280-340 zgłoszeń dziennie. Budżet: minimalny, klient sprawdza czy AI w ogóle ma sens.
Bielik 2 wystarczył w 100%. Klasyfikacja: 94% trafność. Sugerowana odpowiedź: 78% wymaga drobnej edycji, 22% gotowe do wysłania bez zmian. Koszt: ~190 zł/mies. (prąd + amortyzacja małego serwera, który i tak był w firmie). Gdyby pchać to przez Sonnet 4: ~860 zł/mies.
Klient 3: produkcja meblowa, asystent technologa
Wymóg: technolog ma zapytać po polsku "ile czasu schnie lakier UV na blacie 28mm w temperaturze 22°C" i dostać odpowiedź ze specyfikacji. Bielik podpięty pod nasz system RAG (opisywany w poprzednim artykule). Tu wyniki są mieszane — Bielik świetnie radzi sobie z prostymi pytaniami (faktografia), ale gdy pytanie wymaga rozumowania ("jeśli temperatura jest 18°C zamiast 22°C, jak skoryguję czas") — trafność spada do 64%. Dla tego klienta zostaliśmy przy hybrydzie: Bielik dla faktów, Sonnet 4 dla pytań analitycznych.
Gdzie Bielik 2 wyraźnie zawodzi
Cztery klasy zadań, gdzie nie polecamy:
- Generowanie długich tekstów (>1500 słów) — model traci spójność, powtarza wątki, polszczyzna nadal dobra ale strukturalnie się rozjeżdża.
- Tłumaczenie z/na angielski — DeepL/Google nadal lepsze.
- Code generation — Bielik nie był trenowany pod kod, użycie do generowania PHP/JS to droga przez mękę.
- Pytania o aktualne wydarzenia — Bielik 2 cutoff w 2024, nie zna marca 2025 i później.
Koszty wdrożenia Bielik 2 w polskiej firmie
Dla typowego MŚP (20-50 osób):
| Pozycja | Jednorazowo | Miesięcznie |
|---|---|---|
| Maszyna inferencyjna (Ryzen + RTX 4090) | ~14 000 zł | — |
| Setup Bielik + tuning promptów | w pakiecie RedAI | — |
| Prąd (24/7, ~280W avg) | — | ~120 zł |
| Utrzymanie, monitoring, aktualizacje | — | w abonamencie |
| Razem (rok pierwszy) | ~14 000 zł | ~120 zł/mies. |
Dla porównania: ten sam ruch przez Claude Sonnet 4 = ~860 zł/mies. = 10 320 zł/rok. Bielik zwraca się w ~14 miesiącu, potem jest praktycznie darmowy.
Rekomendacja
Bielik 2 to nie jest "polski ChatGPT do wszystkiego". To bardzo dobre narzędzie do zadań klasyfikacyjnych i ekstrakcyjnych w polszczyźnie, z dwoma kluczowymi zaletami: dane nie wychodzą z firmy i marginalne koszty operacyjne. Używamy go u 3 z 11 klientów — wszędzie tam, gdzie te dwie cechy mają znaczenie. Pozostałych 8 klientów lepiej się czuje z Claude / GPT.
Jeśli macie wymóg "dane absolutnie nie wychodzą z firmy" albo bardzo wysoki ruch — pokażemy Bielika na Waszych dokumentach. Setup zajmuje 5-7 dni roboczych.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo