PLLuM — pierwsze testy modelu finansowanego przez polski rząd
PLLuM (Polish Large Language Universal Model) to projekt konsorcjum Politechnik i NASK finansowany z funduszy publicznych. Pierwsza beta dostępna od końca lipca 2025. Sprawdziliśmy go równolegle z Bielikiem 2 i Claude na zadaniach księgowych, prawniczych i administracyjnych. Co działa, co nie, gdzie ma sens stosować.
PLLuM to ambitny projekt — pierwszy LLM finansowany ze środków publicznych w Polsce, prowadzony przez konsorcjum (Politechnika Wrocławska, NASK, OPI PIB i inne). Beta z końca lipca 2025 to wariant 8B i 70B. Testujemy oba na realnych zadaniach naszych klientów, porównując do Bielika 2 i Claude. Pierwsze wnioski są ciekawe.
Czym PLLuM różni się od Bielika
Bielik 2 to projekt społecznościowy (SpeakLeash + Politechnika Wrocławska), trenowany głównie na danych webowych. PLLuM jest finansowany z budżetu państwa, trenowany m.in. na korpusach urzędowych, prawniczych i naukowych w języku polskim. Teoretycznie powinien być lepszy w domenie administracyjnej i prawnej. Sprawdzamy.
Warianty modelu
- PLLuM-8B-instruct — mniejszy, open weights, do lokalnego uruchamiania
- PLLuM-70B-instruct — większy, wymaga 80 GB VRAM dla pełnej precyzji
- Licencja: CC-BY-NC-SA (uwaga — niekomercyjny use, w sierpniu 2025 negocjacje o wariant komercyjny)
Pierwsze ograniczenie
Licencja NC (niekomercyjny) wyklucza PLLuM z większości wdrożeń komercyjnych — to jest problem. Anonimowe źródło z konsorcjum potwierdziło nam, że pracują nad licencją komercyjną, ale na sierpień 2025 model jest dostępny TYLKO do celów badawczych i edukacyjnych. Nasze testy są więc testami "co by było, gdyby" — nie wdrożeniem produkcyjnym.
Testy na realnych zadaniach
Test 1: streszczanie pism urzędowych
20 pism z urzędów (urząd skarbowy, ZUS, sąd) z prośbą o streszczenie 200-słowowe. Ocena: 3 prawników niezależnie.
| Model | Trafność merytoryczna | Polszczyzna urzędowa | Średnia ocena |
|---|---|---|---|
| PLLuM-70B | 9,2/10 | 9,4/10 | 9,3/10 |
| PLLuM-8B | 7,8/10 | 9,1/10 | 8,4/10 |
| Bielik 2 11B | 8,4/10 | 8,8/10 | 8,6/10 |
| Claude Sonnet 4 | 8,9/10 | 8,2/10 | 8,5/10 |
PLLuM-70B zwyciężył wyraźnie. Powód: trenowany na korpusie pism urzędowych — "czuje" rejestr językowy lepiej niż modele ogólne. Bielik i Claude są dobre, ale PLLuM jest precyzyjny w terminologii ustawowej ("postępowanie odwoławcze", "stwierdzenie nieważności decyzji", "wniosek o przywrócenie terminu").
Test 2: pytania o prawo polskie
30 pytań prawnych: kodeks cywilny, kodeks pracy, ustawa o VAT.
- PLLuM-70B: 26/30 poprawnych
- PLLuM-8B: 22/30
- Bielik 2: 23/30
- Claude Opus 4: 28/30
- Mistral Magistral Medium: 27/30
Claude i Magistral nadal lepsze w trudnych pytaniach prawnych — ale PLLuM-70B blisko, kosztem znacznie mniejszych zasobów.
Test 3: generowanie treści marketingowych
Tu PLLuM wypada słabiej. Treści są stylistycznie "akademickie", "urzędowe", nie sprzedażowe. Do działu marketingu zostaje Claude Sonnet 4.
Test 4: code generation
PLLuM nie był trenowany pod kod — generowanie PHP/JS jest na poziomie "akceptowalny pseudokod, ale debugger się pogubi". Tu Claude i GPT-5 niedoścignione.
Konfiguracja lokalna PLLuM-8B
Dla klientów, którzy mają wymóg "100% lokalnie" i czekają na licencję komercyjną — robimy proof of concept. Setup:
- NVIDIA RTX 4090 (24 GB VRAM)
- vLLM 0.5.4 + kwantyzacja Q4_K_M (model zmieści się w 6 GB VRAM)
- Latencja: 1,2 s dla 4k tokenów, 3,8 s dla 16k
- Throughput: 18 zapytań równolegle
Kiedy PLLuM ma sens (gdy licencja komercyjna wejdzie)
- Administracja publiczna — sektor naturalnie dopasowany do tego modelu.
- Biura księgowe i kancelarie — terminologia ustawowa, pisma do organów.
- Edukacja — pierwotne przeznaczenie konsorcjum.
- Zadania klasyfikacyjne i ekstrakcyjne w polskich dokumentach urzędowych.
Kiedy nie ma sensu (nawet po wejściu komercyjnym)
- Generowanie treści marketingowych i sprzedażowych
- Code generation
- Tłumaczenia z/na inne języki
- Reasoning skomplikowany (gdzie wygrywa Magistral lub Claude Opus)
Co dalej dla PLLuM
Konsorcjum zapowiada wariant 70B-Instruct-v2 na koniec 2025 i ewentualny model 7B-Chat zoptymalizowany pod konwersacje. Najważniejsze: czekamy na licencję komercyjną. Bez niej PLLuM zostaje ciekawym eksperymentem akademickim.
Klientom rozważającym lokalne modele polskie pokazujemy Bielik 2 (komercyjny, dostępny) jako pierwszy wybór. PLLuM trzymamy w "lab" — jak tylko licencja się zmieni, włączamy do produkcyjnej palety. Porozmawiajmy o Waszym setupie.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo