Polski rynek

PLLuM — pierwsze testy modelu finansowanego przez polski rząd

PLLuM (Polish Large Language Universal Model) to projekt konsorcjum Politechnik i NASK finansowany z funduszy publicznych. Pierwsza beta dostępna od końca lipca 2025. Sprawdziliśmy go równolegle z Bielikiem 2 i Claude na zadaniach księgowych, prawniczych i administracyjnych. Co działa, co nie, gdzie ma sens stosować.

⏱ 8 min czytania · 📅 22.08.2025 · 👁 1 177 wyświetleń

PLLuM to ambitny projekt — pierwszy LLM finansowany ze środków publicznych w Polsce, prowadzony przez konsorcjum (Politechnika Wrocławska, NASK, OPI PIB i inne). Beta z końca lipca 2025 to wariant 8B i 70B. Testujemy oba na realnych zadaniach naszych klientów, porównując do Bielika 2 i Claude. Pierwsze wnioski są ciekawe.

Czym PLLuM różni się od Bielika

Bielik 2 to projekt społecznościowy (SpeakLeash + Politechnika Wrocławska), trenowany głównie na danych webowych. PLLuM jest finansowany z budżetu państwa, trenowany m.in. na korpusach urzędowych, prawniczych i naukowych w języku polskim. Teoretycznie powinien być lepszy w domenie administracyjnej i prawnej. Sprawdzamy.

Warianty modelu

  • PLLuM-8B-instruct — mniejszy, open weights, do lokalnego uruchamiania
  • PLLuM-70B-instruct — większy, wymaga 80 GB VRAM dla pełnej precyzji
  • Licencja: CC-BY-NC-SA (uwaga — niekomercyjny use, w sierpniu 2025 negocjacje o wariant komercyjny)

Pierwsze ograniczenie

Licencja NC (niekomercyjny) wyklucza PLLuM z większości wdrożeń komercyjnych — to jest problem. Anonimowe źródło z konsorcjum potwierdziło nam, że pracują nad licencją komercyjną, ale na sierpień 2025 model jest dostępny TYLKO do celów badawczych i edukacyjnych. Nasze testy są więc testami "co by było, gdyby" — nie wdrożeniem produkcyjnym.

Testy na realnych zadaniach

Test 1: streszczanie pism urzędowych

20 pism z urzędów (urząd skarbowy, ZUS, sąd) z prośbą o streszczenie 200-słowowe. Ocena: 3 prawników niezależnie.

ModelTrafność merytorycznaPolszczyzna urzędowaŚrednia ocena
PLLuM-70B9,2/109,4/109,3/10
PLLuM-8B7,8/109,1/108,4/10
Bielik 2 11B8,4/108,8/108,6/10
Claude Sonnet 48,9/108,2/108,5/10

PLLuM-70B zwyciężył wyraźnie. Powód: trenowany na korpusie pism urzędowych — "czuje" rejestr językowy lepiej niż modele ogólne. Bielik i Claude są dobre, ale PLLuM jest precyzyjny w terminologii ustawowej ("postępowanie odwoławcze", "stwierdzenie nieważności decyzji", "wniosek o przywrócenie terminu").

Test 2: pytania o prawo polskie

30 pytań prawnych: kodeks cywilny, kodeks pracy, ustawa o VAT.

  • PLLuM-70B: 26/30 poprawnych
  • PLLuM-8B: 22/30
  • Bielik 2: 23/30
  • Claude Opus 4: 28/30
  • Mistral Magistral Medium: 27/30

Claude i Magistral nadal lepsze w trudnych pytaniach prawnych — ale PLLuM-70B blisko, kosztem znacznie mniejszych zasobów.

Test 3: generowanie treści marketingowych

Tu PLLuM wypada słabiej. Treści są stylistycznie "akademickie", "urzędowe", nie sprzedażowe. Do działu marketingu zostaje Claude Sonnet 4.

Test 4: code generation

PLLuM nie był trenowany pod kod — generowanie PHP/JS jest na poziomie "akceptowalny pseudokod, ale debugger się pogubi". Tu Claude i GPT-5 niedoścignione.

Konfiguracja lokalna PLLuM-8B

Dla klientów, którzy mają wymóg "100% lokalnie" i czekają na licencję komercyjną — robimy proof of concept. Setup:

  • NVIDIA RTX 4090 (24 GB VRAM)
  • vLLM 0.5.4 + kwantyzacja Q4_K_M (model zmieści się w 6 GB VRAM)
  • Latencja: 1,2 s dla 4k tokenów, 3,8 s dla 16k
  • Throughput: 18 zapytań równolegle

Kiedy PLLuM ma sens (gdy licencja komercyjna wejdzie)

  1. Administracja publiczna — sektor naturalnie dopasowany do tego modelu.
  2. Biura księgowe i kancelarie — terminologia ustawowa, pisma do organów.
  3. Edukacja — pierwotne przeznaczenie konsorcjum.
  4. Zadania klasyfikacyjne i ekstrakcyjne w polskich dokumentach urzędowych.

Kiedy nie ma sensu (nawet po wejściu komercyjnym)

  • Generowanie treści marketingowych i sprzedażowych
  • Code generation
  • Tłumaczenia z/na inne języki
  • Reasoning skomplikowany (gdzie wygrywa Magistral lub Claude Opus)

Co dalej dla PLLuM

Konsorcjum zapowiada wariant 70B-Instruct-v2 na koniec 2025 i ewentualny model 7B-Chat zoptymalizowany pod konwersacje. Najważniejsze: czekamy na licencję komercyjną. Bez niej PLLuM zostaje ciekawym eksperymentem akademickim.

Klientom rozważającym lokalne modele polskie pokazujemy Bielik 2 (komercyjny, dostępny) jako pierwszy wybór. PLLuM trzymamy w "lab" — jak tylko licencja się zmieni, włączamy do produkcyjnej palety. Porozmawiajmy o Waszym setupie.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.