Modele

Mistral Magistral — pierwszy europejski model rozumowania w polskich testach

Mistral AI w czerwcu 2025 wypuściło Magistral Small (24B, open weights) i Magistral Medium (przez API). To pierwsza europejska próba modelu reasoning klasy o1/Claude. Sprawdziliśmy oba na zadaniach księgowych, prawniczych i logistycznych w języku polskim — czy europejski model lepiej radzi sobie z polszczyzną i jakie są realne ograniczenia.

⏱ 9 min czytania · 📅 03.07.2025 · 👁 1 388 wyświetleń

10 czerwca 2025 Mistral AI ogłosił rodzinę Magistral — pierwsze otwartego pochodzenia modele rozumowania z Europy. W RedAI testujemy Mistral od 2024 (Mixtral 8x7B na on-prem), więc Magistral był pozycją obowiązkową. Po trzech tygodniach mamy dane z 180 testowych zapytań w polskim — porównanie z Claude Opus 4 i DeepSeek R1.

Co to jest Magistral

Magistral to nie jest "kolejny LLM". To model reasoning — model który zanim odpowie, generuje wewnętrzny łańcuch rozumowania (chain-of-thought). Dwa warianty:

  • Magistral Small (24B parametrów) — open weights, Apache 2.0, można odpalić lokalnie (wymaga 48 GB VRAM dla pełnej precyzji, 24 GB dla kwantyzacji Q4).
  • Magistral Medium — większy, dostępny przez API Mistral i przez Le Chat. Ceny: 2 USD / 1M tokenów input, 5 USD / 1M output.

Po co reasoning model w księgowości?

Większość zadań księgowych to klasyfikacja i ekstrakcja — i tutaj Sonnet 4 lub Mistral Large w zupełności wystarczają. Ale są klasy problemów, gdzie reasoning pomaga: "Czy w 2024 roku spółka X przekroczyła próg małego podatnika CIT na podstawie tych 87 faktur?" — to wymaga: zsumowania, przeliczenia EUR/PLN po kursie z konkretnych dni, sprawdzenia progu, uzasadnienia. Claude robi to dobrze, ale "zgaduje" — Magistral wypisuje łańcuch.

Test 1: próg małego podatnika CIT 2024

Daliśmy modelowi 87 faktur sprzedażowych spółki z o.o. (XML z KSeF) i pytanie: "Czy spółka kwalifikuje się do CIT 9% w 2025? Wykaż obliczenia."

ModelOdpowiedźUzasadnienieCzasKoszt PLN
Claude Opus 4TAK (poprawnie)3 akapity, ogólne14 s0,42
Magistral MediumTAK (poprawnie)11 kroków, każdy z liczbą34 s0,18
Magistral Small (lokalnie)TAK (poprawnie)9 kroków2 min 12 s~0 (własna GPU)
DeepSeek R1NIE (błędnie)Zgubił kurs EUR z 2024-09-1241 s0,09

Magistral wygrał na uzasadnieniu — księgowa może wkleić output bezpośrednio do akt jako uzasadnienie kwalifikacji. Claude Opus 4 dał poprawny wynik, ale uzasadnienie wymagało "rozbudowania".

Test 2: polszczyzna i znajomość polskich przepisów

20 pytań o ustawy: VAT, CIT, PIT, RODO, kodeks pracy. Sprawdzaliśmy poprawność merytoryczną i poprawność językową.

  • Magistral Medium: 17/20 poprawnych merytorycznie, polszczyzna bezbłędna (zaskakująco dobra fleksja, brak "kalek" z angielskiego).
  • Claude Opus 4: 18/20 poprawnych, polszczyzna bardzo dobra, sporadyczne "konstrukcje angielskie".
  • Bielik 2 11B: 14/20 poprawnych, najlepsza polszczyzna ze wszystkich (czego można było oczekiwać), słabiej z aktualnymi zmianami przepisów.

Wdrożenie lokalne Magistral Small

Dla jednego z klientów (kancelaria patentowa, 11 osób) wymóg był jednoznaczny: żadne dane nie wychodzą z infrastruktury klienta. Magistral Small (Apache 2.0, open weights) idealnie się tu nadał. Konfiguracja:

  • Serwer w infrastrukturze klienta (Dell PowerEdge R760, 2× NVIDIA L40S 48GB)
  • Inference engine: vLLM 0.5.4
  • Kwantyzacja: Q4 (24 GB VRAM, bez utraty jakości na zadaniach prawniczych w naszym benchmarku)
  • Latencja: 1,4-2,8 sekundy dla typowej analizy umowy (8 tys. tokenów)

Throughput: 22 zapytania równolegle. Dla 11-osobowej kancelarii — komfortowo. Koszt operacyjny (prąd + amortyzacja): około 380 zł/mies. Czyli ~12× taniej niż gdyby ta sama liczba zapytań szła do Opus 4.

Gdzie Magistral nie wygrał

Bądźmy uczciwi — w trzech klasach zadań Magistral wypadł słabiej:

  1. Długie konteksty (>32k tokenów) — Magistral Medium ma kontekst 40k, ale jakość spada po ~25k. Opus 4 z 200k radzi sobie dużo lepiej z dużymi umowami.
  2. Generowanie kreatywnego copy — model rozumowania nie jest copywriterem. Posty na LinkedIn, opisy produktów — wyraźnie lepiej radzi sobie Sonnet 4.
  3. Vision — Magistral nie obsługuje obrazów. Faktury skanowane = obowiązkowo OCR przed.

Rekomendacje na lipiec 2025

Magistral nie zastąpi Claude'a w naszej standardowej praktyce, ale jest świetnym uzupełnieniem:

  • Zadania wymagające twardego uzasadnienia (audyty, opinie prawne, kwalifikacje podatkowe) → Magistral Medium.
  • Wymóg "dane nie opuszczają firmy" + ograniczony budżet → Magistral Small lokalnie.
  • Wszystko inne → Claude Sonnet 4 / Opus 4.

Pełen raport z 180 testów (z kodami błędów i przykładami) udostępniamy klientom w panelu. Chcecie zobaczyć Magistral Small w działaniu na Waszych dokumentach — umówcie się na 30 minut.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.