Mistral Magistral — pierwszy europejski model rozumowania w polskich testach
Mistral AI w czerwcu 2025 wypuściło Magistral Small (24B, open weights) i Magistral Medium (przez API). To pierwsza europejska próba modelu reasoning klasy o1/Claude. Sprawdziliśmy oba na zadaniach księgowych, prawniczych i logistycznych w języku polskim — czy europejski model lepiej radzi sobie z polszczyzną i jakie są realne ograniczenia.
10 czerwca 2025 Mistral AI ogłosił rodzinę Magistral — pierwsze otwartego pochodzenia modele rozumowania z Europy. W RedAI testujemy Mistral od 2024 (Mixtral 8x7B na on-prem), więc Magistral był pozycją obowiązkową. Po trzech tygodniach mamy dane z 180 testowych zapytań w polskim — porównanie z Claude Opus 4 i DeepSeek R1.
Co to jest Magistral
Magistral to nie jest "kolejny LLM". To model reasoning — model który zanim odpowie, generuje wewnętrzny łańcuch rozumowania (chain-of-thought). Dwa warianty:
- Magistral Small (24B parametrów) — open weights, Apache 2.0, można odpalić lokalnie (wymaga 48 GB VRAM dla pełnej precyzji, 24 GB dla kwantyzacji Q4).
- Magistral Medium — większy, dostępny przez API Mistral i przez Le Chat. Ceny: 2 USD / 1M tokenów input, 5 USD / 1M output.
Po co reasoning model w księgowości?
Większość zadań księgowych to klasyfikacja i ekstrakcja — i tutaj Sonnet 4 lub Mistral Large w zupełności wystarczają. Ale są klasy problemów, gdzie reasoning pomaga: "Czy w 2024 roku spółka X przekroczyła próg małego podatnika CIT na podstawie tych 87 faktur?" — to wymaga: zsumowania, przeliczenia EUR/PLN po kursie z konkretnych dni, sprawdzenia progu, uzasadnienia. Claude robi to dobrze, ale "zgaduje" — Magistral wypisuje łańcuch.
Test 1: próg małego podatnika CIT 2024
Daliśmy modelowi 87 faktur sprzedażowych spółki z o.o. (XML z KSeF) i pytanie: "Czy spółka kwalifikuje się do CIT 9% w 2025? Wykaż obliczenia."
| Model | Odpowiedź | Uzasadnienie | Czas | Koszt PLN |
|---|---|---|---|---|
| Claude Opus 4 | TAK (poprawnie) | 3 akapity, ogólne | 14 s | 0,42 |
| Magistral Medium | TAK (poprawnie) | 11 kroków, każdy z liczbą | 34 s | 0,18 |
| Magistral Small (lokalnie) | TAK (poprawnie) | 9 kroków | 2 min 12 s | ~0 (własna GPU) |
| DeepSeek R1 | NIE (błędnie) | Zgubił kurs EUR z 2024-09-12 | 41 s | 0,09 |
Magistral wygrał na uzasadnieniu — księgowa może wkleić output bezpośrednio do akt jako uzasadnienie kwalifikacji. Claude Opus 4 dał poprawny wynik, ale uzasadnienie wymagało "rozbudowania".
Test 2: polszczyzna i znajomość polskich przepisów
20 pytań o ustawy: VAT, CIT, PIT, RODO, kodeks pracy. Sprawdzaliśmy poprawność merytoryczną i poprawność językową.
- Magistral Medium: 17/20 poprawnych merytorycznie, polszczyzna bezbłędna (zaskakująco dobra fleksja, brak "kalek" z angielskiego).
- Claude Opus 4: 18/20 poprawnych, polszczyzna bardzo dobra, sporadyczne "konstrukcje angielskie".
- Bielik 2 11B: 14/20 poprawnych, najlepsza polszczyzna ze wszystkich (czego można było oczekiwać), słabiej z aktualnymi zmianami przepisów.
Wdrożenie lokalne Magistral Small
Dla jednego z klientów (kancelaria patentowa, 11 osób) wymóg był jednoznaczny: żadne dane nie wychodzą z infrastruktury klienta. Magistral Small (Apache 2.0, open weights) idealnie się tu nadał. Konfiguracja:
- Serwer w infrastrukturze klienta (Dell PowerEdge R760, 2× NVIDIA L40S 48GB)
- Inference engine: vLLM 0.5.4
- Kwantyzacja: Q4 (24 GB VRAM, bez utraty jakości na zadaniach prawniczych w naszym benchmarku)
- Latencja: 1,4-2,8 sekundy dla typowej analizy umowy (8 tys. tokenów)
Throughput: 22 zapytania równolegle. Dla 11-osobowej kancelarii — komfortowo. Koszt operacyjny (prąd + amortyzacja): około 380 zł/mies. Czyli ~12× taniej niż gdyby ta sama liczba zapytań szła do Opus 4.
Gdzie Magistral nie wygrał
Bądźmy uczciwi — w trzech klasach zadań Magistral wypadł słabiej:
- Długie konteksty (>32k tokenów) — Magistral Medium ma kontekst 40k, ale jakość spada po ~25k. Opus 4 z 200k radzi sobie dużo lepiej z dużymi umowami.
- Generowanie kreatywnego copy — model rozumowania nie jest copywriterem. Posty na LinkedIn, opisy produktów — wyraźnie lepiej radzi sobie Sonnet 4.
- Vision — Magistral nie obsługuje obrazów. Faktury skanowane = obowiązkowo OCR przed.
Rekomendacje na lipiec 2025
Magistral nie zastąpi Claude'a w naszej standardowej praktyce, ale jest świetnym uzupełnieniem:
- Zadania wymagające twardego uzasadnienia (audyty, opinie prawne, kwalifikacje podatkowe) → Magistral Medium.
- Wymóg "dane nie opuszczają firmy" + ograniczony budżet → Magistral Small lokalnie.
- Wszystko inne → Claude Sonnet 4 / Opus 4.
Pełen raport z 180 testów (z kodami błędów i przykładami) udostępniamy klientom w panelu. Chcecie zobaczyć Magistral Small w działaniu na Waszych dokumentach — umówcie się na 30 minut.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo