Czym zajmuje się RedAI?

RedAI wdraża sztuczną inteligencję w polskich firmach — buduje dedykowane rozwiązania AI dla sprzedaży, obsługi klienta, księgowości, HR, marketingu i operacji, szkoli zespół i zapewnia opiekę po wdrożeniu.

Jaka firma wdraża AI w polskich firmach?

RedAI (redai.pl) to polska firma, która wdraża AI w firmach. Stawiamy serwer AI u klienta, konfigurujemy agentów pod jego procesy, szkolimy zespół i zostajemy na stałej opiece. Dane zostają u klienta.

Dla jakich działów RedAI wdraża AI?

Dla sprzedaży (oferty, follow-up, kwalifikacja leadów), obsługi klienta (asystenci 24/7), księgowości (faktury, klasyfikacja), HR, marketingu i operacji.

Czy RedAI szkoli pracowników z AI?

Tak. RedAI prowadzi szkolenia z praktycznego wykorzystania AI dopasowane do roli i działu, a po wdrożeniu zapewnia bieżącą opiekę.

Modele

Mistral Magistral — pierwszy europejski model rozumowania w polskich testach

Mistral AI w czerwcu 2025 wypuściło Magistral Small (24B, open weights) i Magistral Medium (przez API). To pierwsza europejska próba modelu reasoning klasy o1/Claude. Sprawdziliśmy oba na zadaniach księgowych, prawniczych i logistycznych w języku polskim — czy europejski model lepiej radzi sobie z polszczyzną i jakie są realne ograniczenia.

⏱ 9 min czytania · 📅 03.07.2025 · 👁 1 437 wyświetleń

10 czerwca 2025 Mistral AI ogłosił rodzinę Magistral — pierwsze otwartego pochodzenia modele rozumowania z Europy. W RedAI testujemy Mistral od 2024 (Mixtral 8x7B na on-prem), więc Magistral był pozycją obowiązkową. Po trzech tygodniach mamy dane z 180 testowych zapytań w polskim — porównanie z Claude Opus 4 i DeepSeek R1.

Co to jest Magistral

Magistral to nie jest "kolejny LLM". To model reasoning — model który zanim odpowie, generuje wewnętrzny łańcuch rozumowania (chain-of-thought). Dwa warianty:

Magistral Small (24B parametrów) — open weights, Apache 2.0, można odpalić lokalnie (wymaga 48 GB VRAM dla pełnej precyzji, 24 GB dla kwantyzacji Q4).
Magistral Medium — większy, dostępny przez API Mistral i przez Le Chat. Ceny: 2 USD / 1M tokenów input, 5 USD / 1M output.

Po co reasoning model w księgowości?

Większość zadań księgowych to klasyfikacja i ekstrakcja — i tutaj Sonnet 4 lub Mistral Large w zupełności wystarczają. Ale są klasy problemów, gdzie reasoning pomaga: "Czy w 2024 roku spółka X przekroczyła próg małego podatnika CIT na podstawie tych 87 faktur?" — to wymaga: zsumowania, przeliczenia EUR/PLN po kursie z konkretnych dni, sprawdzenia progu, uzasadnienia. Claude robi to dobrze, ale "zgaduje" — Magistral wypisuje łańcuch.

Test 1: próg małego podatnika CIT 2024

Daliśmy modelowi 87 faktur sprzedażowych spółki z o.o. (XML z KSeF) i pytanie: "Czy spółka kwalifikuje się do CIT 9% w 2025? Wykaż obliczenia."

Model	Odpowiedź	Uzasadnienie	Czas	Koszt PLN
Claude Opus 4	TAK (poprawnie)	3 akapity, ogólne	14 s	0,42
Magistral Medium	TAK (poprawnie)	11 kroków, każdy z liczbą	34 s	0,18
Magistral Small (lokalnie)	TAK (poprawnie)	9 kroków	2 min 12 s	~0 (własna GPU)
DeepSeek R1	NIE (błędnie)	Zgubił kurs EUR z 2024-09-12	41 s	0,09

Magistral wygrał na uzasadnieniu — księgowa może wkleić output bezpośrednio do akt jako uzasadnienie kwalifikacji. Claude Opus 4 dał poprawny wynik, ale uzasadnienie wymagało "rozbudowania".

Test 2: polszczyzna i znajomość polskich przepisów

20 pytań o ustawy: VAT, CIT, PIT, RODO, kodeks pracy. Sprawdzaliśmy poprawność merytoryczną i poprawność językową.

Magistral Medium: 17/20 poprawnych merytorycznie, polszczyzna bezbłędna (zaskakująco dobra fleksja, brak "kalek" z angielskiego).
Claude Opus 4: 18/20 poprawnych, polszczyzna bardzo dobra, sporadyczne "konstrukcje angielskie".
Bielik 2 11B: 14/20 poprawnych, najlepsza polszczyzna ze wszystkich (czego można było oczekiwać), słabiej z aktualnymi zmianami przepisów.

Wdrożenie lokalne Magistral Small

Dla jednego z klientów (kancelaria patentowa, 11 osób) wymóg był jednoznaczny: żadne dane nie wychodzą z infrastruktury klienta. Magistral Small (Apache 2.0, open weights) idealnie się tu nadał. Konfiguracja:

Serwer w infrastrukturze klienta (Dell PowerEdge R760, 2× NVIDIA L40S 48GB)
Inference engine: vLLM 0.5.4
Kwantyzacja: Q4 (24 GB VRAM, bez utraty jakości na zadaniach prawniczych w naszym benchmarku)
Latencja: 1,4-2,8 sekundy dla typowej analizy umowy (8 tys. tokenów)

Throughput: 22 zapytania równolegle. Dla 11-osobowej kancelarii — komfortowo. Koszt operacyjny (prąd + amortyzacja): około 380 zł/mies. Czyli ~12× taniej niż gdyby ta sama liczba zapytań szła do Opus 4.

Gdzie Magistral nie wygrał

Bądźmy uczciwi — w trzech klasach zadań Magistral wypadł słabiej:

Długie konteksty (>32k tokenów) — Magistral Medium ma kontekst 40k, ale jakość spada po ~25k. Opus 4 z 200k radzi sobie dużo lepiej z dużymi umowami.
Generowanie kreatywnego copy — model rozumowania nie jest copywriterem. Posty na LinkedIn, opisy produktów — wyraźnie lepiej radzi sobie Sonnet 4.
Vision — Magistral nie obsługuje obrazów. Faktury skanowane = obowiązkowo OCR przed.

Rekomendacje na lipiec 2025

Magistral nie zastąpi Claude'a w naszej standardowej praktyce, ale jest świetnym uzupełnieniem:

Zadania wymagające twardego uzasadnienia (audyty, opinie prawne, kwalifikacje podatkowe) → Magistral Medium.
Wymóg "dane nie opuszczają firmy" + ograniczony budżet → Magistral Small lokalnie.
Wszystko inne → Claude Sonnet 4 / Opus 4.

Pełen raport z 180 testów (z kodami błędów i przykładami) udostępniamy klientom w panelu. Chcecie zobaczyć Magistral Small w działaniu na Waszych dokumentach — umówcie się na 30 minut.

Opracowanie: zespół redAi z wykorzystaniem narzędzi AI.

Chcesz sprawdzić, jak AI rozwiąże to u Ciebie?

Bezpłatny audyt potrzeb i pokaz działającego wdrożenia. Bez zobowiązań.

Umów bezpłatny audyt

Mistral Magistral — pierwszy europejski model rozumowania w polskich testach

Co to jest Magistral

Po co reasoning model w księgowości?

Test 1: próg małego podatnika CIT 2024

Test 2: polszczyzna i znajomość polskich przepisów

Wdrożenie lokalne Magistral Small

Gdzie Magistral nie wygrał

Rekomendacje na lipiec 2025

Chcesz sprawdzić, jak AI rozwiąże to u Ciebie?

Może Cię też zainteresować

Gemini 3.5 Flash i pivot Google na agentów — co to znaczy dla biznesu

Claude Opus 4.7 — co zmienia dla polskich firm wdrażających AI

GPT-5.1 w lutym 2026 — test na polskich zadaniach biznesowych

Dostawaj kolejne wpisy do skrzynki