DeepSeek V3.2, Llama 4.1 i przyszłość open-source — przegląd listopad 2025
Listopad 2025 to seria zapowiedzi i releases w open-source: DeepSeek V3.2, Llama 4.1, Qwen 3, Mistral Medium 3. Co to znaczy dla polskiej firmy, która chce mieć kontrolę nad infrastrukturą AI. Co już wdrażalne, na co czekać, jak budować strategię modelu open-source na 2026.
Open-source w LLM w 2025 dojrzał. To już nie tylko hobbystyczne projekty — DeepSeek, Meta, Alibaba, Mistral dostarczają modele konkurujące z komercyjnymi flagshipami. Listopad przyniósł serię nowych release-ów: DeepSeek V3.2, Llama 4.1, Qwen 3 i inne. Co to znaczy dla polskiej firmy z wymogiem on-premise / prywatnej instancji. Przegląd ze wskazaniami praktycznymi.
DeepSeek V3.2
DeepSeek to chiński projekt, który w 2025 zdobył uznanie globalnie za stosunek jakości do kosztu treningu. V3.2 to iteracja V3 z lepszym reasoning i niższym kosztem inference. Architektura: Mixture of Experts (MoE) 236B parametrów total, ~21B aktywnych per token.
Plusy DeepSeek V3.2
- Open weights — można pobrać i hostować.
- Reasoning na poziomie GPT-4o w niektórych benchmarkach.
- MoE = niższy koszt inference (znacznie tańszy od dense modeli o podobnej jakości).
- API dostępne z chińskiego cloud-u po atrakcyjnej cenie.
Minusy / ryzyka
- Pochodzenie chińskie — niektórzy klienci nie akceptują (RODO, sankcje USA).
- Wymagania sprzętowe — full model wymaga klastra z 8+ H100.
- Polski wciąż słabszy niż w Claude.
- Compliance EU niedoprecyzowana.
Llama 4.1
Meta wypuściła Llama 4 wiosną 2025, a Llama 4.1 jako iterację jesienią. Trzy warianty: Scout (lekka), Maverick (średnia), Behemoth (duża). Architektura także MoE. Llama dalej dominuje w polskiej społeczności open-source ze względu na ekosystem.
Llama 4.1 w polskim biznesie
- Scout (109B total, 17B aktywne) — działa na pojedynczym H100. Realne wdrożenie u polskiego klienta.
- Maverick (400B total, 17B aktywne) — wymaga klastra, ale dla większych instalacji.
- Polski poprawiony, ale dalej za Bielikiem 2.3 (specjalizacja).
- Licencja Llama 4 zaktualizowana — bardziej business-friendly.
| Model | Param. (total / act.) | VRAM min. | Polski | Koszt mies. hostingu |
|---|---|---|---|---|
| Bielik 2.3 | 11B / 11B | 16 GB | 4,4/5 | ~ 2 200 zł |
| Llama 4 Scout | 109B / 17B | 80 GB | 4,1/5 | ~ 7 800 zł |
| DeepSeek V3.2 | 236B / 21B | klaster 8x80GB | 3,7/5 | ~ 24 000 zł |
| Qwen 3 (72B) | 72B / 72B | 140 GB | 3,9/5 | ~ 11 200 zł |
| Mistral Medium 3 | 22B / 22B | 48 GB | 4,0/5 | ~ 4 500 zł |
Qwen 3
Alibaba wypuściła Qwen 3 w listopadzie 2025. Mocny w reasoning, bardzo dobry w kodowaniu. Polski słabszy. Warianty od 7B do 235B parametrów. Licencja Apache 2.0 dla większości modeli, co czyni go business-friendly.
Mistral Medium 3
Francuski Mistral wypuścił Medium 3 z naciskiem na praktyczność. 22B parametrów dense, działa na pojedynczym H100, wydajny w europejskich językach (w tym polskim). Dla EU klientów to dobra opcja "europejski stack" (Mistral + Bielik + RedAI).
Strategia open-source dla polskiej firmy 2026
Stack rekomendowany dla małej firmy (5-30 osób)
- Bielik 2.3 lokalnie — dla codziennych zadań po polsku.
- Claude/GPT przez API — dla najtrudniejszych zadań.
- Nie wdrażaj Llama 4 Scout — overkill na tej skali.
Stack rekomendowany dla średniej firmy (30-100 osób)
- Bielik 2.3 lub Mistral Medium 3 lokalnie — workhorse.
- Llama 4 Scout lokalnie — dla zadań reasoning, code.
- Claude Sonnet 4.5 przez API — dla najtrudniejszych.
Stack rekomendowany dla większej firmy (100+ osób)
- Llama 4 Maverick lokalnie — flagship lokalnego deployment.
- Bielik 2.3 jako specialist polski.
- Claude Opus 4.1 jako "ostateczna instancja" dla najtrudniejszych.
- Gemini 3 Pro dla scenariuszy Workspace-heavy.
Sprzętowy realizm
Open-source pociąga koszt sprzętu. Pojedynczy H100 to dziś ~28-32 tys. USD. Klastry 8x H100 — 250-300 tys. USD. Dla większości polskich firm 5-200 osób to za drogo na własność. Stąd model RedAI prywatnej instancji — dzielony sprzęt, izolowany kontekst, kontrola nad danymi.
Zapowiedzi i co czeka w 2026
- DeepSeek R2 (rozumowanie) — zapowiedź na I kw. 2026.
- Llama 5 — Meta sugeruje połowę 2026.
- Bielik 3 — SpeakLeash celuje w wiosnę 2026, większy model, multimodal.
- PLLuM 12B — większa wersja od konsorcjum NASK.
- Mistral Large 3 — odpowiedź na Llama Maverick.
Pułapki strategii open-source
- "Free" != "tanio" — model jest free, ale GPU/operations nie.
- Aktualizacje — każda nowa wersja modelu = retest, czasem fine-tune.
- Brak SLA — open-source nie gwarantuje, że model będzie dostępny za rok w danej formie.
- Polski talent — operowanie LLM-em on-premise wymaga ML engineera. To 18-28 tys. zł/mies.
- Compliance — model open-source nie zwalnia z RODO. Nawet pomaga, ale wymaga procedur.
Podsumowanie
Open-source LLM-y w 2025 dojrzały na tyle, że dla polskiej firmy z wymogiem on-premise to realna opcja. Wybór modelu = wybór kompromisu jakość/koszt/sprzęt/polski. RedAI integruje wszystkie wymienione modele w prywatnej instancji — wybieracie wedle workflow, nie wedle dostawcy. Pokażemy wam architekturę hybrid open-source + komercyjny dopasowaną do skali waszej firmy.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo