DeepSeek R2 i nowa fala open source — co to zmienia dla polskich firm
DeepSeek R2 z marca 2026, Llama 4 zapowiadana, Mistral Large 3 — open source AI w 2026 dogania komercyjnych liderów. Kiedy realnie hostować własny model.
W marcu 2026 DeepSeek wypuścił R2 — kolejną wersję otwartego modelu, którego pierwsza wersja (R1) w 2025 zaszokowała branżę. R2 podobno dogania GPT-4 i Claude 3.5 Sonnet w wielu benchmarkach, jest open-source, można hostować lokalnie. Co to znaczy dla polskich firm?
Co to jest DeepSeek R2
- ~671B parametrów (Mixture-of-Experts, aktywne ~37B przy zapytaniu) — duży model
- Licencja open — można hostować komercyjnie
- Doskonały w matematyce, rozumowaniu, kodowaniu
- Polski — przyzwoity, słabszy niż Claude/Bielik, ale lepszy niż wcześniejsze open
- Pochodzenie — chińska firma, co dla części polskich klientów jest blokerem regulacyjnym (sektor obronny, krytyczny, niektóre branże)
Stan open source AI w maju 2026
| Model | Rozmiar | Język polski | Komercyjne |
|---|---|---|---|
| Llama 3.3 70B | 70B | Średni | Tak |
| Llama 4 (czerwiec 2026?) | ~150B MoE | ? | Tak |
| Mistral Large 3 | 123B | Dobry | Tak |
| DeepSeek R2 | 671B MoE | Średni-dobry | Tak (uwaga) |
| Qwen 3 | 72B | Słabszy | Tak |
| Bielik Minitron 7B | 7B | Bardzo dobry | Tak |
Kiedy ma sens hostowanie własnego modelu
1. Dane wrażliwe regulacyjnie
Medycyna, prawo, finanse, sektor publiczny. Tu hostowanie u siebie eliminuje obawę "co Anthropic/OpenAI robi z naszymi promptami". W praktyce: dane nigdy nie opuszczają sieci firmy.
2. Duże wolumeny i przewidywalne koszty
Firma przepuszczająca przez AI 100 mln tokenów/mies. (np. ~1500 maili dziennie obsługa + wewnętrzne narzędzia + analiza dokumentów). Koszt API: 30-60 tys. zł/mies. Koszt własnego serwera (2x A100 lub 1x H100): 10-15 tys. zł/mies. + jednorazowo lub leasingowo. Break-even w 6-12 miesięcy.
3. Specyfika branżowa wymagająca fine-tuningu
Branża z silnym żargonem (np. weterynaria, prawo budowlane, certyfikacja medyczna). Fine-tune Llamy/Mistrala na własnym korpusie daje wyniki lepsze niż "ogólny" Claude. Koszt fine-tune: jednorazowo 8-25 tys. zł.
Kiedy NIE hostować
- Mała skala — dla < 5 mln tokenów/mies. API jest tańsze
- Brak kompetencji w firmie — utrzymanie modelu wymaga DevOps + ML, jeśli ich nie macie, lepiej zostawić to dostawcy zewnętrznemu
- Szybko zmieniające się wymagania — własny model trzeba aktualizować, retrenować, monitorować
- Multimodalne zastosowania — open source w obrazach/audio nadal jest słabszy niż Anthropic/OpenAI
Architektura "best of both worlds"
W większości naszych wdrożeń stawiamy hybrydę:
- Bielik / Llama 3.3 on-prem — 70-80% rutynowych zapytań, dane wrażliwe
- Claude 4.7 / GPT-4 przez API — 20-30% trudnych zapytań, nie-wrażliwe
- Warstwa routera w naszej infrastrukturze — decyduje gdzie idzie zapytanie na podstawie złożoności i klasyfikacji wrażliwości
Koszt typowego wdrożenia hybrydowego
- Setup serwera GPU (zakup lub leasing): 30-80 tys. zł netto / lub 4-10 tys. zł/mies. leasing
- Setup software (Ollama, vLLM, monitorowanie, MCP serwery): 12-25 tys. zł wdrożenie
- Operacja: 3-5 tys. zł/mies. (hosting + monitoring + okazjonalny update)
- Plus koszt API dla części cloud (Claude/GPT): zależnie od wolumenu
Wniosek: open source AI w 2026 dojrzał. Pytanie nie brzmi już "czy", tylko "kiedy" i "który model". Decyzja zależy od skali, branży i kompetencji w zespole.
Robimy audyt: ile naprawdę byście zaoszczędzili przechodząc na hybrydę, ile straciliście na jakości, jakie byłyby ryzyka. Realistyczna kalkulacja w 2 tygodnie.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo