DeepSeek R2 — zapowiedzi i przecieki, co wiemy w lutym 2026
DeepSeek zapowiedział wydanie R2 na marzec 2026 — następcę modelu R1, który w 2025 zmienił rynek kosztów inferencji. Zbieramy w jednym miejscu: oficjalne zapowiedzi, przecieki z chińskich forów, testy wczesnych checkpointów oraz nasze przewidywania dla polskich firm. Co warto wstrzymać, a co już wdrażać.
DeepSeek-R1 z stycznia 2025 zmienił globalny rynek kosztów inferencji — ceny output spadły 10-krotnie. R2 ma być wydany w marcu 2026 i znów się sporo dyskutuje, czy zachwieje rynkiem. Zbieramy w jednym miejscu, co wiemy w lutym, i co to znaczy dla polskich zespołów planujących wdrożenia.
Co oficjalnie wiemy
DeepSeek 27 stycznia 2026 opublikował krótki post na X potwierdzający premierę R2 „w marcu, przed Light Day" (chińskie święto programistów 24 marca). Brak konkretnej daty, ceny ani benchmarków. Główne obietnice według CEO Liang Wenfenga:
- Wyraźny skok jakości w rozumowaniu wieloetapowym (powyżej R1 o 15-25 pp na MATH/GSM8K).
- Lepsze radzenie sobie z językami innymi niż angielski i chiński (w tym polskim — co potwierdza obecność polskich tokenizerów w repo eksperymentalnym).
- Cena utrzymana na poziomie R1 lub niższa.
- Wersja distilled (małe modele dla konsumenckiego sprzętu) — 7B, 14B, 32B.
Co spekulujemy z przecieków
Z benchmarków publikowanych przez niezależnych testerów (m.in. lmsys arena) wynika, że wczesny checkpoint R2 osiąga wynik tuż poniżej Claude Opus 4.6 w zadaniach „reasoning intensive". To znaczyłoby najlepszy open-source model rozumowy do tej pory.
Co to znaczy dla polskich firm
Scenariusz 1 — wdrażacie nową aplikację AI
Jeśli planujecie start produkcyjny w marcu/kwietniu — rozważcie poczekanie 4-6 tygodni. Różnica „R1 vs R2" może być na tyle istotna, że migracja po 2 miesiącach kosztuje więcej niż opóźnienie.
Scenariusz 2 — macie wdrożenie na Claude'a/GPT
R2 raczej nie zmieni Waszego planu w pierwszym kwartale. Wartością byłoby przeniesienie wysokowolumenowych zadań rozumowych na tańszy R2, jeśli benchmarki potwierdzą się na polskich danych. To zwykle planowanie na II połowę roku.
Scenariusz 3 — sektor wrażliwy (medycyna, prawo, public)
R2 jako open-source w prywatnej instancji może być atrakcyjny tam, gdzie nie wolno wysyłać danych poza firmę. Czekamy na licencję — R1 był „MIT" (komercyjne wykorzystanie OK), oczekujemy podobnego podejścia.
Co warto przygotować już teraz
- Benchmark własny — zbierzcie 50-100 reprezentatywnych przykładów z Waszej domeny z „złotymi" odpowiedziami. Po premierze R2 puścicie test w 2 dni.
- Warstwę abstrakcji nad providerem — jeśli macie kod twardo wpięty w API Anthropica/OpenAI, dodajcie warstwę adaptera. Migracja będzie wtedy zmianą konfiguracji, nie kodu.
- Infrastrukturę dla open-source — wersje distilled R2 (7B-32B) zmieszczą się na pojedynczym GPU 24 GB. Jeśli go nie macie, zaplanujcie.
| Wymiar | R1 (2025) | R2 (oczek.) |
|---|---|---|
| Cena input | 0,55 USD/M | ~0,40 USD/M |
| Cena output | 2,19 USD/M | ~1,80 USD/M |
| MATH benchmark | 82% | ~94% |
| Polski (proxy MMLU-PL) | 71% | ~81% |
| Wersje distilled | 7B, 14B, 70B | 7B, 14B, 32B |
Czego nie wiemy
Nie wiemy: czy R2 będzie miał MoE jak R1, jaki będzie context window (R1 miał 64k), jaki będzie czas inferencji w trybie thinking, czy są regionalne restrykcje na API. Wszystko to ujawni się w pierwszym tygodniu po premierze.
Nasze plany w RedAI
Mamy gotowe stanowisko testowe — 2× RTX 6000 Ada (96 GB VRAM). W pierwszym tygodniu po wydaniu R2 puścimy nasz polski benchmark (220 zadań z 8 kategorii) i opublikujemy wyniki publicznie. Jeśli chcecie być w grupie pierwszych otrzymujących raport — zapiszcie się do newslettera.
Pomożemy też zaprojektować strategię migracji — napiszcie.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo