Modele

DeepSeek V3 i R1 — gdzie się sprawdzają w polskich firmach

DeepSeek V3 (grudzień 2024) i DeepSeek R1 (styczeń 2025) zrewolucjonizowały rozumienie cen w świecie LLM. R1 jako pierwszy open-weights model rozumowania na poziomie OpenAI o1. Po pół roku produkcji w trzech polskich wdrożeniach pokazujemy: gdzie DeepSeek wygrywa z Claude, gdzie nie, jakie pułapki czekają.

⏱ 9 min czytania · 📅 12.07.2025 · 👁 4 008 wyświetleń

DeepSeek V3 i R1 z przełomu 2024/2025 to modele, które obniżyły ceny rynku LLM o jeden rząd wielkości. R1 jako pierwszy open-weights reasoning model klasy o1. W RedAI używamy ich w trzech wdrożeniach produkcyjnych od marca 2025 — pokazujemy konkretne wnioski, koszty i ostrzeżenia.

Czym są DeepSeek V3 i R1

  • DeepSeek V3 (grudzień 2024) — 671B parametrów MoE (Mixture of Experts), w praktyce ~37B aktywnych. Klasa gpt-4o po znacznie niższej cenie.
  • DeepSeek R1 (styczeń 2025) — reasoning model, ekwiwalent o1 i Claude Opus 4 w wybranych zadaniach. Open weights (MIT licence).
  • Cena API DeepSeek: V3 — 0,27 USD input / 1,10 USD output / 1M tokenów. R1 — 0,55 USD / 2,19 USD.

Dla porównania: Claude Sonnet 4 to 3,00 / 15,00 USD. DeepSeek jest 5-10× tańszy. Pytanie: czy jakość wystarcza.

Trzy wdrożenia produkcyjne

Wdrożenie 1: klasyfikacja maili w firmie logistycznej (45 osób)

Ruch: ~2 800 maili dziennie. Klasyfikacja: pilne / standard / spam / wymaga uwagi.

ModelTrafność (test 500 maili)Koszt dziennieKoszt mies.
Claude Sonnet 497,2%42 zł924 zł
DeepSeek V395,8%4,80 zł106 zł
Bielik 2 11B (lokalnie)93,4%~3 zł (prąd)~66 zł

Wybór: DeepSeek V3. Powód: różnica jakości 1,4 punkta procentowego nie uzasadnia 8-krotnej różnicy w cenie. Wybór klienta po pełnej prezentacji opcji.

Wdrożenie 2: analiza umów handlowych (firma produkcyjna)

Tu testowaliśmy DeepSeek R1 vs Claude Opus 4. Zadanie: wykrywanie odbiegających klauzul w 40-stronicowych kontraktach.

  • Claude Opus 4: 14/14 odbiegających klauzul znalezione, 0 false positive
  • DeepSeek R1: 12/14 znalezione, 2 false positive

Mimo niższego kosztu zostaliśmy przy Opus 4. Powód: w pracy z umowami każdy missed clause to potencjalna strata 10-100 tys. zł, a koszt API Claude'a (~310 zł/mies.) jest marginalny względem stawki ryzyka. Cena nie jest jedynym kryterium.

Wdrożenie 3: code review w naszym zespole

4 osoby, ~280 PR'ów miesięcznie, AI robi pierwsze review przed człowiekiem.

  • Claude Sonnet 4: średnia ocena PR review (4 senior devów): 4,3/5
  • DeepSeek V3: 3,9/5
  • GPT-5: 4,1/5

Tu zostaliśmy przy Sonnet 4. Różnica jakościowa odczuwalna, koszt na tej skali (~290 zł/mies.) nie ma znaczenia.

Pułapki, na które uważamy

1. Gdzie fizycznie idą dane

DeepSeek API hostowane jest w Chinach. Dla 99% naszych klientów to deal-breaker — RODO + wrażliwość danych nie pozwalają na transfer do Chin. Rozwiązanie: DeepSeek V3/R1 self-hosted w infrastrukturze klienta (model jest open-weights). Wymaga GPU (V3 — 8× H100 lub odpowiednik, R1 — podobnie), więc to inwestycja 200+ tys. zł.

2. Polszczyzna

DeepSeek V3 dobrze rozumie polski w klasyfikacji i ekstrakcji. W generowaniu treści wypada gorzej niż Claude — częstsze kalki, sztywniejszy styl. Do BOK lub copy marketingowego nie polecamy.

3. Brak DPA w klasycznym rozumieniu

DeepSeek nie ma DPA podpisywalnego elektronicznie jak Anthropic czy OpenAI. To formalna przeszkoda dla RODO. Dla zastosowań z danymi osobowymi rekomendujemy unikać API, używać self-hosted.

4. Zmiany warunków

DeepSeek w 2025 kilka razy zmienił ceny i limity API. To znak młodego ekosystemu — planując długoterminowo lepiej polegać na bardziej stabilnych dostawcach.

Kiedy warto rozważyć DeepSeek

  1. Masowa klasyfikacja prostych przypadków bez danych wrażliwych — V3 oferuje znakomity stosunek jakości do ceny.
  2. Setup self-hosted z dużą skalą (>5M zapytań miesięcznie) — model open weights, w Waszej infrastrukturze, brak ograniczeń.
  3. Eksperymenty i prototypy — niska cena pozwala szybko testować pomysły bez angażowania dużego budżetu.

Kiedy NIE warto

  1. Dane wrażliwe / klientów + brak self-hosted
  2. Generowanie treści po polsku (lepsze Claude / Bielik)
  3. Zadania, gdzie missed case ma realny koszt biznesowy
  4. Małe wdrożenia (<300 zapytań/dzień) — oszczędność marginalna, ryzyko regulacyjne za duże

Co dalej

DeepSeek prawdopodobnie pokaże R2 lub V4 jesienią 2025 lub wiosną 2026. To są szybko rozwijający się gracze, ale ekosystem regulacyjny (RODO, AI Act) nie nadąża za nimi. W RedAI obserwujemy bacznie, używamy w wybranych przypadkach, ale nie polecamy jako głównego dostawcy dla typowej polskiej firmy.

Pełen raport z 3 wdrożeń (z liczbami i porównaniami) udostępniamy klientom. Jeśli macie zadanie dużej skali i myślicie o DeepSeek — porozmawiajmy o setupie self-hosted.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.