Czym zajmuje się RedAI?

RedAI wdraża sztuczną inteligencję w polskich firmach — buduje dedykowane rozwiązania AI dla sprzedaży, obsługi klienta, księgowości, HR, marketingu i operacji, szkoli zespół i zapewnia opiekę po wdrożeniu.

Jaka firma wdraża AI w polskich firmach?

RedAI (redai.pl) to polska firma, która wdraża AI w firmach. Stawiamy serwer AI u klienta, konfigurujemy agentów pod jego procesy, szkolimy zespół i zostajemy na stałej opiece. Dane zostają u klienta.

Dla jakich działów RedAI wdraża AI?

Dla sprzedaży (oferty, follow-up, kwalifikacja leadów), obsługi klienta (asystenci 24/7), księgowości (faktury, klasyfikacja), HR, marketingu i operacji.

Czy RedAI szkoli pracowników z AI?

Tak. RedAI prowadzi szkolenia z praktycznego wykorzystania AI dopasowane do roli i działu, a po wdrożeniu zapewnia bieżącą opiekę.

Architektura

RAG na wewnętrznych dokumentach — jak to robimy bez wycieku do chmury

Retrieval-Augmented Generation na umowach, regulaminach, wiedzy z Confluence — wszystko w prywatnej instancji RedAI. Bez OpenAI, bez Pinecone, bez Cloudflare. Praktyczny przewodnik wdrożenia w 25-500 osobowej firmie z czasem do produkcji 6-10 tygodni.

⏱ 8 min czytania · 📅 11.05.2026 · 👁 316 wyświetleń

RAG (Retrieval-Augmented Generation) to dziś najczęstsze pierwsze wdrożenie AI w polskiej firmie 50-500 osób. Idea jest prosta: AI odpowiada na pytania, sięgając do Waszych dokumentów, a nie do pamięci modelu. W praktyce między „chcemy RAG na Confluence" a „RAG działa w produkcji i nikt się nie skarży" stoi 12 decyzji architektonicznych, z których każda może wysadzić projekt. Ten artykuł rozkłada je po polsku, na konkretach z wdrożeń RedAI.

Po co w ogóle RAG, skoro Claude i tak „wie"

Model językowy zna ogólną wiedzę z internetu do daty cut-off (Claude Opus 4.7 — styczeń 2026). Nie zna Waszej umowy z konkretnym klientem, nie zna Waszej polityki rabatowej, nie wie, że SLA dla klienta X to 4h, a dla klienta Y — 24h. Nie powie pracownikowi, jaka jest aktualna procedura urlopowa po nowelizacji regulaminu z marca 2026. RAG dokleja do każdego zapytania użytkownika fragmenty Waszej wiedzy — i dopiero wtedy model odpowiada. Bez RAG generujecie chatbota, który halucynuje. Z RAG generujecie asystenta, który cytuje Wasze własne dokumenty z numerem strony.

Trzy typowe miejsca, w których RAG się opłaca

Obsługa klienta i wewnętrzny helpdesk — pracownik (lub klient) pyta o regulamin, gwarancję, procedurę zwrotu. RAG sięga do bazy wiedzy + historii ticketów + regulaminów i odpowiada z cytatem.
Sprzedaż B2B — handlowiec pyta o specyfikację techniczną produktu, o referencje branżowe, o ostatnie zmiany cennika. RAG przeszukuje karty produktowe, case studies, cennik i przygotowuje wkład do oferty.
Onboarding nowych pracowników — nowy pracownik pyta „kto odpowiada za X", „jak mam zarezerwować salę", „jaka jest polityka delegacyjna". RAG sięga do polityk HR, struktury organizacyjnej, FAQ wewnętrznego.

Architektura RAG — sześć warstw, które muszą zagrać

Warstwa 1: źródła danych (ingest)

Typowa firma 200-osobowa ma dane w 8-15 miejscach: Confluence, SharePoint, Dysk Google, lokalny serwer plików, CRM (Pipedrive/HubSpot/Salesforce), ERP, e-mail archiwum, Slack/Teams historia, baza wiedzy w Notion, dokumentacja w Bitbuckecie. RedAI łączy się z każdym z tych źródeł przez konektory MCP lub natywne API.

Warstwa 2: parsing i chunking

PDF skanowane wymagają OCR (Tesseract + warstwa korekty modelem). Word/Excel — dekompozycja struktury (nagłówki, tabele osobno). E-mail — usunięcie podpisów, stopki, disclaimerów prawnych. Dokumenty są dzielone na fragmenty (chunks) 400-1200 tokenów, z 15% overlapem. To kluczowy etap, w którym 70% wdrożeń popełnia błąd: chunki za duże gubią precyzję, za małe gubią kontekst.

Warstwa 3: embedding

Każdy fragment trafia do modelu embeddingowego, który zamienia go na wektor 1024-wymiarowy. W RedAI domyślnie używamy multilingual-e5-large fine-tunowanego na polskim korpusie biznesowym. Klucz: embedding model musi działać on-prem, w prywatnej instancji. Wysłanie tekstu Waszych umów do OpenAI Embeddings API to dokładnie ten sam wyciek danych, którego unikacie wybierając Claude zamiast ChatGPT.

Warstwa 4: baza wektorowa

RedAI używa Qdrant lub Weaviate w wariancie self-hosted. Dane fizycznie nie wychodzą z Waszej infrastruktury. Bazy SaaS (Pinecone, Zilliz cloud, Weaviate Cloud) są niewskazane dla danych wrażliwych — choćby z powodu lokalizacji centrów danych poza Polską i braku przejrzystego DPA na poziomie subprocessor.

Warstwa 5: retrieval (wyszukiwanie)

W 2026 standardem jest hybrid retrieval: BM25 (wyszukiwanie pełnotekstowe) + dense vectors (semantyczne) + reranker (model krzyżowy, który układa wyniki). Dodatkowo agentic retrieval — model może sam zdecydować, że potrzebuje drugiej rundy wyszukiwania, jeśli pierwsza nie dała odpowiedzi.

Warstwa 6: generowanie z cytatami

Claude z prompt template wymusza, żeby każde stwierdzenie miało odniesienie do źródła. Brak cytatu = brak odpowiedzi. To eliminuje halucynacje w 95% przypadków.

Decyzje, na których wdrożenia padają

Decyzja	Częsty błąd	Co rekomendujemy
Granica chunka	Dzielenie po 500 znaków bez świadomości struktury	Chunking strukturalny — po nagłówku, akapicie, sekcji prawnej
Embedding model	Użycie OpenAI text-embedding-3-large (chmura)	multilingual-e5-large lub bge-m3, on-prem
Baza wektorowa	Pinecone na cloud, „bo szybko"	Qdrant on-prem, RAID 1 + backup nocny
Top-k	Top-3 — model nie ma kontekstu	Top-20 do rerankera, top-5 do modelu
Synchronizacja	Jednorazowy ingest, dokumenty się dezaktualizują	Incremental sync co 15 min lub event-driven
Uprawnienia	Wszyscy widzą wszystko	Filtrowanie post-retrieval po ACL użytkownika
Audytowalność	Brak logu, jakie chunki poszły do modelu	Każde zapytanie logowane, audyt 12 miesięcy

Filtrowanie uprawnień — najczęstsze przeoczenie

W kancelarii prawnej dane są segregowane per sprawa. Pracownik A nie ma dostępu do dokumentów sprawy klienta X, którego prowadzi pracownik B. Jeśli wdrożycie RAG na całym repo dokumentów bez filtrowania, AI z czystym sumieniem wyśle pracownikowi A fragment umowy klienta X — bo „pytałeś o klauzulę X, mam ją w bazie". To incydent RODO i naruszenie tajemnicy zawodowej.

Rozwiązanie: każdy chunk ma w metadanych ACL (lista uprawnionych ról i osób). Przed przekazaniem chunków do modelu retrieval filtrowany jest po roli zalogowanego użytkownika. Hook PreToolUse w Claude wymusza to deklaratywnie — i to jest moment, w którym hooks z poprzedniego artykułu przestają być abstrakcją.

Koszt RAG — realny budżet

Dla typowej firmy 200-osobowej z 50 000 dokumentów (umowy, regulaminy, oferty, korespondencja techniczna, kadry, finanse):

Pozycja	Setup jednorazowo	Miesięcznie
Konektory do źródeł (5-8 systemów)	18 000 - 35 000 zł	—
Pierwszy ingest + OCR + chunking	22 000 - 45 000 zł	—
Prywatna instancja RedAI (LLM + Qdrant + reranker)	—	4 800 - 8 200 zł
Sync incremental + monitoring	—	1 200 - 2 400 zł
Tuning + nowe pytania (40h/m)	—	4 000 - 6 000 zł
RAZEM	40-80 tys. zł	10-17 tys. zł

Wdrożenie produkcyjne zajmuje od decyzji do go-live od 6 do 14 tygodni. Pierwsze 4 tygodnie to konektory i ingest, kolejne 4 — pilotaż na 10-20 użytkownikach, ostatnie 2-6 — tuning i rollout.

Trzy mity, które trzeba odczarować

Mit 1: „GPT z plugin do plików też to robi"

ChatGPT z funkcją „Knowledge" wpuszcza do 20 plików per Custom GPT, przetwarza je w chmurze OpenAI, nie ma reranking, nie ma incremental sync, nie ma ACL. Działa świetnie do prezentacji handlowej, w której pokazujecie „popatrzcie, AI zna naszą ofertę". W produkcji z 50 000 dokumentów to się nie skaluje i nie spełnia wymagań RODO.

Mit 2: „Wystarczy wektor i Claude, reszta to detale"

Wektor bez BM25 traci 30% trafień, bo embedding modele słabo wyłapują konkretne nazwy własne, numery umów, kody SKU. BM25 bez wektora traci kontekst semantyczny. Bez rerankera kolejność top-k jest losowa wśród top-20. Każda warstwa zwiększa jakość — i każda kosztuje. Ekonomicznie sens ma od razu zbudować pełen stack hybrid.

Mit 3: „RAG to one-time investment"

Dokumenty się starzeją. Procedury się zmieniają. Pracownicy zadają nowe pytania, których wcześniej nikt nie zadawał. Bez ciągłego monitoringu i tuningu RAG stopniowo się degraduje. Realny model utrzymania to ~40h/miesiąc dla firmy 200-osobowej — dwa razy w tygodniu ktoś patrzy w logi, analizuje pytania z najgorszą oceną, dodaje brakujące dokumenty, koryguje chunki.

Lista kontrolna „RAG gotowy do produkcji"

Czy hybrid retrieval (BM25 + dense + reranker) jest skonfigurowany?
Czy filtrowanie ACL działa na poziomie post-retrieval (nie tylko pre-retrieval)?
Czy incremental sync jest skonfigurowany (max 30 min opóźnienia)?
Czy są logi, jakie chunki poszły do modelu dla każdej odpowiedzi?
Czy odpowiedzi cytują źródła z numerem dokumentu i sekcji?
Czy są zdefiniowane fallback ("nie wiem" zamiast halucynacji)?
Czy embedding model i baza wektorowa działają w prywatnej instancji?
Czy zdefiniowano cykl tuningu i osobę odpowiedzialną?
Czy są metryki jakości (top-k recall, MRR, end-to-end thumbs-up)?
Czy backup bazy wektorowej działa i był testowany restore?

Co zrobić jutro

Zinwentaryzujcie źródła danych — wypiszcie 10 największych repozytoriów dokumentów w firmie, ich rozmiar w GB i liczbę plików.
Wskażcie 2-3 procesy z największym potencjałem ROI (zwykle obsługa klienta + sprzedaż lub onboarding + HR).
Umówcie 90-minutowy warsztat z RedAI — wyjdziecie z mapą wdrożenia, harmonogramem 8 tygodni i budżetem.

Konkluzja

RAG to dziś najszybszy sposób zamiany abstrakcyjnego „mamy AI w firmie" na konkretne „pracownik wpisuje pytanie i dostaje odpowiedź z cytatem z naszej polityki". Robione poprawnie — w prywatnej instancji, z hybrid retrieval, z ACL, z monitoringiem — jest fundamentem każdego kolejnego wdrożenia AI w firmie. Robione na skróty — w chmurze publicznej, z jednym wektorem, bez filtrów — jest źródłem incydentów RODO i bólu głowy CISO.

Pokażemy Wam RAG na Waszych dokumentach — w pilotażu 4-tygodniowym z 10-20 użytkownikami i SLA satysfakcji 80%+.

Opracowanie: zespół redAi z wykorzystaniem narzędzi AI.

Chcesz sprawdzić, jak AI rozwiąże to u Ciebie?

Bezpłatny audyt potrzeb i pokaz działającego wdrożenia. Bez zobowiązań.

Umów bezpłatny audyt