RAG na wewnętrznych dokumentach — jak to robimy bez wycieku do chmury
Retrieval-Augmented Generation na umowach, regulaminach, wiedzy z Confluence — wszystko w prywatnej instancji RedAI. Bez OpenAI, bez Pinecone, bez Cloudflare. Praktyczny przewodnik wdrożenia w 25-500 osobowej firmie z czasem do produkcji 6-10 tygodni.
RAG (Retrieval-Augmented Generation) to dziś najczęstsze pierwsze wdrożenie AI w polskiej firmie 50-500 osób. Idea jest prosta: AI odpowiada na pytania, sięgając do Waszych dokumentów, a nie do pamięci modelu. W praktyce między „chcemy RAG na Confluence" a „RAG działa w produkcji i nikt się nie skarży" stoi 12 decyzji architektonicznych, z których każda może wysadzić projekt. Ten artykuł rozkłada je po polsku, na konkretach z wdrożeń RedAI.
Po co w ogóle RAG, skoro Claude i tak „wie"
Model językowy zna ogólną wiedzę z internetu do daty cut-off (Claude Opus 4.7 — styczeń 2026). Nie zna Waszej umowy z konkretnym klientem, nie zna Waszej polityki rabatowej, nie wie, że SLA dla klienta X to 4h, a dla klienta Y — 24h. Nie powie pracownikowi, jaka jest aktualna procedura urlopowa po nowelizacji regulaminu z marca 2026. RAG dokleja do każdego zapytania użytkownika fragmenty Waszej wiedzy — i dopiero wtedy model odpowiada. Bez RAG generujecie chatbota, który halucynuje. Z RAG generujecie asystenta, który cytuje Wasze własne dokumenty z numerem strony.
Trzy typowe miejsca, w których RAG się opłaca
- Obsługa klienta i wewnętrzny helpdesk — pracownik (lub klient) pyta o regulamin, gwarancję, procedurę zwrotu. RAG sięga do bazy wiedzy + historii ticketów + regulaminów i odpowiada z cytatem.
- Sprzedaż B2B — handlowiec pyta o specyfikację techniczną produktu, o referencje branżowe, o ostatnie zmiany cennika. RAG przeszukuje karty produktowe, case studies, cennik i przygotowuje wkład do oferty.
- Onboarding nowych pracowników — nowy pracownik pyta „kto odpowiada za X", „jak mam zarezerwować salę", „jaka jest polityka delegacyjna". RAG sięga do polityk HR, struktury organizacyjnej, FAQ wewnętrznego.
Architektura RAG — sześć warstw, które muszą zagrać
Warstwa 1: źródła danych (ingest)
Typowa firma 200-osobowa ma dane w 8-15 miejscach: Confluence, SharePoint, Dysk Google, lokalny serwer plików, CRM (Pipedrive/HubSpot/Salesforce), ERP, e-mail archiwum, Slack/Teams historia, baza wiedzy w Notion, dokumentacja w Bitbuckecie. RedAI łączy się z każdym z tych źródeł przez konektory MCP lub natywne API.
Warstwa 2: parsing i chunking
PDF skanowane wymagają OCR (Tesseract + warstwa korekty modelem). Word/Excel — dekompozycja struktury (nagłówki, tabele osobno). E-mail — usunięcie podpisów, stopki, disclaimerów prawnych. Dokumenty są dzielone na fragmenty (chunks) 400-1200 tokenów, z 15% overlapem. To kluczowy etap, w którym 70% wdrożeń popełnia błąd: chunki za duże gubią precyzję, za małe gubią kontekst.
Warstwa 3: embedding
Każdy fragment trafia do modelu embeddingowego, który zamienia go na wektor 1024-wymiarowy. W RedAI domyślnie używamy multilingual-e5-large fine-tunowanego na polskim korpusie biznesowym. Klucz: embedding model musi działać on-prem, w prywatnej instancji. Wysłanie tekstu Waszych umów do OpenAI Embeddings API to dokładnie ten sam wyciek danych, którego unikacie wybierając Claude zamiast ChatGPT.
Warstwa 4: baza wektorowa
RedAI używa Qdrant lub Weaviate w wariancie self-hosted. Dane fizycznie nie wychodzą z Waszej infrastruktury. Bazy SaaS (Pinecone, Zilliz cloud, Weaviate Cloud) są niewskazane dla danych wrażliwych — choćby z powodu lokalizacji centrów danych poza Polską i braku przejrzystego DPA na poziomie subprocessor.
Warstwa 5: retrieval (wyszukiwanie)
W 2026 standardem jest hybrid retrieval: BM25 (wyszukiwanie pełnotekstowe) + dense vectors (semantyczne) + reranker (model krzyżowy, który układa wyniki). Dodatkowo agentic retrieval — model może sam zdecydować, że potrzebuje drugiej rundy wyszukiwania, jeśli pierwsza nie dała odpowiedzi.
Warstwa 6: generowanie z cytatami
Claude z prompt template wymusza, żeby każde stwierdzenie miało odniesienie do źródła. Brak cytatu = brak odpowiedzi. To eliminuje halucynacje w 95% przypadków.
Decyzje, na których wdrożenia padają
| Decyzja | Częsty błąd | Co rekomendujemy |
|---|---|---|
| Granica chunka | Dzielenie po 500 znaków bez świadomości struktury | Chunking strukturalny — po nagłówku, akapicie, sekcji prawnej |
| Embedding model | Użycie OpenAI text-embedding-3-large (chmura) | multilingual-e5-large lub bge-m3, on-prem |
| Baza wektorowa | Pinecone na cloud, „bo szybko" | Qdrant on-prem, RAID 1 + backup nocny |
| Top-k | Top-3 — model nie ma kontekstu | Top-20 do rerankera, top-5 do modelu |
| Synchronizacja | Jednorazowy ingest, dokumenty się dezaktualizują | Incremental sync co 15 min lub event-driven |
| Uprawnienia | Wszyscy widzą wszystko | Filtrowanie post-retrieval po ACL użytkownika |
| Audytowalność | Brak logu, jakie chunki poszły do modelu | Każde zapytanie logowane, audyt 12 miesięcy |
Filtrowanie uprawnień — najczęstsze przeoczenie
W kancelarii prawnej dane są segregowane per sprawa. Pracownik A nie ma dostępu do dokumentów sprawy klienta X, którego prowadzi pracownik B. Jeśli wdrożycie RAG na całym repo dokumentów bez filtrowania, AI z czystym sumieniem wyśle pracownikowi A fragment umowy klienta X — bo „pytałeś o klauzulę X, mam ją w bazie". To incydent RODO i naruszenie tajemnicy zawodowej.
Rozwiązanie: każdy chunk ma w metadanych ACL (lista uprawnionych ról i osób). Przed przekazaniem chunków do modelu retrieval filtrowany jest po roli zalogowanego użytkownika. Hook PreToolUse w Claude wymusza to deklaratywnie — i to jest moment, w którym hooks z poprzedniego artykułu przestają być abstrakcją.
Koszt RAG — realny budżet
Dla typowej firmy 200-osobowej z 50 000 dokumentów (umowy, regulaminy, oferty, korespondencja techniczna, kadry, finanse):
| Pozycja | Setup jednorazowo | Miesięcznie |
|---|---|---|
| Konektory do źródeł (5-8 systemów) | 18 000 - 35 000 zł | — |
| Pierwszy ingest + OCR + chunking | 22 000 - 45 000 zł | — |
| Prywatna instancja RedAI (LLM + Qdrant + reranker) | — | 4 800 - 8 200 zł |
| Sync incremental + monitoring | — | 1 200 - 2 400 zł |
| Tuning + nowe pytania (40h/m) | — | 4 000 - 6 000 zł |
| RAZEM | 40-80 tys. zł | 10-17 tys. zł |
Wdrożenie produkcyjne zajmuje od decyzji do go-live od 6 do 14 tygodni. Pierwsze 4 tygodnie to konektory i ingest, kolejne 4 — pilotaż na 10-20 użytkownikach, ostatnie 2-6 — tuning i rollout.
Trzy mity, które trzeba odczarować
Mit 1: „GPT z plugin do plików też to robi"
ChatGPT z funkcją „Knowledge" wpuszcza do 20 plików per Custom GPT, przetwarza je w chmurze OpenAI, nie ma reranking, nie ma incremental sync, nie ma ACL. Działa świetnie do prezentacji handlowej, w której pokazujecie „popatrzcie, AI zna naszą ofertę". W produkcji z 50 000 dokumentów to się nie skaluje i nie spełnia wymagań RODO.
Mit 2: „Wystarczy wektor i Claude, reszta to detale"
Wektor bez BM25 traci 30% trafień, bo embedding modele słabo wyłapują konkretne nazwy własne, numery umów, kody SKU. BM25 bez wektora traci kontekst semantyczny. Bez rerankera kolejność top-k jest losowa wśród top-20. Każda warstwa zwiększa jakość — i każda kosztuje. Ekonomicznie sens ma od razu zbudować pełen stack hybrid.
Mit 3: „RAG to one-time investment"
Dokumenty się starzeją. Procedury się zmieniają. Pracownicy zadają nowe pytania, których wcześniej nikt nie zadawał. Bez ciągłego monitoringu i tuningu RAG stopniowo się degraduje. Realny model utrzymania to ~40h/miesiąc dla firmy 200-osobowej — dwa razy w tygodniu ktoś patrzy w logi, analizuje pytania z najgorszą oceną, dodaje brakujące dokumenty, koryguje chunki.
Lista kontrolna „RAG gotowy do produkcji"
- Czy hybrid retrieval (BM25 + dense + reranker) jest skonfigurowany?
- Czy filtrowanie ACL działa na poziomie post-retrieval (nie tylko pre-retrieval)?
- Czy incremental sync jest skonfigurowany (max 30 min opóźnienia)?
- Czy są logi, jakie chunki poszły do modelu dla każdej odpowiedzi?
- Czy odpowiedzi cytują źródła z numerem dokumentu i sekcji?
- Czy są zdefiniowane fallback ("nie wiem" zamiast halucynacji)?
- Czy embedding model i baza wektorowa działają w prywatnej instancji?
- Czy zdefiniowano cykl tuningu i osobę odpowiedzialną?
- Czy są metryki jakości (top-k recall, MRR, end-to-end thumbs-up)?
- Czy backup bazy wektorowej działa i był testowany restore?
Co zrobić jutro
- Zinwentaryzujcie źródła danych — wypiszcie 10 największych repozytoriów dokumentów w firmie, ich rozmiar w GB i liczbę plików.
- Wskażcie 2-3 procesy z największym potencjałem ROI (zwykle obsługa klienta + sprzedaż lub onboarding + HR).
- Umówcie 90-minutowy warsztat z RedAI — wyjdziecie z mapą wdrożenia, harmonogramem 8 tygodni i budżetem.
Konkluzja
RAG to dziś najszybszy sposób zamiany abstrakcyjnego „mamy AI w firmie" na konkretne „pracownik wpisuje pytanie i dostaje odpowiedź z cytatem z naszej polityki". Robione poprawnie — w prywatnej instancji, z hybrid retrieval, z ACL, z monitoringiem — jest fundamentem każdego kolejnego wdrożenia AI w firmie. Robione na skróty — w chmurze publicznej, z jednym wektorem, bez filtrów — jest źródłem incydentów RODO i bólu głowy CISO.
Pokażemy Wam RAG na Waszych dokumentach — w pilotażu 4-tygodniowym z 10-20 użytkownikami i SLA satysfakcji 80%+.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo