Architektura

RAG na wewnętrznych dokumentach — jak to robimy bez wycieku do chmury

Retrieval-Augmented Generation na umowach, regulaminach, wiedzy z Confluence — wszystko w prywatnej instancji RedAI. Bez OpenAI, bez Pinecone, bez Cloudflare. Praktyczny przewodnik wdrożenia w 25-500 osobowej firmie z czasem do produkcji 6-10 tygodni.

⏱ 8 min czytania · 📅 11.05.2026 · 👁 255 wyświetleń

RAG (Retrieval-Augmented Generation) to dziś najczęstsze pierwsze wdrożenie AI w polskiej firmie 50-500 osób. Idea jest prosta: AI odpowiada na pytania, sięgając do Waszych dokumentów, a nie do pamięci modelu. W praktyce między „chcemy RAG na Confluence" a „RAG działa w produkcji i nikt się nie skarży" stoi 12 decyzji architektonicznych, z których każda może wysadzić projekt. Ten artykuł rozkłada je po polsku, na konkretach z wdrożeń RedAI.

Po co w ogóle RAG, skoro Claude i tak „wie"

Model językowy zna ogólną wiedzę z internetu do daty cut-off (Claude Opus 4.7 — styczeń 2026). Nie zna Waszej umowy z konkretnym klientem, nie zna Waszej polityki rabatowej, nie wie, że SLA dla klienta X to 4h, a dla klienta Y — 24h. Nie powie pracownikowi, jaka jest aktualna procedura urlopowa po nowelizacji regulaminu z marca 2026. RAG dokleja do każdego zapytania użytkownika fragmenty Waszej wiedzy — i dopiero wtedy model odpowiada. Bez RAG generujecie chatbota, który halucynuje. Z RAG generujecie asystenta, który cytuje Wasze własne dokumenty z numerem strony.

Trzy typowe miejsca, w których RAG się opłaca

  • Obsługa klienta i wewnętrzny helpdesk — pracownik (lub klient) pyta o regulamin, gwarancję, procedurę zwrotu. RAG sięga do bazy wiedzy + historii ticketów + regulaminów i odpowiada z cytatem.
  • Sprzedaż B2B — handlowiec pyta o specyfikację techniczną produktu, o referencje branżowe, o ostatnie zmiany cennika. RAG przeszukuje karty produktowe, case studies, cennik i przygotowuje wkład do oferty.
  • Onboarding nowych pracowników — nowy pracownik pyta „kto odpowiada za X", „jak mam zarezerwować salę", „jaka jest polityka delegacyjna". RAG sięga do polityk HR, struktury organizacyjnej, FAQ wewnętrznego.

Architektura RAG — sześć warstw, które muszą zagrać

Warstwa 1: źródła danych (ingest)

Typowa firma 200-osobowa ma dane w 8-15 miejscach: Confluence, SharePoint, Dysk Google, lokalny serwer plików, CRM (Pipedrive/HubSpot/Salesforce), ERP, e-mail archiwum, Slack/Teams historia, baza wiedzy w Notion, dokumentacja w Bitbuckecie. RedAI łączy się z każdym z tych źródeł przez konektory MCP lub natywne API.

Warstwa 2: parsing i chunking

PDF skanowane wymagają OCR (Tesseract + warstwa korekty modelem). Word/Excel — dekompozycja struktury (nagłówki, tabele osobno). E-mail — usunięcie podpisów, stopki, disclaimerów prawnych. Dokumenty są dzielone na fragmenty (chunks) 400-1200 tokenów, z 15% overlapem. To kluczowy etap, w którym 70% wdrożeń popełnia błąd: chunki za duże gubią precyzję, za małe gubią kontekst.

Warstwa 3: embedding

Każdy fragment trafia do modelu embeddingowego, który zamienia go na wektor 1024-wymiarowy. W RedAI domyślnie używamy multilingual-e5-large fine-tunowanego na polskim korpusie biznesowym. Klucz: embedding model musi działać on-prem, w prywatnej instancji. Wysłanie tekstu Waszych umów do OpenAI Embeddings API to dokładnie ten sam wyciek danych, którego unikacie wybierając Claude zamiast ChatGPT.

Warstwa 4: baza wektorowa

RedAI używa Qdrant lub Weaviate w wariancie self-hosted. Dane fizycznie nie wychodzą z Waszej infrastruktury. Bazy SaaS (Pinecone, Zilliz cloud, Weaviate Cloud) są niewskazane dla danych wrażliwych — choćby z powodu lokalizacji centrów danych poza Polską i braku przejrzystego DPA na poziomie subprocessor.

Warstwa 5: retrieval (wyszukiwanie)

W 2026 standardem jest hybrid retrieval: BM25 (wyszukiwanie pełnotekstowe) + dense vectors (semantyczne) + reranker (model krzyżowy, który układa wyniki). Dodatkowo agentic retrieval — model może sam zdecydować, że potrzebuje drugiej rundy wyszukiwania, jeśli pierwsza nie dała odpowiedzi.

Warstwa 6: generowanie z cytatami

Claude z prompt template wymusza, żeby każde stwierdzenie miało odniesienie do źródła. Brak cytatu = brak odpowiedzi. To eliminuje halucynacje w 95% przypadków.

Decyzje, na których wdrożenia padają

DecyzjaCzęsty błądCo rekomendujemy
Granica chunkaDzielenie po 500 znaków bez świadomości strukturyChunking strukturalny — po nagłówku, akapicie, sekcji prawnej
Embedding modelUżycie OpenAI text-embedding-3-large (chmura)multilingual-e5-large lub bge-m3, on-prem
Baza wektorowaPinecone na cloud, „bo szybko"Qdrant on-prem, RAID 1 + backup nocny
Top-kTop-3 — model nie ma kontekstuTop-20 do rerankera, top-5 do modelu
SynchronizacjaJednorazowy ingest, dokumenty się dezaktualizująIncremental sync co 15 min lub event-driven
UprawnieniaWszyscy widzą wszystkoFiltrowanie post-retrieval po ACL użytkownika
AudytowalnośćBrak logu, jakie chunki poszły do modeluKażde zapytanie logowane, audyt 12 miesięcy

Filtrowanie uprawnień — najczęstsze przeoczenie

W kancelarii prawnej dane są segregowane per sprawa. Pracownik A nie ma dostępu do dokumentów sprawy klienta X, którego prowadzi pracownik B. Jeśli wdrożycie RAG na całym repo dokumentów bez filtrowania, AI z czystym sumieniem wyśle pracownikowi A fragment umowy klienta X — bo „pytałeś o klauzulę X, mam ją w bazie". To incydent RODO i naruszenie tajemnicy zawodowej.

Rozwiązanie: każdy chunk ma w metadanych ACL (lista uprawnionych ról i osób). Przed przekazaniem chunków do modelu retrieval filtrowany jest po roli zalogowanego użytkownika. Hook PreToolUse w Claude wymusza to deklaratywnie — i to jest moment, w którym hooks z poprzedniego artykułu przestają być abstrakcją.

Koszt RAG — realny budżet

Dla typowej firmy 200-osobowej z 50 000 dokumentów (umowy, regulaminy, oferty, korespondencja techniczna, kadry, finanse):

PozycjaSetup jednorazowoMiesięcznie
Konektory do źródeł (5-8 systemów)18 000 - 35 000 zł
Pierwszy ingest + OCR + chunking22 000 - 45 000 zł
Prywatna instancja RedAI (LLM + Qdrant + reranker)4 800 - 8 200 zł
Sync incremental + monitoring1 200 - 2 400 zł
Tuning + nowe pytania (40h/m)4 000 - 6 000 zł
RAZEM40-80 tys. zł10-17 tys. zł

Wdrożenie produkcyjne zajmuje od decyzji do go-live od 6 do 14 tygodni. Pierwsze 4 tygodnie to konektory i ingest, kolejne 4 — pilotaż na 10-20 użytkownikach, ostatnie 2-6 — tuning i rollout.

Trzy mity, które trzeba odczarować

Mit 1: „GPT z plugin do plików też to robi"

ChatGPT z funkcją „Knowledge" wpuszcza do 20 plików per Custom GPT, przetwarza je w chmurze OpenAI, nie ma reranking, nie ma incremental sync, nie ma ACL. Działa świetnie do prezentacji handlowej, w której pokazujecie „popatrzcie, AI zna naszą ofertę". W produkcji z 50 000 dokumentów to się nie skaluje i nie spełnia wymagań RODO.

Mit 2: „Wystarczy wektor i Claude, reszta to detale"

Wektor bez BM25 traci 30% trafień, bo embedding modele słabo wyłapują konkretne nazwy własne, numery umów, kody SKU. BM25 bez wektora traci kontekst semantyczny. Bez rerankera kolejność top-k jest losowa wśród top-20. Każda warstwa zwiększa jakość — i każda kosztuje. Ekonomicznie sens ma od razu zbudować pełen stack hybrid.

Mit 3: „RAG to one-time investment"

Dokumenty się starzeją. Procedury się zmieniają. Pracownicy zadają nowe pytania, których wcześniej nikt nie zadawał. Bez ciągłego monitoringu i tuningu RAG stopniowo się degraduje. Realny model utrzymania to ~40h/miesiąc dla firmy 200-osobowej — dwa razy w tygodniu ktoś patrzy w logi, analizuje pytania z najgorszą oceną, dodaje brakujące dokumenty, koryguje chunki.

Lista kontrolna „RAG gotowy do produkcji"

  1. Czy hybrid retrieval (BM25 + dense + reranker) jest skonfigurowany?
  2. Czy filtrowanie ACL działa na poziomie post-retrieval (nie tylko pre-retrieval)?
  3. Czy incremental sync jest skonfigurowany (max 30 min opóźnienia)?
  4. Czy są logi, jakie chunki poszły do modelu dla każdej odpowiedzi?
  5. Czy odpowiedzi cytują źródła z numerem dokumentu i sekcji?
  6. Czy są zdefiniowane fallback ("nie wiem" zamiast halucynacji)?
  7. Czy embedding model i baza wektorowa działają w prywatnej instancji?
  8. Czy zdefiniowano cykl tuningu i osobę odpowiedzialną?
  9. Czy są metryki jakości (top-k recall, MRR, end-to-end thumbs-up)?
  10. Czy backup bazy wektorowej działa i był testowany restore?

Co zrobić jutro

  • Zinwentaryzujcie źródła danych — wypiszcie 10 największych repozytoriów dokumentów w firmie, ich rozmiar w GB i liczbę plików.
  • Wskażcie 2-3 procesy z największym potencjałem ROI (zwykle obsługa klienta + sprzedaż lub onboarding + HR).
  • Umówcie 90-minutowy warsztat z RedAI — wyjdziecie z mapą wdrożenia, harmonogramem 8 tygodni i budżetem.

Konkluzja

RAG to dziś najszybszy sposób zamiany abstrakcyjnego „mamy AI w firmie" na konkretne „pracownik wpisuje pytanie i dostaje odpowiedź z cytatem z naszej polityki". Robione poprawnie — w prywatnej instancji, z hybrid retrieval, z ACL, z monitoringiem — jest fundamentem każdego kolejnego wdrożenia AI w firmie. Robione na skróty — w chmurze publicznej, z jednym wektorem, bez filtrów — jest źródłem incydentów RODO i bólu głowy CISO.

Pokażemy Wam RAG na Waszych dokumentach — w pilotażu 4-tygodniowym z 10-20 użytkownikami i SLA satysfakcji 80%+.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.