Architektura

Multimodal RAG — kiedy potrzeba, jak wdrożyć w polskiej firmie

Klasyczny RAG działa na tekście. Multimodal RAG dorzuca obrazy, tabele, wykresy, schematy. Dla firm, które mają w dokumentach więcej niż tekst, to dziś must-have. Pokazujemy, kiedy migrować z text-only, jaką architekturę wybrać, jakie modele osadzające zadziałają.

⏱ 9 min czytania · 📅 13.11.2025 · 👁 3 407 wyświetleń

Klasyczny RAG czyta tekst i wyszukuje wektorowo. Świetnie działa dla regulaminów i umów. Ale gdy klient ma dokumentację techniczną, instrukcje serwisowe, sprawozdania finansowe ze schematami, faktury z pieczątkami — text-only RAG zostawia 30-50% informacji na stole. Multimodal RAG to dziś dojrzała technika. Mamy 8 wdrożeń u polskich klientów. Ten artykuł to praktyczny przewodnik.

Co rozumiemy przez multimodal RAG

Multimodal RAG to pipeline, który: (a) parsuje dokumenty zachowując strukturę i osadzone obrazy, (b) generuje embeddingi nie tylko dla tekstu, ale też dla obrazów/wykresów, (c) przy zapytaniu szuka w obu modalnościach, (d) generuje odpowiedź z modelem multimodal (Claude vision, GPT-4o vision).

Kiedy klasyczny RAG nie wystarcza

  • Dokumentacja techniczna z schematami — diagram zawiera kluczowe info.
  • Faktury z pieczątkami / podpisami — istotne dla weryfikacji.
  • Sprawozdania finansowe — tabele i wykresy często ważniejsze od tekstu.
  • Katalogi produktowe — zdjęcia produktów dają kontekst.
  • Instrukcje serwisowe — schemat naprawy + tekst razem.
  • Akty notarialne, dokumenty urzędowe — pieczątki, podpisy.

Trzy architektury multimodal RAG

1. Caption-based (najprostsza)

Każdy obraz w dokumencie dostaje opis tekstowy (przez Claude vision albo GPT-4o). Embedding robisz na opisie. Plusy: prosta, kompatybilna ze starymi pipelines. Minusy: traci się szczegóły, opis to nie obraz.

2. Unified embedding (modele typu CLIP / SigLIP)

Tekst i obrazy w jednym przestrzeni embeddingu (np. CLIP). Wyszukiwanie zwraca top-K niezależnie od typu. Plusy: spójne wyniki. Minusy: jakość obrazu w CLIP wciąż słabsza niż dedykowanych modeli.

3. Hybrid retrieval (najlepsza dla produkcji)

Dwa indeksy (tekst, obraz), zapytanie pyta oba, fuzja wyników. Generacja przez model multimodal, który widzi i tekst, i obraz. Plusy: najwyższa jakość. Minusy: bardziej złożona infrastruktura.

ArchitekturaSetupRecall@10Koszt mies.
Caption-based2 tyg.0,82+15%
Unified CLIP3 tyg.0,84+8%
Hybrid retrieval6 tyg.0,93+34%

Praktyka: serwis maszyn przemysłowych, 22 osoby

Klient: firma serwisująca maszyny pakujące. 4 200 schematów technicznych, 18 000 instrukcji, 8 000 raportów serwisowych. Serwisanci w terenie potrzebowali asystenta: "co zrobić, gdy maszyna X-2400 pokazuje błąd E47?".

Wybór architektury

Hybrid retrieval. Tekst (Qdrant + bge-m3 embeddings), obrazy (CLIP + osobny indeks). Zapytanie idzie do obu, top-5 z każdego, model Claude Sonnet 4.5 vision generuje odpowiedź widząc i tekst, i schemat.

Wyniki

  • Czas odpowiedzi serwisanta na pytanie: 4-8 sek.
  • Trafność (czy odpowiedź pomogła): 87% (vs. 62% w text-only).
  • Średni czas naprawy w terenie: -18%.
  • Liczba "powrotów do bazy" po dodatkowe informacje: -41%.

Praktyczne wskazówki implementacji

  1. PDF parsing to nie trywialne — używaj pdfplumber + unstructured (lub natywnego Claude PDF processing). Nie samego pdftotext.
  2. Page-level chunking dla dokumentów z układem strony — strony często mają jeden temat.
  3. OCR jakości — Claude vision dla obrazów z polskimi diakrytykami bije Tesseracta o 18-22 pp.
  4. Strukturyzowane wyciąganie tabel — modele vision umieją zwrócić JSON-em.
  5. Cache aggressive — embeddingi obrazów są drogie, cache to oszczędność 60-80%.

Pułapki, które zobaczyliśmy

  • Mieszanie modeli vision w jednym pipeline — jeden vendor dla spójności.
  • Brak referencji wstecz — odpowiedź AI powinna pokazać, że bazuje na konkretnym schemacie strona X.
  • Quality of original scan — śmieciowy skan = śmieciowy embedding. Preprocessing (deskew, denoise) zwraca.
  • Koszt — multimodal RAG kosztuje 30-50% więcej niż text-only. Mierz wartość.

Multimodal RAG i polski język

Dla polskich dokumentów: Claude vision wypada najlepiej w rozumieniu polskich diakrytyków na skanach. GPT-4o vision drugi. Modele OCR-only (Tesseract, EasyOCR) — gorzej. W produkcji rekomendujemy Claude dla vision steps, lokalny model embedding (bge-m3) dla wektorów.

Kiedy NIE iść w multimodal RAG

  1. Twoje dokumenty to 95% czystego tekstu — text-only wystarczy.
  2. Budżet inny niż "premium" — multimodal 30-50% droższy.
  3. Skala bardzo mała (< 200 dokumentów) — bezpośrednie przekazanie do modelu vision tańsze niż RAG.
  4. Brak danych testowych do walidacji — multimodal trudniej zewaluować.

Podsumowanie

Multimodal RAG to nie luksus — to wymóg dla firm pracujących z dokumentacją techniczną, sprawozdaniami, katalogami. Stack jest dojrzały, koszty kontrolowalne, ROI mierzalne. Pokażemy wam PoC na 100 waszych dokumentów — w 5 dni mamy odpowiedź, czy multimodal się opłaca.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.