Multimodal RAG — kiedy potrzeba, jak wdrożyć w polskiej firmie
Klasyczny RAG działa na tekście. Multimodal RAG dorzuca obrazy, tabele, wykresy, schematy. Dla firm, które mają w dokumentach więcej niż tekst, to dziś must-have. Pokazujemy, kiedy migrować z text-only, jaką architekturę wybrać, jakie modele osadzające zadziałają.
Klasyczny RAG czyta tekst i wyszukuje wektorowo. Świetnie działa dla regulaminów i umów. Ale gdy klient ma dokumentację techniczną, instrukcje serwisowe, sprawozdania finansowe ze schematami, faktury z pieczątkami — text-only RAG zostawia 30-50% informacji na stole. Multimodal RAG to dziś dojrzała technika. Mamy 8 wdrożeń u polskich klientów. Ten artykuł to praktyczny przewodnik.
Co rozumiemy przez multimodal RAG
Multimodal RAG to pipeline, który: (a) parsuje dokumenty zachowując strukturę i osadzone obrazy, (b) generuje embeddingi nie tylko dla tekstu, ale też dla obrazów/wykresów, (c) przy zapytaniu szuka w obu modalnościach, (d) generuje odpowiedź z modelem multimodal (Claude vision, GPT-4o vision).
Kiedy klasyczny RAG nie wystarcza
- Dokumentacja techniczna z schematami — diagram zawiera kluczowe info.
- Faktury z pieczątkami / podpisami — istotne dla weryfikacji.
- Sprawozdania finansowe — tabele i wykresy często ważniejsze od tekstu.
- Katalogi produktowe — zdjęcia produktów dają kontekst.
- Instrukcje serwisowe — schemat naprawy + tekst razem.
- Akty notarialne, dokumenty urzędowe — pieczątki, podpisy.
Trzy architektury multimodal RAG
1. Caption-based (najprostsza)
Każdy obraz w dokumencie dostaje opis tekstowy (przez Claude vision albo GPT-4o). Embedding robisz na opisie. Plusy: prosta, kompatybilna ze starymi pipelines. Minusy: traci się szczegóły, opis to nie obraz.
2. Unified embedding (modele typu CLIP / SigLIP)
Tekst i obrazy w jednym przestrzeni embeddingu (np. CLIP). Wyszukiwanie zwraca top-K niezależnie od typu. Plusy: spójne wyniki. Minusy: jakość obrazu w CLIP wciąż słabsza niż dedykowanych modeli.
3. Hybrid retrieval (najlepsza dla produkcji)
Dwa indeksy (tekst, obraz), zapytanie pyta oba, fuzja wyników. Generacja przez model multimodal, który widzi i tekst, i obraz. Plusy: najwyższa jakość. Minusy: bardziej złożona infrastruktura.
| Architektura | Setup | Recall@10 | Koszt mies. |
|---|---|---|---|
| Caption-based | 2 tyg. | 0,82 | +15% |
| Unified CLIP | 3 tyg. | 0,84 | +8% |
| Hybrid retrieval | 6 tyg. | 0,93 | +34% |
Praktyka: serwis maszyn przemysłowych, 22 osoby
Klient: firma serwisująca maszyny pakujące. 4 200 schematów technicznych, 18 000 instrukcji, 8 000 raportów serwisowych. Serwisanci w terenie potrzebowali asystenta: "co zrobić, gdy maszyna X-2400 pokazuje błąd E47?".
Wybór architektury
Hybrid retrieval. Tekst (Qdrant + bge-m3 embeddings), obrazy (CLIP + osobny indeks). Zapytanie idzie do obu, top-5 z każdego, model Claude Sonnet 4.5 vision generuje odpowiedź widząc i tekst, i schemat.
Wyniki
- Czas odpowiedzi serwisanta na pytanie: 4-8 sek.
- Trafność (czy odpowiedź pomogła): 87% (vs. 62% w text-only).
- Średni czas naprawy w terenie: -18%.
- Liczba "powrotów do bazy" po dodatkowe informacje: -41%.
Praktyczne wskazówki implementacji
- PDF parsing to nie trywialne — używaj pdfplumber + unstructured (lub natywnego Claude PDF processing). Nie samego pdftotext.
- Page-level chunking dla dokumentów z układem strony — strony często mają jeden temat.
- OCR jakości — Claude vision dla obrazów z polskimi diakrytykami bije Tesseracta o 18-22 pp.
- Strukturyzowane wyciąganie tabel — modele vision umieją zwrócić JSON-em.
- Cache aggressive — embeddingi obrazów są drogie, cache to oszczędność 60-80%.
Pułapki, które zobaczyliśmy
- Mieszanie modeli vision w jednym pipeline — jeden vendor dla spójności.
- Brak referencji wstecz — odpowiedź AI powinna pokazać, że bazuje na konkretnym schemacie strona X.
- Quality of original scan — śmieciowy skan = śmieciowy embedding. Preprocessing (deskew, denoise) zwraca.
- Koszt — multimodal RAG kosztuje 30-50% więcej niż text-only. Mierz wartość.
Multimodal RAG i polski język
Dla polskich dokumentów: Claude vision wypada najlepiej w rozumieniu polskich diakrytyków na skanach. GPT-4o vision drugi. Modele OCR-only (Tesseract, EasyOCR) — gorzej. W produkcji rekomendujemy Claude dla vision steps, lokalny model embedding (bge-m3) dla wektorów.
Kiedy NIE iść w multimodal RAG
- Twoje dokumenty to 95% czystego tekstu — text-only wystarczy.
- Budżet inny niż "premium" — multimodal 30-50% droższy.
- Skala bardzo mała (< 200 dokumentów) — bezpośrednie przekazanie do modelu vision tańsze niż RAG.
- Brak danych testowych do walidacji — multimodal trudniej zewaluować.
Podsumowanie
Multimodal RAG to nie luksus — to wymóg dla firm pracujących z dokumentacją techniczną, sprawozdaniami, katalogami. Stack jest dojrzały, koszty kontrolowalne, ROI mierzalne. Pokażemy wam PoC na 100 waszych dokumentów — w 5 dni mamy odpowiedź, czy multimodal się opłaca.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo