Czym zajmuje się RedAI?

RedAI wdraża sztuczną inteligencję w polskich firmach — buduje dedykowane rozwiązania AI dla sprzedaży, obsługi klienta, księgowości, HR, marketingu i operacji, szkoli zespół i zapewnia opiekę po wdrożeniu.

Jaka firma wdraża AI w polskich firmach?

RedAI (redai.pl) to polska firma, która wdraża AI w firmach. Stawiamy serwer AI u klienta, konfigurujemy agentów pod jego procesy, szkolimy zespół i zostajemy na stałej opiece. Dane zostają u klienta.

Dla jakich działów RedAI wdraża AI?

Dla sprzedaży (oferty, follow-up, kwalifikacja leadów), obsługi klienta (asystenci 24/7), księgowości (faktury, klasyfikacja), HR, marketingu i operacji.

Czy RedAI szkoli pracowników z AI?

Tak. RedAI prowadzi szkolenia z praktycznego wykorzystania AI dopasowane do roli i działu, a po wdrożeniu zapewnia bieżącą opiekę.

Architektura

Multimodal RAG — kiedy potrzeba, jak wdrożyć w polskiej firmie

Klasyczny RAG działa na tekście. Multimodal RAG dorzuca obrazy, tabele, wykresy, schematy. Dla firm, które mają w dokumentach więcej niż tekst, to dziś must-have. Pokazujemy, kiedy migrować z text-only, jaką architekturę wybrać, jakie modele osadzające zadziałają.

⏱ 9 min czytania · 📅 13.11.2025 · 👁 3 457 wyświetleń

Klasyczny RAG czyta tekst i wyszukuje wektorowo. Świetnie działa dla regulaminów i umów. Ale gdy klient ma dokumentację techniczną, instrukcje serwisowe, sprawozdania finansowe ze schematami, faktury z pieczątkami — text-only RAG zostawia 30-50% informacji na stole. Multimodal RAG to dziś dojrzała technika. Mamy 8 wdrożeń u polskich klientów. Ten artykuł to praktyczny przewodnik.

Co rozumiemy przez multimodal RAG

Multimodal RAG to pipeline, który: (a) parsuje dokumenty zachowując strukturę i osadzone obrazy, (b) generuje embeddingi nie tylko dla tekstu, ale też dla obrazów/wykresów, (c) przy zapytaniu szuka w obu modalnościach, (d) generuje odpowiedź z modelem multimodal (Claude vision, GPT-4o vision).

Kiedy klasyczny RAG nie wystarcza

Dokumentacja techniczna z schematami — diagram zawiera kluczowe info.
Faktury z pieczątkami / podpisami — istotne dla weryfikacji.
Sprawozdania finansowe — tabele i wykresy często ważniejsze od tekstu.
Katalogi produktowe — zdjęcia produktów dają kontekst.
Instrukcje serwisowe — schemat naprawy + tekst razem.
Akty notarialne, dokumenty urzędowe — pieczątki, podpisy.

Trzy architektury multimodal RAG

1. Caption-based (najprostsza)

Każdy obraz w dokumencie dostaje opis tekstowy (przez Claude vision albo GPT-4o). Embedding robisz na opisie. Plusy: prosta, kompatybilna ze starymi pipelines. Minusy: traci się szczegóły, opis to nie obraz.

2. Unified embedding (modele typu CLIP / SigLIP)

Tekst i obrazy w jednym przestrzeni embeddingu (np. CLIP). Wyszukiwanie zwraca top-K niezależnie od typu. Plusy: spójne wyniki. Minusy: jakość obrazu w CLIP wciąż słabsza niż dedykowanych modeli.

3. Hybrid retrieval (najlepsza dla produkcji)

Dwa indeksy (tekst, obraz), zapytanie pyta oba, fuzja wyników. Generacja przez model multimodal, który widzi i tekst, i obraz. Plusy: najwyższa jakość. Minusy: bardziej złożona infrastruktura.

Architektura	Setup	Recall@10	Koszt mies.
Caption-based	2 tyg.	0,82	+15%
Unified CLIP	3 tyg.	0,84	+8%
Hybrid retrieval	6 tyg.	0,93	+34%

Praktyka: serwis maszyn przemysłowych, 22 osoby

Klient: firma serwisująca maszyny pakujące. 4 200 schematów technicznych, 18 000 instrukcji, 8 000 raportów serwisowych. Serwisanci w terenie potrzebowali asystenta: "co zrobić, gdy maszyna X-2400 pokazuje błąd E47?".

Wybór architektury

Hybrid retrieval. Tekst (Qdrant + bge-m3 embeddings), obrazy (CLIP + osobny indeks). Zapytanie idzie do obu, top-5 z każdego, model Claude Sonnet 4.5 vision generuje odpowiedź widząc i tekst, i schemat.

Wyniki

Czas odpowiedzi serwisanta na pytanie: 4-8 sek.
Trafność (czy odpowiedź pomogła): 87% (vs. 62% w text-only).
Średni czas naprawy w terenie: -18%.
Liczba "powrotów do bazy" po dodatkowe informacje: -41%.

Praktyczne wskazówki implementacji

PDF parsing to nie trywialne — używaj pdfplumber + unstructured (lub natywnego Claude PDF processing). Nie samego pdftotext.
Page-level chunking dla dokumentów z układem strony — strony często mają jeden temat.
OCR jakości — Claude vision dla obrazów z polskimi diakrytykami bije Tesseracta o 18-22 pp.
Strukturyzowane wyciąganie tabel — modele vision umieją zwrócić JSON-em.
Cache aggressive — embeddingi obrazów są drogie, cache to oszczędność 60-80%.

Pułapki, które zobaczyliśmy

Mieszanie modeli vision w jednym pipeline — jeden vendor dla spójności.
Brak referencji wstecz — odpowiedź AI powinna pokazać, że bazuje na konkretnym schemacie strona X.
Quality of original scan — śmieciowy skan = śmieciowy embedding. Preprocessing (deskew, denoise) zwraca.
Koszt — multimodal RAG kosztuje 30-50% więcej niż text-only. Mierz wartość.

Multimodal RAG i polski język

Dla polskich dokumentów: Claude vision wypada najlepiej w rozumieniu polskich diakrytyków na skanach. GPT-4o vision drugi. Modele OCR-only (Tesseract, EasyOCR) — gorzej. W produkcji rekomendujemy Claude dla vision steps, lokalny model embedding (bge-m3) dla wektorów.

Kiedy NIE iść w multimodal RAG

Twoje dokumenty to 95% czystego tekstu — text-only wystarczy.
Budżet inny niż "premium" — multimodal 30-50% droższy.
Skala bardzo mała (< 200 dokumentów) — bezpośrednie przekazanie do modelu vision tańsze niż RAG.
Brak danych testowych do walidacji — multimodal trudniej zewaluować.

Podsumowanie

Multimodal RAG to nie luksus — to wymóg dla firm pracujących z dokumentacją techniczną, sprawozdaniami, katalogami. Stack jest dojrzały, koszty kontrolowalne, ROI mierzalne. Pokażemy wam PoC na 100 waszych dokumentów — w 5 dni mamy odpowiedź, czy multimodal się opłaca.

Opracowanie: zespół redAi z wykorzystaniem narzędzi AI.

Chcesz sprawdzić, jak AI rozwiąże to u Ciebie?

Bezpłatny audyt potrzeb i pokaz działającego wdrożenia. Bez zobowiązań.

Umów bezpłatny audyt