Long-context RAG — wykorzystanie 1M+ kontekstu modeli
Modele 2026 oferują 1-2M tokenów kontekstu. Czy to oznacza koniec RAG? Nie. To oznacza nową architekturę: hybrydę long-context + retrieval. Pokazujemy 3 wzorce, które testujemy produkcyjnie, z konkretnymi liczbami latencji i kosztu.
Modele 2026 oferują 1-2M tokenów kontekstu — Claude Opus 4.5 ma 1M, Gemini 3 Pro ma 2M, GPT-5 wchodzi w 400k. Czy to oznacza koniec klasycznego RAG? Nie. Oznacza nową architekturę hybrydową: long-context plus retrieval, z routerem, który decyduje per zapytanie. Pokazujemy 3 wzorce testowane produkcyjnie z konkretnymi liczbami latencji, kosztu i jakości.
Pytanie kluczowe: po co RAG, skoro mam 1M tokenów
Powodów jest kilka. Po pierwsze, koszt — 1M tokenów input w Claude Sonnet 4.5 to 3 USD per zapytanie. Po drugie, latencja — przetwarzanie 1M tokenów to 12-30 sekund. Po trzecie, "lost in the middle" — modele wciąż gubią informacje z połowy bardzo długiego kontekstu. Po czwarte, hyperscale — jeśli baza dokumentów ma 50M tokenów, nie zmieścicie jej i tak.
Wzorzec 1: RAG-light na 200k tokenów
Klasyczny RAG z chunkami 800 tokenów i top-K=12. Sumarycznie 10k tokenów kontekstu plus zapytanie. Cena zapytania: 0,03 USD. Latencja P95: 1,8 s. To wzorzec dla 80% zapytań w naszych wdrożeniach.
Wzorzec 2: Full-context na 1M tokenów
Dla zapytań, które wymagają holistycznego oglądu (np. "podsumuj cały raport", "znajdź sprzeczność między działami") — wrzucamy całą bazę dokumentów w kontekst. Cena: 3 USD. Latencja: 18-26 s. Zysk: nie gubimy kontekstu, model widzi wszystko.
Wzorzec 3: Hybryda z routerem
Najciekawsze. Router (Haiku 4.5) klasyfikuje zapytanie do jednego z 3 trybów:
- Lookup — RAG-light, top-K=8, 0,02 USD
- Reasoning — RAG-extended, top-K=30 + reranker, 0,12 USD
- Holistic — full context 500k-1M, 1,50-3,00 USD
| Tryb | % zapytań | Koszt | Latencja P95 |
|---|---|---|---|
| Lookup | 72% | 0,02 USD | 1,3 s |
| Reasoning | 23% | 0,12 USD | 4,8 s |
| Holistic | 5% | 2,10 USD | 22 s |
| Średnio | — | 0,15 USD | 3,7 s |
Architektura w pseudokodzie
def answer(query, knowledge_base):
mode = haiku_router(query, modes=["lookup", "reasoning", "holistic"])
if mode == "lookup":
chunks = retriever.search(query, k=8)
return sonnet.complete(query, context=chunks)
elif mode == "reasoning":
chunks = retriever.search(query, k=30)
reranked = reranker.rerank(query, chunks, top=12)
return sonnet.complete(query, context=reranked)
elif mode == "holistic":
full = knowledge_base.dump(max_tokens=900_000)
return opus.complete(query, context=full)
Kiedy "holistic" naprawdę się opłaca
Z 47 wdrożeń wyciągnęliśmy 4 use case'."'".'y, w których full-context wygrywa kategorycznie:
- Analiza umów z odwołaniami krzyżowymi — nie da się zRAG'."'".'ować, paragrafy odsyłają do innych paragrafów
- Audyt dokumentacji projektu — szukanie niespójności między 40 plikami
- Generacja raportu z 80 plików Excel — Gemini wygrywa, bo natywnie obsługuje arkusze
- Analiza CV i portfolio kandydata łącznie — kontekst całościowy, decyzja jakościowa
Pułapki long-context
- "Lost in the middle" — w 800k+ tokenach modele gubią informacje z 30-70% pozycji. Mitigacja: trzymać kluczowe informacje na początku i na końcu.
- Latencja klienta końcowego — użytkownik czeka 20 sekund na odpowiedź. Pokażcie progress.
- Caching — Anthropic prompt caching daje 90% rabat na powtarzające się fragmenty. Bez tego rachunki są dramatyczne.
- Audytowalność — w full-context trudniej powiedzieć "skąd ta odpowiedź". Dla high risk wymagamy citations.
Następny krok
U klientów z dużymi bazami wiedzy (50k+ stron) zaczynamy zawsze od architektury hybrydowej. Sub-projekt "router + 3 tryby" zamykamy w 3-4 tygodnie. Pokażemy demo na waszej dokumentacji.
Chcesz przetestować, jak AI rozwiąże to u Ciebie?
30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.
Umów demo