Architektura

Long-context RAG — wykorzystanie 1M+ kontekstu modeli

Modele 2026 oferują 1-2M tokenów kontekstu. Czy to oznacza koniec RAG? Nie. To oznacza nową architekturę: hybrydę long-context + retrieval. Pokazujemy 3 wzorce, które testujemy produkcyjnie, z konkretnymi liczbami latencji i kosztu.

⏱ 8 min czytania · 📅 21.01.2026 · 👁 1 294 wyświetleń

Modele 2026 oferują 1-2M tokenów kontekstu — Claude Opus 4.5 ma 1M, Gemini 3 Pro ma 2M, GPT-5 wchodzi w 400k. Czy to oznacza koniec klasycznego RAG? Nie. Oznacza nową architekturę hybrydową: long-context plus retrieval, z routerem, który decyduje per zapytanie. Pokazujemy 3 wzorce testowane produkcyjnie z konkretnymi liczbami latencji, kosztu i jakości.

Pytanie kluczowe: po co RAG, skoro mam 1M tokenów

Powodów jest kilka. Po pierwsze, koszt — 1M tokenów input w Claude Sonnet 4.5 to 3 USD per zapytanie. Po drugie, latencja — przetwarzanie 1M tokenów to 12-30 sekund. Po trzecie, "lost in the middle" — modele wciąż gubią informacje z połowy bardzo długiego kontekstu. Po czwarte, hyperscale — jeśli baza dokumentów ma 50M tokenów, nie zmieścicie jej i tak.

Wzorzec 1: RAG-light na 200k tokenów

Klasyczny RAG z chunkami 800 tokenów i top-K=12. Sumarycznie 10k tokenów kontekstu plus zapytanie. Cena zapytania: 0,03 USD. Latencja P95: 1,8 s. To wzorzec dla 80% zapytań w naszych wdrożeniach.

Wzorzec 2: Full-context na 1M tokenów

Dla zapytań, które wymagają holistycznego oglądu (np. "podsumuj cały raport", "znajdź sprzeczność między działami") — wrzucamy całą bazę dokumentów w kontekst. Cena: 3 USD. Latencja: 18-26 s. Zysk: nie gubimy kontekstu, model widzi wszystko.

Wzorzec 3: Hybryda z routerem

Najciekawsze. Router (Haiku 4.5) klasyfikuje zapytanie do jednego z 3 trybów:

  • Lookup — RAG-light, top-K=8, 0,02 USD
  • Reasoning — RAG-extended, top-K=30 + reranker, 0,12 USD
  • Holistic — full context 500k-1M, 1,50-3,00 USD
Tryb% zapytańKosztLatencja P95
Lookup72%0,02 USD1,3 s
Reasoning23%0,12 USD4,8 s
Holistic5%2,10 USD22 s
Średnio0,15 USD3,7 s

Architektura w pseudokodzie

def answer(query, knowledge_base):
    mode = haiku_router(query, modes=["lookup", "reasoning", "holistic"])

    if mode == "lookup":
        chunks = retriever.search(query, k=8)
        return sonnet.complete(query, context=chunks)

    elif mode == "reasoning":
        chunks = retriever.search(query, k=30)
        reranked = reranker.rerank(query, chunks, top=12)
        return sonnet.complete(query, context=reranked)

    elif mode == "holistic":
        full = knowledge_base.dump(max_tokens=900_000)
        return opus.complete(query, context=full)

Kiedy "holistic" naprawdę się opłaca

Z 47 wdrożeń wyciągnęliśmy 4 use case'."'".'y, w których full-context wygrywa kategorycznie:

  • Analiza umów z odwołaniami krzyżowymi — nie da się zRAG'."'".'ować, paragrafy odsyłają do innych paragrafów
  • Audyt dokumentacji projektu — szukanie niespójności między 40 plikami
  • Generacja raportu z 80 plików Excel — Gemini wygrywa, bo natywnie obsługuje arkusze
  • Analiza CV i portfolio kandydata łącznie — kontekst całościowy, decyzja jakościowa

Pułapki long-context

  1. "Lost in the middle" — w 800k+ tokenach modele gubią informacje z 30-70% pozycji. Mitigacja: trzymać kluczowe informacje na początku i na końcu.
  2. Latencja klienta końcowego — użytkownik czeka 20 sekund na odpowiedź. Pokażcie progress.
  3. Caching — Anthropic prompt caching daje 90% rabat na powtarzające się fragmenty. Bez tego rachunki są dramatyczne.
  4. Audytowalność — w full-context trudniej powiedzieć "skąd ta odpowiedź". Dla high risk wymagamy citations.

Następny krok

U klientów z dużymi bazami wiedzy (50k+ stron) zaczynamy zawsze od architektury hybrydowej. Sub-projekt "router + 3 tryby" zamykamy w 3-4 tygodnie. Pokażemy demo na waszej dokumentacji.

Chcesz przetestować, jak AI rozwiąże to u Ciebie?

30 minut rozmowy + pokaz działającego wdrożenia u klienta. Bez NDA.

Umów demo

Może Cię też zainteresować

Newsletter redai

Dostawaj kolejne wpisy do skrzynki

Co dwa tygodnie: nowy case, nowe moduły AI, błędy klientów. Bez spamu.