← Wszystkie case studies · ✨ Inne

Archiwum państwowe · 18 archiwistów

Archiwum państwowe: 100 tys. stron zdigitalizowanych i opisanych w 4 miesiące

Archiwum regionalne — OCR + LLM odczytuje pismo ręczne (XIX-wieczne księgi metrykalne), generuje indeksy i metadane przeszukiwalne.

4 mies.
zamiast 16 lat
100 tys.
stron
91%
dokładność OCR
12×
zapytań online
4 mies.
realizacja

Okres pomiaru: 4 miesiące realizacji

Sytuacja przed wdrożeniem

Archiwum miało 100 tys. stron ksiąg metrykalnych XIX/XX wieku w stanie nadającym się do digitalizacji. Skanowanie tak — opis i indeksacja ręczna była nie do udźwignięcia (1 strona = 20 min pracy archiwisty = 33 000 godzin = 16 osobo-lat).

Co zrobiliśmy

Pipeline: skan → OCR przygotowany do pisma odręcznego z XIX w. (model fine-tuned na 2 000 zlabelowanych stronach) → LLM ekstrahuje rekordy strukturalne (data urodzenia, imię, nazwisko, rodzice, miejscowość, świadkowie) → walidacja przez archiwistę dla próbki 5% + automatyczna walidacja krzyżowa (czy te osoby pojawiają się w innych księgach). Wynik: przeszukiwalna baza danych.

Rezultat

4 miesiące zamiast 16 osobo-lat. Dokładność OCR: 91%, dokładność ekstrakcji strukturalnej: 87%. Archiwum udostępniło bazę online — liczba zapytań genealogicznych +12× w pierwszych 6 miesiącach. Ruch międzynarodowy (Polonia z USA, Argentyny, Niemiec) — to ważne dla budżetu instytucji.

„Kobieta z Chicago znalazła pradziadka w naszej księdze, urodzonego w 1873. Przyjechała do nas po latach prób — to są historie, dla których robi się archiwistykę."

Piotr · Dyrektor archiwum · Archiwum państwowe

Chcesz, żeby Wasza firma była następna na tej liście?

30-min rozmowa — pokazujemy 2–3 case'y najbliższe Waszej sytuacji (pod NDA) i mówimy, ile zaoszczędzicie w pierwszym roku.

Umów rozmowę