Компания «Яндекс» заявила о расшифровке рукописных архивов Московской области (МО) с помощью нейросетей. Нейросети «Яндекса» расшифровали 300 тысяч страниц метрических книг из Центрального государственного архива Московской области, рассказали информационной службе Хабра в пресс‑службе IT‑компании.
Документы 18 — начала 20 веков обработали с помощью алгоритма, построенного на базе системы оптического распознавания символов. В оцифрованных файлах содержится множество записей о людях, живших в окрестностях Рязани, Тулы и Владимира. Эти люди представлены в сервисе «Поиск по архивам».
В базе сервиса появились документы с упоминанием фамилии, населенного пункта и других слов. Сервис поможет историкам, генеалогам и обычным людям искать информацию о предках, родственниках или исторических личностях.
Кроме 300 тысяч страниц метрических книг из центрального архива МО в базе сервиса есть 700 тысяч страниц документов из Главархива Москвы, опубликованы описи из центрального архива Республики Мордовия, доступны документы из Новгородской и Оренбургской областей.
Сервис «Поиск по архивам» запущен в январе 2023 года. За два месяца количество расшифрованных нейросетями компании составляет 5 миллионов.