Pull to refresh

Нейросеть «Яндекса» за год расшифровала более 10 миллионов страниц исторических документов в «Поиске по архивам»

Reading time1 min
Views4.1K

Нейросеть «Яндекса» распознала в сервисе «Поиск по архивам» более 60 тысяч рукописных и печатных текстов середины XVIII — начала XX веков. В сумме это более 10 миллионов страниц или 492 миллионов строк. 

«Поиск по архивам» был запущен в начале 2023 года. За год с момента запуска сервиса пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз. Сейчас там хранятся расшифрованные архивные дела и оцифрованные страницы периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости. 

Первым партнёром «Поиска по архивам» стал Главархив Москвы. В марте 2023 года в «Яндексе» сообщили, что нейросети расшифровали 300 тысяч страниц метрических книг из Центрального государственного архива Московской области. Сейчас в сервисе есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей. 

Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть узнаёт утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с вёрсткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на низкоплотной бумаге. 

Tags:
Hubs:
Total votes 7: ↑7 and ↓0+7
Comments8

Other news