Сотрудники МГУ вместе с пермскими и немецкими коллегами перевели в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе. Для этого они создали нейросеть, способную с высокой точностью читать рукописные тексты.
Авторы смогли детально восстановить картину солнечной активности за более чем 30 лет наблюдений, что позволит астрономам уточнить свои сведения о характере солнечной активности и особенностях солнечных циклов того времени. Результаты работы опубликованы в журнале Solar Physics.
Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. Записи, которые несколько столетий назад вели от руки, сейчас расшифровывают и оцифровывают. Для этого специалисты прибегают к помощи искусственного интеллекта.
«Примечательно, что ни одна из готовых программ, которые мы тестировали в начале процесса, не показывала удовлетворительного качества. Поэтому пришлось разрабатывать собственную модель — за это отвечали сотрудники МГУ», — рассказал Егор Илларионов, кандидат физико-математических наук, доцент кафедры теории вероятностей механико-математического факультета МГУ.
В университете указывают, что благодаря нескольким особенностям нейросеть получилась уникальной. Во-первых, помимо результата распознавания, она возвращает оценку уверенности как в числе целиком, так и в каждом отдельном символе, составляющем число, и предлагает набор возможных интерпретаций. Это помогает при дополнительной проверке результатов. Во-вторых, удалось разработать процедуру, которая позволяет модели в реальном времени адаптироваться под новые стили почерка и особенности страниц. Это значительно повышает точность распознавания текста по сравнению с моделью, которая работает с фиксированными предобученными параметрами.
Данные, которые получила нейросеть в ходе расшифровки, будут доступны для исследования специалистам по солнечной физике в виде датасета.
«Во-вторых, предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам, в частности там, где ручная обработка оказывается слишком трудоемкой из-за больших объемов текстов», — подытожил Егор Илларионов.