AnnieBronson Jul 4 2022 at 19:31

Нейросеть МГУ оцифровала 10 тысяч астрономических рукописей о солнечной активности

2 min

835

Сотрудники МГУ вместе с пермскими и немецкими коллегами перевели в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе. Для этого они создали нейросеть, способную с высокой точностью читать рукописные тексты.

Авторы смогли детально восстановить картину солнечной активности за более чем 30 лет наблюдений, что позволит астрономам уточнить свои сведения о характере солнечной активности и особенностях солнечных циклов того времени. Результаты работы опубликованы в журнале Solar Physics.

Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. Записи, которые несколько столетий назад вели от руки, сейчас расшифровывают и оцифровывают. Для этого специалисты прибегают к помощи искусственного интеллекта.

«Примечательно, что ни одна из готовых программ, которые мы тестировали в начале процесса, не показывала удовлетворительного качества. Поэтому пришлось разрабатывать собственную модель — за это отвечали сотрудники МГУ», — рассказал Егор Илларионов, кандидат физико-математических наук, доцент кафедры теории вероятностей механико-математического факультета МГУ.

В университете указывают, что благодаря нескольким особенностям нейросеть получилась уникальной. Во-первых, помимо результата распознавания, она возвращает оценку уверенности как в числе целиком, так и в каждом отдельном символе, составляющем число, и предлагает набор возможных интерпретаций. Это помогает при дополнительной проверке результатов. Во-вторых, удалось разработать процедуру, которая позволяет модели в реальном времени адаптироваться под новые стили почерка и особенности страниц. Это значительно повышает точность распознавания текста по сравнению с моделью, которая работает с фиксированными предобученными параметрами.

Данные, которые получила нейросеть в ходе расшифровки, будут доступны для исследования специалистам по солнечной физике в виде датасета.

«Во-вторых, предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам, в частности там, где ручная обработка оказывается слишком трудоемкой из-за больших объемов текстов», — подытожил Егор Илларионов.

Tags:

Hubs: