Как стать автором
Обновить

Нейросеть МГУ оцифровала 10 тысяч астрономических рукописей о солнечной активности

Время на прочтение 2 мин
Количество просмотров 830

Сотрудники МГУ вместе с пермскими и немецкими коллегами перевели в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе. Для этого они создали нейросеть, способную с высокой точностью читать рукописные тексты. 

Авторы смогли детально восстановить картину солнечной активности за более чем 30 лет наблюдений, что позволит астрономам уточнить свои сведения о характере солнечной активности и особенностях солнечных циклов того времени. Результаты работы опубликованы в журнале Solar Physics.

Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. Записи, которые несколько столетий назад вели от руки, сейчас расшифровывают и оцифровывают. Для этого специалисты прибегают к помощи искусственного интеллекта. 

«Примечательно, что ни одна из готовых программ, которые мы тестировали в начале процесса, не показывала удовлетворительного качества. Поэтому пришлось разрабатывать собственную модель — за это отвечали сотрудники МГУ», — рассказал Егор Илларионов, кандидат физико-математических наук, доцент кафедры теории вероятностей механико-математического факультета МГУ.

В университете указывают, что благодаря нескольким особенностям нейросеть получилась уникальной. Во-первых, помимо результата распознавания, она возвращает оценку уверенности как в числе целиком, так и в каждом отдельном символе, составляющем число, и предлагает набор возможных интерпретаций. Это помогает при дополнительной проверке результатов. Во-вторых, удалось разработать процедуру, которая позволяет модели в реальном времени адаптироваться под новые стили почерка и особенности страниц. Это значительно повышает точность распознавания текста по сравнению с моделью, которая работает с фиксированными предобученными параметрами.

Данные, которые получила нейросеть в ходе расшифровки, будут доступны для исследования специалистам по солнечной физике в виде датасета.

«Во-вторых, предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам, в частности там, где ручная обработка оказывается слишком трудоемкой из-за больших объемов текстов», — подытожил Егор Илларионов.

Теги:
Хабы:
+4
Комментарии 0
Комментарии Комментировать

Другие новости

Истории

Ближайшие события

PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн
Weekend Offer в AliExpress
Дата 20 – 21 апреля
Время 10:00 – 20:00
Место
Онлайн