Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

    image

    Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

    Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.

    «Но в солнечной Бразилии, Бразилии моей...»


    Бразилия – самая большая страна в Южной Америке. На ее территории представлены три типа климата: экваториальный, субтропический и тропический. От разнообразных погодных условий зависит развитие почти всех отраслей экономики Бразилии, а в особенности – сельского хозяйства. Поэтому специалистам важно анализировать и точно предсказывать возможные изменения метеоусловий. Прогнозы нужны и для обеспечения безопасности самолетов, пилотов и пассажиров, для защиты кораблей и моряков, для правильной организации рыбного хозяйства и развития туризма.

    История погоды помогает предвидеть возможные изменения климата и принимать решения по корректировке сельскохозяйственной и промышленной политики страны. Этой работой уже больше ста лет занимается Национальный институт метеорологии Бразилии (INMET, Instituto Nacional de Meteorologia), который основан в 1909 году. Он подчиняется Министерству сельского хозяйства и животноводства. С начала XX века институт кропотливо собирает данные об осадках, ветрах, относительной влажности воздуха, давлении и т.д. В течение десятилетий специалисты день за днем регистрировали эту информацию и заносили в дневники наблюдений – такой материал представляет огромную научную ценность. На фото — дневник наблюдений за погодой в одном из городов штата Амазонас за июль 1961 года.

    image

    image

    До недавнего времени драгоценные документы хранились в бумажном виде. Архивы с записями были разбросаны по разным городам Бразилии: Рио-де-Жанейро, Сан-Паулу, Манаус, Белен, Салвадор, Порту-Алегри, Куяба, Гояния, Ресифи, Белу-Оризонти и Бразилиа. Таким образом, анализировать документы или работать с ними было почти невозможно.

    image

    Кроме того, книги и тетради лежали на складах, где не было подходящих условий для бережного хранения исторических документов. В трех городах Бразилии особенно жаркий и влажный климат. Например, Манаус и Белен находятся на Амазонке посреди тропических лесов, круглый год тут жарко и влажно. Или Куяба, за которой простирается Пантанал — самые большие болота на планете. Из-за влажного воздуха и обилия насекомых-вредителей бумага портилась, и институт рисковал потерять часть ценных записей. Между тем, некоторые наблюдения были сделаны еще в XIX веке, когда Бразилия была империей:

    image

    В начале 2010-х годов INMET решил оцифровать весь архив наблюдений за погодой – тетради, книги и даже микрофильмы. Это 3 миллиона страниц, или 4 миллиарда символов. Однако для этого нужно было собрать вместе и упорядочить все записи, хранящиеся в разных городах.

    image

    В 2011 году сотрудники института перевезли документы в Бразилиа и разместили в новом архиве в здании INMET. Площадь хранилища составляет 1500 квадратных метров. После этого специалисты института начали обрабатывать и восстанавливать записи, которые до этого не всегда хранились в хороших условиях:

    image

    Завершающим этапом создания большого бумажного архива стала каталогизация всех записей – благодаря ей в хранилище легко найти нужный дневник наблюдений за погодой. Теперь можно было приступать к оцифровке документов.

    image

    Вперед, к оцифровке


    В 2012 году институт начал сотрудничать с бразильской компанией Flexdoc, которая разрабатывает ПО для обработки и хранения документов. Для перевода наблюдений за погодой в электронный вид Flexdoc не использовала технологию оптического распознавания символов (optical character recognition, OCR), а применила суровый «ручной OCR». Компания разработала шаблоны и обозначила, какие данные из отсканированных документов нужно вносить в систему. Затем Flexdoc отправляла сканы на проверку группе трудолюбивых операторов, находящихся в Индии. Они получали изображения и вручную вводили ценные данные согласно шаблону.

    В архиве хранится более 20 типов брошюр с данными о погоде. В каждой из них не менее 6 видов страниц, и некоторые из них содержат больше 150 полей. Чтобы значительно упростить работу верификаторов, в 2014 году Flexdoc начал использовать для оцифровки архива ABBYY FlexiCapture Engine.

    12 сканеров и одна программа


    Сначала сотрудники Flexdoc сканировали страницы из дневников наблюдения за погодой. Для этого использовались 12 сканеров ATIZ BookDrive PR и Plustek OpticPro A360.

    image

    Они оцифровывали документы как в форматах А4 и A3, так и в нестандартных форматах:

    image

    image

    Сотрудники ИТ-компании, а потом и специалисты INMET проверяли качество отсканированных изображений. Затем сканы импортировались в систему на базе ABBYY FlexiCapture Engine. Сотрудники Flexdoc предоставили для обработки документов разработанные ими шаблоны, созданные в ABBYY FlexiCapture, и OCR-технологии ABBYY помогали определять и накладывать шаблоны на документы, находить в них нужные поля и извлекать данные. В ветхих документах и в записях, сделанных от руки, OCR-технологии не всегда могли распознать какое-либо поле – в таком случае оцифровку вручную проводили сотрудники Flexdoc.

    image

    Дальше информацию проверяли 85 верификаторов – специалисты бразильской компании. Им помогали еще два сотрудника института: метеорологи должны были удостовериться, что климатические показатели находятся в пределах нормы для данного региона. Только после этого данные поступали в информационную систему INMET.

    Схема обработки записей выглядит так:

    image

    Для оцифровки микрофильмов Flexdoc использовал сканер Kodak ABR 2400\3000 DSV. Он помогает разделить фильм на изображения, извлечь их и сохранить в формате TIFF на жестком диске.

    Немного статистики


    Полная оцифровка архива наблюдений за погодой, собранных за 100 лет, заняла три года. Все исторические данные теперь хранятся не только в бумажном виде в архиве, но и на большом высокопроизводительном и отказоустойчивом сервере SGI Altix 4700 c производительностью 870 Гигафлопс.

    Цифровые версии дневников наблюдений за погодой доступны всем на сайте INMET. Чтобы посмотреть данные, достаточно зарегистрироваться. Например, результат по запросу климатических данных в муниципалитете Арковерди за январь-декабрь 1990 года выглядит так:

    image

    В первую очередь информацией пользуются научные сотрудники из INMET, студенты, а также компании, которые нуждаются в анализе климатических условий в разных регионах Бразилии. Исторические данные INMET уже стали основой для создания аналитических моделей по эволюции климата и предсказанию погоды – этим занимаются ученые метеорологического института.

    Елизавета Титаренко
    Редактор корпоративного блога ABBYY
    • +33
    • 5,1k
    • 2

    ABBYY

    138,36

    Решения для интеллектуальной обработки информации

    Поделиться публикацией
    Комментарии 2
      +2
      Крутой юзкейс, конечно! Но у меня вопрос:
      Компания Flexdoc вышла с вами как-то на связь и вы непосредственно помогали с обработкой архива или Flexdoc просто купила лицензию, а дальше всем занималась самостоятельно?
        0
        Flexdoc купила лицензию нашего решения ABBYY FlexiCapture Engine, а дальше занималась оцифровкой самостоятельно.

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое