Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.
Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.
«Но в солнечной Бразилии, Бразилии моей...»
Бразилия – самая большая страна в Южной Америке. На ее территории представлены три типа климата: экваториальный, субтропический и тропический. От разнообразных погодных условий зависит развитие почти всех отраслей экономики Бразилии, а в особенности – сельского хозяйства. Поэтому специалистам важно анализировать и точно предсказывать возможные изменения метеоусловий. Прогнозы нужны и для обеспечения безопасности самолетов, пилотов и пассажиров, для защиты кораблей и моряков, для правильной организации рыбного хозяйства и развития туризма.
История погоды помогает предвидеть возможные изменения климата и принимать решения по корректировке сельскохозяйственной и промышленной политики страны. Этой работой уже больше ста лет занимается Национальный институт метеорологии Бразилии (INMET, Instituto Nacional de Meteorologia), который основан в 1909 году. Он подчиняется Министерству сельского хозяйства и животноводства. С начала XX века институт кропотливо собирает данные об осадках, ветрах, относительной влажности воздуха, давлении и т.д. В течение десятилетий специалисты день за днем регистрировали эту информацию и заносили в дневники наблюдений – такой материал представляет огромную научную ценность. На фото — дневник наблюдений за погодой в одном из городов штата Амазонас за июль 1961 года.
До недавнего времени драгоценные документы хранились в бумажном виде. Архивы с записями были разбросаны по разным городам Бразилии: Рио-де-Жанейро, Сан-Паулу, Манаус, Белен, Салвадор, Порту-Алегри, Куяба, Гояния, Ресифи, Белу-Оризонти и Бразилиа. Таким образом, анализировать документы или работать с ними было почти невозможно.
Кроме того, книги и тетради лежали на складах, где не было подходящих условий для бережного хранения исторических документов. В трех городах Бразилии особенно жаркий и влажный климат. Например, Манаус и Белен находятся на Амазонке посреди тропических лесов, круглый год тут жарко и влажно. Или Куяба, за которой простирается Пантанал — самые большие болота на планете. Из-за влажного воздуха и обилия насекомых-вредителей бумага портилась, и институт рисковал потерять часть ценных записей. Между тем, некоторые наблюдения были сделаны еще в XIX веке, когда Бразилия была империей:
В начале 2010-х годов INMET решил оцифровать весь архив наблюдений за погодой – тетради, книги и даже микрофильмы. Это 3 миллиона страниц, или 4 миллиарда символов. Однако для этого нужно было собрать вместе и упорядочить все записи, хранящиеся в разных городах.
В 2011 году сотрудники института перевезли документы в Бразилиа и разместили в новом архиве в здании INMET. Площадь хранилища составляет 1500 квадратных метров. После этого специалисты института начали обрабатывать и восстанавливать записи, которые до этого не всегда хранились в хороших условиях:
Завершающим этапом создания большого бумажного архива стала каталогизация всех записей – благодаря ей в хранилище легко найти нужный дневник наблюдений за погодой. Теперь можно было приступать к оцифровке документов.
Вперед, к оцифровке
В 2012 году институт начал сотрудничать с бразильской компанией Flexdoc, которая разрабатывает ПО для обработки и хранения документов. Для перевода наблюдений за погодой в электронный вид Flexdoc не использовала технологию оптического распознавания символов (optical character recognition, OCR)
В архиве хранится более 20 типов брошюр с данными о погоде. В каждой из них не менее 6 видов страниц, и некоторые из них содержат больше 150 полей. Чтобы значительно упростить работу верификаторов, в 2014 году Flexdoc начал использовать для оцифровки архива ABBYY FlexiCapture Engine.
12 сканеров и одна программа
Сначала сотрудники Flexdoc сканировали страницы из дневников наблюдения за погодой. Для этого использовались 12 сканеров ATIZ BookDrive PR и Plustek OpticPro A360.
Они оцифровывали документы как в форматах А4 и A3, так и в нестандартных форматах:
Сотрудники ИТ-компании, а потом и специалисты INMET проверяли качество отсканированных изображений. Затем сканы импортировались в систему на базе ABBYY FlexiCapture Engine. Сотрудники Flexdoc предоставили для обработки документов разработанные ими шаблоны, созданные в ABBYY FlexiCapture, и OCR-технологии ABBYY помогали определять и накладывать шаблоны на документы, находить в них нужные поля и извлекать данные. В ветхих документах и в записях, сделанных от руки, OCR-технологии не всегда могли распознать какое-либо поле – в таком случае оцифровку вручную проводили сотрудники Flexdoc.
Дальше информацию проверяли 85 верификаторов – специалисты бразильской компании. Им помогали еще два сотрудника института: метеорологи должны были удостовериться, что климатические показатели находятся в пределах нормы для данного региона. Только после этого данные поступали в информационную систему INMET.
Схема обработки записей выглядит так:
Для оцифровки микрофильмов Flexdoc использовал сканер Kodak ABR 2400\3000 DSV. Он помогает разделить фильм на изображения, извлечь их и сохранить в формате TIFF на жестком диске.
Немного статистики
Полная оцифровка архива наблюдений за погодой, собранных за 100 лет, заняла три года. Все исторические данные теперь хранятся не только в бумажном виде в архиве, но и на большом высокопроизводительном и отказоустойчивом сервере SGI Altix 4700 c производительностью 870 Гигафлопс.
Цифровые версии дневников наблюдений за погодой доступны всем на сайте INMET. Чтобы посмотреть данные, достаточно зарегистрироваться. Например, результат по запросу климатических данных в муниципалитете Арковерди за январь-декабрь 1990 года выглядит так:
В первую очередь информацией пользуются научные сотрудники из INMET, студенты, а также компании, которые нуждаются в анализе климатических условий в разных регионах Бразилии. Исторические данные INMET уже стали основой для создания аналитических моделей по эволюции климата и предсказанию погоды – этим занимаются ученые метеорологического института.
Елизавета Титаренко
Редактор корпоративного блога ABBYY