Как стать автором
Обновить
0
Content AI
Решения для интеллектуальной обработки информации

ABBYY Recognition Server на службе ботаников Её Величества

Время на прочтение2 мин
Количество просмотров8.4K
image
Королевский ботанический сад Эдинбурга (КБСЭ) вполне можно назвать флористической MI6 – его сотрудники выращивают и изучают растения со всего света. За 300 лет внешней «растительной» разведки КБСЭ изучил две трети мировой флоры и составил поистине уникальную ботаническую коллекцию, с которой ученые-флористы и ботаники-энтузиасты могли работать только в Эдинбурге.

Недавно руководство ботанического сада решило оцифровать и выложить в Интернет разведданные о 3 миллионах растений. Ботаникам потребовалось автоматизированное решение для потокового ввода документов и создания электронного архива, которое легко масштабируется и отличается высокой производительностью. По рекомендациям Национальной библиотеки Великобритании выбор был сделан в пользу ABBYY Recognition Server.


«Вы гербарий собирать любите? А обрабатывать?»

Поставленная задача осложнялась разнообразием шрифтов, наличием штрихкодов и рукописного текста на устаревших вариантах нескольких языков – некоторые записи датируются 1690 годом и трудны для распознавания. Карточки с разведданными о каждом растении пестрят цифрами, именами-фамилиями и сокращениями – вот как здесь:

image

Кроме этого, у КБСЭ есть собственная система управления изображениями, где хранятся TIFF-файлы всех карточек и записок. Так что кроме качества оцифрованного материала и автоматизации процесса обработки текстов руководству сада хотелось, чтобы Recognition Server гармонично сработался с этой системой.

Проект «Гербарий онлайн»

И они сработались.
А в чёрном-чёрном ящике происходит следующее:
У Recognition Server’а есть доступ ко всем TIFF, которые хранятся в одной из папок системы управления изображениями. После их обработки программа создаёт два файла – PDF с возможностью поиска (на всякий пожарный случай) и простой текстовый файл. Последний отправляется в специальную папку, лежащую на сервере КБСЭ, и там его ловит их собственная программа – она добавляет этот файл в базу данных MySQL.

Таким образом, оцифрованный гербарий теперь доступен через веб-сайт КБСЭ в разделе Herbarium Catalogue с возможностью поиска по нескольким параметрам.

Выглядит это так:

Ищем, например, самый обыкновенный лютик. Словарь Lingvo подскажет, что искать надо Ranunculus gen.

image

Сервис выдаст большой список карточек по всем образцам лютиков, завезённым в Великобританию из разных стран разными экспедициями. Картинки засушенных образцов прилагаются. Это небольшая часть списка. Выберем карточку растения из Израиля с изображением.

image

Картинку можно увеличить. Для интереса посмотрим сопроводительный текст:

image

Теперь ученые-флористы и ботаники-энтузиасты могут найти нужный им материал из любой точки мира.

Елена Агафонова,
переводчик
Теги:
Хабы:
Всего голосов 51: ↑49 и ↓2+47
Комментарии9

Публикации

Информация

Сайт
www.contentai.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия

Истории