Pull to refresh
76.98
Rating
ABBYY
Решения для интеллектуальной обработки информации

От памфлетов до биллей: библиотека Хартли выходит в Сеть

ABBYY corporate blog
Уже не первый год в Великобритании проходит грандиозная программа по оцифровке архивов университетов и крупных библиотек с помощью современных технологий. Её цель – перевести информацию в удобный для пользователя электронный вид и сделать доступной для всех желающих. На подобный подвиг образовательные институты вдохновляет (в том числе и финансово) неправительственная общественная организация «Комитет объединённых информационных систем» (Joint Information Systems Committee, JISC).


И весьма удачно: в прошлом году к этой программе присоединилась библиотека Хартли Саутгемптонского университета, одна из лучших научных библиотек страны. Она и задачу себе поставила грандиозную: оцифровать всё что можно, в темпе presto-скоро (полмиллиона страниц в год) – и дать это людям. Чтобы presto получилось именно presto, а не каким-нибудь adagio, Хартли воспользовалась ABBYY Recognition Server’ом, решением для автоматического распознавания документов в больших объёмах. Под катом – технические подробности и немного плюшек.

7 сканеров, 2 программы и 1 открытый API


Большими и маленькими проектами по оцифровке данных в Хартли занимается отдельное подразделение – LDU (Library Digitisation Unit). В его распоряжении 7 сканеров (6 книжных и 1 строчный) и ABBYY Recognition Server – для обработки текстов и изображений. Управляет процессом веб-приложение Goobi Production Workflow – опен-сорсный программный пакет, взятый на вооружение крупнейшими европейскими библиотеками для оцифровки культурного наследия в «промышленных» масштабах (подробно о нём на английском и на немецком).

Открытый программный интерфейс Recognition Server’а обеспечил лёгкую интеграцию с Goobi, и «производственный алгоритм» стал выглядеть так:

• к сканерам LDU приставлено по оператору. Как только оператор справится со своим заданием (полностью отсканирует книгу или многостраничный документ), к процессу подключается Goobi. Программа ставит Recognition Server’у задачу обработать готовую стопочку файлов. Несколько операторов плюс много документов – получается своеобразный конвейер, а Goobi наблюдает за всеми, как большой брат.

• Recognition Server автоматически обрабатывает указанные файлы: распознает, конвертирует, индексирует. Goobi проверяет выполнение задачи, и результат отправляется в Сеть.

Благодаря комбинации «7+2+1», библиотека Хартли обработала более двух миллионов изображений, а пользователи всемирной паутины получили доступ к довольно необычным PDF-коллекциям.

Какой PDF изволите, сэр?


Хартли не побоялась выложить в Интернет букинистические раритеты: от памфлетов на злобу дня и парламентских биллей 19 века до докторских диссертаций и антикварных книг по вязанию – на десерт. Всё доступно в PDF с возможностью поиска и живёт на нескольких веб-ресурсах.



Например, любую диссертационную работу (а в архиве их 20 тысяч) можно скачать через ePrints Soton – электронную библиотеку университета. Помимо диссертаций, тут ещё много интересного; пользоваться разрешают почти всем – большинство работ доступны полностью. От читателя (коллеги-исследователя) ожидают элементарной человеческой вежливости: соблюдения закона об авторском праве.

Собрание документов английского парламента с 1700 по 1834 год лежит здесь. Это сборники официальных отчётов о заседаниях Палаты лордов и Палаты общин, парламентские реестры, доклады с сессий Палаты общин и нормативно-правовые акты.

По этому адресу доступна коллекция памфлетов, которую в буквальном смысле собирали по всей Англии. Научные библиотеки страны прислали на оцифровку в Хартли более 23 тысяч шедевров литературно-сатирической мысли, повествующих о социально-политическом и экономическом климате Британии 19 века. Каталог и описание проекта прилагаются.

Прикоснуться к прекрасному (и практичному) можно тут. Коллекция книг по вязанию Ричарда Ратта, епископа и учёного, прибыла в Саутгемптон из библиотеки Винчестерской школы искусств. Самый древний экземпляр коллекции датируется 1800 годом, а самый юный — 1911.

Но и это ещё не всё (с). Библиотека Хартли активно поддерживает те гуманитарные и технические курсы университета, где физически необходимо много читать, чтобы много знать. Учебный материал оцифровывается и выкладывается в сеть в виде PDF с возможностью поиска, но доступны эти файлы – как вы уже поняли – только тем, кто записан на какой-либо курс.

Теперь всё :)
Tags:abbyyrecognition serverocrоцифровка книг
Hubs: ABBYY corporate blog
Total votes 31: ↑30 and ↓1+29
Views5.5K

Information

Founded
Location
Россия
Website
www.abbyy.com
Employees
1,001–5,000 employees
Registered