
И весьма удачно: в прошлом году к этой программе присоединилась библиотека Хартли Саутгемптонского университета, одна из лучших научных библиотек страны. Она и задачу себе поставила грандиозную: оцифровать всё что можно, в темпе presto-скоро (полмиллиона страниц в год) – и дать это людям. Чтобы presto получилось именно presto, а не каким-нибудь adagio, Хартли воспользовалась ABBYY Recognition Server’ом, решением для автоматического распознавания документов в больших объёмах. Под катом – технические подробности и немного плюшек.
7 сканеров, 2 программы и 1 открытый API

Открытый программный интерфейс Recognition Server’а обеспечил лёгкую интеграцию с Goobi, и «производственный алгоритм» стал выглядеть так:
• к сканерам LDU приставлено по оператору. Как только оператор справится со своим заданием (полностью отсканирует книгу или многостраничный документ), к процессу подключается Goobi. Программа ставит Recognition Server’у задачу обработать готовую стопочку файлов. Несколько операторов плюс много документов – получается своеобразный конвейер, а Goobi наблюдает за всеми, как большой брат.
• Recognition Server автоматически обрабатывает указанные файлы: распознает, конвертирует, индексирует. Goobi проверяет выполнение задачи, и результат отправляется в Сеть.
Благодаря комбинации «7+2+1», библиотека Хартли обработала более двух миллионов изображений, а пользователи всемирной паутины получили доступ к довольно необычным PDF-коллекциям.
Какой PDF изволите, сэр?
Хартли не побоялась выложить в Интернет букинистические раритеты: от памфлетов на злобу дня и парламентских биллей 19 века до докторских диссертаций и антикварных книг по вязанию – на десерт. Всё доступно в PDF с возможностью поиска и живёт на нескольких веб-ресурсах.

Например, любую диссертационную работу (а в архиве их 20 тысяч) можно скачать через ePrints Soton – электронную библиотеку университета. Помимо диссертаций, тут ещё много интересного; пользоваться разрешают почти всем – большинство работ доступны полностью. От читателя (коллеги-исследователя) ожидают элементарной человеческой вежливости: соблюдения закона об авторском праве.
Собрание документов английского парламента с 1700 по 1834 год лежит здесь. Это сборники официальных отчётов о заседаниях Палаты лордов и Палаты общин, парламентские реестры, доклады с сессий Палаты общин и нормативно-правовые акты.
По этому адресу доступна коллекция памфлетов, которую в буквальном смысле собирали по всей Англии. Научные библиотеки страны прислали на оцифровку в Хартли более 23 тысяч шедевров литературно-сатирической мысли, повествующих о социально-политическом и экономическом климате Британии 19 века. Каталог и описание проекта прилагаются.
Прикоснуться к прекрасному (и практичному) можно тут. Коллекция книг по вязанию Ричарда Ратта, епископа и учёного, прибыла в Саутгемптон из библиотеки Винчестерской школы искусств. Самый древний экземпляр коллекции датируется 1800 годом, а самый юный — 1911.
Но и это ещё не всё (с). Библиотека Хартли активно поддерживает те гуманитарные и технические курсы университета, где физически необходимо много читать, чтобы много знать. Учебный материал оцифровывается и выкладывается в сеть в виде PDF с возможностью поиска, но доступны эти файлы – как вы уже поняли – только тем, кто записан на какой-либо курс.
Теперь всё :)