От памфлетов до биллей: библиотека Хартли выходит в Сеть

    Уже не первый год в Великобритании проходит грандиозная программа по оцифровке архивов университетов и крупных библиотек с помощью современных технологий. Её цель – перевести информацию в удобный для пользователя электронный вид и сделать доступной для всех желающих. На подобный подвиг образовательные институты вдохновляет (в том числе и финансово) неправительственная общественная организация «Комитет объединённых информационных систем» (Joint Information Systems Committee, JISC).


    И весьма удачно: в прошлом году к этой программе присоединилась библиотека Хартли Саутгемптонского университета, одна из лучших научных библиотек страны. Она и задачу себе поставила грандиозную: оцифровать всё что можно, в темпе presto-скоро (полмиллиона страниц в год) – и дать это людям. Чтобы presto получилось именно presto, а не каким-нибудь adagio, Хартли воспользовалась ABBYY Recognition Server’ом, решением для автоматического распознавания документов в больших объёмах. Под катом – технические подробности и немного плюшек.

    7 сканеров, 2 программы и 1 открытый API


    Большими и маленькими проектами по оцифровке данных в Хартли занимается отдельное подразделение – LDU (Library Digitisation Unit). В его распоряжении 7 сканеров (6 книжных и 1 строчный) и ABBYY Recognition Server – для обработки текстов и изображений. Управляет процессом веб-приложение Goobi Production Workflow – опен-сорсный программный пакет, взятый на вооружение крупнейшими европейскими библиотеками для оцифровки культурного наследия в «промышленных» масштабах (подробно о нём на английском и на немецком).

    Открытый программный интерфейс Recognition Server’а обеспечил лёгкую интеграцию с Goobi, и «производственный алгоритм» стал выглядеть так:

    • к сканерам LDU приставлено по оператору. Как только оператор справится со своим заданием (полностью отсканирует книгу или многостраничный документ), к процессу подключается Goobi. Программа ставит Recognition Server’у задачу обработать готовую стопочку файлов. Несколько операторов плюс много документов – получается своеобразный конвейер, а Goobi наблюдает за всеми, как большой брат.

    • Recognition Server автоматически обрабатывает указанные файлы: распознает, конвертирует, индексирует. Goobi проверяет выполнение задачи, и результат отправляется в Сеть.

    Благодаря комбинации «7+2+1», библиотека Хартли обработала более двух миллионов изображений, а пользователи всемирной паутины получили доступ к довольно необычным PDF-коллекциям.

    Какой PDF изволите, сэр?


    Хартли не побоялась выложить в Интернет букинистические раритеты: от памфлетов на злобу дня и парламентских биллей 19 века до докторских диссертаций и антикварных книг по вязанию – на десерт. Всё доступно в PDF с возможностью поиска и живёт на нескольких веб-ресурсах.



    Например, любую диссертационную работу (а в архиве их 20 тысяч) можно скачать через ePrints Soton – электронную библиотеку университета. Помимо диссертаций, тут ещё много интересного; пользоваться разрешают почти всем – большинство работ доступны полностью. От читателя (коллеги-исследователя) ожидают элементарной человеческой вежливости: соблюдения закона об авторском праве.

    Собрание документов английского парламента с 1700 по 1834 год лежит здесь. Это сборники официальных отчётов о заседаниях Палаты лордов и Палаты общин, парламентские реестры, доклады с сессий Палаты общин и нормативно-правовые акты.

    По этому адресу доступна коллекция памфлетов, которую в буквальном смысле собирали по всей Англии. Научные библиотеки страны прислали на оцифровку в Хартли более 23 тысяч шедевров литературно-сатирической мысли, повествующих о социально-политическом и экономическом климате Британии 19 века. Каталог и описание проекта прилагаются.

    Прикоснуться к прекрасному (и практичному) можно тут. Коллекция книг по вязанию Ричарда Ратта, епископа и учёного, прибыла в Саутгемптон из библиотеки Винчестерской школы искусств. Самый древний экземпляр коллекции датируется 1800 годом, а самый юный — 1911.

    Но и это ещё не всё (с). Библиотека Хартли активно поддерживает те гуманитарные и технические курсы университета, где физически необходимо много читать, чтобы много знать. Учебный материал оцифровывается и выкладывается в сеть в виде PDF с возможностью поиска, но доступны эти файлы – как вы уже поняли – только тем, кто записан на какой-либо курс.

    Теперь всё :)
    • +29
    • 5,2k
    • 4
    ABBYY 146,54
    Решения для интеллектуальной обработки информации
    Поделиться публикацией
    Комментарии 4
      +5
      Прочитал статью, обернулся и посмотрел на российские библиотеки с унынием и печалью.
        +1
        Не переживайте, у них ещё всё впереди )
        0
        PDF? Не DjVu?
          0
          Действительно PDF. Главная причина — он более распространен.

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое