Pull to refresh

Активисты и библиотекари США сканируют и публикуют книги, изданные в период с 1924 по 1964 годы

XML *Data storage *Reading room


Коалиция работников архивов, активистов и работников американских библиотек занимается оцифровкой книг, чтобы сделать их доступными в интернете для всех.

Все книги, опубликованные в США до 1924 года, являются общественным достоянием, что означает, что они находятся в государственной собственности и их можно свободно использовать и копировать. Книги, изданные в 1964 году и позже, все еще охраняются авторским правом. По закону, это право будет действовать в течение 95 лет с даты их публикации. Но 24–64 годы ХХ века — своеобразная «серая зона», в которой не всегда понятно, кому и на что принадлежат права.

Как пишут на Motherboard, в авторском праве есть лазейка, которая позволяет свободно читать и копировать большую часть книг, изданных в период с 1924 по 1964 год. Проблема в том, чтобы определить, какие это книги, что может быть сложно из-за архаичных систем регистрации авторских прав и запутанного и постоянно меняющегося закона об авторском праве.
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Views 4.8K
Comments 7

На сайте Google Books обнаружены розовые пальцы

Lumber room
Операторы проекта по оцифровке книг Google Books трудятся много и упорно. В программе участвуют 27 университетов и десять тысяч издателей со всего мира. На сайте книги появляются в открытом доступе в формате PDF сразу же, как только для них истекает срок копирайта, а «закрытые» произведения тоже доступны для полнотекстового поиска.

Недавно объём отсканированной литературы перевалил за миллион томов и продолжает увеличиваться на 3000 в день. Вся работа осуществляется вручную. Однако, такая спешка не проходит бесследно. Операторы оставляют свои отпечатки на страницах истории, в самом прямом смысле.

На страницах старинных журналов и книг читатели находят странные изображения пальцев в розовых резинках. Вот одна такая страница из журнала The Gentleman's Magazine издания 1855 года. Другую руку нашли в книге Платона.



Вообще, эксперты отмечают плохое качество оцифровки многих книг. Очевидно, что технологию сканирования нужно совершенствовать.

via The Sydney Morning Herald
Total votes 32: ↑24 and ↓8 +16
Views 1.2K
Comments 22

От памфлетов до биллей: библиотека Хартли выходит в Сеть

Content AI corporate blog
Уже не первый год в Великобритании проходит грандиозная программа по оцифровке архивов университетов и крупных библиотек с помощью современных технологий. Её цель – перевести информацию в удобный для пользователя электронный вид и сделать доступной для всех желающих. На подобный подвиг образовательные институты вдохновляет (в том числе и финансово) неправительственная общественная организация «Комитет объединённых информационных систем» (Joint Information Systems Committee, JISC).


И весьма удачно: в прошлом году к этой программе присоединилась библиотека Хартли Саутгемптонского университета, одна из лучших научных библиотек страны. Она и задачу себе поставила грандиозную: оцифровать всё что можно, в темпе presto-скоро (полмиллиона страниц в год) – и дать это людям. Чтобы presto получилось именно presto, а не каким-нибудь adagio, Хартли воспользовалась ABBYY Recognition Server’ом, решением для автоматического распознавания документов в больших объёмах. Под катом – технические подробности и немного плюшек.
Читать дальше →
Total votes 31: ↑30 and ↓1 +29
Views 5.6K
Comments 4

Специальный шрифт для нахождения ошибок после OCR

Typography *
Сообщество Distributed Proofreaders («Распределённые корректоры») больше десяти лет занимается сканированием книг для проекта «Гутенберг». Сотни добровольцев помогают вычитывать тексты и исправлять ошибки.

После автоматического распознавания чаще всего ошибки встречаются в символах, которые похожи друг на друга, как I, l и 1, O и 0, и так далее. Если пользоваться обычным шрифтом вроде Times, то такие ошибки можно и не заметить. Поэтому для проекта Distributed Proofreaders был создан специальный шрифт, в котором «похожие» символы как можно сильнее отличаются друг от друга.


Читать дальше →
Total votes 49: ↑39 and ↓10 +29
Views 15K
Comments 62

Аналитика по российскому рынку книжных сканеров

ALEE Software corporate blog
Sandbox
Вот уже пол года как я работаю стажером-маркетологом в ИТ-компании, занимающейся промышленным сканированием. Одна из поставленных передо мной глобальных задач заключалась в изучении российского рынка оборудования, предназначенного для сканирования сшитых документов. Погружаясь в проблему, я не смог найти в рунете каких-либо сводных и аналитических статей по этой теме, соответственно все пришлось собирать по крупицам. В итоге я бы хотел с вами поделиться тем материалом, который у меня накопился в процессе работы. Надеюсь, что собранный материал будет полезен читателям хабра.
Читать дальше →
Total votes 21: ↑21 and ↓0 +21
Views 31K
Comments 5

Как не промахнуться в выборе книжного сканера

ALEE Software corporate blog

Выбор лучшего книжного сканера для оцифровки фондов сегодня становится актуальным перед любой библиотекой, музеем и архивом. Как купить сканер за приемлемую цену и работать на нем без проблем ближайшие 5-10 лет, отсканировав весь необходимый к оцифровке бумажный фонд? В статье рассматриваются книжные фото-сканеры с V-образной колыбелью, получившие признание за счет оптимального соотношения цены/качества и производительности по сравнению с традиционными планетарными сканерами. Приведены ключевые функциональные требования к аппаратной и программной частям сканера, условия, необходимые для долгосрочной бесперебойной работы оборудования, обязательные требования к поставщикам.

В 2005 году мы, как компания, выполняющая проекты по сканированию для библиотек и архивов, искали себе книжный сканер. Имея опыт работы с традиционными книжными сканерами и ограниченный бюджет, мы остановили свой выбор на появившихся на рынке фото-сканерах V-образной колыбелью.

В предыдущей статье мы рассматривали все виды книжных сканеров существующих на рынке. Данной статьей мы рассмотрим книжные сканеры на базе цифровых фотоаппаратов.
Читать дальше →
Total votes 32: ↑29 and ↓3 +26
Views 20K
Comments 4

Книги не бывают плоскими…

Корпорация ЭЛАР corporate blog Image processing *
С технической точки зрения, книги – это самые плохие объекты для сканирования, и если бы они были изобретены в наши дни, то представляли бы собой бесконечно длинные свитки. Если бы так случилось, необходимости в планетарных сканерах не было бы вовсе.

Сегодня мы расскажем о характеристиках планетарных сканеров, — параметрах, определяющих и оправдывающих существование в этом мире данного типа оборудования. Планетарные сканеры созданы для бесконтактной высококачественной оцифровки самых разных оригиналов: сшитых и расшитых документов, документов с толстым корешком, ценных, ветхих; а также тканей, орденов, монет и т.п. Планетарный (проекционный) способ сканирования – это сканирование сверху вниз, так сказать, с головы.

Пристальный взгляд

Изнутри сканирующая «голова» выглядит так:

image

В ней находится один или несколько светочувствительных сенсоров, оптическая система с приводом настройки фокуса, контроллер управления. В отдельных моделях присутствует модуль лазерного дальномера и привод управления «следящей» системой освещения, а также «мозги». Однако, в сканере самое главное это все-таки не мозг, а «глаза».
Читать дальше →
Total votes 20: ↑15 and ↓5 +10
Views 14K
Comments 49

ABBYY помогает в оцифровке редких изданий Сахалинской библиотеки

Content AI corporate blog Image processing *
Сегодня мы расскажем вам, как помогали оцифровывать Сахалинскую областную универсальную научную библиотеку. Переводить библиотеки в электронный вид мы начали довольно давно. Постоянные читатели блога наверняка помнят обзорный пост по нашим библиотечным проектам, а также топики, посвященные оцифровке библиотеки Хартли и созданию каталога Королевского ботанического сада Эдинбурга. Итак, поехали.

Сахалинская областная универсальная научная библиотека существует уже 67 лет и остается одним из основных информационных, культурных и научно-исследовательских центров Дальнего Востока. Сегодня в библиотеке хранится около 617 тысяч различных изданий.
Читать дальше →
Total votes 26: ↑26 and ↓0 +26
Views 9K
Comments 12

Готическое распознавание: как мы помогали оцифровывать Национальную библиотеку Латвии

Content AI corporate blog Image processing *


Сегодня мы хотим рассказать, как оцифровывали издания Национальной библиотеки Латвии. Если вы следите за нашим блогом, вы наверняка читали, как наши технологии помогают оцифровать литературное наследие разных библиотек, а также статьи, посвященные отдельным проектам — оцифровке в Сахалинской библиотеке, королевском ботаническом саду Эдинбурга и библиотеке Хартли. Сегодня история о том, как это было в Риге. Итак, Национальная библиотека Латвии – крупнейшая в стране, основана в 1919 году, обладает 4,5-миллионным собранием книг и документов, в том числе на латышском языке в уникальном готическом написании.
Читать дальше →
Total votes 40: ↑39 and ↓1 +38
Views 12K
Comments 21

Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

Content AI corporate blog Image processing *
image

Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.
Читать дальше →
Total votes 35: ↑34 and ↓1 +33
Views 5.8K
Comments 2

Гильдия авторов отказалась от иска к библиотекам за сканирование книг

Copyright
Вот уже несколько лет Гильдия авторов США (Authors Guild) пытается добиться от университетских библиотек выплаты лицензионных отчислений за то, что они сканируют книги и предоставляют доступ к контенту в цифровом виде. Судебный иск подан против организации Hathitrust, которая возглавляет проект сканирования книг в интересах ряда библиотек, пишет Techdirt.

Ещё в 2012 году окружной суд вынес вердикт, что действия Hathitrust являются очевидным примером добросовестного использования (fair use), а в июне 2014 года апелляционный суд подтвердил это решение.

Теперь Гильдия авторов, наконец, фактически признала своё поражение. В суд подано мировое соглашение, в котором сообщается об отказе от претензий.
Читать дальше →
Total votes 17: ↑16 and ↓1 +15
Views 6.9K
Comments 1

Пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. На оцифровку книг деньги почти не выделялись

Popular science
В ночь с пятницы на субботу в Москве горела библиотека Института научной информации по общественным наукам РАН. 38 пожарных расчётов тушили здание почти всю ночь. Выгорело 2000 квадратных метров, обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. От огня и воды повреждено 15% фондов, однако учёные надеются, что большую часть повреждённых экземпляров удастся спасти.


Читать дальше →
Total votes 33: ↑32 and ↓1 +31
Views 16K
Comments 59

Российская государственная библиотека искусств оцифровала книги 1750-1981 годов

Popular science
«Элар» оцифровала для Российской государственной библиотеки искусств (РГБИ) книги, датированные 1750-1981 годами. Книги посвящены живописи, иконописи, скульптуре, театру и архитектуре и написаны на английском, французском, немецком и итальянском языках.

image
Фото: Мир ПК
Читать дальше →
Total votes 18: ↑14 and ↓4 +10
Views 8.3K
Comments 5

Оцифровка всемирного книжного наследия с помощью смартфонов

Smartphones Crowdsourcing
На планете более двух с половиной миллиардов пользователей смартфонов. Если бы каждый из них оцифровал хотя бы одну книгу, нам бы понадобился всего один день для всех когда-либо написанных произведений. Калев Литару, специалист по системам обработки данных с двадцатилетним стажем, предлагает новый способ оцифровки книг на основе краудсорсинга и обычных смартфонов.

image

В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.

Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.

Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.
Читать дальше →
Total votes 15: ↑14 and ↓1 +13
Views 11K
Comments 16