На планете более двух с половиной миллиардов пользователей смартфонов. Если бы каждый из них оцифровал хотя бы одну книгу, нам бы понадобился всего один день для всех когда-либо написанных произведений. Калев Литару, специалист по системам обработки данных с двадцатилетним стажем, предлагает новый способ оцифровки книг на основе краудсорсинга и обычных смартфонов.
![image](https://habrastorage.org/r/w1560/getpro/geektimes/post_images/45a/0c9/a5b/45a0c9a5bb827c732880ae9bbbd53996.png)
В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.
Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.
Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.
![image](https://habrastorage.org/r/w780q1/getpro/geektimes/post_images/105/d71/470/105d71470eed86122bc267fd80f1f9e6.jpg)
Сотрудники российской компании «Элар» работают над оцифровкой книг
Литару предлагает разделить проект на две части. На первом этапе нужно составить список книг, подлежащих оцифровке. Для этого используют каталог WorldCat и другие инструменты: в первоначальный список войдут все книги, которые есть в библиотеках и которые не были оцифрованы. Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав. Составление списка может быть частично отдано на краудсорсинг — библиотеки будут публиковать список книг, статус которых в отношении защиты копирайтом неизвестен, а волонтёры будут проверять первые страницы книг и отправлять библиотекам эту информацию.
Один только первый этап позволит понять, каков процент оцифрованных книг в мире. По собственным данным Google, компания в рамках проекта Ngram оцифровала 6% всех опубликованных книг, но точный их список неизвестен.
После составления полного списка неоцифрованных произведений начинается основная краудсорсинговая часть проекта. Волонтёры будут приходить в библиотеку, брать книгу, доставать смартфон и фотографировать обложку. Система оптического распознавания символов наподобие той, что использует Google, определит автора и название книги и сравнит с имеющимся на сервере списком, после чего сообщит о необходимости оцифровать экземпляр или о том, что эта работу уже проведена. Если книга подлежит переводу в цифровой вид, волонтёр сфотографирует первые несколько страниц: на этом этапе система должна определить, насколько качественные получаются фотографии, всё ли хорошо со светом, можно ли распознать символы, не слишком ли у фотографа трясутся руки. Затем пользователь получает команду продолжить работу или взять другую книгу.
Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.
Изображения со смартфонов не будут того же качества, которое достигается с помощью профессиональной техники. Но их будет достаточно для чтения, а система оптического распознавания символов сделает текст доступным для поиска. Эти страницы были сфотографированы десять лет назад, а сегодня смартфоны имеют более качественные камеры и светодиодные вспышки.
Библиотеки могут позволить волонтёрам использовать имеющиеся в учреждении сканеры документов для этой работы. Все результаты будут отправлены на центральный сервер проекта, где будут переведены в PDF и другие форматы для чтения электронных книг, и где текст будет обработан и доступен для поиска.
В процесс оцифровки можно включить фактор геймификации. Волонтёры будут получать очки за оцифрованные произведения, а организации смогут устраивать «дни оцифровки» и дарить подарки лучшим участникам проекта. В работу смогут включиться даже школьники. Библиотеки будут получать отзывы от пользователей о наличии плохо оцифрованных страниц. Волонтёры станут кем-то вроде редакторов Википедии, а библиотеки будут координировать их работу.
Википедия и другие краудсорсинговые проекты показали свою эффективность. И краудсорсинг может вновь показать свою эффективность в оцифровке книжного наследия, уверен Калев Литару. Вместо селфи и фотографий еды в Instagram пользователи двух с половиной миллиардов смартфонов могут помочь сохранить множество произведений и создать огромную базу из всех когда-либо опубликованных книг, чтобы оставить её нашим потомкам.
![image](https://habrastorage.org/getpro/geektimes/post_images/45a/0c9/a5b/45a0c9a5bb827c732880ae9bbbd53996.png)
В январе 2015 года пожар повредил 15% фондов научной библиотеки ИНИОН в Москве. Тогда выгорело 2000 квадратных метров и обрушилась часть кровли. В библиотеке хранилось 14 миллионов книг и документов, в том числе редкие издания XVI — начала XX веков. По словам директора библиотеки Юрия Пивоварова, деньги на оцифровку почти не выделялись. Проблема полной оцифровки книг, документов, рукописей не решена в глобальном масштабе, хотя существуют проекты, которые этим занимаются, и сами библиотеки в России и других странах пытаются перевести имеющиеся экземпляры в цифровой вид.
Для оцифровки книг используют громоздкие сканеры стоимостью от десяти тысяч долларов. За этими сканерами работают профессиональные операторы, время которых стоит денег. Операторы переворачивают страницы книги, а сканер фотографирует одновременно две страницы. Скорость работы обычно составляет до пятисот страниц в час, то есть за час работник отсканирует одну-две книги.
Калев Литару предлагает призвать на помощь энтузиастов со всего мира с их смартфонами. В качестве примера эффективности краудсорсинга он рассказывает о проекте eBird, который отслеживает миграции птиц. В этом проекте за тринадцать лет работали более ста тысяч волонтёров, что позволило зафиксировать 275 миллионов наблюдений из 2,87 миллионов уникальных локаций. Сейчас у людей на планете 2,6 миллиардов смартфонов, к 2020 году их количество вырастет до 6,1 миллиардов, в том числе за счёт развивающихся стран.
![image](https://habrastorage.org/getpro/geektimes/post_images/105/d71/470/105d71470eed86122bc267fd80f1f9e6.jpg)
Сотрудники российской компании «Элар» работают над оцифровкой книг
Литару предлагает разделить проект на две части. На первом этапе нужно составить список книг, подлежащих оцифровке. Для этого используют каталог WorldCat и другие инструменты: в первоначальный список войдут все книги, которые есть в библиотеках и которые не были оцифрованы. Из этого списка исключат хрупкие экземпляры и те книги, которые находятся под защитой авторских прав. Составление списка может быть частично отдано на краудсорсинг — библиотеки будут публиковать список книг, статус которых в отношении защиты копирайтом неизвестен, а волонтёры будут проверять первые страницы книг и отправлять библиотекам эту информацию.
Один только первый этап позволит понять, каков процент оцифрованных книг в мире. По собственным данным Google, компания в рамках проекта Ngram оцифровала 6% всех опубликованных книг, но точный их список неизвестен.
После составления полного списка неоцифрованных произведений начинается основная краудсорсинговая часть проекта. Волонтёры будут приходить в библиотеку, брать книгу, доставать смартфон и фотографировать обложку. Система оптического распознавания символов наподобие той, что использует Google, определит автора и название книги и сравнит с имеющимся на сервере списком, после чего сообщит о необходимости оцифровать экземпляр или о том, что эта работу уже проведена. Если книга подлежит переводу в цифровой вид, волонтёр сфотографирует первые несколько страниц: на этом этапе система должна определить, насколько качественные получаются фотографии, всё ли хорошо со светом, можно ли распознать символы, не слишком ли у фотографа трясутся руки. Затем пользователь получает команду продолжить работу или взять другую книгу.
Литару провёл несколько тестов и выяснил, что таким образом один пользователь, приноровившись, сможет за пять-десять минут оцифровать 600-страничную книгу. Сам он в 2004 году для дипломной работы вручную оцифровал тридцать тысяч страниц материалов из более чем семисот документов, используя обычную цифровую камеру и дешёвую настольную лампу. Большую часть этой работы Литару выполнил в течение пятнадцати часов в один из выходных дней.
Изображения со смартфонов не будут того же качества, которое достигается с помощью профессиональной техники. Но их будет достаточно для чтения, а система оптического распознавания символов сделает текст доступным для поиска. Эти страницы были сфотографированы десять лет назад, а сегодня смартфоны имеют более качественные камеры и светодиодные вспышки.
Библиотеки могут позволить волонтёрам использовать имеющиеся в учреждении сканеры документов для этой работы. Все результаты будут отправлены на центральный сервер проекта, где будут переведены в PDF и другие форматы для чтения электронных книг, и где текст будет обработан и доступен для поиска.
В процесс оцифровки можно включить фактор геймификации. Волонтёры будут получать очки за оцифрованные произведения, а организации смогут устраивать «дни оцифровки» и дарить подарки лучшим участникам проекта. В работу смогут включиться даже школьники. Библиотеки будут получать отзывы от пользователей о наличии плохо оцифрованных страниц. Волонтёры станут кем-то вроде редакторов Википедии, а библиотеки будут координировать их работу.
Википедия и другие краудсорсинговые проекты показали свою эффективность. И краудсорсинг может вновь показать свою эффективность в оцифровке книжного наследия, уверен Калев Литару. Вместо селфи и фотографий еды в Instagram пользователи двух с половиной миллиардов смартфонов могут помочь сохранить множество произведений и создать огромную базу из всех когда-либо опубликованных книг, чтобы оставить её нашим потомкам.