Комментарии 143
Конечно для навигации и поиска еще необходимо распознавание.
К слову самые сложные книги, которые в мягком переплете — их невозможно развернуть полностью ( на 180 градусов) для сканирования.
расположение разметочной сетки на странице регулируется самим пользователем.
Пользуюсь одним популярным приложением на Android для документов. Обрезает, чистит, выравнивает при съёмке под наклоном, но нет функционала с разметочной сеткой(выравнивание изгиба страниц ). Не встречали для Android такого?
Если только они уже не поломаны одним из предыдущих читателей.
Тогда технически всё довольно просто — срезаем целиком клеевой корешок (гильотинным ножом), оцифровываем стопку страниц, затем делаем новый корешок (гибкий при засыхании ПВА практически идеален). На крайний случай (если книга не очень ценная) можно даже переплести спиралью.
И да, это всё если книга УЖЕ испорчена. Либо если точно известно, что разломается при первом же открытии.

Вообще, отклоняясь от темы, вопрос реставрации книг очень интересный. Правда требует серьезных затрат времени и изрядной усидчивости :)
А насчет полноценной копии и OCR. А в бумажных книгах OCR есть? Хотя добавить текстовый слой — работа не пыльная (см. ссылки в тексте на мои ранние статьи, там этот вопрос освещается). Просто зачем он, если читаешь на смартфоне и ничего копировать не нужно никуда. Да и вообще, замечательно распознается выровненный текст с фотографий (особенно если сфотографировать на полных 40 МПикс камеры :) ). Очень редко проблемы такого плана возникают (только может если фотографировать на веб-камеру :) или очень плохое состояние самой книги)
Ограничиваться сканированием нужно только для исторически значимых изданий, где ценно всё — шрифт, цвет, вплоть до заметок на полях. Но в таких случаях и для сканирования используется что-нибудь получше, чем смартфон.
p.s. Выше уже сказали, что лучше сканированная книга, чем никакой. С этим не поспоришь — согласен!
Не просто существенно, а СУЩЕСТВЕННО!
Это в крайнем варианте равно полностью перевёрстке книги.
Поэтому djvu/pdf со скрытым ocr-слоем — это самый универсальный вариант в плане трудозатрат/удобства.
Скорость сканирования не так важна, как последующая возня со сканами в ФайнРидере. Если это сканы с планшетника, где ты уже наловчился точно выравнивать обе страницы разворота, полностью расплющивая текстовые области на странице — то все очень быстро и просто. Размечается текстовая область в шаблоне и погнали. А если это фотоскан, с минимальными искажениями — то проще забить и пересканить на планшетнике, потому что на исправление ошибок уйдет дикое количество времени и все равно все не выловить.
Более менее современный планшетник сканит разворот, ну… может секунд за 30, если учесть перелистывание, перекладывание книги. 300 страниц это 150 разворотов, час-полтора времени. Зато ФР потом практически не требует вмешательства, все по шаблону и без ошибок.
Планшетник жалко гонять ради оцифровки ширпотреба (если уж вдруг стало "надо"). Там ж механика, она изнашивается...
Ну, я вот один умудрился износить. Хороший был, старенький HP Scanjet 2400.
К тому же фотоаппаратом/камерой — это существенно быстрее.
И если "соседская бабушка попросила оцифровать Донцову" — то вряд ли стоит морочиться со сканером (если не соседская, а своя, любимая — то да).
Это абсолютно никак не повлияет на то, что переснять — существенно быстрее.
(даже не "старичок", а "модный молодёжный" планшетник не сравнится по скорости с "перелистнул и щёлкнул")
Правильно. Поэтому и не надо ничего распознавать.
Максимум — автоматический скрытый OCR-слой для возможности поиска. Но там настроек по минимуму; качество не важно (на то он и скрытый).
Я правда тоже грешен, имею протяжной маленький дорожный сканер для старых фото (это к тому, что мы полностью от сканеров не отказываемся)

Обычная офисная машинка для секретутки на ресепшн. Книги сканирует криво, компенсации изгиба нет и текст не ровный. Своих денег не стоит, даже учитывая что на ибее уже по 450-700 баксов. Еще и разрешение низкое.
Глянул на местных барахолках — нету, видимо редкий гость, узкоспец.
Ну, это только с точки зрения перфекциониста.
Можно ещё сказать, что документ из кучи страниц с распознанным текстом — это суррогат книги. А для полноценной надо взять электронный макет из издательства, и откадрировать по формату (выкинуть разные метки обрезки/цветопробы и т.д.). И да, иллюстрации там должны быть исключительно в высшем разрешении и если сжаты, то только lossless.
В общем, предела совершенству нет :).
С практической точки зрения для подавляющего большинства задач получение "электронной книги" — это излишние и не нужные трудозатраты. Пусть это будет просто "электронный скан", но прямо здесь и сейчас. (и да, разные плюшки вроде интерактивных оглавлений/указателей и поиска по Ctrl+F из скрытого слоя OCR никто не отменяет; если это можно сделать автоматически в один проход — пусть компьютер сделает. Но вручную вычитывать, перевёрстывать, подбирать шрифты — это уж извольте). На эту работу уйдёт 20% времени, которое ушло бы на "полноценную электронную книгу". Зачем тратить остальные 80%?
Ну, разве что если это хобби, и этим заниматься нравится. Либо если это профессия, и это занятие оплачивается (тогда скорее всего и рабочая лицензия/подписка на FineReader есть под рукой).
А с точки зрения быстрого электронного скана — не нужен ни планшетник, ни finereader, всё делается легко и быстро открытым софтом.
Достаточно текста без ошибок, а каким шрифтом его читать — каждый пусть выбирает сам. Текст без ошибок быстрее всего получить со сканов.
Ну а я о том, что даже просто "текст без ошибок" — это уже роскошь.
Обычная отсканированная книга — как правило ограничивается многостраничным файлом с отсканированными картинками. С оригинальным (растровым) видом.
Если доводить до "текста без ошибок", то изготовление массового варианта (скан с оглавлением) займёт в нём 10-20% времени; остальное уйдёт на распознавание и исправление ошибок. За очень редким исключением (серый текст без иллюстраций на одном языке).
На "просто почитать" править все ошибки нет надобности.
На "писать работу и ссылаться на книгу" — как раз практичнее скан, а не электронный текст. Потому что сохраняется естественная пагинация (а вот в электронном тексте она выглядит уже искусственно натянутой).
Если сканер не полные дрова и оператор наловчился хорошо прижимать книгу в нужном месте — ошибок будет минимум. Без всяких дополнительных заморочек, бесплатно.
А вот «сохранение естественного вида книги», стопка многомеговых сканов в контейнере дежавю или пдф — считаю бесполезным излишеством. Все это сильно затрудняет чтение.
Здоровенные планшеты — встречаются намного реже смартов и небольших планшетов, небольших читалок. Так что — это не самое распространенное средство для чтения. Если книга нужна только для ссылок на нее, тогда хватит и пустых сканов, но это встречается еще реже, чем большие планшеты.
Особенно книги по программированию в FB2/Epub настолько читаемые что ух…
это вы хотите заниматься вычиткой и переверсткой технической литературыЧто за ерунда? Где я такое говорил?
Я говорил о том, что если сканировать на планшетнике, то ошибок будет гораздо меньше, чем при распознавании с фото.
А вот «сохранение естественного вида книги», стопка многомеговых сканов в контейнере дежавю или пдф — считаю бесполезным излишеством. Все это сильно затрудняет чтение
Или мы друг друга не так поняли тут? :)
Что касается мыльниц Canon, есть смысл попробовать CHDK накатить, вроде там должна быть опция предварительного поднятия шторки — так будет снимать чуть дольше, но в условиях плохого света меньше будет сказывается шевелёнка на больших выдержках. Ну и делать штатив максимально тяжёлым и устойчивым. Эффект шевелёнки может проявляться даже если снимаете с пультом, достаточно хорошего сквозняка, пройти мимо стола (если пол не бетонный) и, опять же, срабатывающей шторки в камере.
В общем есть над чем подумать, чтобы оцифровать свой скарб
Ну дык это ж не истина в последней инстанции.
Я, например, если надумаю повторять — сразу возьму светодиодный свет, причём с линейным драйвером.
Стёкла при раскладке — они дёшево и сердито решают проблему точной фиксации (разные мелкие вкладыши — да, можно. Насадку на объектив — тоже можно. Но это всё добавляет лишних деталей к модели "тук-тук — и в продакшн").
В общем, "немецкий дед" сделал те самые необходимые 20% работы, которые дают 80% результата.
Дальше получится лучше, но уже качественных улучшений не будет.
В 1998 году (помните кризис?) выиграл грант Сороса на создание сайта. Нам на двоих выдали 7000$. Несмотря на советы друзей, потратить эти деньги на что-нибудь полезное (квартиру там купить, или машину), на свои 3500$ купил цифровой фотоаппарат и ноутбук. Тогда еще ограничений по фотографированию в архивах еще не было. До сих пор помню, как на меня, со слезами на глазах, смотрели завсегдатаи архивов, переписывавшие все вручную. Сайт, кстати, до сих пор живой :-) info.irk.ru/kbrr/index2.htm
В моей практике очень много интересной технической литературы времен СССР. Там авторы были достаточно адекватными и ничего против наличия в сети интернет скан-копии своей книги не имеют.
Кроме книг на бумажных носителях бывает много ещё чего интересного.
Например, ноты…
И там да, либо в фотошопе почистить шум, выровнять свет и конвертнуть в 1-бит (и распечатать), либо именно как вы сказали — сфотографировать на телефон, и перенабрать в лилипонде (увы, качественных "файнридеров" для нот не придумали)
Хм… "за 5-10 минут оцифровать 600-страничную книгу" — по-моему это фантастика.
За секунду (а тем более за пол-секунды) надо сделать и сохранить снимок, потому что дальше — тут же следующий.
Поверю, если всё уже настроено и выставлено, нужно только листать и нажимать спуск (например, педалью). Но в эти 10 минут, я так понимаю, ещё и подготовка к процессу входит...
Да, с автоспуском возможно и выйдет.
Но вряд ли чаще, чем раз в секунду (а если перед этим ещё и готовить рабочее место, то надо ещё чаще). Итого 600 страниц — 600 секунд. Это 10 минут чистой съёмки.
Но вот в 5 минут уложиться — ооочень сомневаюсь.
(я последний раз аврально без всяких уголков делал — просто двумя руками держал книгу; в качестве штатива — табурет, фотал на смарт, он лежал на табурете, камера выглядывала за край. Листал и держал руками, спуск на экране нажимал носом...)
Листал и держал руками, спуск на экране нажимал носом...)
Что за книга была? :) Или из спортивного интереса?
Да, всякие философские книжки на английском и немецком из зарубежной библиотеки.
Штук 5, на полторы тыс. страниц.
Надо было срочно, шеф попросил. "У меня завтра самолёт, мне эти книжки нужно везти-возвращать, а они хорошие". Поэтому ресурс камеры 2x на xiaomi mi 6 пришлось уменьшить на два килоснимка. А потом scantailor, pdfbeads и в конечном итоге вышло 45мб материала. Что для >1000 страниц вполне неплохо!
1 страница в секунду — это в смысле уже готовая (с ocr-слоем) страница в финальном pdf, или просто снятие первички?
Так же ничто не мешает спилить край у обычного сканера, надо только найти подходящий где это можно сделать. На авито встречались.
А где тут DIY? Телефон к штативу прикрутили?
У ScanKromsator порог вхождения, но возможности шире чем у ScanTailor. Так же ScanTailor есть несколько версий о чем Вы даже не упомянули — на данный момент активно развивается Advanced.
Я использую DEE — Document Express Editor v6.0.1 Build 1320 LE (for NT) (Light Edition for NT) за маленький размер и шуструю работу.
А это вообще кусок мамонта, профили от него уже 100 лет как раскурили, и есть DjVu Small Mod куда легче и удобнее.

Даже прижимая страницы стеклом, с ровным освещением на нормальный фотик качество не очень, а тут еще и на телефон %)
Да вообще, тема обсасывалась уже столько раз, но Вы видимо не посещаете ни publ.lib.ru, ни руборд, ни даже тему по обработке сканов на рутрекере.
А twirpx спасибо «большое», сколько книг пришлось заного сканировать…
Ну и это, а чем вам мой телефон не нравится? Размер матрицы то у него, как у мыльницы :) Не говоря уж про ручные настройки в CameraPro. (/зеркалкой не фотографировал/). По вашей ссылке не нашел ничего нового, что бросило бы камень в огород моего метода. Ну кроме отсутствия света, дааа %) НО! Ключевой момент с цитируемого сайта:
Ч/Б книги не требуют качественного и сильного освещения и можно применять обычные лампы накаливания или задирать ИСО
Моя статья относится именно к сканированию Ч/Б технических книг, и здесь разрешение снимка наверное самый главный фактор.
Насчет twirpx. Максимум что мне приходилось переделывать — резать сплошные страницы. Ну и еще перегонять сугубо текстовые книги из PDF в FB2.
Максимум что мне приходилось переделывать — резать сплошные страницынеоднократно оказывалось проще самому взять в библиотеке и пересканировать с нуля, так как хорошие сканы запаганили кривыми настройками кодера в DjVu.
Да, если вы сканируете художку и подобное, где пропашвий штрих/точка не критичны, то да, можно фоткать.
Даже для ЧБ освещение тоже играет существенную роль.
Если есть формулы то я бы не стал, DjVu кодеры и на хороших то сканах их порой съедать могут. И да, тут свет более важен, чем контрастнее тем лучше будет. Если что то редкое и возможность только сфоткать, я бы максимум приводил к единообразному размеру и в PDF, чтоб как можно меньше потерь было.
По сканкрамсатору есть большущий сборный туториал о том что вообще в нем можно сделать (но к сожалению там звук плох) www.youtube.com/channel/UCa_qTE3APItrURNZol13t8g но это просто кладезь. Ни в одной туториале нет этого всего). Инструмент сильно сложнее. ST делался для домохозяек с минимумом настроек, а SK с точностью до наоборот.
По приведению сканов в порядок в фотошопе, и вообще фотошоп как инструмент для работы со сканами, есть отдельный хороший плейлист www.youtube.com/playlist?list=PLtX2JBh28dABhvKs2ae3P0bod31I_dMWO
фотошоп для сканов?..
Ну, если один-два-десять, норм.
Если сотни однотипных страниц — да ну нафиг…
Тогда уж декомпозировать задачу, и скриптовать в ImageMagick.
Я так то тоже не сторонник, просто для общего развития подкинул, что и так можно. Автор роликов вполне немало книг таким образом сделал :) А так, есть у меня сканы в загашнике, там либо SK, либо в фотошопе мучаться, еще не решил. Когда нибудь может займусь.
П.С. Раз уж тут, не допиливали скрипт? :)
Вот сейчас до конца года 20 дней отпуска надо утилизовать.
Скорее всего этим и займусь. Тем более, благодаря распродаже "день друга" есть практически халявная RubyMine.
(возможно, даже пост сделаю. Для очень многих "электронных архивариусов" djvu стал своего рода священной коровой. И то, что в pdf нынче можно сделать практически то же самое, для многих оказывается открытием).
хорошие сканы запаганили кривыми настройками кодера в DjVu.
С нынешними объемами жестких дисков, все можно гнать в «Фото» (из моего любимого DEE наиболее lossless )

Конструкция копеешная и легко повторяема, в разобранном виде занимает минмиум места.
П.С.: комплектный профиль «Фото» в DEE достаточно печальный. Лучше уж в jpeg2000 и в PDF собрать.

Возможно, на досуге попробую такую штуку собрать…
да, с pdf проблем нет. но djvu он ламповее так, для тех литературы. Предрассудок
Жестькость недостаточная, за стекло поднимать неудобно. А на шпильках, если вы видете фото, имеется ручка. за ручку всю конструкцию поднимаем, переставляем, перелистываем, прижимаем когда надо сильнее. С данным вариантом так не прокатит.
с pdf проблем нет. но djvu он ламповее так, для тех литературы«Повбывав бы» ©
ПДФ можно прочитать в чем угодно, хоть дефолтными средствами, хоть в браузере, хоть в бесплатном и общедоступном Адоб Ридере. Его можно затолкать в распознавалку, хоть в ФР, хоть в любой онлайновый сервис.
Дежавю старое чудовище, которое навскидку не пойми чем посмотреть, ни одна современная программа или сервис с ним нормально не работает.
PDF — 1993, DjVu — 1996, ну и кто древнее?
PDF Не менее старое чудовище, еще и с кучей версией формата и со своими проблемами. Адобридер тоже то еще монструозное неповоротливое чудище.
«Хоть в браузере» — это надо уточнять в каких, не все такими же пользуются.
Я молчу про удобный софт для готовки PDF и все прелести при создании CS.
Вы хоть представляете отличие обычного PDF и A-PDF?
Я в вашем же стиле могу продолжать еще долго. Всё это очень субъективно.
А для дежавю есть полторы штуки калечного софта, ваяемого на коленке парой энтузиастов, половина из которого уже годами не обновляется. Онлайн-сервисы при виде дежавю начинают ругаться неведомыми словами.
Если я выложу на файлопомойку или отправлю по почте кому угодно ПДФ — его просмотрят без всякого труда. Даже если человек не работает с пдф каждый день, он, как минимум, в курсе существования этого формата, любой поисковик наведет его на тысячи способов работы с пдф. Если человеку далекому от истории электронного книгоделания (то есть любому, ибо не факт что хотя-бы 1 из 1000 понимает в этой теме), отправить дежавю — то файл будет выкинут в помойку.
Я искренне изумлен, что кому-то надо объяснять такие очевидные вещи.
он поддерживается почти везде на уровне системы
Слишком громкие слова. В винде только в 10ке в Edge стало открываться сразу, но не все Edge оставляют.
А для дежавю есть полторы штуки калечного софта
Опять слишком громкие слова.
половина из которого уже годами не обновляетсяно которые из года в год прекрасно выполняют свою функцию.
любой поисковик наведет его на тысячи способов работы с пдф.а с DjVu значит нет? ну загуглите «разобрать PDF на страницы», найдете десяток сайтов которые отдадут жепег и всё, и только на Н-ой страницы выдачи встретите как это сделать на пк (причем под виндой, про мак линукс я вообще молчу).
отправить дежавю — то файл будет выкинут в помойку.Значит человеку он изначально не нужен был. Обычно в помойку полетит «ужасноприготовленый файл» независимо о формата, но никак не из за формата.
Большинство читает книги в doc, и что, теперь все остальные форматы в помойку?
Вы пол флибусты в свое время заспамили своими объяснениями «очевидных вещей», но почему то вам там не рады (и не только там). Неужто все вокруг неправы один Вы Д'Артаньян?)
С ПДФ работать легко и просто. Куча программ генерит ПДФы из коробки, этот формат без всяких проблем понимается облачными сервисами, Дропбокс, Гуглодиск, всякие Ворды-Эксели любят его почти как родного. ПДФ вызывает никаких сложностей в плане открыть-посмотреть.
Количество программ и сервисов понимающих Дежавю — на много-много порядков меньше. Вот и все.
И перестаньте хамить.
На самом деле, мне абсолютно...С этого и надо было начинать, а не топить за «дежавю наше все и за ним будущее». Всерьез сравнивать распространенность этих форматов и спорить — просто глупо.
А вот вы во всех темах на хабре посвещеные сканированию книг ведете себя как огалтелый фанатик ;).
у пдф проблемы тоже имеются, и с дежавю работать проще и удобнееЕще раз: исключительно вам. Обычный человек скорее удалит непонятный дежавю, чем будет пытаться с ним разобраться.
Обычный человек скорее удалит непонятный дежавю, чем будет пытаться с ним разобраться.
Тот самый обычный человек абсолютно так же удалит и PDF, не пытаясь с ним разобраться. Особенно если у него Win 7 на борту, а то и ХP (зачем обычному человеку новые windows, работает и хорошо, а сисадмин обычному человеку ставить новое не будет, дабы себе не усложнять жизнь с обучением работе).
Еще раз…
PDF — формат, который постоянно на слуху. Сложно найти человека, который про него не слышал и не сталкивался. Его хоть и давно придумали, но распространенность и поддержка у него практически абсолютная.
Если человеку придет ПДФ — то веб-морда гмейла его предложит открыть прямо в самом движке, а также сохранить его на гуглодиске, который пдфы показывает без всяких костылей — сам. Почтовые клиенты давно уже отлично показывают пдфы собственными встроенными средствами и тд и тп тд тп.
Дежавю и близко не приближается к популярности и распространенности пдф.
Кстати подумал про openwrt. Можно ли прочесть pdf на роутере через SSH, через framebuffer какой или т.п.?
Опенсорц это хорошо, но поддержка в Ворде или Гуглодрайве куда важнее.
Насчет ворда, таки да. Гуглодрайв — so so, скорее уж тогда плагины для браузеров. Кстати, есть ли плагин (и какой лучше) плагин для ФФ, чтобы на лету открывать djvu (как в случае с pdf)?
видны блики и отраженияКороткий пост в одну строчку, его не сложно прочитать, да? Отражения не просто будут, они видны на превью и возни с тем, чтобы от них избавиться — море. Я распознавал книги снятые на фотоаппарат подобным образом, и книги отсканированные на планшетнике. Больше я возиться с фото не буду, слишком много проблем.
Я это делал года 3 назад, примеров не осталось, но всё хорошо было. на флибусеках мои сканы обрабатывали, никто и не знал что они на камеру)).
П.С.: про сканы в голом виде в djvu/pdf — надо руки отрывать)
Не может взрослый человек не знать, чем отличается отражение от блика. Никакими заморочками со светом — нельзя убрать отражения самой растопырки и камеры на ней. Вообще и никак. И эти отражения видны на фото. Если кому-то кажется, что они не видны — продолжать бесполезно.
Скан с планшетника на порядки уменьшает количество ошибок распознавания, в отличии от фотографий.
Сканы в голом виде — это то, о чем написана эта статья.
Что скан с обычного самого дешевого сканера будет лучше — это неоспоримо, тут и говорить не о чем. Но мы обсждаем все тут именно фотографирование.
С статье не в голом видео, а после скантейлора.
Фото сделано с другой камеры внешне, под другим углом, при никаком освещении. Конечно тут видно что там в стекле что то отражается. Фото всего лишь чтоб показать конструкцию.
Можно сделать снимок с закрепленой камерой так чтоб ничего из этого небыло на снимке страницы. Еще раз, то что вы не умеете, и не волокете в данной теме ничего, это не значит что другие такие же.
Сделать снимок так, чтобы камера не отражалась в зеркале — можно только двумя способами: снять со стороны и потом выправить в фотошопе геометрию; снять со стороны с объективом позволяющим манипулировать наклоном и сдвигом. Ну или просто адово выфотошопливать камеру из картинки. В этом девайсе нет ничего подобного.
Снять зеркало так, чтобы в нем не отражалась камера, фокальная плоскость которой находится параллельно плоскости зеркала, а ее проекция по нормали попадает на зеркало — физически невозможно.
DIXI
Литару <...> оцифровал тридцать тысяч страниц материалов <...> в течение пятнадцати часов
примерно по две страницы (один разворот) в секунду?
«Цифровое книгопечатание» или мой опыт в мобильной оцифровке книг