Как стать автором
Обновить

Электронные книги и их форматы: DjVu — его история, плюсы, минусы и особенности

Время на прочтение5 мин
Количество просмотров43K
Всего голосов 37: ↑35 и ↓2+33
Комментарии68

Комментарии 68

Не люблю DjVu, никогда не загружаю документы или книги в этом формате. Ни оглавления нормального, ни поиска по тексту. Отдельные страницы в нем — нормально, многостраничные документы — изврат.

Ни оглавления нормального

Это претензии к тем, кто оформлял документ. Держу в djvu кучу книг, потому что в pdf их банально нет и заметил, что уже несколько лет, как добавлять оглавление стало хорошим тоном на уважаемых трекерах.

Возможно. Я в основном находил в DjVu техническую литературу и сколько ее видел — это всегда была просто куча отсканированных страниц.
Художественную литературу я вообще предпочитаю в формате FB2 :)

Формат в основном для сканов и разрабатывался — понятно что когда документ в электронном виде есть в виде текста то и формат используют другой

А для человека (непрофессионала), который просто делает скан имеющейся у него книги альтернатива — PDF картинками или архив с jpg/tiff
Это исключительно недоделка тех, кто выкладывал книгу. Текстовый слой и оглавление форматом-то поддерживается. В pdf тоже, знаете, иногда пихают просто набор jpeg-ов.

Да, бывает такое и в PDF, но мой личный опыт говорит, что это редкость, как и в DjVu нормальный текст с оглавлением и поиском :)

Журналы по 100-500 метров не редкость. А там всего по 80-200 страниц.
Где-то на винте лежит недокачанный справочник на гиг с хвостиком.


У джв проблема в том, что софта — раз-два и всё. И весь софт представляет собой унылое зрелище. Пока научишься правильно готовить, всё надоест раз сто.


Кстати, уже давно пдф умеет тоже что джв.

У джв проблема в том, что софта — раз-два и всё. И весь софт представляет собой унылое зрелище.

И это тоже, да.

Поиск по тексту возможен, если внедрён текстовый слой. Т.е. это не проблема формата Djvu.

Иными словами отказываетесь от нужной литературы, если её нет ни в каком другом формате. Оригинальный подход.

Ищу другую подобную литературу. К счастью, ситуации когда нужная мне информация имеется в одной единственной публикации, доступной в одном единственно неудобном формате, исключительно редки.

Вы живёте в тепличных условиях. Информация, которая требуется мне, как правило существует исключительно в виде галимого скана. А в DjVu он сохранён или в PDF — уже роли не играет.

Сочувствую Вам :)

ну так этож по сути набор картинок.
ежели оглавление не прописано, то ничего не будет
PDF может хранить множество слоёв и так же все отображать, как DjVu. Все современные программы просмотра PDF поддерживают необходимые для этого алгоритмы сжатия (в том числе JBIG2, в котором также используется словарь символов). Поэтому DjVu представляет только исторический интерес. К сожалению, библиотека DjVu поддерживает конвертацию только в примитивный формат PDF с сжатием G4. И никто не хочет заморачиваться с более умной конвертацией.

Спецификация pdf слишком сложная, формат допускает слишком много всего — и видео внутри документа, и формы ввода и много всего прочего. Результатом этого является практическая невозможность корректно отобразить "произвольный" PDF своими силами. Полностью спецификацию поддерживают только программы от Adobe, т.к. Pdf это их изобретение.

Не поддерживают они полную спецификацию.
Банальный пнг с альфа-каналом в пдф не засунуть не постучав при этом в бубен.
И вообще, вставка картинок там по свински организована. В своё время пришлось порыскать по инету, пока нарыл библиотеку которая умеет вставлять картинку одним куском (минимум накладных расходов, плюсом около 3 кб)
С формами тоже начеку — в читалке текст вводится, но распечатать уже не получится.
В новых форматах есть фишка — наложение элемента шрифта на картинку. Т.е в целях повышения резкости поверх растрового слоя кладётся текстовый слой. и это круто, до тех пор, пока OCR сделан без ошибок. А в случае проблем распознавания можно с удивлением узнать что растровый слой сохранён с чудесным разрешением 100 точек ( и это ещё за счастье).
А правильно подобранные параметры кодирования, от которых 4ядерник с 8 гигами долго и вдумчиво листает страницу — это кривые руки, или такое чуство юмора, как и разрешение на печать с 50 — 80 точками.

PDF — это стандарт ISO. Полностью поддерживают его множество компаний, и многие отлично конкурируют с Adobe по качеству как создания, так и отображения PDF. Вокруг PDF построена громадная инфраструктура. DjVu не является стандартом, полностью его поддерживает только одна библиотека: DjVulib, и никто ничего не может сделать с файлом, если какая-то функция не поддержана этой библиотекой. Так что ситуация обстоит с точностью до наоборот. В современном мире важна не спецификация, а доступность технологий создания файла. Спецификация, кстати, достаточно простая, и написать корректный PDF совсем несложно даже вручную. Я не уверен, что кто-либо возьмется писать корректный DjVu без использования вышеупомянутой библиотеки.

PDF не является стандартом, в отличии от PDF/A (А — архивный). И как раз он не поддерживает всего разнообразия свистелок и перделок что адоб добавляет в очередной версии пдф

Готовить из сканов правильный PDF ничуть не легче чем DjVu, а в некоторых моментах и сложнее. например если делать автоматически CS, и где нибудь на белом фоне окажется точка — то почти всё уйдет в бэкграунд. Не хочу повторяться, если интересно, можете заглянуть в коменты к этой теме, там уже обсуждались и плюсы и минусы обеих сторон habrahabr.ru/post/351266

Готовить одинаково тяжело. Смотреть и работать с ним куда проще. Статья ведь об этом.

А какие проблемы с смотреть и работать? на пк постоянно. Под андроид тоже софт был, причем даже выбор существовал. Тоже проблем не замечал. софт абсолютно одинаково работал что с PDF что с DJVU. На андроиде мне нравился Orion Viewer, но сейчас там еще больше выбора.

ps.: даже родной адобовский акробат на ПК работает с PDF Тормознуто, иллюстрации прогружает с задержкой, в то врея когда на основе тех же сканов собраный DjVu — летает по всем фронтам без каких либо задержек и проблем.
При копировании из PDF часто бывает, что текст разбит по куче строчек и его ещё приводить в должный вид надо. Причём это часто с изнчально электронны текстом бывает…
на планшете win почти нечем открыть djvu, чтобы можно было листать в обе стороны и свайпать. Или я что-то делаю не так?
Неужели трудно клик вверху и клик внизу обрабатывать по-разному? Или справа-слева? Свайп слева-направо и справа-налево?

У меня ноутбук трансформер. Я вам скажу даже больше — под windows вообще редко кто предусматривает нормальную работу с тачскрином.

DjVu был разработан в 1996 году компанией AT&T Labs с одной целью — дать веб-разработчикам инструмент для распространения изображений в высоком разрешении через интернет.


Времена изменились и Дежавю уже мертв.
В любом случае предпочитаю PDF.
Очень жаль тех людей, которые потратили огромное количество времени на сканирование оригиналов, сохраненных только в этом формате.
НЛО прилетело и опубликовало эту надпись здесь
Большая библиотека!
У вас сканирование как-то автоматизировано?
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
В торренте не раздаёте? Или, скажем ed2k?
Просто, 90 гигов на диске — я найду, это не проблема, а вот через что их передавать?
НЛО прилетело и опубликовало эту надпись здесь
Syncthing может проще будет?
НЛО прилетело и опубликовало эту надпись здесь
Кстати, помимо упомянутых torrent и ed2k ещё можно попробовать DC++ и Fopnu.
А с айпи да, это только смотреть, кто из них сможет нормально пробить NAT…
Архивный формат не может быть «мёртвым» до тех пор, пока в нём есть информация, отсутствующая в других форматах. В сравнении с OCR в текстовый вид он менее удобен, но зато он сохраняет массу другой информации, которая теряется при OCR. И при этом он разумен по объёму.
зато он сохраняет массу другой информации, которая теряется при OCR

А кроме того — сохраняет оригинальную орфографию, без внесённых при OCR опечаток.
Как-бы прямо в статье пишут, что JB2, используемый в DJV, может вносить опечатки.
Дежавю уже мертв.

Вы из какого мира?
ерунда какаято. дежавю-лучший формат для книг в электронном виде


Тут, выше, в статье — описаны основные недостатки формата.
Хотя, в принципе одного: «он не поддерживается по умолчанию во многих современных ОС (в том числе мобильных)» — уже достаточно для вынесения приговора.

Плюс у большинства сканов в дежавю совершено отвратительное качество текста.
(Объективно этот параметр можно оценить с помощью ABBYY Screenshot Reader)

А что, PDF поддерживается по-умолчанию в какой-то современной ОС? Ну, кроме *бунты?

Edge идёт вместе с windows 10, он читает pdf.

Кроме него с win8 есть просмотрщик в виде metro приложения

я имел в виду Reader если что, в win8/win8.1, в какой-то десятке вроде тоже он вроде шел из коробки www.microsoft.com/ru-ru/store/p/reader/9wzdncrfhwg5
НЛО прилетело и опубликовало эту надпись здесь
На одном форуме когда-то натолкнулся на интересного персонажа, который утверждал, что художественную литературу надо читать только в формате DjVu, а EPUB и FB2 презрительно называл «распознанкой».
Увы, мне так и не удалось выяснить у него преимущества — любые, пусть даже мнимые — DjVu перед «распознанкой» в случае с художественной литературой, и с тех пор меня так и гложет этот вопрос.
Рискну предположить, что дело в том, что часто те, кто делает FB2-версию, не утруждают себя вычиткой и коррекцией, а потому довольно часто там встречаются артефакты распознавания, в DJVU же обычно тупо пихают сканы.
Кроме того, извечная проблема — разбивка на странице. Жене для диссертации как-то понадобилось использовать книгу XIX века, она существует в виде DJVU-сканов и в виде FB2. Пришлось пользоваться DJVU, потому что нужны были ссылки на конкретные страницы.
Это всё полумеры.
Художку надо читать исключительно на бумаге (старой), сидя вечером в кресле-качалке под лампой с лампочкой с нитью накаливания, накрыв ноги пледом, попивая изредка тёплый глинтвейн. И чтоб рядом никого не было, кроме кота, свернувшегося калачиком в другом кресле недалеко от камина, в котором иногда потрескивают дрова, а за окном чуть слышно постукивает дождь по исключительно деревянному подоконнику.
И никаких смартфонов и прочей современной гаджетухи в радиусе 5 метров от вас, а если и есть, то выключено или в тихом режиме.
Всё остальное — издевательство.
Тоже полумеры — никаких ламп, только свечи и керосиновые фонари.

Лучины же.

Все эти знаки печатные, машин бездушных порождение, суть происки диавола.
Лишь след пера гусиного, рукой писца ведомого, сумления души передать способен.
Все эти ваши новомодные веяния не потеснят старые добрые надёжные глиняные таблички в душах настоящих эстетов.
Приличная книжка занимает пространство размерами с спортзал? :)
Это вы ещё нашу библиотеку не видели.
Ардуину использует для сортировки табличек? А есть прошивка на github'е?
Ардуина — это бездуховно. Только рабы
Художку надо читать исключительно (...)

Из всего этого невкусовщиной являются только первые три слова, образующие отдельное безусловное высказывание:
«Художку надо читать.»

С этим тоже можно поспорить :)

однако 20 лет назад их точность была далека от идеальной — после обработки финальный результат приходилось серьезно править вручную

Разве что-то изменилось?
НЛО прилетело и опубликовало эту надпись здесь
Замечательный формат, но имел проблемы «с рождения» — там почти каждый параграф (открытой, таки!) спецификации покрыт как минимум двумя патентами. Так что на любую более-менее качественную его реализацию патентные тролли слетались как мухи на известный продукт жизнедеятельности.
В этом году как раз будет 20 лет как он появился (согласно вики — в 1998, хм, я думал что раньше)
Имею мнение, что лень (и жадность) компании Adobe, не позволила им “захватить Мир”. Да, Adobe Reader был доступен и бесплатен ещё со времён Windows 3.0… Однако, выпусти компания одновременно с ним простой PDF-принтер (типа сегодняшнего DoPDF) для всего спектра систем – подозреваю, такого “зоопарка форматов” мы бы сегодня не видели, кроме мест где нужен “мягкий”, “текучий” формат (в отличие от “жёсткого” PDF'а).

Что-то здесь никто PostScript не упомянул, как альтернатива pdf.

А чем он читается? Я до сих пор его в pdf печатал для просмотра.
GSView/Okular, ну и большинством opensource pdf просмотрщиков.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий