Электронные книги и их форматы: говорим про EPUB — его историю, плюсы и минусы

    Ранее в блоге мы писали о том, как появились форматы электронных книг DjVu и FB2.

    Тема сегодняшней статьи — EPUB.


    Изображение: Nathan Oakley / CC BY

    История формата


    В 90-е на рынке электронных книг господствовали проприетарные решения. И у многих производителей читалок был собственный формат. К примеру, в NuvoMedia использовали файлы с расширением .rb. Это были контейнеры с HTML-файлом и файлом .info, содержащем метаданные. Такое положение вещей усложняло работу издателей — им приходилось верстать книги под каждый формат по-отдельности. Исправить положение вещей взялась группа инженеров из Microsoft, уже упомянутой NuvoMedia и SoftBook Press.

    В то время Microsoft собиралась завоевывать рынок электронных книг и занималась разработкой приложения-читалки для Windows 95. Можно сказать, что создание нового формата являлось частью бизнес-стратегии ИТ-гиганта.

    Если говорить о NuvoMedia, то эта компания считается производителем первой массовой электронной читалки Rocket eBook. Внутренняя память устройства составляла всего восемь мегабайт, а время автономной работы не превышало 40 часов. Что касается SoftBook Press, они также занимались разработкой электронных читалок. Но их девайсы имели отличительную особенность — встроенный модем — он позволял скачивать цифровую литературу напрямую из магазина SoftBookstore.

    В начале нулевых обе компании — NuvoMedia и SoftBook — были куплены медиакомпанией Gemstar и объединены в Gemstar eBook Group. Эта организация еще несколько лет занималась продажей ридеров (например, RCA REB 1100) и цифровых книг, однако в 2003 году вышла из бизнеса.

    Но вернемся к разработке единого стандарта. В 1999 году Microsoft, NuvoMedia и SoftBook Press основали организацию Open eBook Forum, в составе которой стали работать над черновиком документа, положившим начало EPUB. Изначально стандарт назывался OEBPS (расшифровывается как Open EBook Publication Structure). Он позволил распространять цифровую публикацию в одном файле (ZIP-архиве) и упростил перенос книг между различными аппаратными платформами.

    Позже к Open eBook Forum присоединились ИТ-компании Adobe, IBM, HP, Nokia, Xerox и издатели McGraw Hill и Time Warner. Все вместе они продолжили разработку OEBPS и занимались развитием экосистемы цифровой литературы в целом. В 2005 году организацию переименовали в Международный форум по цифровым публикациям, или IDPF.

    В 2007 году IDPF сменили название формата OEBPS на EPUB и начали разработку его второй версии. Её представили широкой публике в 2010 году. Новинка почти не отличалась от своего предшественника, однако получила поддержку векторной графики и встроенных шрифтов.

    К этому времени EPUB завоевывал рынок и стал стандартом по умолчанию для многих издателей и производителей электронных гаджетов. Форматом уже пользовались O’Reilly и Cisco Press, плюс его поддерживали устройства Apple, Sony, Barnes & Noble, ONYX BOOX.

    В 2009 году проект Google Books объявил о поддержке EPUB — его использовали для распространения более миллиона бесплатных книг. Популярность формат начал приобретать и у писателей. В 2011 году Джоан Роулинг рассказала о планах запустить сайт Pottermore и сделать его единственной точкой продаж книг Поттерианы в цифровом виде.

    Стандартом для распространения литературы был выбран EPUB, в первую очередь из-за его возможности реализовать защиту от копирования (DRM). Все книги в онлайн-магазине писательницы до сих пор доступны только в этом в формате.

    Третья версия формата EPUB вышла в 2011 году. Разработчики добавили возможность работать с аудио- и видеофайлами и сносками. Сегодня стандарт продолжает развиваться — в 2017 году IDPF даже вошла в состав консорциума W3C, который внедряет технологические стандарты для Всемирной паутины.

    Как устроен EPUB


    Книга в формате EPUB представляет собой ZIP-архив. В нем хранится текст публикации в виде XHTML- или HTML-страниц или файлов PDF. Также в архиве лежит медиаконтент (аудио, видео или изображения), шрифты и метаданные. Еще в нем могут находиться дополнительные файлы со стилями CSS или PLS-документы с информацией для сервисов генерации речи.

    За отображение контента отвечает XML-разметка. Фрагмент книги со встроенной аудиозаписью и изображением может выглядеть следующим образом:

    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE html>
    <html xmlns="http://www.w3.org/1999/xhtml" xmlns:epub="http://www.idpf.org/2007/ops"
        xmlns:ev="http://www.w3.org/2001/xml-events"
        epub:prefix="media: http://idpf.org/epub/vocab/media/#">
        <head>
            <meta charset="utf-8" />
            <link rel="stylesheet" type="text/css" href="../css/shared-culture.css" />
        </head>
        <body>
            <section class="base">
                <h1>the entire transcript</h1>
                <audio id="bgsound" epub:type="media:soundtrack media:background"
                    src="../audio/asharedculture_soundtrack.mp3" autoplay="" loop="">
                    <div class="errmsg">
                        <p>Your Reading System does not support (this) audio</p>
                    </div>
                </audio>
    
                <p>What does it mean to be human if we don't have a shared culture? What
     does a shared culture mean if we can't share it? It's only in the last
     100, or 150 years or so, that we started tightly restricting how that
     culture gets used.</p>
    
                <img class="left" src="../images/326261902_3fa36f548d.jpg"
                    alt="child against a wall" />
            </section>
        </body>
    </html>
    

    Помимо контентных файлов в архиве находится специальный навигационный документ (Navigation Document). Он описывает расположение текста и изображений в книге. Приложения-ридеры обращаются к нему в том случае, если читатель желает «перескочить» через несколько страниц.

    Еще один обязательный файл в архиве — package. Он включает в себя метаданные — информацию об авторе, издателе, языке, названии и так далее. Туда же входит перечень (spine) подразделов книги. Пример package-документа можно посмотреть в репозитории IDPF на GitHub.

    Достоинства


    Преимущество формата — его гибкость. EPUB позволяет создавать динамическую разметку документа, адаптирующуюся под размеры экрана устройства. Это одна из главных причин, почему формат поддерживает большое количество читалок (и других электронных устройств). К примеру, с EPUB работают «из коробки» все ридеры ONYX BOOX: от базовой и 6-дюймовой Caesar 3 до премиальной и 9,7-дюймовой Euclid.


    / ONYX BOOX Caesar 3

    Так как формат построен на основе популярных стандартов (XML), его легко конвертировать для чтения в интернете. Также EPUB поддерживает интерактивные элементы. Да, подобные элементы они есть и в PDF, однако добавить их в PDF-документ можно только c помощью проприетарного программного обеспечения. В случае с EPUB они добавляются в книгу разметкой и тегами XML в любом текстовом редакторе.

    Другим достоинством EPUB являются функции для людей, испытывающих проблемы со зрением или страдающих дислексией. Стандарт дает модифицировать отображение текста на экране — например, подсветить определённые буквосочетания.

    Еще EPUB, как мы уже отметили, дает издателю возможность установить защиту от копирования. При желании продавцы электронных книг могут использовать свои механизмы, ограничивающие доступ к документу. Для этого нужно модифицировать файл rights.xml в архиве.

    Недостатки


    Для создания EPUB-публикации необходимо разбираться в синтаксисе XML, XHTML и CSS. При этом приходится работать с большим количеством меток-идентификаторов. Для сравнения, тот же стандарт FB2 включает в себя лишь минимально необходимый набор тегов — достаточный для верстки художественной литературы. А для создания PDF-документов вообще не требуются особые знания — за все отвечает специализированное ПО.

    Также EPUB критикуют за сложность оформления комиксов и других книг со множеством иллюстраций. В этом случае издателю приходится создавать статичный макет с фиксированными координатами для каждой картинки — на это может уходить много сил и времени.

    Что дальше


    Сейчас IDPF работает над новыми спецификациями для формата. Например, одна из них поможет создавать интерактивные учебные пособия со скрытыми разделами. Одна и та же книга будет по-разному выглядеть для преподавателя и студента — во втором случае окажутся скрыты, например, ответы на тесты или контрольные вопросы.


    Изображение: Guian Bolisay / CC BY-SA

    Ожидается, что новая функция поможет реорганизовать образовательный процесс. Сегодня EPUB довольно активно используется крупными вузами, например Оксфордским университетом. Несколько лет назад они добавили в свое приложение с цифровой библиотекой поддержку EPUB 3.0.

    Также IDPF создает спецификацию для внедрения в EPUB сносок Open Annotation. Этот стандарт разработали в W3C в 2013 году — он упрощает работу со сложными видами аннотаций. Например, с его помощью можно поставить примечание к определенному участку JPEG-изображения. Дополнительно стандарт реализует механизм синхронизации изменений в аннотациях между копиями одного EPUB-документа. Примечания формата Open Annotation можно добавлять в EPUB-файлы и сейчас, однако формальная спецификация для них пока не принята.

    Также ведется работа над новой версией стандарта — EPUB 3.2. В ней появятся форматы WOFF 2.0 и SFNT, которые используются для сжатия шрифтов (в некоторых случаях они позволяют сократить размеры файла на 30%). Также разработчики заменят некоторые устаревшие атрибуты HTML. Например, вместо отдельного элемента trigger для активации аудио- и видеофайлов в новом стандарте будут нативные HTML-элементы audio и video.

    Черновик спецификации и список изменений уже доступны в GitHub-репозитории W3C.



    Обзоры читалок ONYX-BOOX:

    МакЦентр
    114,42
    Компания
    Поделиться публикацией

    Комментарии 14

      +4
      А что будет с защитой если распаковать архив, удалить файл rights.xml и запаковать обратно?
        0

        Наверное, не все так просто ;) Файлы с контентом наверняка шифрованные.

          –2
          Думаю, что ключи в самом архиве. Врятли они прошиты в каждом устройстве.
          +1
          Вообще, epub предаполагает шифрование (http://www.idpf.org/epub/301/spec/epub-ocf.html#sec-container-metainf-encryption.xml)
          Описывается по www.w3.org/TR/2002/REC-xmlenc-core-20021210/Overview.html
          Но, конкретно, методы и ключи — это на стороне разработчиков.
          +2
          им приходилось верстать книги под каждый формат по-отдельности. Исправить положение вещей взялась группа инженеров из Microsoft,

          У меня даже фото есть

          image

            +5
            В фб2 можно сделать индивидуальный стиль отображения, в епабе — никак, там в каждой книге свои стили.
            И в епаб, интерактивную часть, программы отображают как бог на душу положит. Гугл.книги вообще забили на это. Т.е. стабильно показывается текст, особенные шрифты — в большинстве случаев, интерактив — надо индивидуально пробывать.
            Зато, формально в епаб можно положить пользовательские коментарии и межпрограмные маркеры позиции чтения.
              +1
              Одна и та же книга будет по-разному выглядеть для преподавателя и студента — во втором случае окажутся скрыты, например, ответы на тесты или контрольные вопросы.

              А открыть в архиваторе и посмотреть исходники не получится?
                +1

                Разные части можно зашифровать разными ключами.

                  +2
                  До чего дошел дрм!
                +2
                Надо еще заметить, что Amazon, по-какой причине, очень не любит этот формат, и в серии kindle он до сих пор не поддерживается.
                  –1
                  Похоже у формата больше недостатков, чем положительных качеств. Сужу по комментариям, так как не пользуюсь им. А в разработке участвовала  Microsoft. Совпадение?
                    +1
                    формата больше недостатков, чем положительных качеств


                    EPUB это DRM, а DRM это $$$.

                    в разработке участвовала Microsoft. Совпадение?


                    Не думаю ;)

                      0
                      А совпадение с чем именно, если в разработке участвовал Майкрософт?
                      –1

                      В далеком 1990 году у меня вышла книга, которая одна из первых была подготовлена на персональном компьютере ЕС-1840 в среде редактора Лексикон и макет печатался на лазерном принтере. И все это проходило в солидном издательстве "Финансы и статистика":
                      image


                      Главная проблема помимо того, где найти персоналку, затем лазерный принтер, была нехватка порошка для лазерного принтера. И все равно это было как чудо: впервые мне не пришлось готовить рукопись и гранки вручную: не надо печатать на машинке, исправлять ошибки и т.п. А редактор Лексикон смотрелся как верх программистского чуда.

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое