Получение ISBN номера из книги в формате PDF

    Написал небольшой скриптик, который ищет в PDF книге ее ISBN номер. Скрипт написан на Python с использованием небольшой библиотеки для работы с ISBN.

    По умолчанию поиск производится среди первых 10 страниц.

    Библиотека доступна по адресу: www.staff.ncl.ac.uk/d.j.wilkinson/software/isbn.py

    Скрипт доступен по адресу: pastebin.com/f7d5c3e90

    Вывод выглядит так:

    $ ./get-isbn.py test.pdf
    ISBN-13: ['978-1-59059-585-5']
    ISBN-10: ['1-59059-585-8']
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 37

      +2
      Думается, что есть смысл включить в поиск и последние страницы книги, так, на всякий случай.
        0
        Честно говоря не встречал книг, где, если ISBN и написан, то он не на первых страницах. Вы встречали?
        Если да, то, действительно, стоит…
          0
          Честно говоря, никогда не обращал на это специального внимания, просто всякая служебная информация печатается как на первых, так и на последних страницах
            +1
            конечно встречал, многие самодеятельные сканы зачастую начинаются сразу с содержания (иногда с вотермарка), а обложка, аннотация и введение идут в конце
              0
              Спасибо. Учту.

              Правда скрипт всё равно не будет работать для нераспознанных сканов…
          0
          А можно узнать, для чего этот номер нужен и как его можно будет использовать на практике (для чего) и вообще что он из себя предстовляет в кореном смысле?
            +2
            По нему можно найти любую книгу :) А если точнее, то почитайте википедию, там каждая циферка расписана :)
              –1
              в общем для систематизации, каталогизации и упрощения поиска книги в Интернете
                +1
                Уникальный идентификатор книги. По нему можно найти любую книгу и, что важнее, найти её подробное описание. С полным списком авторов, годом издания, полным названием и т.п. Более того, существуют сайты, который предоставляют API для этого.

                Я собираюсь написать программу каталогизатор книг. Аналог calibre, который мне не нравится.

                Так вот, в программе достаточно будет указать на книгу, а информация о ней будет получена полностью автоматически.
                  0
                  когда напишите — не забудте поделится ;)
                    0
                    прокаталогизируем 3000 книг :-)
                      0
                      Почему именно 3000? :-)
                        0
                        больше нет
                          +1
                          Вообще-то есть (http://extracoder.com/genesis/index.html). Можете скачать этот индекс кинг (http://extracoder.com/SharedFilesDownload.aspx?pageid=25&fileid=8&mid=37), он не содержит рекламы и прочего хламья и поставить на свой сайт.

                          А на форуме (http://gen.lib.rus.ec) есть так же битторрент файлы для скачивания всех эти книг. И это не считая того, что можно качать по прямым ссылкам.

                          Локальный API пока в разработке, есть только пробные версии, там на форуме всё написано.
                      0
                      Обязательно. GNU GPL.
                      +1
                      А на чём намерены писать? У меня уже есть каталогизатор с импортом данных из амазона и планирую его расширять, всё на пхп.
                        0
                        Python, C, GTK+
                        По Unix традиции функционал и интерфейс будут отделены.
                        Web-морда тоже планируется, но не в первую очередь.

                        А что за катогизатор у вас? Он выложен в интернет?
                          0
                          У меня была цель быстрой каталогизации существующей базы книг — был сделан краулер, который индексировал базу книг, по имени папки пытался логически определить всё что мог, потом пытался вычитать ISBN из файлов в папке и если удавалось тянул с амазона всю информацию о книге + категории по версии амазона. Ну и предоставлял вебморду для сотрудников библиотеки которые далее вручную разбирали книги которые не удалось опознать автоматически. В открытом доступе его нету, если интересно могу поискать скринкаст
                            0
                            Да. Интересно. Буду благодарен.

                            Эта программа использовалась именно в библиотеке? Что за библиотеки у нас держат электронные книги?
                              0
                              ebdb.ru
                              lib.rus.ec
                              gen.lib.rus.ec

                              и т.д.
                                0
                                Из-за «сотрудников библиотеки» я подумал что речь о реальных библиотеках.
                                  0
                                  Прошу прощения, неудачно выразился. Имелась в виду электронная библиотека, не публичная. Я попробую выдернуть оттуда что-то наглядное
                            0
                            Отличная идея.
                            0
                            Есть поиск по ISBN и добавление книг в базу с ozon.ru, shop.top-kniga.ru, kniga.ru и knigainfo.ru.
                            Меняемся?
                        +1
                        Международный стандартный номер книги или ISBN (англ. International Standard Book Number) — уникальный номер книжного издания, необходимый для распространения книги в торговых сетях и автоматизации работы с изданием. Наряду с индексами ББК, УДК и авторским знаком, ISBN является частью так называемого издательского пакета… © Wikipedia.org ;)
                          +1
                          Есть аналогичная софтина для виндовс и если не ошибаюсь линукс от активистов RuBoard
                          Что касается скрипта он не полностью соответствует стандарту ISBN и не опознаёт символ X в нём.
                            0
                            Спасибо. Учту про символ X.

                            А что за программа от активистов RuBoard не подскажете? Версии чисто под Windows\MacOS меня не интересуют.
                              0
                              Я не уверен предоставляется ли исходный код, но бесплатно распостранялась собранная версия командлайновая которая получая параметром путь к PDF книге сканировала её на предмет нахождения петтерна ISBN-10 и возвращала в случае нахождения. Собственно ничего особенного, но для конечного пользователя проще в использовании. Для проф. пользования я бы рекомендовал сделать собственный парсер с учётом различного написания ISBN кода и исправленным определением X
                                +1
                                forum.ru-board.com/topic.cgi?forum=31&topic=5629&glp
                                может понадобиться регистрация

                                а также

                                torrents.ru/forum/viewtopic.php?t=693551
                                творчество в этой теме вылилось сюда: Library Genesis gen.lib.rus.ec

                                Вы не можете комментировать чаще, чем 1 раз в 5 минут
                                очень даже могу
                                  0
                                  gen.lib.rus.ec/

                                  карма кагбэ номекает мне, что пора валить с хабра?
                                  ;-D
                                    0
                                    gen.lib.rus.ec/forum/viewtopic.php?f=1&t=4
                                    0
                                    Спасибо. Много полезной информации.
                                0
                                Результат специально сделан YAML-совместимым? Если да, то почему бы не упомянуть об этом?
                                  +2
                                  Нет. Это банально распечатка Python-овского массива. Про YAML я узнал только что от вас.
                                    +1
                                    И префиксы перед массивами. Видите, как здорово получилось!
                                  0
                                  На gen.lib.rus.ec вот это советуют rulib.narod.ru/findisbn.html
                                    0
                                    Вот пример работы с системой (внутреннее название BookDozer). Основная масса книг распознаются и каталогизируются автоматически. Но для особых случаев предусмотрена и ручная обработка:
                                    www.youtube.com/watch?v=-dGIvOUYI6o
                                    Альтернативно — полуавтоматическая обработка книги, для которой ISBN не нашёлся ни в самой ебуке ни в сопутствующих файлах:
                                    www.youtube.com/watch?v=zD1akDx19zY

                                    Only users with full accounts can post comments. Log in, please.