mkevac24 мар 2009 в 21:13

Получение ISBN номера из книги в формате PDF

1 мин

4.5K

Гаджеты

+19

Комментарии 37

seiros 26 мар 2009 в 13:57

Думается, что есть смысл включить в поиск и последние страницы книги, так, на всякий случай.

mkevac 26 мар 2009 в 14:00

Честно говоря не встречал книг, где, если ISBN и написан, то он не на первых страницах. Вы встречали?
Если да, то, действительно, стоит…

seiros 26 мар 2009 в 14:02

Честно говоря, никогда не обращал на это специального внимания, просто всякая служебная информация печатается как на первых, так и на последних страницах

Zharskiy 26 мар 2009 в 16:55

конечно встречал, многие самодеятельные сканы зачастую начинаются сразу с содержания (иногда с вотермарка), а обложка, аннотация и введение идут в конце

mkevac 26 мар 2009 в 19:42

Спасибо. Учту.

Правда скрипт всё равно не будет работать для нераспознанных сканов…

WebSinner 26 мар 2009 в 14:13

А можно узнать, для чего этот номер нужен и как его можно будет использовать на практике (для чего) и вообще что он из себя предстовляет в кореном смысле?

Breads 26 мар 2009 в 14:18

По нему можно найти любую книгу :) А если точнее, то почитайте википедию, там каждая циферка расписана :)

seiros 26 мар 2009 в 14:19

в общем для систематизации, каталогизации и упрощения поиска книги в Интернете

mkevac 26 мар 2009 в 14:32

Уникальный идентификатор книги. По нему можно найти любую книгу и, что важнее, найти её подробное описание. С полным списком авторов, годом издания, полным названием и т.п. Более того, существуют сайты, который предоставляют API для этого.

Я собираюсь написать программу каталогизатор книг. Аналог calibre, который мне не нравится.

Так вот, в программе достаточно будет указать на книгу, а информация о ней будет получена полностью автоматически.

slider 26 мар 2009 в 14:44

когда напишите — не забудте поделится ;)

Zharskiy 26 мар 2009 в 16:33

прокаталогизируем 3000 книг :-)

mkevac 26 мар 2009 в 19:43

Почему именно 3000? :-)

Zharskiy 26 мар 2009 в 20:06

больше нет

atomicxp 26 мар 2009 в 20:20

Вообще-то есть (http://extracoder.com/genesis/index.html). Можете скачать этот индекс кинг (http://extracoder.com/SharedFilesDownload.aspx?pageid=25&fileid=8&mid=37), он не содержит рекламы и прочего хламья и поставить на свой сайт.

А на форуме (http://gen.lib.rus.ec) есть так же битторрент файлы для скачивания всех эти книг. И это не считая того, что можно качать по прямым ссылкам.

Локальный API пока в разработке, есть только пробные версии, там на форуме всё написано.

mkevac 26 мар 2009 в 19:43

Обязательно. GNU GPL.

TDz 26 мар 2009 в 15:45

А на чём намерены писать? У меня уже есть каталогизатор с импортом данных из амазона и планирую его расширять, всё на пхп.

mkevac 26 мар 2009 в 15:49

Python, C, GTK+
По Unix традиции функционал и интерфейс будут отделены.
Web-морда тоже планируется, но не в первую очередь.

А что за катогизатор у вас? Он выложен в интернет?

TDz 26 мар 2009 в 16:29

У меня была цель быстрой каталогизации существующей базы книг — был сделан краулер, который индексировал базу книг, по имени папки пытался логически определить всё что мог, потом пытался вычитать ISBN из файлов в папке и если удавалось тянул с амазона всю информацию о книге + категории по версии амазона. Ну и предоставлял вебморду для сотрудников библиотеки которые далее вручную разбирали книги которые не удалось опознать автоматически. В открытом доступе его нету, если интересно могу поискать скринкаст

mkevac 26 мар 2009 в 19:44

Да. Интересно. Буду благодарен.

Эта программа использовалась именно в библиотеке? Что за библиотеки у нас держат электронные книги?

atomicxp 26 мар 2009 в 20:27

ebdb.ru
lib.rus.ec
gen.lib.rus.ec

и т.д.

mkevac 26 мар 2009 в 21:28

Из-за «сотрудников библиотеки» я подумал что речь о реальных библиотеках.

TDz 26 мар 2009 в 23:20

Прошу прощения, неудачно выразился. Имелась в виду электронная библиотека, не публичная. Я попробую выдернуть оттуда что-то наглядное

cosmobot 8 апр 2009 в 11:07

Отличная идея.

cry_san 27 мар 2009 в 04:32

Есть поиск по ISBN и добавление книг в базу с ozon.ru, shop.top-kniga.ru, kniga.ru и knigainfo.ru.
Меняемся?

deltafix 26 мар 2009 в 14:17

Международный стандартный номер книги или ISBN (англ. International Standard Book Number) — уникальный номер книжного издания, необходимый для распространения книги в торговых сетях и автоматизации работы с изданием. Наряду с индексами ББК, УДК и авторским знаком, ISBN является частью так называемого издательского пакета… © Wikipedia.org ;)

TDz 26 мар 2009 в 15:42

Есть аналогичная софтина для виндовс и если не ошибаюсь линукс от активистов RuBoard
Что касается скрипта он не полностью соответствует стандарту ISBN и не опознаёт символ X в нём.

mkevac 26 мар 2009 в 15:46

Спасибо. Учту про символ X.

А что за программа от активистов RuBoard не подскажете? Версии чисто под Windows\MacOS меня не интересуют.

TDz 26 мар 2009 в 16:23

Я не уверен предоставляется ли исходный код, но бесплатно распостранялась собранная версия командлайновая которая получая параметром путь к PDF книге сканировала её на предмет нахождения петтерна ISBN-10 и возвращала в случае нахождения. Собственно ничего особенного, но для конечного пользователя проще в использовании. Для проф. пользования я бы рекомендовал сделать собственный парсер с учётом различного написания ISBN кода и исправленным определением X

Zharskiy 26 мар 2009 в 17:04

forum.ru-board.com/topic.cgi?forum=31&topic=5629&glp
может понадобиться регистрация

а также

torrents.ru/forum/viewtopic.php?t=693551
творчество в этой теме вылилось сюда: Library Genesis gen.lib.rus.ec

Вы не можете комментировать чаще, чем 1 раз в 5 минут
очень даже могу

Zharskiy 26 мар 2009 в 17:16

gen.lib.rus.ec/

карма кагбэ номекает мне, что пора валить с хабра?
;-D

Zharskiy 26 мар 2009 в 18:27

gen.lib.rus.ec/forum/viewtopic.php?f=1&t=4

mkevac 26 мар 2009 в 19:47

Спасибо. Много полезной информации.

cblp 26 мар 2009 в 17:05

Результат специально сделан YAML-совместимым? Если да, то почему бы не упомянуть об этом?

mkevac 26 мар 2009 в 19:50

Нет. Это банально распечатка Python-овского массива. Про YAML я узнал только что от вас.

cblp 26 мар 2009 в 20:01

И префиксы перед массивами. Видите, как здорово получилось!

atomicxp 26 мар 2009 в 20:48

На gen.lib.rus.ec вот это советуют rulib.narod.ru/findisbn.html

TDz 27 мар 2009 в 05:01

Вот пример работы с системой (внутреннее название BookDozer). Основная масса книг распознаются и каталогизируются автоматически. Но для особых случаев предусмотрена и ручная обработка:
www.youtube.com/watch?v=-dGIvOUYI6o
Альтернативно — полуавтоматическая обработка книги, для которой ISBN не нашёлся ни в самой ебуке ни в сопутствующих файлах:
www.youtube.com/watch?v=zD1akDx19zY

Зарегистрируйтесь на Хабре, чтобы оставить комментарий