KBookOCR for Linux. Убийца FineReader-а для Linux на начальной стадии

    Вступление


    Возможно каждый из нас переживал период в своей жизни который сопровождался активно оцифровкой аналогов материала. Я имею в виду необходимость работы с текстом из неоцифрованных источников. Имеется в виду не только проблема сканирования, но и так же множество материала который к сожалению доходит до конечного потребитель не совсем в пригодном для использования виде. И я думаю у каждого из нас очень часто в голове пробегали лестные мысли об распространителя книги в формате djvu или pdf в котором весь контент был представлен сугубо графически без возможности использование материалов для своей деятельности.


    Для Windows-пользователей существует вариант использования FineReader, который без труда осуществлял процесс распознавания со всеми вытекающими.

    Linux — решение проблемы


    Ну а что делать людям, которые способны использовать более продвинутые операционные системы сохраняя при этом свои финансы на приемлемом уровне? Разумеется существуют проекты консольных утилит по распознаванию текста. На базе одной из самых развитых открытых технологий OCR создали целый дистрибутив по развертыванию сервера для OCR с веб-интерфейсом для общения с этим самым сервером. Но не думаю что конечному потребителю интересны такие монструозные решения. А сама по себе технология реализована во многих дистрибутивах в виде консольного приложения, которое может оперировать не популярными форматами, из которых чаще всего и необходимо “выдрать” текст (djvu, pdf), а графическими файлами что осложняет процесс использования.

    Разумеется такое положение вещей и любовь Линуксоидов к оптимизации всего и вся привели к появлению проекта BookOCR, основателям которого и программистом выступает замечательный человек mr-protos, которого пока нету на Хабре. Далее его статья о создании BookOCR:

    BookOCR


    mr-protos создал в меру простой bash-скрипт bookocr.sh:
    bookocr.tar.xz (размещено на dropbox) 

    Алгоритм его работы:

    1. проверка расширения файла (.djvu или .pdf. В случае иного расширения скрипт выдаст предупреждение);
    2. постраничное конвертирование файла в .png для дальнейшего распознавания. (результат складывается во временную папку ~/.tmp_pdf или ~/.tmp_djvu);
    3. распознавание сконвертированных страниц с помощью OCR;
    4. объединение постранично-распознанных текстовых файлов в один;
    5. удаление временной папки.

    Использование скрипта:

    bookocr.sh <путь_к_pdf_или_djvu>
    Примечание: готовый файл создаётся в той же директории, что и исходный
    Для работы скрипта в системе должны быть установлены следующие пакеты:
    • cuneiform
    • ghostscript
    • djvulibre-bin
    • libtiff-tools
    • libnotify-bin

    Качество распознанного текста зависит в первую очередь от качества оригинального файла и от работы пакета cuneiform.

    KBookOCR



    Разумеется данный проект стал толчком для еще одной амбициозной идеи, которую совместно с автором BookOCR воплотил в жизнь Ваш покорный слуга b0noI. Идея заключалась в том что бы реализовать систему пригодную для использования визуальными эстетами во всем предпочитающих визуально-красивое оформление (это как минимум), а как максимум создать проект на базе Linux, который бы позволял выполнять функционал FineReader в столь же удобной и эстетично прекрасном варианте.

    Для разработки была выбрана библиотека Qt. С одной стороны этот проект представляет с собой надстройку над проектом BookOCR, однако не все так просто. Так как при интеграции приходилось вносить существенные изменения в изначальный скрипт. Особые проблемы были при реализации предпросмотра djvu файлов, так как если для pdf существует проект poppler, то в указанном случаи предпросмотр пришлось реализовать сторонней bash утилитой. Именно по этому в систему при установки KbookOCR, по мимо самого KbookOCR, устанавливается не только BookOCR, но и консольная утилита которая используется для получения картинки используемой при предпросмотре.

    Текущее состояние проекта

    Уже сейчас проект дошел до стадии готовой первой версии и проходит активное публичное тестирование (скачать для Ubuntu deb x86). Что же может первый публичный и опен-сорсный убийца FineReader-а?:
    • выполнять предпросмотр документа который необходимо распознать (пролистывать страницы);
    • указывать язык распознавания. На текущий момент отсутствует распознавания языка в документе, однако это планируется сделать. Так же нет возможности указывать двойной язык распознавания документа (за исключением rus/eng);
    • менять размеры предпросмотра. Доступно два варианта — оригинальный размер или же уменьшенный;
    • распознавать можно по заданному диапазону или же весь документ;
    • сохранение распознанного документа. Доступно два варианта — или же сохранить результат в обычный текстовый файл, либо же открыть результат в OpenOffice Writer.

    RoadMap

    В следующей версии, срок выхода которой, к сожалению, не известен, планируется реализовать и добавить:
    • работу со сканером;
    • автоопределение языка в документе;
    • более гибкий предпросмотр. с прорисовкой миниатюр страниц, а так же с более гибким указанием масштаба отображения;
    • более гибкое указание диапазона распознавание.

    В очень отдаленной перспективе рассматривается варианты указания зон распознавания, типов зон, а так же распознавание не только текста но и форматирование документа в соответствие с оригиналом.

    Послесловие


    И хотя KbookOCR является наиболее свежим детищем нашего дуэта, программа не является первым и единственным нашим творением. В следующей серии мы расскажем Вам о нашем первом совместном проекте для Linux — KbashPod для подкастофилов.

    UPD:


    Обновление до версии 1.2:
    • Поддержка сканера (via scanimage);
    • Вывод результата в формате html, rtf (via cuneiform);
    • Обработка форматирования текста (via cuneiform);
    • Динамическое изменение масштаба предпросмотра.


    Ссылки


    BookOCR

    bookocr.tar.xz

    KBookOCR 1.2

    KBookOCR on kde-apps.org

    Авторы

    mr-protos
    b0noI
    Share post

    Similar posts

    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 85

    • UFO just landed and posted this here
        +1
        В кого?
        • UFO just landed and posted this here
      • UFO just landed and posted this here
          +2
          OCR отдельных зон документа и распознавание форматирования, планируется добавить в перспективе. Что касается нижнего уровня который сейчас выполняют существующие ПЗ, идут работы и рассматрение варианта перехода на собственные разработки в этой области или же совершенствовать существующие сторонние программы.
          Мы понимаем всю сложность такого проекта как FineReader и говорим о нем как о конечной цели, ну а пока у нас, как Вы верно подметили GUI + скрипты + консольные программы
            0
            Распознать одну букву просто. Распознать 2 буквы сложнее.
            Распознать зоны документа, форматирование, логику, структуру — это уже совсем иной уровень, чем распознавание букв.
            +5
            Набор консольных программ и оболочка над ними это классический Unix-way. Это даже добавляет гибкости.
              0
              Все сделано в случших традициях философи Unix ;)
            +36
            Это определенно круто навесить свой гуй на CuneiForm и называть себя «первым публичным и опен-сорсным убийцей FineReader-а».
              +13
              Гуёвый убийца ФайнРидера — так красивее звучит…
                +2
                вы так говорите, словно они где-то утверждают, что они — первые
                0
                Как красиво звучит: «подкастофил» ;)
                  –2
                  Классный проект.
                  Вы реализовали все, чего нехватало YAGF.
                  Сегодня посмотрю и скорее вего добавлю в новую версию «Ubuntu для преподавателей».
                    –6
                    Ребята из ABBYY вас минусуют что бы не дать попасть на главную и не дать общественности «соскочить» с FineReader'а :))
                      +19
                      Не знаю как ребятам из ABBYY, но вот мне показалось противным читать восхваление разработки автора и узнать, что используется таки cuneiform, а между тем название статьи подразумевает какую-то собственную разработку… Я не спорю, что фронтент фронтенду рознь, но и представлять это надо соотвественно тогда. А не как «супермегаНАНОпроект».
                        +5
                        На мой взгляд они сделали большую работу и действительно выпустили новый продукт, включающий в себя CuneIForm.

                        Это, кстати, и есть идеология OpenSource. Не переделывать работу, а уже существующие хорошо зарекомендовавшие себя части.

                        Вообще «разрабатывать с нуля» — это самое вредное что может быть!
                        Это затраты времени, ресурсов и заведомо отставание от развития технлолгии.
                          +2
                          А кто тогда будет придумывать что-то новое и, собственно, двигать технологии дальше?
                            +3
                            Знаете как говорят «Все открытия делаются, стоя на плечах прошлых поколений». Все новое, это новая комбинация либо новое использование уже существующих технологий. Вы строите новую систему используя уже имеющиеся компоненты.
                              +1
                              Тут я, конечно, согласен. Повторное использование чего-либо или задействование известных технологий чаще полезно, чем бесполезно. Но в любом случае какие-то отдельные ключевые компоненты должны постоянно разрабатываться, иначе технологии протухнут. Любая разработка или изобретение не будет таковым, если нет новизны (взять даже аспирантские диссеры). Говоря конкретно об этом случае, сложно «разработать» что-либо в области optical character recognition, делая gui-обёртки над существующей системой. Уж тем более позиционироваться как «открытие» или убийца файнридера) Об этом, в частности, и сказал elve; никто не говорит, что писать такое плохо или вредно.
                                +7
                                Ребят, делите задачи на отдельные области.

                                Делая обертку вы по сути рекламируете проект — ту его чать, которая непосредственно занимается распознаванием текста.

                                Если обычные пользователи не начнут пользоваться продуктом — то и развивать его будет незачем.

                                Такие проекта как KBookocr должены быть заметными и широко известными. За счет них сама система cuneiform начинает развиваться активнее и к ее разработке подключаются новые люди.
                                  0
                                  Да вы поймите, я только за. И, вроде, никто тут не против, речь-то о другом.
                                  Я даже скачал уже, посмотрю)
                                    +2
                                    >И, вроде, никто тут не против,

                                    Вот в этом я не был бы так уверен. Посмотрите на рейтинг новости и заметите что тех кто против половина, а то и больше от тех кто за.

                                    И вообще, такая тенденция — минусовать новости о Linux в блоге Linux для всех очень присуще хабре.
                                      +2
                                      Да и карме досталось( Прейдется теперь вновь набивать понемного что бы о KBashPod-не написать(
                                      0
                                      Тут резонна заметили что основные минусы в стиле изложения, в манере подачи материала, а не к сути и мы постараемся в дальнейшем это максимально учитывать не допуская подобные ошибки (просто писать в посте что он первый на сколько мне известно на Хабре — дурной тон)
                              +6
                              Работа-то мб и большая, но если проект называется OCR-системой, а CuneiForm упоминается только в зависимостях, да и то — не везде (например, на kde-apps — ни слова!), то это точно идет вразрез с идеологией Open Source.
                                –8
                                Ни в коем случае.
                                В лицензии на CuneIForm ничего не сказано о необходимости упоминать CuneIForm в названии производных продуктов (как, кстати, это сделано в лицензии на PHP, но вы же почему то не пишите PHP в имени каждого продукта).

                                Сама CuneIForm являясь теоретически системой распознавания текста не пригодна для использования конечным пользователей. А вот KBookocr уже готовое приложение — Система Распознавания Текста с такими функциями как распознавание текста из PDF и DJVU документов, отсканированных изображений и выгрузкой результата в офисный пакет OpenOffice. Вот это уже «система»! в не просто приложение дающее анализирующее изображение и производящие распознавание образов с сохранением в тектовом файле.
                                  +7
                                  О да, сложнейшая разработка, над которой два десятилетия работала компания, вышедшая из всесоюзного НИИ РАН не пригодна для использования и «просто приложение», а GUI над ней на Qt (другом мощном продукте другой компании) — «это уже система». Ура ура, вот так опенсорс-инновации :) Да, и упоминать даже не нужно, разумеется, ага)
                                  Я понимаю, конечно, что разработчики cuneiform при открытии продукта выбрали лицензию BSD, но…
                                    0
                                    >над которой два десятилетия работала компания, вышедшая из всесоюзного НИИ РАН

                                    От чего же эту инновационную разработку под Linux портирует сообщество в не сами ииноваторы — авторы проекта? :)
                                      +3
                                      Авторы за деньги пишут софт, для распознавания документов (счетов, квитанций, etc.) в гос. учереждениях.
                                        0
                                        www.cognitive.ru/ — их сайт
                                          0
                                          Да, я это видел. Я просто немогу понять, почему, при наличии финансирования они не могу свою инновацию сделать и для других платформ.
                                        0
                                        Увы, такова наша суровая «се ля ви». Консольные приложения конечному пользователю действительно не подходят — ему красивый GUI подавай.
                                        Если авторы не обломаются от такого feedback'а и продолжат активную работу над проектом с учётом ошибок, года через два может получиться полезная вещь.
                                        +3
                                        Денис, перелогиньтесь.

                                        Ни в коем случае.
                                        В лицензии на ClamAV ничего не сказано о необходимости упоминать ClamAV в названии производных продуктов. Сама ClamAV являясь теоретически системой обнаружения текста не пригодна для использования конечным пользователей. А вот Антивирус Попова уже готовое приложение — Антивирус с такими функциями как сканирование файлов и почты «на лету», определение свыше 700 000 вирусов, червей, троянов, сообщений фишинга, анализ сжатых файлов RAR (2.0, 3.0), Zip, Gzip, Bzip2 и выгрузкой результата в txt-файлы. Вот это уже «антивирус»! в не просто приложение дающее анализирующее исполняемый файл и производящие результат анализа с сохранением в тектовом файле.


                                        А вот с PHP вы не угадали. Есть ограничение на использование аббревиатуры PHP в названиях продуктов. Что же касается упоминания, следующее уведомление должно быть включено в любую форму распространяемых материалов:
                                        This product includes PHP software, freely available from www.php.net/software/
                                          0
                                          >Сама CuneIForm являясь теоретически системой распознавания текста не пригодна для использования конечным пользователей. А вот KBookocr уже готовое приложение — Система Распознавания Текста с такими функциями как распознавание текста из PDF и DJVU документов, отсканированных изображений и выгрузкой результата в офисный пакет OpenOffice. Вот это уже «система»!

                                          Давайте смотреть так: что умеет CuneIForm без обсуждаемого гуя и что умеет обсуждаемое «готовое приложение» (как Вы его называете) без CuneIForm? Первый — разпознавать текст (пусть и из командной строки). Второе — показывать кнопочки юзеру и ни хрена не делать.
                                          Внимание, вопрос: если у юзера стоит задача «распознать текст», то какое из приложений окажется ему более полезным: консольная распознавалка или ни хрена не делающие окошки (я уже даже не предлагаю сравнить объём исходного кода того и другого или трудозатраты на написание того и другого)?
                                          Вот то-то и оно.

                                          Продуктом является не морда сама по себе, а морда+движок, причём движок — в гораздо большей степени, а следовательно замалчивать роль движка, выпячивая свою «морду» — в высшей степени непорядочно.
                                          0
                                          Верно, отсутствие упоминания исправили на kde-apps. Буду еще изменения в следующих релизах с появлением опции «About»)
                                        +1
                                        Соглашусь с замечаниями. Не стоило так громко заявлять о проекте до тех пор пока наши собственные наработки (кроме разумеется склеивания существующих кусков одним GUI) не перейдут в достаточную стабилную стадию и не войдут в этот проект. Благодарю, учтем при написании следующих статей.
                                        +1
                                        глупости ;) мы запаслись попкорном для наблюдения за разрастающимся желанием убить наш продукт.
                                        Я думаю линк на этот пост даже не появится (в ближайшее время) на внутреннем форуме — просто пока только весело и ничуть не страшно ;).
                                          0
                                          Я шучу.

                                          Просто на хабре сообщество Linux-блогов характерезуется не любовью к новостям о Linux.
                                            +4
                                            «Убийц» вашего продукта под линуксом, на моей памяти анонсируют ежегодно, включая ORCopus от google. А FR все живет… iddqd?
                                              0
                                              В данном конкретном случае ребята действительно несколько перехвалились.
                                          +2
                                          Судя по букве K приложение зависит не только от Qt, но и от KDE, правильно? Если так, то почему бы не использовать для просмотра файлов Okular KPart?
                                            +1
                                            Вот меня тоже эта буква «К» смутила. Нахрена привязвать потенциально кросс-платформенное приложение к KDE автор не уточнил.
                                            Кроме того, непонятно, зачем всё делать через bash-скрипт, когда можно запускать backend'ы напрямую.

                                            А ещё, наверное, можно подключить FineReader Engine и окончательно добить беднягу его же оружием.
                                              0
                                              За одно можно переписать программу
                                              с FineReader Engine вроде не все так просто… FR состоит еще из нескольких технологий, кроме FineReader Engine.
                                                0
                                                Тогда уж лучше вот эту штуку. Подешевле будет.
                                              +1
                                              В целом, начинание неплохое, имхо. Если проект будет развиваться дальше, почему бы и нет)?

                                              PS
                                              Тарболлы конечно хорошо, но неплохо было бы и репозиторий программы где-нить разместить…
                                                +7
                                                Почему в заголовке нет словосочетания «принципиально новый»? Смотрелось бы весьма эстетично.
                                                  +1
                                                  Или эпично?
                                                  +2
                                                  Ну и где ебилды?
                                                    +3
                                                    На входе только PDF и DJVU? Хорошо для распознавания, скажем, скачанных книг, но сканер обычно создаёт просто изображения.

                                                    В FineReader'е я могу не просто сохранить «автоматически» распознанный текст в файл, но и вручную разметить блоки с текстом/изображениями/etc, для каждого из них указать язык и прочее. Могу корректировать результаты распознавания, сравнивая их с изображением-оригиналом. Да и ещё много чего.

                                                    Ваш «убийца» из пелёнок-то ещё не вышел.
                                                      +3
                                                      С такими убийцами FineReader бессмертен.:)
                                                      Однако, FR я не куплю, потому что для меня это слишком большой проект и не работает под Linux (как конечное приложение). А вот это, наверное, поставлю. Когда доделают, конечно. Пока очень сыро.
                                                        0
                                                        У ABBYY при анализе PDF используется не только движок FR.
                                                        В первую очередь он пытается анализировать код, если может.
                                                          0
                                                          Добавление работы со сканером как раз в ходе разработки
                                                            0
                                                            К слову, Simple Scan как раз-таки априори сохраняет наборы страниц в pdf =) Под linux'ом у пользователей очень часто вижу именно эту утилитку.
                                                            0
                                                            Уродливо.
                                                              +5
                                                              ИМХО получилась прикольная штучка легким с запахом Болгенос. НО не следует забывать про возраст автора. Поэтому выпады типа «использовать более продвинутые операционные системы сохраняя при этом свои финансы на приемлемом уровне» или «первый публичный и опен-сорсный убийца FineReader-а:» следует списать на возраст. А не сливать челу карму. Пусть пишет и программы и топики, авось чему нибудь научится.

                                                              Файнрайдер этим поделием не убьешь, но если под Гном идет, то я попробую. Очень субъективное ИМХО, но почему не Питон?
                                                                +1
                                                                Упс… не туда написал.
                                                              –3
                                                              >Ну а что делать людям, которые способны использовать более продвинутые операционные системы сохраняя при этом свои финансы на приемлемом уровне?
                                                              ну-ну
                                                                –2
                                                                «более продвинутые операционные системы»
                                                                Ога.
                                                                  +5
                                                                  Убийца FineReader-а для Linux на начальной стадии

                                                                  «Профессиональный киллер. Возьмется за любую работу. Лет через тридцать… Ему пока два годика всего...»
                                                                    +1
                                                                    Видимо, под «начальной стадией» имеется в виду период эмбрионального развития.
                                                                    +3
                                                                    Господа, лажа.

                                                                    Во-первых, орфография и грамматика статьи ужасны.

                                                                    Во-вторых, программа ничего особо стоящего не представляет. Не прыгнул — не говори «гоп». Такими статьями Вы только дискредитируете сообщество и даёте лишний повод посмеяться виндузятникам и всевозможным троллям.

                                                                    В-третьих, это далеко не первая подобная утилита. Уже давно существует аналогичная утилита для CuneiForm, да и не только.

                                                                    Будет замечательно, если Вы что-то стоящее всё-таки сделаете, но пока всё очень и очень печально
                                                                      +1
                                                                      Было бы здорово приделать Tesseract в качестве альтернативного бэкэнда. Он показывает неплохие результаты.
                                                                        0
                                                                        Он сам по себе умеет распознавать только строчки текста и не делает анализ структуры документа.
                                                                          0
                                                                          Интересно, а можно взять распознавание структуры от cune, а строк — от tesseract'а? Вроде как со строками он лучше справляется.
                                                                        0
                                                                        В ABBYY офигенно испугались этого Cuneizombie :)
                                                                        Он и при жизни-то пытался тягаться только с FineReader 4, причём обычно проигрывал…
                                                                          0
                                                                          В cuni DA лажает не по-детски.
                                                                          Я вот жду когда кто-нибудь соберёт и запустит ocropus+tesseract 3. На такую штуку было бы интересно посмотреть. А то самому собирать и продвигать конкурентов не хочется :-)
                                                                            +2
                                                                            >Он и при жизни-то пытался тягаться только с FineReader 4, причём обычно проигрывал…

                                                                            В качестве решения для Linux (а это именно то, что мы тут обсуждаем, Вы ведь помните?) FineReader проигрывает сабжу ещё до начала матча (ввиду неявки :))
                                                                              0
                                                                              Я так отреагировал на пафос заголовка на самом деле.
                                                                              Если серьёзно, то соглашусь с комментарием выше, что ocropus+tesseract — это куда интереснее. Хотя всё равно нерабочий вариант, полагаю. Но это не столь очевидно
                                                                                0
                                                                                >Я так отреагировал на пафос заголовка на самом деле.

                                                                                В заголовке чётко просматриваются слова «для Linux», так что см. мой предыдущий комментарий :)
                                                                            0
                                                                            Не срабатывает в Ubuntu 8.04.1

                                                                            При установке как минимум нужно добавить в зависимости еще один пакет:

                                                                            aptitude install libpoppler-qt4-3

                                                                            Дальше интереснее.
                                                                            administrator@l-desktop:~$ kbookocr
                                                                            kbookocr: symbol lookup error: kbookocr: undefined symbol: _ZN9QListData11detach_growEPii

                                                                            Похоже сборка делалась для Ubuntu 10.10.
                                                                            Сделайте, пожалуйсто, сборку для Ubuntu 10.04 LTS
                                                                              0
                                                                              СЕйчас готовится новый релиз, выйдет в течении нескольких дней, там уже исправлены зависимости и добавлена указанная Вами, так как это действительно необходимо. Так же по отношению к Qt теперь стоит ограничение на версию не ниже 4.7 и если у Вас 4.6.х то работать программа не будет(
                                                                              0
                                                                              >Не срабатывает в Ubuntu 8.04.1
                                                                              Не срабатывает в Ubuntu 10.04
                                                                                0
                                                                                Возможно проблема в версии Qt которая ниже 4.7, это условие уже добавлено к зависимостям следующей версии. В которой уже появились небольшие нововведения
                                                                                  0
                                                                                  Вы настолько активно используете фичи из Qt 4.7? Тогда у меня к Вам ряд вопросов:
                                                                                  1) какие именно?
                                                                                  2) на хрена?
                                                                                  3) как Вы ожидаете большое количество пользователей, если затачиваетесь на свежайшую версию Qt, которая в данный момент установлена у подавляющего меньшинства пользователей?
                                                                                  4) или Вы ожидаете, что юзеры специально вручную обновятся из стороннего репозитория специально для того, чтобы потестить первую версию Вашего продукта?
                                                                                    0
                                                                                    На все можно ответить гораздо проще. На момент разработки в Qt 4.7 появились несколько функций которые отсутствуют в 4.6, так как у тестеров было 4.7 то проблема на этапе тестирования нами выявлена не была. Исправленый код который будет работать и с 4.6 уже есть, но в обновление которое выйдет на этой недели он скорее всего не войдет
                                                                                      0
                                                                                      >На момент разработки в Qt 4.7 появились несколько функций которые отсутствуют в 4.6, так как у тестеров было 4.7 то проблема на этапе тестирования нами выявлена не была.

                                                                                      Проблема могла быть выявлена ещё на этапе разработки, если бы разработчики обращали внимание на замечания, которые присутствуют в документации к каждой из новых функций: «This function was introduced in Qt 4.7».

                                                                                      >Исправленый код который будет работать и с 4.6 уже есть, но в обновление которое выйдет на этой недели он скорее всего не войдет

                                                                                      Значит вы скорее всего не получите изрядное количество потенциальных тестеров, которые хотят тестировать прямо сейчас (пока топик жив), но не могут «по техническим причинам». А на следующей неделе (или когда вы там собираетесь интегрировать эти изменения) пыл уже поутихнет, и их количество сократится в разы.
                                                                                +1
                                                                                А чем оно лучше YAGF?
                                                                                  0
                                                                                  На базе одной из самых развитых открытых технологий OCR создали целый дистрибутив по развертыванию сервера для OCR с веб-интерфейсом для общения с этим самым сервером.


                                                                                  Не подскажете ссылку? Интересно потестить. Может быть, развёрнутая онлайн-версия есть.
                                                                                    0
                                                                                    clck.ru/2zkj — WatchOCR — LiveCD Linux для распознавания текста в PDF
                                                                                      0
                                                                                      Спасибо. Это тот же cuni. Тестировать нечего.
                                                                                    0
                                                                                    CuneiForm, tesseract и прочие — уже не конкуренты?)
                                                                                      –2
                                                                                      Глубоко вздохнув:
                                                                                      Убийцы, когда же вы убьёте себя об стену и уступите место конкурентам?
                                                                                        +2
                                                                                        А по мне так авторы восполняют важнейший пробел во всем деле открытого OCR, за что им спасибо. Будем надеяться, что их поделка будет развиваться и дальше, чтобы под линуксом было полностью готовое гуевое решения для распознавания.
                                                                                          +1
                                                                                          Убийца на начальной стадии, или Линукс на начальной стадии? ;)
                                                                                            0
                                                                                            Коллеги!

                                                                                            Под занавес обсуждения спешу успокоить радетелей морали — манией величия мои друзья и я не страдаем. Мы действительно не первые топчемся в огороде FineReader-а. Мы просто поделились тем, как мы это делаем.

                                                                                            Отдельная валерьянка обществу защитников FineReader-а.
                                                                                            «Убийца FineReader-а» это же только образ — параллель содержания. На самом деле никто его не собирается убивать — он сам исчезнет. Тольео не рвите нас на флаг КБритании. Мы понимаем — это произойдет не завтра, а скорее всего, в конце года :D…

                                                                                            Меняется все, в том числе, и ПО (и даже НЛО(!)). Не беремся оспаривать и оценивать объемы сделанной/несделанной работы для нового продукта. Есть направление изменений, которые мы считаем перспектвиным и, надеемся, нам удалось это показать.

                                                                                            Спасибо всем за прием, юмор и за замечания, в том числе, и за жесткие, но справедливые.

                                                                                            Only users with full accounts can post comments. Log in, please.