OCR online

    С технологией оптического распознавания текста я познакомился где-то в 1997 года, когда купил свой первый, тогде ещё ручной, чёрно-белый сканер Genius ScanMate 256 (кстати, всё ещё рабочий). К сканеру прилагалась программа Direct OCR на 3х дюймовой дискете (блин, откуда-то из подсознания все эти названия всплывают), которая всеми своими силами пыталась доказать, что можно быстро и почти без ошибок текст из книги ввести в компьютер. Ну, доказательства были не очень. FineReader, с которым я познакомился позже, делал это качественнее. Тема распознавания меня заинтересовала, я потратил довольно много времени на научно-популярные статьи о технологиях OCR.

    В 2001 году я готовил дипломную работу по web-технологиям. Долго думал о том, куда приложить знания. Поскольку меня интересовала технология OCR, я задумал совместить WEB и распознавание текстов. За само распознавание у меня должен был отвечать FineReader. С друзьями мы «разобрали» FineReader на отдельные DLL и выяснили, как вызывать отдельные функции этих библиотек, передавая двоичные данные изображений, и как получать обратно распознанный вариант текста. Над этим всем был построен простейший веб-интерфейс, чтобы загружать картинки, запускать распознавание и получать результат.

    Первым ограничением на то время для нас оказалась смешная пропускная способность интернет. Страница A4, отсканированная в качестве 200 точек на дюйм и сохранённая в формате TIFF (который только и воспринимала программа FineReader) могла занимать несколько мегабайт в серых тонах, а если кто по ошибке или незнанию цветной вариант отсканирует, то объём увеличивался в три-четыре раза. Такой огромный по тем временам файл даже по локальной сети пересылался и обрабатывался с трудом, а через публичный Интернет — вообще трудно выполнимая задача.

    Второй фактор — стоимость. При такой скорости пересылки файлов отсканированных страниц каждая страница стоила дорого. Мы также приняли во внимание, что обычно используются взломанные версии программ распознавания текстов, который достаются бесплатно или за копейки.

    Третий фактор — востребованность. Чтобы человек стал пользоваться онлайн-сервисом по распознаванию текста, надо как минимум три фактора: наличие сканера, наличие Интернет и отсутствие возможности самостоятельно распознать текст. Было трудно представить себе большое количество таких «криворуких» и «глупых» пользователей.

    Проект был реализован, но оставлен «под сукном» как бесперспективный.

    Два года назад я предлагал своим коллегам по работе обдумать вариант повторной реализации проекта. Ситуация изменилась: интернет стал быстрее (файлы mp3 уже давно больше по объёму, чем отсканированная страница в формате JPG), сканеры стоят чуть ли не повсеместно (а ещё текст можно просто сфотографировать), пользователи стараются не нагружать себе голову всякими программами и пользуются онлайн-сервисами. У FineReader есть API, а FLASH позволяет сделать достаточно удобный web-интерфейс для управления загрузкой и распознаванием. Но мы не пришли к общему мнению и, можно сказать, упустили возможность сделать полезный и востребованный сервис который можно выгодно продать ABBYY или гуглю.

    Сейчас компания ABBYY уже сама реализовала онлайн-версию Fine Reader для распознавания текстов (поддерживает 6 языков, включая русский; понимает документы, написанные сразу на нескольких языках, поддерживает ввод в форматах TIFF (включая многостраничные файлы), JPEG, BMP, PNG, PCX, GIF, DjVu; поддерживает вывод в форматах Microsoft® Word, Excel®, Rich Text Format, TXT, searchable PDF).

    А на днях хорошо известный сервис Google Docs API продоставил возможность проверить то же самое у себя на демо-странице. Гугль позволяет загрузить изображение в высоком разрешении (до 10 Мегабайт) в формате JPG, PNG или GIF. Распознавание длится около двух минут. Поддерживается пока только латинский алфавит.

    Ссылки по теме:Покопавшись в поисковиках, я нашёл ещё несколько сервисов (некоторые созданы буквально в этом году) по распознаванию текстов в online. Вот некоторые из них:
    • OnlineOCR (28 языков, включая русский; поддерживает ввод в форматах TIFF (multi-page), JPEG/JPG, BMP, PCX, PNG, GIF, PDF (multi-page), файлы до 20 мб; вывод в PDF, MS Word, MS Excel, HTML, RTF, TXT)
    • Free OCR (6 языков, русского нет; ввод в форматах PDF (только первая страница), JPG, GIF, TIFF or BMP, файл до 2х мегабайт; вывод в текстовом формате)
    • OCR Terminal (6 языков, русского нет; ввод в форматах PNG, JPEG, GIF, BMP, multi-page TIFF and PDF; вывод в форматах DOC, TXT, RTF, PDF)
    • Небольшой список бесплатных и коммерческих систем оптического распознавания в онлайн-режиме
    P.S. Также хотел бы отметь удобство системы EverNote и тот факт, что эта система включает в себя распознавание надписей и текстов на весьма поганых и кривых фотографиях, снятых слевой ногой в темноте :)
    P.S.S. Я бы хотел получить отзыв о работе таких сервисов от хабравцев. Есть ли среди вас те, кто пользовался распознаванием в online-finereader, google docs и других сервисах? Ваш отзыв (а лучше даже примеры распознавания и технические ограничения) я добавлю в пост.
    Updated: перенесено в Сервисы.

    Похожие публикации

    Средняя зарплата в IT

    120 000 ₽/мес.
    Средняя зарплата по всем IT-специализациям на основании 7 479 анкет, за 1-ое пол. 2021 года Узнать свою зарплату
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 31

      +2
      Было бы неплохо, если бы вы провели сравнительное тестирование сервисов.
        0
        Я думаю, это возможно. У меня есть отсканенная страница на английском и на русском, можно показать, что получится в результате. Постараюсь сделать, мне и самому это интересно.

        Полагаю, сейчас лидером будет либо FineReader либо OnlineOCR.
          0
          Я имел ввиду не только качество распознавания, но и всякие ограничения, сервис в целом. Например FineReaderOnline позволяет распознать не более 10 страниц в день.
        –1
        «Разбирать» файнридер — это нехорошо.
        сарказм: Сдаётся мне, что EULA Вы не читали.
          +8
          Ну, я бы ответил так: если бы в 2001 году дело дошло до внедрения, мы бы связались с ABBYY и нашли бы общие интересы. Тем более, что это была разработка учебного характера, а многие компании благосклонно относятся к перспективным работам студентов.

          А с другой стороны: это было давно, не судите строго.
          +1
          «Гугль позволяет загрузить изображение в высоком разрешении (до 10 Мегабайт)»
          Это так пишется обычно (не только в этом топике, а вообще много где встречал), как будто Гугл по этому параметру сильно обходит FineReader Online. Вообще-то у нас тоже ограничение 10 Мб :)
            0
            Нет, не обходит. Это я указал для общей информации.
            Есть сервисы, которые позволяют загружать файлы по 20 мегабайт, а некоторые — только по 2 мегабайта.
            0
            Собственно, не знаю как с нашими постоянными пользователями, а вот с разработчиками FineReader online вы можете пообщатсья прямо в комментах ;)

            P.S. Может перенесёте топик в какой-нибудь публичный блог, чтобы обсуждение получилось более массовым?
              0
              Куда посоветуете?
                0
                Ну, даже не знаю. Есть такой блог Сервисы. Можно его «оживить»
                  0
                  Ок, отправилось в Сервисы. Кстати, хороший блог — непонятно почему он затих.
                0
                с разработчиками FineReader online вы можете пообщатсья прямо в комментах

                Вот бы то же самое да десяток лет назад.
                Сейчас я работаю совершенно в другом направлении.
                0
                разве файнридер онлайн принимает PDF'ы?
                  +1
                  А в посте и не говорилось, что он принимает. Там searchable PDF указан среди выходных форматов
                    0
                    да, прошу прощения — невнимательно прочитал
                  0
                  Ситуация изменилась: интернет стал быстрее (файлы mp3 уже давно больше по объёму, чем отсканированная страница в формате JPG), сканеры стоят чуть ли не повсеместно (а ещё текст можно просто сфотографировать), пользователи стараются не нагружать себе голову всякими программами и пользуются онлайн-сервисами.


                  Прямая заинтересованность в таких сервисах сейчас прежде всего у пользователей мобильников с нормальной камерой и скудными возможностями для чтения с фото, в отличие от чтения распознанного текста. Так и вспоминаются фотки ответов на семинар со стола препода, если их распознавать и потом пользоваться поиском по тексту…
                    0
                    «Прежде всего» — это Вы всё-таки загнули. Но перспективы в этом направлении, кажется, есть.
                      +1
                      Ну, Эверноте в принципе именно для этого и создан — фотаешь какую-нибудь визитку, диаграмму или схему, а ОНО потом прямо поверх картинки показывает распознанные тексты. Вот пример с их сайта: поиск по тексту, распознанному среди рукописных надписей
                      0
                      FineReader online в уже оказался очень полезен, когда приходилось работать за чужим компьютером с недостаточным количеством свободного места на ЖД, то есть FineReader поставить было затруднительно, да и не было его под рукой. Распознает, по крайней мере простые тексты, хорошо.
                        0
                        Попробовал googlовский распознаватель — ничего не получилось, жпг на входе с русским текстом — пустой документ на выходе =(.
                          +1
                          Поддерживается пока только латинский алфавит.
                            0
                            Он пока не понимает кириллицу. Это вопрос только времени.
                              0
                              С латиницей у него тоже пока бедулька
                            +1
                            А что это это про cuneiform еще никто ничего не написал? Мне казалось, что тех пор как его открыли, а cli версия заработала под *nix, только ленивый не написал к нему вэб-интерфейс.
                              0
                              Действительно, эта система OCR с 2007 года является open-source.
                              Цитата с OSzone.net (не знаю, насколько ему можно доверять, дата публикации 1 января 2008г.):
                              … в конце января 2008 г. Cognitive Technologies планирует подготовить бесплатное распознавание текстов в режиме онлайн на сайте www.cuneiform.ru. К концу следующего года с помощью данного ресурса, как ожидается, можно будет распознавать до 10 тыс. документов в день.
                              cuneiform.ru
                              На сайте сейчас есть только информация о конкурсе разработок, а о результатах конкурса ничего нет.
                                +1
                                Free Image Hosting at www.ImageShack.us
                                Частный случай в нашей конторе. К интернету особо не применим, так как в первую очередь, это вэб-морда для сканера, а cuneiform запряжен за компанию.
                              0
                              Попробывал как-то страницу в FineReader Онлайн распознать — вышло паршиво :)
                                0
                                Надо понимать, что всем угодить невозможно даже в большом файнридере. В онлайн-версии ещё и настройки практически недоступны, так что совсем сложно.
                                Вы файлик-то покажите, мы Вам что-нибудь ответим (а может и сервис подкрутим, если проблема на нашей строне).
                                  0
                                  Файлик, к сожалению, не сохранился. Вероятнее всего скан был неудовлетворительного качества.
                                    0
                                    Ну а если Вы сами знаете проблему, зачем народ пугаете? :)
                                  0
                                  прогнал ЧБ табличку среднего качества в 2х онлайн-ОЦРах, ФР онлайне и 7ке, результат:
                                  2 онлайн переводчика — выдали кашу, процент слов крайне мал, ФР онлайн выдал документ с кучей отдельных блоков, процент слов, близок к идеалу.
                                  ФР 7, после небольшой ручной доводки таблицы, выдал не идеальный, но хороший документ, с примерно тем же кол-вом ошибок.
                                  т.е. пока офлайн версия, увы, вне конкуренции.

                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                Самое читаемое