Pull to refresh

Comments 18

Спасибо вам за ваш труд. У меня тут возникла подобная задача, теперь хоть будет меньше граблей на пути :)

Навряд ли будет откровением то, что для удобоваримой работы tesseract необходимо предварительно готовить изображение - переводить в grayscale, потом в черно-белое (добиваясь черных букв на белом фоне). При необходимости, подгоняя под текст, можно сделать свой словарь или дополнить словарь требуемого языка и определить таблицу символов.

Помню пользовался файнридером во времена раннего неолита — все было просто и удобно, и довольно качественно. С год назад опять понадобилось, озадачился и с удивлением обнаружил, что за столько лет ничего толкового так и не появилось, корячился с тессерактом.

В общем-то, сейчас такой период, что все, кто не хочет ковырять Tesseract, свои OCR делают, благо ML доступен как никогда - взял MNIST (CoMNIST), обучил на нём модель, придумал систему для разбиения на буквы/слова и получил более-менее рабочий инструмент. Если добавить скрытую марковскую модель для угадывания следующих слов и проверку орфографии, может уже быть совсем хорошо. Некоторые вон, как автор EasyOCR даже выкладывают свои работы.

Итог: при всём богатстве выбора, выбора так и не появилось.

P.S. Заголовок статьи исправьте, плохо распознался.

Если рассматривать чисто OCR движки, то выбор больше, чем в списке на обзоре. Качество распознавания проверяется не только на разных типах картинок, но и на разных языках, включая смесь языков (например, английский - русский) в тексте. Так же проверка делается на таблицах, подписях к картинкам. Отдельной строкой тестов идут искажения: перспектива, расфокус, неоднородный фон.

При анализе качества надо учитывать конечные цели. Если просто вытащить подпись - это один набор требований. Если распознать документ - то другой. Например, в документе могут быть таблицы, которые переходят со страницы на страницу.

FineReader используется в сервисе WebArxive
— можно посмотреть множество результатов работы программы FineReader на загруженном в WebArxive контенте или на своих примерах добавив их в нём.

P.S. Интересно, а FineReader уже научился правильно сохранять общий формат вёрстки страницы, например в формат Word, PDF как в оригинале распознаваемой страницы?

Да, FineReader 14 точно умеет сохранять форматированный текст в Word и сохранять в PDF с возможностью поиска.

В Adobe Acrobat тоже есть функция распознавания текста, работает иногда прямо неплохо.

Давно не пользовался ocr, но у меня сложилось (как оказалось ложное) впечатление, что с нступившей эпохой господства нейросетей они давно сделали ocr доступным всем и каждому, а finereader ушел в историю. А тут на тебе. Или всетаки есть облака, которые распознают лучше рассмотренных программ?

Скорее, мало кто хочет делать хороший, комплексный OCR на нейросетях, в котором будут системы предсказания следующего вероятного слова, проверка орфографии и т.д. А FineReader и Tesseract, конечно же сложнее, чем просто обученные на датасете MNIST классификаторы, в них, вероятно, присутствуют скрытые марковские модели и многое другое. То есть, EasyOCR и другие новые системы на нейросетях могут отлично распознавать текст, но со структурой документов у них пока проблемы, что видно в последнем примере.

FineReader вроде тоже нейросети использует в свежих версиях для некоторых языков, по крайней мере так они писали в release notes.

Скорее всего, так и есть, FineReader - лидер рынка и определённо, будет использовать лучшие инструменты.

У Tesseract были сложности со структурированными данными.

Есть большой сектор в бизнесе по перегонке PDF форм в данные.
Интересно было-бы прочитать опыт со структурированными данными.
Пока ABBYY FC наиболее рабочее решение.

Мои коллеги недавно решили внедрять Spark OCR плагин от John Snow Labs. Если кто-нибудь пробовал, поделитесь пожалуйста опытом - как оно?

Раньше использовали FineReader Server (14), но по результатам тестирования на реальных документах Spark плагин выдавал более качественные результаты (меньше и менее критические ошибки) при схожей производительности и заметно более выгодном ценнике на больших объёмах данных.

Несколько странное сравнение, но все равно интересно - спасибо. Если уж рассматривать коммерческие движки, коим является ABBYY, то сюда стоило бы включить решения от Гугл (Cloud Vision) и Amazon Textract...

Sign up to leave a comment.

Articles