NewTechAudit Aug 19 2021 at 08:48

FineReader, Tesseract и EasyOCR или нужно ли срочно менять инструмент для OCR

7 min

16K

Python*Programming*Machine learning*

Comments 18

Daar Aug 19 2021 at 08:59

Спасибо вам за ваш труд. У меня тут возникла подобная задача, теперь хоть будет меньше граблей на пути :)

NewTechAudit Aug 20 2021 at 21:52

Спасибо

MixaSg Aug 19 2021 at 09:13

Навряд ли будет откровением то, что для удобоваримой работы tesseract необходимо предварительно готовить изображение - переводить в grayscale, потом в черно-белое (добиваясь черных букв на белом фоне). При необходимости, подгоняя под текст, можно сделать свой словарь или дополнить словарь требуемого языка и определить таблицу символов.

nerudo Aug 19 2021 at 09:47

Помню пользовался файнридером во времена раннего неолита — все было просто и удобно, и довольно качественно. С год назад опять понадобилось, озадачился и с удивлением обнаружил, что за столько лет ничего толкового так и не появилось, корячился с тессерактом.

sexcalibur Aug 19 2021 at 20:16

В общем-то, сейчас такой период, что все, кто не хочет ковырять Tesseract, свои OCR делают, благо ML доступен как никогда - взял MNIST (CoMNIST), обучил на нём модель, придумал систему для разбиения на буквы/слова и получил более-менее рабочий инструмент. Если добавить скрытую марковскую модель для угадывания следующих слов и проверку орфографии, может уже быть совсем хорошо. Некоторые вон, как автор EasyOCR даже выкладывают свои работы.

kryvichh Aug 19 2021 at 10:08

Итог: при всём богатстве выбора, выбора так и не появилось.

P.S. Заголовок статьи исправьте, плохо распознался.

MikhailZakharov Aug 19 2021 at 10:26

Если рассматривать чисто OCR движки, то выбор больше, чем в списке на обзоре. Качество распознавания проверяется не только на разных типах картинок, но и на разных языках, включая смесь языков (например, английский - русский) в тексте. Так же проверка делается на таблицах, подписях к картинкам. Отдельной строкой тестов идут искажения: перспектива, расфокус, неоднородный фон.

При анализе качества надо учитывать конечные цели. Если просто вытащить подпись - это один набор требований. Если распознать документ - то другой. Например, в документе могут быть таблицы, которые переходят со страницы на страницу.

FForth Aug 19 2021 at 10:39

FineReader используется в сервисе WebArxive
— можно посмотреть множество результатов работы программы FineReader на загруженном в WebArxive контенте или на своих примерах добавив их в нём.

P.S. Интересно, а FineReader уже научился правильно сохранять общий формат вёрстки страницы, например в формат Word, PDF как в оригинале распознаваемой страницы?

NewTechAudit Aug 19 2021 at 14:25

Да, FineReader 14 точно умеет сохранять форматированный текст в Word и сохранять в PDF с возможностью поиска.

wyfinger Aug 19 2021 at 13:54

В Adobe Acrobat тоже есть функция распознавания текста, работает иногда прямо неплохо.

e-zig Aug 19 2021 at 14:22

Давно не пользовался ocr, но у меня сложилось (как оказалось ложное) впечатление, что с нступившей эпохой господства нейросетей они давно сделали ocr доступным всем и каждому, а finereader ушел в историю. А тут на тебе. Или всетаки есть облака, которые распознают лучше рассмотренных программ?

NewTechAudit Aug 19 2021 at 15:16

Скорее, мало кто хочет делать хороший, комплексный OCR на нейросетях, в котором будут системы предсказания следующего вероятного слова, проверка орфографии и т.д. А FineReader и Tesseract, конечно же сложнее, чем просто обученные на датасете MNIST классификаторы, в них, вероятно, присутствуют скрытые марковские модели и многое другое. То есть, EasyOCR и другие новые системы на нейросетях могут отлично распознавать текст, но со структурой документов у них пока проблемы, что видно в последнем примере.

darkms5 Aug 19 2021 at 18:12

FineReader вроде тоже нейросети использует в свежих версиях для некоторых языков, по крайней мере так они писали в release notes.

NewTechAudit Aug 20 2021 at 12:52

Скорее всего, так и есть, FineReader - лидер рынка и определённо, будет использовать лучшие инструменты.

vagon333 Aug 19 2021 at 16:30

У Tesseract были сложности со структурированными данными.

Есть большой сектор в бизнесе по перегонке PDF форм в данные.
Интересно было-бы прочитать опыт со структурированными данными.
Пока ABBYY FC наиболее рабочее решение.

NewTechAudit Aug 20 2021 at 21:52

Ответили в лс

darkms5 Aug 19 2021 at 18:25

Мои коллеги недавно решили внедрять Spark OCR плагин от John Snow Labs. Если кто-нибудь пробовал, поделитесь пожалуйста опытом - как оно?

Раньше использовали FineReader Server (14), но по результатам тестирования на реальных документах Spark плагин выдавал более качественные результаты (меньше и менее критические ошибки) при схожей производительности и заметно более выгодном ценнике на больших объёмах данных.

splasher Aug 19 2021 at 20:16

Несколько странное сравнение, но все равно интересно - спасибо. Если уж рассматривать коммерческие движки, коим является ABBYY, то сюда стоило бы включить решения от Гугл (Cloud Vision) и Amazon Textract...

Show the best of all time