trim8913 мар 2021 в 09:30

Tesseract vs таблицы. Распознавание документов

6 мин

23K

Python * Алгоритмы * 1С *

Из песочницы

+18

Комментарии 16

lmike 13 мар 2021 в 10:14

есть инструмент для предобработки изображения — ScanTailor, результаты я сравнивал с подготовленным изображением ABBYY FlexyCapture (сравнивал по факту качества распознавания, в т.ч. tesseract)
ScanTailor — ощутимо лучше (бледные, с экономией тонера печатные материалы)
и ещё момент — если вопрос в бесплатности — подход с tesseract имеет право на жизнь, в коммерческом применении сомнительный вариант

trim89 14 мар 2021 в 01:20

Делать платное именно API — ну такое себе, а вот платную парсер полученных данных с этого API с загрузкой в БД — вполне. Так как я 1с-ник, то там такое сверх актуально, несмотря на ЭДО. Разные решения, стоят 6-10р за лист.

Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?

lmike 15 мар 2021 в 06:58

Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?

там есть cli

Разные решения, стоят 6-10р за лист.

я не помню цену ABBYY FC (зависит от варианта), но там гибко настраиваемый шаблон и «рабочее место» для оператора (обработка результатов автоматического распознавания)

trim89 15 мар 2021 в 07:09

ABBYY FC — это крутая штука. Покупается один раз, но там есть лимит по количеству листов в месяц и оно само по себе стоит больше миллиона.

lmike 15 мар 2021 в 07:21

у нас «немалый» объем первичных документов, для сканирования, в «лимит» укладываемся.
Просто «устойчивое» распознавание с tesseract + OpenCV — это достаточно непростая (КМК) тема и на неё надо потратить время (которое тоже деньги)

beho1der 13 мар 2021 в 10:54

Выложили бы на github код для обработки!

trim89 14 мар 2021 в 01:29

Думаю, стоит. Я в pyton всего пару месяцев тыкаю, до конца не разобрался в PyCharm. Пытался синхронизировать домашний и рабочий комп через github. Почитал инструкцию, по ней не получалось, постоянно какие то ошибки сыпались. Через 3 часа забил на это. Выгрузил файлик requirements, и тупо скопировал проект. На неделе попробую заново разобраться.

alan008 13 мар 2021 в 16:54

Планируете сделать код открытым?

trim89 15 мар 2021 в 22:04

github.com/Trim891/API

saintbyte 13 мар 2021 в 17:09

А ещё бывают таблицы с белыми границами на белом :)

trim89 14 мар 2021 в 01:12

А бывают ещё округлые таблицы. На инвойсах видел.

nsmcan 14 мар 2021 в 01:33

В плане распознавания таблиц из PDF, рекомендую взглянуть на https://tabula.technology
Проект open-source.
Посоветовал своей жене в работе — она не нарадуется.

lmike 15 мар 2021 в 07:15

этот проект для «текстовых» PDF, OCR надо отдельно
программно подобные PDF вполне обрабатываются через PDFbox, я использовал его для извлечения текста по «готовым» координатам на странице (типа — определить как таблицу в некой области)

Ochita 15 мар 2021 в 04:40

На одном из проектов краем уха слышал об использовании github.com/HazyResearch/fonduer для парсинга таблиц из pdf. К сожалению об успешности ничего сказать не могу, ушел раньше. Я с другой командой использовал части исходного кода github.com/HazyResearch/pdftotree и библиотеку github.com/pdfminer/pdfminer.six для похожей цели. там можно получить линии с координатами и блоки текста с координатами и текстом, но не для всех документов.

FruTb 15 мар 2021 в 04:40

По задаче с выкидыаанием лишних контуров я-бы посоветовал попробовать использовать комбинацию Dilate/Erode — очень много малых контуров просто пропадет ещё до иерархической обработки

trim89 15 мар 2021 в 04:44

я использую erode после инвертирования threshold. Именно в выкидывании контуров разницы я не заметил особой, а вот в корректном определении границ — это да.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий