Pull to refresh

Comments 16

есть инструмент для предобработки изображения — ScanTailor, результаты я сравнивал с подготовленным изображением ABBYY FlexyCapture (сравнивал по факту качества распознавания, в т.ч. tesseract)
ScanTailor — ощутимо лучше (бледные, с экономией тонера печатные материалы)
и ещё момент — если вопрос в бесплатности — подход с tesseract имеет право на жизнь, в коммерческом применении сомнительный вариант
Делать платное именно API — ну такое себе, а вот платную парсер полученных данных с этого API с загрузкой в БД — вполне. Так как я 1с-ник, то там такое сверх актуально, несмотря на ЭДО. Разные решения, стоят 6-10р за лист.

Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?
Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?
там есть cli
Разные решения, стоят 6-10р за лист.
я не помню цену ABBYY FC (зависит от варианта), но там гибко настраиваемый шаблон и «рабочее место» для оператора (обработка результатов автоматического распознавания)
ABBYY FC — это крутая штука. Покупается один раз, но там есть лимит по количеству листов в месяц и оно само по себе стоит больше миллиона.
у нас «немалый» объем первичных документов, для сканирования, в «лимит» укладываемся.
Просто «устойчивое» распознавание с tesseract + OpenCV — это достаточно непростая (КМК) тема и на неё надо потратить время (которое тоже деньги)
Думаю, стоит. Я в pyton всего пару месяцев тыкаю, до конца не разобрался в PyCharm. Пытался синхронизировать домашний и рабочий комп через github. Почитал инструкцию, по ней не получалось, постоянно какие то ошибки сыпались. Через 3 часа забил на это. Выгрузил файлик requirements, и тупо скопировал проект. На неделе попробую заново разобраться.

А ещё бывают таблицы с белыми границами на белом :)

А бывают ещё округлые таблицы. На инвойсах видел.

В плане распознавания таблиц из PDF, рекомендую взглянуть на https://tabula.technology
Проект open-source.
Посоветовал своей жене в работе — она не нарадуется.

этот проект для «текстовых» PDF, OCR надо отдельно
программно подобные PDF вполне обрабатываются через PDFbox, я использовал его для извлечения текста по «готовым» координатам на странице (типа — определить как таблицу в некой области)
На одном из проектов краем уха слышал об использовании github.com/HazyResearch/fonduer для парсинга таблиц из pdf. К сожалению об успешности ничего сказать не могу, ушел раньше. Я с другой командой использовал части исходного кода github.com/HazyResearch/pdftotree и библиотеку github.com/pdfminer/pdfminer.six для похожей цели. там можно получить линии с координатами и блоки текста с координатами и текстом, но не для всех документов.

По задаче с выкидыаанием лишних контуров я-бы посоветовал попробовать использовать комбинацию Dilate/Erode — очень много малых контуров просто пропадет ещё до иерархической обработки

я использую erode после инвертирования threshold. Именно в выкидывании контуров разницы я не заметил особой, а вот в корректном определении границ — это да.
Sign up to leave a comment.

Articles