Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?там есть cli
Разные решения, стоят 6-10р за лист.я не помню цену ABBYY FC (зависит от варианта), но там гибко настраиваемый шаблон и «рабочее место» для оператора (обработка результатов автоматического распознавания)
Планируете сделать код открытым?
А ещё бывают таблицы с белыми границами на белом :)
В плане распознавания таблиц из PDF, рекомендую взглянуть на https://tabula.technology
Проект open-source.
Посоветовал своей жене в работе — она не нарадуется.
По задаче с выкидыаанием лишних контуров я-бы посоветовал попробовать использовать комбинацию Dilate/Erode — очень много малых контуров просто пропадет ещё до иерархической обработки
Tesseract vs таблицы. Распознавание документов