Comments 16
есть инструмент для предобработки изображения — ScanTailor, результаты я сравнивал с подготовленным изображением ABBYY FlexyCapture (сравнивал по факту качества распознавания, в т.ч. tesseract)
ScanTailor — ощутимо лучше (бледные, с экономией тонера печатные материалы)
и ещё момент — если вопрос в бесплатности — подход с tesseract имеет право на жизнь, в коммерческом применении сомнительный вариант
ScanTailor — ощутимо лучше (бледные, с экономией тонера печатные материалы)
и ещё момент — если вопрос в бесплатности — подход с tesseract имеет право на жизнь, в коммерческом применении сомнительный вариант
Делать платное именно API — ну такое себе, а вот платную парсер полученных данных с этого API с загрузкой в БД — вполне. Так как я 1с-ник, то там такое сверх актуально, несмотря на ЭДО. Разные решения, стоят 6-10р за лист.
Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?
Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?
Я не смог найти есть ли программное использование ScanTailor. Там только работа с интерфейсом?там есть cli
Разные решения, стоят 6-10р за лист.я не помню цену ABBYY FC (зависит от варианта), но там гибко настраиваемый шаблон и «рабочее место» для оператора (обработка результатов автоматического распознавания)
ABBYY FC — это крутая штука. Покупается один раз, но там есть лимит по количеству листов в месяц и оно само по себе стоит больше миллиона.
Выложили бы на github код для обработки!
Думаю, стоит. Я в pyton всего пару месяцев тыкаю, до конца не разобрался в PyCharm. Пытался синхронизировать домашний и рабочий комп через github. Почитал инструкцию, по ней не получалось, постоянно какие то ошибки сыпались. Через 3 часа забил на это. Выгрузил файлик requirements, и тупо скопировал проект. На неделе попробую заново разобраться.
Планируете сделать код открытым?
А ещё бывают таблицы с белыми границами на белом :)
В плане распознавания таблиц из PDF, рекомендую взглянуть на https://tabula.technology
Проект open-source.
Посоветовал своей жене в работе — она не нарадуется.
На одном из проектов краем уха слышал об использовании github.com/HazyResearch/fonduer для парсинга таблиц из pdf. К сожалению об успешности ничего сказать не могу, ушел раньше. Я с другой командой использовал части исходного кода github.com/HazyResearch/pdftotree и библиотеку github.com/pdfminer/pdfminer.six для похожей цели. там можно получить линии с координатами и блоки текста с координатами и текстом, но не для всех документов.
По задаче с выкидыаанием лишних контуров я-бы посоветовал попробовать использовать комбинацию Dilate/Erode — очень много малых контуров просто пропадет ещё до иерархической обработки
Sign up to leave a comment.
Tesseract vs таблицы. Распознавание документов