Комментарии 4
Спасибо за статью! Как я понял по последнему скрину, ваш алгоритм не нашёл все 3 значения для некоторых показателей, а слева видно, что файл отсканирован не ровно(под углом), и это натолкнуло меня на интересную идею - поворачивать изображение. Думаю по наклону границ таблиц это будет легко реализовать)
Спасибо за комментарий, действительно определение и поправка на угол дополнительно повышают качество решения задачи OCR. Но не стоит ориентироваться на границы таблицы, как я уже упоминал, их может и не быть. Глобально ориентацию мы определяем при помощи tesseract, он умеет определять перевёрнутые/повернутые страницы, однако, он не чувствителен к небольшим наклонам, на подобие того, который Вы заметили. В этом случае мы ориентируемся на средний угол наклона эллипсов, вписанных в полигоны определенные горизонтальным ядром. Opencv умеет это делать практически из коробки.
тоже занимался подобными вещами с распознаванием отчетностей два года назад. Делал подобную связку с PyMuPDF и tesseract. Tesseract выбирал в силу аппаратных ограничений, не было возможности запускать полноценные нейронные сети для распознавания.
Круто! Рад за людей, которым не придется вбивать отчетность руками.
Сделайте еще автоматическое разделение прочих доходов и расходов на разовые и повторяющиеся и автоматическую консолидацию отчетности по осв.
Мечтают ли алгоритмы о финансовой отчётности: новый способ работы с ФО в ВТБ