SmartEngines Feb 14 2017 at 11:22

Простая технология классификации распознанных страниц деловых документов на основе метода Template Matching

13 min

6.1K

Smart Engines corporate blog Programming *Data Mining *Algorithms *Image processing *

Comments 4

IliaSafonov Feb 14 2017 at 11:56

В настоящее время одним из самых популярных решений является OCR Tesseract

Точно не знаю как обстоят дела сейчас, но несколько лет назад, когда я занимался похожими задачами, мы делали сравнительное тестирование Tesseract с комерческие OCR пакетами. Так вот, пакеты типа FineReader'а (мы тестировали иностранные продукты) крыли Tesseract как бык овцу, особенно на сложном фоне как в вашем случае. Так, что поддерживаю «использование других OCR», которые, кстати, в некоторой степени могут «снимать фон на загрязненных документа и документах со сложным фоном».

при этом ложная классификация не превышает 0.01

То есть из 100 документов 1 классифицируется неверно. Не слишком ли это много для деловых документов?

SmartEngines Feb 14 2017 at 22:23

«0.01 — это немало, однако, это характеристика результата, основанного на описанном простом алгоритме классификации и на несовершенном OCR Tesseract. Применение более совершенного движка распознавания например, указанного Вами, позволит уменьшить эту характеристику.

rastafarra Feb 15 2017 at 11:14

хотел было написать такую статью, но встретил эту, как раз про GLR парсер, как я понимаю.

ваш сейчас не пользуется словарями, не разбирает слова части речи и не предлагает спелчекать например глаголы в словаре глаголов?

что вас заставило писать свой, чем не понравился например тамита от яндекса?

SmartEngines Feb 15 2017 at 13:44

1) Мы не пользуемся словарями и не разбираем слова, частично потребность в этом покрывается масками * и? в ядрах ключевых слов. Это обусловлено сильной ограниченностью корпуса слов, используемых в деловых документов.
2) полностью на Ваш вопрос о «тамите» мы не ответим, было множество причин создать свой парсер. Однако легко понять, что сам парсер, описанный в статье, можно свести к проверке истинности ДНФ (или даже СДНФ) над ключевыми словами, т.е. что парсер очень прост, а причины относительного успеха его применения объясняются технологией подготовки правил, адекватных встречающимся деловым документам.
3) Ждём Вашу статью!