Pull to refresh

Comments 4

В настоящее время одним из самых популярных решений является OCR Tesseract
Точно не знаю как обстоят дела сейчас, но несколько лет назад, когда я занимался похожими задачами, мы делали сравнительное тестирование Tesseract с комерческие OCR пакетами. Так вот, пакеты типа FineReader'а (мы тестировали иностранные продукты) крыли Tesseract как бык овцу, особенно на сложном фоне как в вашем случае. Так, что поддерживаю «использование других OCR», которые, кстати, в некоторой степени могут «снимать фон на загрязненных документа и документах со сложным фоном».
при этом ложная классификация не превышает 0.01

То есть из 100 документов 1 классифицируется неверно. Не слишком ли это много для деловых документов?

«0.01 — это немало, однако, это характеристика результата, основанного на описанном простом алгоритме классификации и на несовершенном OCR Tesseract. Применение более совершенного движка распознавания например, указанного Вами, позволит уменьшить эту характеристику.
хотел было написать такую статью, но встретил эту, как раз про GLR парсер, как я понимаю.

ваш сейчас не пользуется словарями, не разбирает слова части речи и не предлагает спелчекать например глаголы в словаре глаголов?

что вас заставило писать свой, чем не понравился например тамита от яндекса?
1) Мы не пользуемся словарями и не разбираем слова, частично потребность в этом покрывается масками * и? в ядрах ключевых слов. Это обусловлено сильной ограниченностью корпуса слов, используемых в деловых документов.
2) полностью на Ваш вопрос о «тамите» мы не ответим, было множество причин создать свой парсер. Однако легко понять, что сам парсер, описанный в статье, можно свести к проверке истинности ДНФ (или даже СДНФ) над ключевыми словами, т.е. что парсер очень прост, а причины относительного успеха его применения объясняются технологией подготовки правил, адекватных встречающимся деловым документам.
3) Ждём Вашу статью!
Sign up to leave a comment.