Комментарии 4
В настоящее время одним из самых популярных решений является OCR TesseractТочно не знаю как обстоят дела сейчас, но несколько лет назад, когда я занимался похожими задачами, мы делали сравнительное тестирование Tesseract с комерческие OCR пакетами. Так вот, пакеты типа FineReader'а (мы тестировали иностранные продукты) крыли Tesseract как бык овцу, особенно на сложном фоне как в вашем случае. Так, что поддерживаю «использование других OCR», которые, кстати, в некоторой степени могут «снимать фон на загрязненных документа и документах со сложным фоном».
при этом ложная классификация не превышает 0.01
То есть из 100 документов 1 классифицируется неверно. Не слишком ли это много для деловых документов?
хотел было написать такую статью, но встретил эту, как раз про GLR парсер, как я понимаю.
ваш сейчас не пользуется словарями, не разбирает слова части речи и не предлагает спелчекать например глаголы в словаре глаголов?
что вас заставило писать свой, чем не понравился например тамита от яндекса?
ваш сейчас не пользуется словарями, не разбирает слова части речи и не предлагает спелчекать например глаголы в словаре глаголов?
что вас заставило писать свой, чем не понравился например тамита от яндекса?
1) Мы не пользуемся словарями и не разбираем слова, частично потребность в этом покрывается масками * и? в ядрах ключевых слов. Это обусловлено сильной ограниченностью корпуса слов, используемых в деловых документов.
2) полностью на Ваш вопрос о «тамите» мы не ответим, было множество причин создать свой парсер. Однако легко понять, что сам парсер, описанный в статье, можно свести к проверке истинности ДНФ (или даже СДНФ) над ключевыми словами, т.е. что парсер очень прост, а причины относительного успеха его применения объясняются технологией подготовки правил, адекватных встречающимся деловым документам.
3) Ждём Вашу статью!
2) полностью на Ваш вопрос о «тамите» мы не ответим, было множество причин создать свой парсер. Однако легко понять, что сам парсер, описанный в статье, можно свести к проверке истинности ДНФ (или даже СДНФ) над ключевыми словами, т.е. что парсер очень прост, а причины относительного успеха его применения объясняются технологией подготовки правил, адекватных встречающимся деловым документам.
3) Ждём Вашу статью!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Простая технология классификации распознанных страниц деловых документов на основе метода Template Matching