Комментарии 7
В примерах нет бликующей основной страницы. Это основная боль при съемке телефоном, например. Как бы ни выбирал точку съемки, блик всегда присутствует. Особенно с учетом легкой помятости страниц. Здесь спасала бы съемка видеопотока или комбинация нескольких снимков.
И в быту требуется не распознавание, а очень часто просто фотография разворота. Очень хочется режим камеры, который по серийной съемке (или видеопотоку высокого разрешения) соберет синтетическую картинку избавленную от пальцев, бликов и перспективных искажений, т.е. приведет к виду скана.
Когда телефон приучаешь к отпечатку пальца, он просит прикладывать палец разными местами еще и прогресс показывая. Было бы здорово на картинке "скана" показывать куда еще поднести камеру телефона, чтобы "панорама" собралась.
Все так, технология Smart Engines при распознавании в видеопотоке выполняет обработку покадрово - распознает информацию с каждого поступающего кадра и выполняет межкадровую интеграцию результатов их распознавания.
То есть если блик мешает распознать какое-то поле в паспорте на одном кадре, оно будет распознано на другом кадре (или кадрах) - там, где блик не мешает видимости. Так и удается решать проблему бликов при распознавании паспорта.
Отдельный пример с бликующей основной страницей в этот краш-тест мы не включили, но обязательно сделаем и покажем. А пока пример распознавания в таких условиях можно увидеть в видео по ссылке.
в итоге под капотом ocr с методами нормализации к шаблону + коррекция?
а что с бликами ламинации?
и ещё, в тексте про OCR, а потом резко "Искусственный интеллект". скорее ИИ отвечает за распознавание текста, ага?
Под капотом нашей системы — собственный ИИ, решающий все от начала (анализа видеопотока) и до конца (выгрузки результатов распознавания). Шумоподавление, детектирование и классификация документа, определение его системы координат на изображении, устранение искажений от изгибов, поиск полей (они иногда впечатаны мимо, а если перед вами документ корейца, то вы еще разберитесь, где там отчество), распознавание строк, извлечение из печати данных о подразделении, кроссвалидация данных с машиночитаемой зоной, интеграция данных с разных кадров, анализ цвета документа, анализ шрифтов, установление его подлинности — вот лишь часть задач, которые мы решаем. И все это «для OCR». Потому что требуется, чтобы нужные символы правильно распознались. И все это с высокой точностью и по возможности без напряжения пользователя.
На вопрос про блики уже ответили, см. комментарий выше.
"Как вы знаете, в ситуациях, когда необходимо быстро и безопасно обработать данные паспорта и любых других документов, технологии распознавания Smart Engines творят настоящие чудеса." - интересно, на чём основано предположение, что мы это знаем?
Читатели, интересующиеся темой, нас знают уже давно - блог на Хабре мы ведем с 2015 года!
Конечно, вы можете не знать Smart Engines, но нашими технологиями распознавания вы пользуетесь наверняка. Как и 70% жителей России и более 275 млн человек по всему миру. Мы обеспечивая системами распознавания российского паспорта как стартапы, так и лидеров цифровой трансформации и являемся поставщиком систем распознавания для самых разных отраслей, включая госсектор, банкинг, промышленность, бизнес и так далее.
Адские условия: Самый суровый краш-тест технологии распознавания паспорта