SmartEngines 4 окт 2024 в 08:21

Адские условия: Самый суровый краш-тест технологии распознавания паспорта

Простой

7 мин

2.4K

Блог компании Smart EnginesИскусственный интеллектЧитальный залМашинное обучение * Научно-популярное

Обзор

+11

Комментарии 7

Mishootk 4 окт 2024 в 09:39

В примерах нет бликующей основной страницы. Это основная боль при съемке телефоном, например. Как бы ни выбирал точку съемки, блик всегда присутствует. Особенно с учетом легкой помятости страниц. Здесь спасала бы съемка видеопотока или комбинация нескольких снимков.

И в быту требуется не распознавание, а очень часто просто фотография разворота. Очень хочется режим камеры, который по серийной съемке (или видеопотоку высокого разрешения) соберет синтетическую картинку избавленную от пальцев, бликов и перспективных искажений, т.е. приведет к виду скана.

Когда телефон приучаешь к отпечатку пальца, он просит прикладывать палец разными местами еще и прогресс показывая. Было бы здорово на картинке "скана" показывать куда еще поднести камеру телефона, чтобы "панорама" собралась.

SmartEngines 4 окт 2024 в 10:11

Все так, технология Smart Engines при распознавании в видеопотоке выполняет обработку покадрово - распознает информацию с каждого поступающего кадра и выполняет межкадровую интеграцию результатов их распознавания.

То есть если блик мешает распознать какое-то поле в паспорте на одном кадре, оно будет распознано на другом кадре (или кадрах) - там, где блик не мешает видимости. Так и удается решать проблему бликов при распознавании паспорта.

Отдельный пример с бликующей основной страницей в этот краш-тест мы не включили, но обязательно сделаем и покажем. А пока пример распознавания в таких условиях можно увидеть в видео по ссылке.

temadiary 5 окт 2024 в 04:52

то есть ваша технология позволяет кастомеру уже пользоваться не "сделать фото", а "запустить съёмку видео"?
рили? если так то ведь не во всех кейсах применяется такое. да? да ведь?

temadiary 4 окт 2024 в 10:03

в итоге под капотом ocr с методами нормализации к шаблону + коррекция?
а что с бликами ламинации?
и ещё, в тексте про OCR, а потом резко "Искусственный интеллект". скорее ИИ отвечает за распознавание текста, ага?

SmartEngines 4 окт 2024 в 11:48

Под капотом нашей системы — собственный ИИ, решающий все от начала (анализа видеопотока) и до конца (выгрузки результатов распознавания). Шумоподавление, детектирование и классификация документа, определение его системы координат на изображении, устранение искажений от изгибов, поиск полей (они иногда впечатаны мимо, а если перед вами документ корейца, то вы еще разберитесь, где там отчество), распознавание строк, извлечение из печати данных о подразделении, кроссвалидация данных с машиночитаемой зоной, интеграция данных с разных кадров, анализ цвета документа, анализ шрифтов, установление его подлинности — вот лишь часть задач, которые мы решаем. И все это «для OCR». Потому что требуется, чтобы нужные символы правильно распознались. И все это с высокой точностью и по возможности без напряжения пользователя.

На вопрос про блики уже ответили, см. комментарий выше.

Schakal 4 окт 2024 в 11:21

"Как вы знаете, в ситуациях, когда необходимо быстро и безопасно обработать данные паспорта и любых других документов, технологии распознавания Smart Engines творят настоящие чудеса." - интересно, на чём основано предположение, что мы это знаем?

SmartEngines 4 окт 2024 в 15:05

Читатели, интересующиеся темой, нас знают уже давно - блог на Хабре мы ведем с 2015 года!

Конечно, вы можете не знать Smart Engines, но нашими технологиями распознавания вы пользуетесь наверняка. Как и 70% жителей России и более 275 млн человек по всему миру. Мы обеспечивая системами распознавания российского паспорта как стартапы, так и лидеров цифровой трансформации и являемся поставщиком систем распознавания для самых разных отраслей, включая госсектор, банкинг, промышленность, бизнес и так далее.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий