Pull to refresh
73
19.6

Пользователь

Send message

Читатели, интересующиеся темой, нас знают уже давно - блог на Хабре мы ведем с 2015 года!

Конечно, вы можете не знать Smart Engines, но нашими технологиями распознавания вы пользуетесь наверняка. Как и 70% жителей России и более 275 млн человек по всему миру. Мы обеспечивая системами распознавания российского паспорта как стартапы, так и лидеров цифровой трансформации и являемся поставщиком систем распознавания для самых разных отраслей, включая госсектор, банкинг, промышленность, бизнес и так далее.

Под капотом нашей системы — собственный ИИ, решающий все от начала (анализа видеопотока) и до конца (выгрузки результатов распознавания). Шумоподавление, детектирование и классификация документа, определение его системы координат на изображении, устранение искажений от изгибов, поиск полей (они иногда впечатаны мимо, а если перед вами документ корейца, то вы еще разберитесь, где там отчество), распознавание строк, извлечение из печати данных о подразделении, кроссвалидация данных с машиночитаемой зоной, интеграция данных с разных кадров, анализ цвета документа, анализ шрифтов, установление его подлинности — вот лишь часть задач, которые мы решаем. И все это «для OCR». Потому что требуется, чтобы нужные символы правильно распознались. И все это с высокой точностью и по возможности без напряжения пользователя.

На вопрос про блики уже ответили, см. комментарий выше.

Все так, технология Smart Engines при распознавании в видеопотоке выполняет обработку покадрово - распознает информацию с каждого поступающего кадра и выполняет межкадровую интеграцию результатов их распознавания.

То есть если блик мешает распознать какое-то поле в паспорте на одном кадре, оно будет распознано на другом кадре (или кадрах) - там, где блик не мешает видимости. Так и удается решать проблему бликов при распознавании паспорта.

Отдельный пример с бликующей основной страницей в этот краш-тест мы не включили, но обязательно сделаем и покажем. А пока пример распознавания в таких условиях можно увидеть в видео по ссылке.

Пересечения определенно есть. Примечательно, что и Gemini по неизвестной причине тоже высоко оценила Афанасия. Вопрос только - за что все нейросети его так сильно любят?

Мы никогда такого не допустили бы! Пробовалось исключительно холодное пиво!

У нас были похожие прогнозы, но так решил ИИ.

Да, во время эксперимента ни один программист не пострадал!

Нет. На конференции сказали, что OCR still useful.

Скоро выпустим апдейт по итогам ICDAR-2024. Ждите!

Спасибо за комментарий!

Оценка положения оси вращения с помощью центра масс усреднённого проекционного снимка была рассмотрена нами в работе. Эксперименты показали, что в ряде случаем она дает неверный ответ. Например, когда в область видимости детектора кроме самого образца попадает подставка для его крепления. На получаемых в таких условиях проекционных данных, помимо контуров объекта, оказываются отчетливо различимы контуры подставки. Центр масс таких проекций оказывается сильно смещенным от центра масс проекции исключительно самого объекта. Поиск сдвига оси вращения вокруг положения центра масс в совокупности столика и объекта приводит к неверным результатам. 

Предложенная Вами оптимизация целевого функционала, без сомнения, возможна и также была нами апробирована. Но она также показала себя неустойчивой к нарушениям условий сканирования объекта. Такая оптимизация приводит к ошибочным результатам в случае выхода объекта из поля видимости детектора. Описанная в тексте статьи Хабра оптимизация оказывается более устойчива к выходу объекта из поля видимости детектора, присутствию в поле видимости детектора столика, а также сильной зашумленности проекций. Это подтверждено нашими экспериментами, помещенными в работе.

Мы спросили ChatGPT, как наиболее вежливо ответить на ваш комментарий. ИИ предложил следующее:

Спасибо за Ваше замечание. Мы действительно ценим мнение каждого и стремимся к конструктивному диалогу. Хотел бы пояснить, что наша деятельность направлена на проведение реальных научных исследований, которые нацелены на получение новых знаний и развитие технологий. Мы убеждены, что каждый вопрос и каждое обсуждение способствует продвижению науки и помогает достигать значимых результатов, которые могут принести пользу обществу. Будем рады продолжить сотрудничество и обмен мнениями.

Современные смартфоны давно достигли по мощности средненьких персональных компьютеров. При разумном подходе к оптимизации нейросетевых моделей, уже сейчас можно запускать локально обработку фото/видео, распознавание qr и банковских карт, распознавание документов и голоса. Сейчас работаем над тем, как запускать более серьезные локальные модели.

Для слоя нейронной сети ln и exp делаются для входного и выходного векторов данных соответственно, а это существенно меньшее число операций, чем число умножений внутри, например, сверточного слоя.

RFID не содержит открытых данных по соображениям элементарных норм безопасности. Чтобы его прочитать и дешифровать, нужно знать ключ, который собирается из персональных данных (MRZ).

"Нормальные  машиночитаемые паспорта", несущие внутри себя чип, очень широко распространены (если Вы про это). Правда, ключом к этой информации является MRZ (две кодифицированные строки внизу документа). который все еще считывается с помощью "костылей оптического распознавания".

Для обхода законодательства обычно достаточно бумажек и сертификатов, технологии не требуются.

Можно и так, но это уже не к нам.
Мы занимаемся распознаванием и проверкой подлинности и решаем задачу в моменте.

1
23 ...

Information

Rating
Does not participate
Works in
Registered
Activity