Да, все абсолютно серьезно. Изображение документа на телефоне может распознаваться быстрее 2 секунд. Например, разворот паспорта распознается на кадре за 0,15 секунды, а счет на оплату на фотографии - менее чем 1,5 секунды. Вы можете сами попробовать наше распознавание, установив демо-приложение Smart Engines. И убедиться в том, что решение не требует сетевого соединения, переключив смартфон в авиарежим.
По поводу вашей ремарки о распознавании почерка. В этой статье речь идет о документах с печатным и рукопечатным заполнением. Вся обработка с помощью нашего ПО ведется в оперативной памяти устройства. Вопросы хранения файлов и распознанной информации лежат за рамками нашего ПО.
Мы никогда не получаем от наших клиентов изображения и данные на обработку, поэтому нам (как компании) никакие сертификаты на обработку персональных данных не нужны. Поэтому мы не являемся оператором персональных данных, мы разработчики ПО. А вот наши клиенты, которые интегрировали наши SDK в свои мобильные или серверные приложения, безусловно, должны выполнять все необходимые требования по обработке персданных.
Добрый день! Цены на сайте мы действительно не публикуем. Информацию о стоимости наших продуктов мы предоставляем по запросу. Но ваша позиция нам понятна.
На каждом кадре видео размечен бокс овала лица и координаты четырехугольника документа, а также по именованию клипа восстанавливается идентификатор самого документа. В архиве templates для каждого уникального документа размечены реквизиты с их координатами относительно документа - соответственно, восстанавливаются и координаты каждого обьекта на каждом кадре.
И совершенно правильно сделаете, потому что это искусственно созданные документы. Для них мы взяли искусственно созданные лица. Как вы справедливо заметили, все они действительно радостные и красивые. Возможно, в этот день генератор искусственных лиц был в хорошем настроении)
Это очень странное заявление. Мы уже неоднократно заявляли скоростные характеристики: распознавание скана одной страницы паспорта на персональном компьютере с конфигурацией Intel(R) Core(™) i7-2600 CPU @ 3,40 GHz, 8 Гб ОЗУ, Windows 7 SP1 64bit занимает в среднем 0,087 сек.
Кстати, если Вы вспомните, кто Вам из наших сотрудников заявлял такую производительность - мы были бы крайне благодарны!
Уважаемый @AlexVist! Мы не занимаемся диагностикой. И диагностическими системами ИИ тоже не занимаемся. В том числе, потому что не хотим быть причиной беды. Мы занимаемся тем, чтобы оборудование давало наиболее точный и надежный ответ. Мы считаем, что лучше, чтобы врач имел хороший инструмент, нежели плохой. Томограф — измерительный прибор, а не диагностический. Мы сотрудничаем с медиками, но в штате их нет. В штате — физики, инженеры, математики и программисты. Кажется, что при производстве градусников, которые не лгут, не требуются штатные врачи. Кроме того, мы занимаемся поиском слабых мест в текущих и перспективных разработках, чтобы избежать ловушек самим и предупредить других. Текущая наша публикация — про это.
За 10 секунд на 32-х ядерном сервере, без использования GPU мы распознаем примерно 550 изображений разворотов паспортов РФ. Это совсем не коррелирует с Вашими "замерами". Возможно, Вы все-таки тестировали не наше ПО?
Все гораздо хуже, чем вы думаете. Мы не только пишем и претендуем, а еще и молодое поколение с толку сбиваем, преподавая в МФТИ, МГУ, МИСиС и ВШЭ курсы, посвященные анализу и обработке изображений. Что касается соответствия содержанию учебников, то тут уж дудки. Никому не нужно переизложение учебника. Давайте сойдемся на том, что статья не должна противоречить накопленному человечеством корпусу знаний, и обязана следовать принятым в науке методикам.
Вас возмущает то, что вы не видите в статье моделей, принятых в ЦОС. Но тут нет ни случайности, ни ошибки. ЦОИ — довольно обособленный раздел ЦОС. ЦОС часто имеет дело с сигналами, развернутыми во времени, причем с такими, для которых непрерывность — плодотворная модель. В ЦОИ же сигнал развернут (не обязательно исключительно) в пространстве, и обычно наиболее содержательная часть сигнала — разрывы. В классической ЦОС имеет смысл говорить о спектральном разделении шума и сигнала, в ЦОИ это исключительная ситуация. Поэтому в курсах ЦОИ линейные модели фильтрации шумов занимают довольно мало места.
Шум на необработанном изображении (в оптике, не исключая и рентгеновскую) в первую очередь дробовой, об этом было сказано выше. Он в первом приближении независим в соседних пикселях (зависимость считается перекрестной помехой, и обсуждается отдельно от вопросов шума). Если освещенность сенсора не зависит от координат, то шум — белый. А на содержательных изображениях это уже не так, поскольку дробовой шум не гомоскедастичен, и его спектр математически связан со спектром сигнала. Профессиональный ответ уже был дан в предыдущем комментарии — совершенно конкретная модель, принятая в профильных учебниках. Спектр шума для нас, безусловно, — наука. Только вот не наша. И тому есть объективные причины.
Первое. Ключевой оборот вашего комментария — "раз уж вы взялись за фильтрацию шума...". Его можно понять двояко. Если это риторическая конструкция и "вы" здесь универсально, то мы абсолютно согласны! Если же "вы" — это конкретно мы, то мы протестуем. Мы не брались за фильтрацию шума. Статья не про то, как мы взялись за это, и в ее названии ни нас, ни шума нет. Вот вы в своем комментарии (как нам кажется) взялись за бракоделов-скорохватов. И мы взялись за скорохватов от нейросетевой науки. Не за всех нейросетевиков, а именно за чрезвычайно отважных, но не очень думающих, что получилось. Критический количественный анализ чужих результатов — вполне почтенное научное занятие. А лозунги — куда ж на хабре (и, шире, в научпопе) без них. Так что готовы признать лишь, что наша статья — "лозунг ВМЕСТЕ с наукой", как и задумывалось.
Второе. Кажется, вы не вполне верно понимаете природу шума, о котором идет речь в нашей статье. Шум исходных данных никак не зависит от тканей, которые находились между источником и детектором. Шум этот почти целиком описывается пуассоновской компонентой. Более точная модель приводится во многих учебниках по цифровой обработке изображений (в частности, у Яне и у Красильникова) — сумма нормальной гомоскедастичной компоненты и шкалированной пуассоновской. Эта модель верна и в оптическом диапазоне, и в рентгеновском. И мы это действительно проверяли экспериментально. Теперь ответим на вопрос "где это?" Там, где оно к месту. Здесь это вовсе ни к чему.
И последнее. Концовка комментария — сборник очень интересных вопросов. Но как он соотносится с нашей работой — не ясно.
Мы полностью поддерживаем идею ответственности в медицинской разработке и полного законодательного хода применений новых технологий. Ни о каких преференциях технологий ИИ мы не говорим. Наша работа не направлена на рекламирование ИИ подхода. Мы наблюдаем, что значительное количество научных статей по ИИ в КТ публикуются без обоснования устойчивости и безопасности предлагаемых подходов в медицине. Наша научная работа предоставляет инструмент оценки безопасности используемых ИИ, что, в конечном счете, может только улучшить жизнь пациента.
В работе используется общедоступный корпус реконструкций “Low Dose CT Grand Challenge”. Этот датасет собран законным образом, включая сокрытие личной информации пациентов. При сборе данных, риски у пациентов были минимальны. Пациенты проходили стандартную процедуру КТ сканирования, и ИИ методы не применялись для постановки диагнозов после сканирования.
Вопрос пользы новых технологий, конечно, очень широк. Однако, вроде, не вызывает вопросов большая польза использования в медицине КТ, как и близкого по цели МРТ. Эти методы позволяют диагностировать множество болезней, которые иным способом диагностируются/локализуются с большим трудом. Также, нельзя недооценить пользу этих методов в планировании хирургических операций. ИИ технологии лишь программно дополняют существующие методы и запускаются на КТ и МРТ комплексах.
Зрите в корень, но местами у вас лозунги вместо науки. Удалить шумы из абсолютно любых данных, не внося понятие модели данных, невозможно. Однако для определенных видов данных - это возможно с очень большой вероятностью (дискретные сигналы) или с очень большой точностью (линейные, к примеру). Нейросетевой подход к реконструкции можно рассматривать как способ построения модели измеряемого объекта, на основе которой можно делать предположения о его структуре. Чтобы продолжить дискуссию, надо перейти от шумов к количеству информации, необходимой для точной реконструкции.. Ее может не хватать. Как действовать в этом случае, ничего не придумывая, мы показали в работе. Yamaev A. V. et al. Neural network regularization in the problem of few-view computed tomography //Компьютерная оптика. – 2022. – Т. 46. – №. 3. – С. 422-428. По предъявленным вами изображениям можно сделать вывод, что сеть исказила входные данные. К примеру, исчез воротник у левого персонажа.
Хватает информации или не хватает для точной реконструкции - это важный вопрос. И это необходимо донести до врачей. Мы считаем, что дополнительно к результату реконструкции, врачу должна быть предоставлена карта уверенности в ответе.
Спасибо за замечание. Здесь закралась “опечатка” в тексте “Среди всех томографических систем ИИ, которые мы исследовали, методы нейросетевой постобработки результатов реконструкции наиболее устойчивые к атакам.”. Должно было быть написано, что один ИИ алгоритм (ResUNet), который является постпроцессинговым, оказался самым устойчивым по сравнению с другими нейросетевыми алгоритмами. Мы исправили ошибку.
Ваш гражданский пафос полностью разделяем в части того, что люди должны подходить ответственно. Однако технологические революции прошлого нам говорят, что новые технологии в итоге внедряются в жизнь людей. И если кто-то запретит использование нейронных сетей в медицине, мы плакать не будем, но такое вряд ли произойдет. Это связано с тем, что КТ в медицине применяется все чаще и есть стремление снизить лучевую нагрузку. Поэтому мы работаем над улучшением нейросетевых технологий, чтобы трагических последствий было меньше.
Для нас ”до ИИ” - это измеренные проекции, в статье мы рассматривали тот случай, что до ИИ реконструируемого изображения еще не существует. Возьмем, к примеру, алгоритма LDPR - это алгоритм томографической реконструкции. Тенденция снизить лучевую нагрузку, говорит о том, что нейросетевые модели для реконструкции будут создаваться все больше, а значит надо заниматься их устойчивостью.
Галлюцинации между методами обработки - тема для отдельной статьи, мы ею в данной работе не занимались.
Тема Вашей статьи интересная. Замечательно, что Вы обратили свое внимание на такую постановку. В целом, задачи общие и у нас есть идея как оценивать и такие сети. Однако мы пока не пишем об этом, так как тема пока не проработана до публикационного варианта.
Вы правы, что есть более каноничные способы заведения полей в DOCX-шаблонах, однако целью здесь было создание максимально простого инструмента, которым можно пользоваться как для заполнения полностью шаблонных документов, так и для "дозаполнения" подготовленных комплектов документов. Для разработки я не завязывался на возможности текстового процессора (кроме того, я не уверен, что python-docx умеет нативно работать с DOCPROPERTY). В крайнем случае, изменить текущий механизм тегов вида ${tag} на более нативный формат не составит труда.
Здесь дело не столько в том, что так исторически сложилось, сколько в том, чтобы создать максимально простой (для конечного пользователя) инструмент. Редактирование DOCX-документа после его заполнения вполне естественная операция для пользователя (к примеру, при заполнении комплекта документов при онбординге, какие-то поля документов вполне могут редактироваться вручную, боль доставляет "переписывание" данных из отсканированных документов). Тот инструмент, который получился здесь, можно отдавать сотруднику и начать им пользоваться он сможет уже через несколько минут.
В рамках более серьезного внедрения в информационную систему корпорации эту задачу можно решать совсем по-другому - с более глубоким интегрированием в существующую инфраструктуру, подгрузкой стандартных шаблонов (и уже, возможно, не в DOCX а в том формате или форматах, который принят в организации), и интеграцией распознавания не через вызов простейшего консольного приложения, а вызывая библиотечные функции.
Мы не сомневаемся в том, что существуют другие методы, позволяющие решить задачу поиска плота. Более того, мы не настаиваем на том, что метод Виолы и Джонса - единственный правильный.
В рассказываем как путем правильного применения известного (хотя немного модифицированного) инструмента решается задача с заданным уровнем качества и производительности.
Да, все абсолютно серьезно. Изображение документа на телефоне может распознаваться быстрее 2 секунд. Например, разворот паспорта распознается на кадре за 0,15 секунды, а счет на оплату на фотографии - менее чем 1,5 секунды. Вы можете сами попробовать наше распознавание, установив демо-приложение Smart Engines. И убедиться в том, что решение не требует сетевого соединения, переключив смартфон в авиарежим.
По поводу вашей ремарки о распознавании почерка. В этой статье речь идет о документах с печатным и рукопечатным заполнением. Вся обработка с помощью нашего ПО ведется в оперативной памяти устройства. Вопросы хранения файлов и распознанной информации лежат за рамками нашего ПО.
Мы никогда не получаем от наших клиентов изображения и данные на обработку, поэтому нам (как компании) никакие сертификаты на обработку персональных данных не нужны. Поэтому мы не являемся оператором персональных данных, мы разработчики ПО. А вот наши клиенты, которые интегрировали наши SDK в свои мобильные или серверные приложения, безусловно, должны выполнять все необходимые требования по обработке персданных.
Добрый день! Цены на сайте мы действительно не публикуем. Информацию о стоимости наших продуктов мы предоставляем по запросу. Но ваша позиция нам понятна.
На каждом кадре видео размечен бокс овала лица и координаты четырехугольника документа, а также по именованию клипа восстанавливается идентификатор самого документа. В архиве templates для каждого уникального документа размечены реквизиты с их координатами относительно документа - соответственно, восстанавливаются и координаты каждого обьекта на каждом кадре.
Еще раз подчеркиваем: стенд создан исключительно для научных целей!
И совершенно правильно сделаете, потому что это искусственно созданные документы. Для них мы взяли искусственно созданные лица. Как вы справедливо заметили, все они действительно радостные и красивые. Возможно, в этот день генератор искусственных лиц был в хорошем настроении)
Возможно, уважаемый читатель @heiheshang просто что-то путает, мы постараемся разобраться и внести ясность
Это очень странное заявление. Мы уже неоднократно заявляли скоростные характеристики: распознавание скана одной страницы паспорта на персональном компьютере с конфигурацией Intel(R) Core(™) i7-2600 CPU @ 3,40 GHz, 8 Гб ОЗУ, Windows 7 SP1 64bit занимает в среднем 0,087 сек.
Кстати, если Вы вспомните, кто Вам из наших сотрудников заявлял такую производительность - мы были бы крайне благодарны!
Уважаемый @AlexVist! Мы не занимаемся диагностикой. И диагностическими системами ИИ тоже не занимаемся. В том числе, потому что не хотим быть причиной беды. Мы занимаемся тем, чтобы оборудование давало наиболее точный и надежный ответ. Мы считаем, что лучше, чтобы врач имел хороший инструмент, нежели плохой. Томограф — измерительный прибор, а не диагностический. Мы сотрудничаем с медиками, но в штате их нет. В штате — физики, инженеры, математики и программисты. Кажется, что при производстве градусников, которые не лгут, не требуются штатные врачи. Кроме того, мы занимаемся поиском слабых мест в текущих и перспективных разработках, чтобы избежать ловушек самим и предупредить других. Текущая наша публикация — про это.
За 10 секунд на 32-х ядерном сервере, без использования GPU мы распознаем примерно 550 изображений разворотов паспортов РФ. Это совсем не коррелирует с Вашими "замерами". Возможно, Вы все-таки тестировали не наше ПО?
Все гораздо хуже, чем вы думаете. Мы не только пишем и претендуем, а еще и молодое поколение с толку сбиваем, преподавая в МФТИ, МГУ, МИСиС и ВШЭ курсы, посвященные анализу и обработке изображений. Что касается соответствия содержанию учебников, то тут уж дудки. Никому не нужно переизложение учебника. Давайте сойдемся на том, что статья не должна противоречить накопленному человечеством корпусу знаний, и обязана следовать принятым в науке методикам.
Вас возмущает то, что вы не видите в статье моделей, принятых в ЦОС. Но тут нет ни случайности, ни ошибки. ЦОИ — довольно обособленный раздел ЦОС. ЦОС часто имеет дело с сигналами, развернутыми во времени, причем с такими, для которых непрерывность — плодотворная модель. В ЦОИ же сигнал развернут (не обязательно исключительно) в пространстве, и обычно наиболее содержательная часть сигнала — разрывы. В классической ЦОС имеет смысл говорить о спектральном разделении шума и сигнала, в ЦОИ это исключительная ситуация. Поэтому в курсах ЦОИ линейные модели фильтрации шумов занимают довольно мало места.
Шум на необработанном изображении (в оптике, не исключая и рентгеновскую) в первую очередь дробовой, об этом было сказано выше. Он в первом приближении независим в соседних пикселях (зависимость считается перекрестной помехой, и обсуждается отдельно от вопросов шума). Если освещенность сенсора не зависит от координат, то шум — белый. А на содержательных изображениях это уже не так, поскольку дробовой шум не гомоскедастичен, и его спектр математически связан со спектром сигнала. Профессиональный ответ уже был дан в предыдущем комментарии — совершенно конкретная модель, принятая в профильных учебниках. Спектр шума для нас, безусловно, — наука. Только вот не наша. И тому есть объективные причины.
Первое. Ключевой оборот вашего комментария — "раз уж вы взялись за фильтрацию шума...". Его можно понять двояко. Если это риторическая конструкция и "вы" здесь универсально, то мы абсолютно согласны! Если же "вы" — это конкретно мы, то мы протестуем. Мы не брались за фильтрацию шума. Статья не про то, как мы взялись за это, и в ее названии ни нас, ни шума нет. Вот вы в своем комментарии (как нам кажется) взялись за бракоделов-скорохватов. И мы взялись за скорохватов от нейросетевой науки. Не за всех нейросетевиков, а именно за чрезвычайно отважных, но не очень думающих, что получилось. Критический количественный анализ чужих результатов — вполне почтенное научное занятие. А лозунги — куда ж на хабре (и, шире, в научпопе) без них. Так что готовы признать лишь, что наша статья — "лозунг ВМЕСТЕ с наукой", как и задумывалось.
Второе. Кажется, вы не вполне верно понимаете природу шума, о котором идет речь в нашей статье. Шум исходных данных никак не зависит от тканей, которые находились между источником и детектором. Шум этот почти целиком описывается пуассоновской компонентой. Более точная модель приводится во многих учебниках по цифровой обработке изображений (в частности, у Яне и у Красильникова) — сумма нормальной гомоскедастичной компоненты и шкалированной пуассоновской. Эта модель верна и в оптическом диапазоне, и в рентгеновском. И мы это действительно проверяли экспериментально. Теперь ответим на вопрос "где это?" Там, где оно к месту. Здесь это вовсе ни к чему.
И последнее. Концовка комментария — сборник очень интересных вопросов. Но как он соотносится с нашей работой — не ясно.
Мы полностью поддерживаем идею ответственности в медицинской разработке и полного законодательного хода применений новых технологий. Ни о каких преференциях технологий ИИ мы не говорим. Наша работа не направлена на рекламирование ИИ подхода. Мы наблюдаем, что значительное количество научных статей по ИИ в КТ публикуются без обоснования устойчивости и безопасности предлагаемых подходов в медицине. Наша научная работа предоставляет инструмент оценки безопасности используемых ИИ, что, в конечном счете, может только улучшить жизнь пациента.
В работе используется общедоступный корпус реконструкций “Low Dose CT Grand Challenge”. Этот датасет собран законным образом, включая сокрытие личной информации пациентов. При сборе данных, риски у пациентов были минимальны. Пациенты проходили стандартную процедуру КТ сканирования, и ИИ методы не применялись для постановки диагнозов после сканирования.
Вопрос пользы новых технологий, конечно, очень широк. Однако, вроде, не вызывает вопросов большая польза использования в медицине КТ, как и близкого по цели МРТ. Эти методы позволяют диагностировать множество болезней, которые иным способом диагностируются/локализуются с большим трудом. Также, нельзя недооценить пользу этих методов в планировании хирургических операций. ИИ технологии лишь программно дополняют существующие методы и запускаются на КТ и МРТ комплексах.
Так что дополнительной розетки им не потребуется.
Зрите в корень, но местами у вас лозунги вместо науки. Удалить шумы из абсолютно любых данных, не внося понятие модели данных, невозможно. Однако для определенных видов данных - это возможно с очень большой вероятностью (дискретные сигналы) или с очень большой точностью (линейные, к примеру). Нейросетевой подход к реконструкции можно рассматривать как способ построения модели измеряемого объекта, на основе которой можно делать предположения о его структуре. Чтобы продолжить дискуссию, надо перейти от шумов к количеству информации, необходимой для точной реконструкции.. Ее может не хватать. Как действовать в этом случае, ничего не придумывая, мы показали в работе. Yamaev A. V. et al. Neural network regularization in the problem of few-view computed tomography //Компьютерная оптика. – 2022. – Т. 46. – №. 3. – С. 422-428. По предъявленным вами изображениям можно сделать вывод, что сеть исказила входные данные. К примеру, исчез воротник у левого персонажа.
Хватает информации или не хватает для точной реконструкции - это важный вопрос. И это необходимо донести до врачей. Мы считаем, что дополнительно к результату реконструкции, врачу должна быть предоставлена карта уверенности в ответе.
Спасибо за замечание. Здесь закралась “опечатка” в тексте “Среди всех томографических систем ИИ, которые мы исследовали, методы нейросетевой постобработки результатов реконструкции наиболее устойчивые к атакам.”. Должно было быть написано, что один ИИ алгоритм (ResUNet), который является постпроцессинговым, оказался самым устойчивым по сравнению с другими нейросетевыми алгоритмами. Мы исправили ошибку.
Ваш гражданский пафос полностью разделяем в части того, что люди должны подходить ответственно. Однако технологические революции прошлого нам говорят, что новые технологии в итоге внедряются в жизнь людей. И если кто-то запретит использование нейронных сетей в медицине, мы плакать не будем, но такое вряд ли произойдет. Это связано с тем, что КТ в медицине применяется все чаще и есть стремление снизить лучевую нагрузку. Поэтому мы работаем над улучшением нейросетевых технологий, чтобы трагических последствий было меньше.
Для нас ”до ИИ” - это измеренные проекции, в статье мы рассматривали тот случай, что до ИИ реконструируемого изображения еще не существует. Возьмем, к примеру, алгоритма LDPR - это алгоритм томографической реконструкции. Тенденция снизить лучевую нагрузку, говорит о том, что нейросетевые модели для реконструкции будут создаваться все больше, а значит надо заниматься их устойчивостью.
Галлюцинации между методами обработки - тема для отдельной статьи, мы ею в данной работе не занимались.
Тема Вашей статьи интересная. Замечательно, что Вы обратили свое внимание на такую постановку. В целом, задачи общие и у нас есть идея как оценивать и такие сети. Однако мы пока не пишем об этом, так как тема пока не проработана до публикационного варианта.
Вы правы, что есть более каноничные способы заведения полей в DOCX-шаблонах, однако целью здесь было создание максимально простого инструмента, которым можно пользоваться как для заполнения полностью шаблонных документов, так и для "дозаполнения" подготовленных комплектов документов. Для разработки я не завязывался на возможности текстового процессора (кроме того, я не уверен, что python-docx умеет нативно работать с DOCPROPERTY). В крайнем случае, изменить текущий механизм тегов вида ${tag} на более нативный формат не составит труда.
Здесь дело не столько в том, что так исторически сложилось, сколько в том, чтобы создать максимально простой (для конечного пользователя) инструмент. Редактирование DOCX-документа после его заполнения вполне естественная операция для пользователя (к примеру, при заполнении комплекта документов при онбординге, какие-то поля документов вполне могут редактироваться вручную, боль доставляет "переписывание" данных из отсканированных документов). Тот инструмент, который получился здесь, можно отдавать сотруднику и начать им пользоваться он сможет уже через несколько минут.
В рамках более серьезного внедрения в информационную систему корпорации эту задачу можно решать совсем по-другому - с более глубоким интегрированием в существующую инфраструктуру, подгрузкой стандартных шаблонов (и уже, возможно, не в DOCX а в том формате или форматах, который принят в организации), и интеграцией распознавания не через вызов простейшего консольного приложения, а вызывая библиотечные функции.
Мы не сомневаемся в том, что существуют другие методы, позволяющие решить задачу поиска плота. Более того, мы не настаиваем на том, что метод Виолы и Джонса - единственный правильный.
В рассказываем как путем правильного применения известного (хотя немного модифицированного) инструмента решается задача с заданным уровнем качества и производительности.