Как стать автором
Обновить
38.31
Smart Engines
Обработка изображений, распознавание в видеопотоке
Сначала показывать

Несколько фактов о каскадных классификаторах, которые редко всерьез рассматриваются в научных статьях

Время на прочтение8 мин
Количество просмотров4.1K

Привет Хабр! Сегодня снова поговорим про распознавание. А именно, про такую простую модель распознавателя как каскадный классификатор. Именно каскад используется в популярном методе Виолы и Джонса, про который уже так много раз писали на Хабре (например, здесь, здесь и здесь). Грусть в том, что несмотря на обилие статей, всерьез каскадные классификаторы никто не изучал. И не только на Хабре, но и научном сообществе. Хотя каскадный классификатор кажется простым, там достаточно много подводных камней и интересных особенностей. Поэтому мы спешим поделиться с вами своими знаниями. Так что, если интересно, добро пожаловать под кат.
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Аугментация на лету — важный инструмент в обучении нейронных сетей

Время на прочтение7 мин
Количество просмотров15K

Самая важная составляющая машинного обучения – это данные. Насколько бы ни были хороши модель и метод обучения, если обучающая выборка мала или не описывает большую часть случаев реального мира – добиться высокого качества работы будет почти невозможно. При этом сама задача создания обучающих датасетов является отнюдь не простой и не всем подходит, так как помимо долгого и изнурительного аннотирования данных людьми обычно требуется дополнительное финансирование этого процесса.


Аугментация, или генерирование новых данных на основе имеющихся, позволяет довольно просто и дешево решить часть проблем с обучающей выборкой подручными способами. В случае нейронных сетей, распространенным явлением стало встраивать аугментацию непосредственно в процесс обучения, модифицируя данные каждую эпоху. Однако, в очень малом числе статей акцентируется внимание на важности такого подхода и том, какие свойства он привносит в процесс обучения. В этой статье мы разберем, что полезного можно извлечь из аугментации на лету, и насколько критичен выбор преобразований и их параметров в рамках такого подхода.



 

Читать дальше →
Всего голосов 3: ↑2 и ↓1+2
Комментарии0

Алгоритмы пост-обработки результатов распознавания текстовых полей

Время на прочтение10 мин
Количество просмотров2.1K

(изображение взято отсюда)

Сегодня мы бы хотели вам рассказать о задаче пост-обработки результатов распознавания текстовых полей исходя из априорных знаний о поле. Ранее мы уже писали про метод коррекции полей на основе триграмм, который позволяет исправлять некоторые ошибки распознавания слов, написанных на естественных языках. Однако значительную часть важных документов, в том числе документов, удостоверяющих личность, составляют поля другого характера – даты, номера, VIN-коды автомобилей, номера ИНН и СНИЛС, машинно-читаемые зоны с их контрольными суммами и многое другое. Хотя их нельзя отнести к полям естественного языка, тем не менее у таких полей зачастую существует некоторая, иногда неявная, языковая модель, а значит, для них тоже можно применить некоторые алгоритмы коррекции. В этом посте речь пойдет об двух механизмах пост-обработки результатов распознавания, которые можно применять для большого количества документов и типов полей.
Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Распознавание документов и лиц: объединение во имя свободы или шаг к цифровой диктатуре?

Время на прочтение6 мин
Количество просмотров4.3K

Распространение по миру вируса COVID-19 вызвало резкое изменение паттернов потребительского поведения. В условиях роста панических настроений и предписаний соблюдать социальную дистанцию растет доля тех потребителей, которые сознательно или вынужденно отказываются от физического контакта с продавцом.


Тем самым стимулируется развитие дистанционных услуг и сервисов, таких как онлайн-заказ продуктов, бесконтактная курьерская доставка товаров повседневного спроса, оформление договоров на банковское и страховое обслуживание, открытие вкладов, получение дистанционной медицинской и юридической помощи. Более активно происходит замещение оборота наличных денег в торговле различными инструментами бесконтактных и дистанционных платежей.


iStock​ OJO_Images
Читать дальше →
Всего голосов 3: ↑2 и ↓1+5
Комментарии11

Количественная оценка «эффекта чаши» на томографических изображениях

Время на прочтение8 мин
Количество просмотров2.1K

Привет, Хабр! Как вы уже знаете, мы в Smart Engines занимаемся обработкой изображений. Недавно мы написали статью о бинаризации томографических изображений с тонкой структурой, в которой попытались рассказать в чем собственно состоит метод рентгеновской томографии. Сегодня мы продолжим рассказывать о задачах, возникающих при работе с томографическими изображениями, а именно речь пойдет о чашевидных артефактах и об их количественной оценке.



Источник


Если интересно, то добро пожаловать подкат!

Читать дальше →
Всего голосов 4: ↑3 и ↓1+4
Комментарии7

Альтернативный метод классификации поля «пол» паспорта РФ с помощью нейронной сети

Время на прочтение6 мин
Количество просмотров3.3K

Источник: https://wiki.loginom.ru/articles/clustering.html


Задача распознавания текста не теряет своей актуальности на протяжении последних десятилетий. А сейчас, в период повсеместного введения дистанционного оформления документов, не обойтись без процедуры идентификации личности.


Классическая процедура распознавания текста включает в себя его локализацию, сегментацию и непосредственно распознавание. Методы, использующие сегментацию текста на символы, довольно популярны и хорошо изучены. Однако существуют такие виды текста, где сегментация на символы становится настоящим испытанием. Например, арабская и индийская письменности. Кроме того, различные повреждения изображений текста также затрудняют его сегментацию. Очевидным решением при ограниченном множестве слов является распознавание их целиком, без разбора на символы. При условии наличия полного словаря с этой задачей отлично справляются обычные классифицирующие нейронные сети. Но что же делать в случае, если словарь достаточно большой или вовсе не известен на этапе обучения?

Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Философия затворничества: как удаленная идентификация выручает нас в непростое время

Время на прочтение6 мин
Количество просмотров1.8K

Уверены, что самоизоляция скоро кончится, мы смиримся с вирусом, который и дальше (как нам говорят специалисты) будет жить рядом с нами, мутировать и размножаться. А пока человечество пережидает, мы формируем новые потребительские привычки. Сервисы и приложения, которые не так давно были вспомогательными, а сегодня выходят на первый план. Мы не замечаем того, что многие повседневные услуги возможно получить только при очном подтверждении личности. Это возможно сделать, предъявив паспорт (в ряде случаев другой, приравненный к нему документ), как правило ответственному сотруднику организации, которая предоставляет нам услуги. Несмотря на активный перевод на цифровые рельсы многих государственных и муниципальных услуг, а также услуг в финансовой, страховой сфере, первичное обращение в организацию требует предъявления паспорта. Но как это сделать, когда одной стороне (клиенту) запрещено выходить из дома, а другая сторона (банк, страховая, нотариус, представитель оператора связи) находится на удаленном режиме работы? Здесь на помощь приходит удаленная идентификация личности.



Istock​/ipopba

Читать дальше →
Всего голосов 2: ↑1 и ↓1+2
Комментарии3

Биполярные морфологические сети: нейрон без умножения

Время на прочтение10 мин
Количество просмотров3.7K

В наши дни трудно найти задачу, которую еще не предлагают решать нейронными сетями. А во многих задачах другие методы уже даже не рассматриваются. В такой ситуации логично, что в погоне за “серебряной пулей” исследователи и технологи предлагают все новые и новые модификации нейросетевых архитектур, которые должны принести прикладникам “счастье для всех, даром, и пусть никто не уйдет обиженным!” Впрочем, в индустриальных задачах чаще оказывается, что точность модели в основном зависит от чистоты, размера и структуры обучающей выборки, а от нейросетевой модели требуется разумность интерфейса (например, неприятно, когда ответом по логике должен быть список переменной длины).


Другое дело — производительность, быстродействие. Здесь зависимость от архитектуры прямая и вполне предсказуемая. Впрочем, не всем ученым интересная. Куда приятнее мыслить столетиями, эпохами, мысленно целиться в век, когда волшебным образом вычислительные мощности будут невообразимыми, а энергия добываться из воздуха. Однако и людей приземленных тоже хватает. И им важно, чтобы нейросети были компактнее, быстрее и энергоэффективнее уже сейчас. Например, это важно при работе на мобильных устройствах и во встроенных системах, где нет мощной видеокарты или нужно экономить аккумулятор. В этом направлении сделано немало: тут и малобитные целочисленные нейронные сети, и удаление избыточных нейронов, и тензорные декомпозиции сверток, и многое другое.


Нам же удалось убрать умножения из вычислений внутри нейрона, заменив их сложениями и взятием максимума, хотя мы и оставили возможность использовать умножения и нелинейные операции в функции активации. Предложенную модель мы назвали биполярной морфологической моделью нейрона.


Читать дальше →
Всего голосов 8: ↑7 и ↓1+8
Комментарии7

Когда останавливать процесс распознавания видеопоследовательности?

Время на прочтение7 мин
Количество просмотров2K
Привет хабр! Сегодня мы бы хотели рассказать вам об очень интересной задаче, которой мы занимаемся с самого старта наших исследований распознавания документов в видеопотоке – задаче поиска оптимального момента остановки.


Читать дальше →
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Локализация QR-кода – важная задача, незаслуженно обделенная вниманием

Время на прочтение10 мин
Количество просмотров6.5K
Уверены, что на сегодняшний день не найдется ни одного читателя Хабра, который не был бы знаком с QR-кодами. Эти двумерные штрихкоды повсюду. Закономерно, что в мире существует много инструментов, позволяющих с некоторой долей эффективности добавить QR-коды в свой проект. Вся соль в том, что эта упомянутая эффективность напрямую зависит от качества инструмента, который используется для распознавания QR-кодов. И тут возникает классическая вилка: можно решить задачу (очень) хорошо и (очень) дорого, а можно бесплатно и как-то. А можно ли доработать бесплатное так, чтобы все-таки решить задачу хорошо? Если интересно, заглядывайте под кат.
Читать дальше →
Всего голосов 5: ↑4 и ↓1+7
Комментарии10

О бинаризации томографических изображений с тонкой структурой

Время на прочтение10 мин
Количество просмотров2.3K

Бинаризация – классическая задача обработки изображений. Часто бинаризация используется для упрощения данных и ускорения последующей обработки, что в наше время уже не кажется важным. Но при анализе пористых материалов бинаризация принципиальна, поскольку модель данных здесь не подразумевает промежуточного состояния между пустой порой и непроницаемой матрицей. А алгоритма, прекрасно работающего «из коробки», как обычно, нет. Есть алгоритмы с настроечными параметрами, есть замечательные нейросетевые архитектуры. Чтобы они заработали, их нужно настроить/обучить. Что же делать, если в нашей задаче получение эталонных ответов очень трудоемко? Из этой статьи вы можете узнать об одном любопытном способе обойтись без разметки, а также познакомиться с миром вычислительной томографии и сопредельных областей.


Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии4

Регуляризация? Ортогонализация! Улучшаем компактные сети

Время на прочтение7 мин
Количество просмотров4.7K

Пока другие компании обсуждают управление коллективом на удаленке, мы в Smart Engines продолжаем делиться с вами своим стеком технологий. Сегодня про оптимизацию нейронных сетей. Сделать систему распознавания на основе нейронных сетей, которая могла бы быстро работать на смартфонах и прочих мобильных устройствах – крайне непросто. А сделать так, чтобы при этом качество было высоким – еще сложнее. В этой статье мы расскажем о простом методе регуляризации нейронных сетей, используемом нами в Smart Engines для улучшения качества «мобильных» сетей с малым числом параметров. Идея метода основана на постепенном уменьшении линейной зависимости фильтров в сверточных слоях во время обучения, благодаря чему каждый нейрон работает более эффективно, и следовательно, улучшается обобщающая способность модели. Для этого мы представляем фильтры в виде одномерных векторов и ортогонализируем пару с наибольшей длиной проекции друг на друга.
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии14

Алгоритм распознавания ценников, который работает даже на терминалах сбора данных

Время на прочтение8 мин
Количество просмотров3.7K

Привет, Хабр! Сегодня мы продолжаем нашу классическую серию статей про то, как с использованием методов обработки изображений и распознавания образов сделать что-то полезное с практической точки зрения. Сегодня речь пойдет о задаче распознавания ценников. Обычных ценников товаров, которые каждый может встретить в любом магазине. Только для обеспечения должной практичности мы добавим важное требование в постановку задачи: распознаваемые изображения получают при помощи малоформатной цифровой камеры, а вычислительное устройство имеет существенные ограничения по ресурсам. Другими словами, мы расскажем, как распознавать ценники на вычислительно слабом мобильном устройстве (кстати, здесь речь идет не столько о дешевом китайском смартфоне, сколько о специальных промышленных терминалах сбора данных, которые в силу ряда причин тоже обладают достаточно слабыми “мозгами”). Итак, если Вам интересна тема автоматизации ритейла, добро пожаловать под кат!


Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии9

8-битные сети на Эльбрусе, есть ли смысл?

Время на прочтение10 мин
Количество просмотров5.5K

Привет, Хабр! Мы вдруг поняли, что наша последняя статья про Эльбрус вышла год назад. Поэтому мы решили исправить эту досадную оплошность, ведь мы не бросили эту тему!


Сложно представить распознавание без нейронных сетей, поэтому мы расскажем о том, как мы запустили 8-битные сетки на Эльбрусе и что из этого получилось. Вообще, модель с 8-битными коэффициентами и входами и 32-битными промежуточными вычислениями крайне популярна. Например, Google [1] и Facebook [2] завели ее собственные реализации, которые оптимизируют доступ в память, задействуют SIMD и позволяют ускорить вычисления на 25% и больше без заметного снижения точности (это конечно зависит от архитектуры нейронной сети и вычислителя, но нужно же было объяснить, насколько это круто?).


Читать дальше →
Всего голосов 26: ↑26 и ↓0+26
Комментарии6

HoughNet: поиск точек схода сетью, сплавленной с классическим алгоритмом

Время на прочтение7 мин
Количество просмотров2.4K

Пока в мире распознавания объектов обучают десятки и даже сотни зарекомендовавших себя архитектур искусственных нейронных сетей (ИНС), разогревая планету мощными видеокарточками и создавая «панацею» для всех задач компьютерного зрения, мы в Smart Engines твердо идем по исследовательскому пути, предлагая новые эффективные архитектуры ИНС для решения конкретных задач. Сегодня мы расскажем про ХафНет – новый способ поиска точек схода на изображениях.

Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Пять лет интенсивного развития рынка распознавания документов

Время на прочтение3 мин
Количество просмотров1.9K

Хотя мы в Smart Engines, конечно, лютые технари, все равно очень любим дни рождения и юбилеи. Особенно, если виновник торжества — такое родное и милое, за развитием которого ты наблюдаешь каждый день. Да-да, на прошлой неделе мы праздновали пятилетие нашего главного продукта – системы распознавания паспорта РФ.

Всего голосов 5: ↑3 и ↓2+3
Комментарии0

На чем тестировать алгоритмы распознавания и обработки документов, удостоверяющих личность?

Время на прочтение6 мин
Количество просмотров5.6K

Как известно, мы в Smart Engines занимаемся системами компьютерного зрения и распознавания документов, а также научными исследованиями в этой области. В течение нескольких лет в фокусе нашего внимания находились системы распознавания документов, удостоверяющих личность. Одной из критичных проблем, возникающих при подготовке научных статей, является отсутствие открытых датасетов, на которых можно демонстрировать сообществу разработанные нами алгоритмы и подходы. В связи с этим два года назад мы начали работу над серией открытых пакетов изображений и видеоклипов ID-документов, предназначенных, главным образом, для исследователей, и о результатах этой работы хотели бы рассказать вам под катом.


Читать дальше →
Всего голосов 5: ↑4 и ↓1+6
Комментарии6

Smart Engines вошёл в тройку лидеров в рейтинге FWCI среди базовых организаций Физтеха

Время на прочтение2 мин
Количество просмотров1.1K


Сегодня публикуем краткую заметку, которая, честно признаемся, поразила нас прямо в сердце, тронула до самой глубины души! По результатам 2019 года Smart Engines занимает 3 место среди базовых организаций Физтеха по числу публикаций и их средней нормализованной цитируемости — индексу FWCI — с показателем 3,3. Осознаете мощь?
Читать дальше →
Всего голосов 4: ↑2 и ↓2+2
Комментарии5

Зачем мы ездим на научные конференции?

Время на прочтение8 мин
Количество просмотров2.8K
Привет, это Smart Engines. Десант из 28 разработчиков систем распознавания на основе искусственного интеллекта только что вернулся из Амстердама, где мы принимали участие в международной научной конференции по компьютерному зрению ICMV. В статье мы постараемся объяснить, почему мы так много времени уделяем науке и ездим на научные конференции.



Сегодня в мире развития науки и высоких технологий произошла катастрофическая подмена понятий: за науку выдается то, что наукой не является ни в каком приближении, учеными называют программистов и инженеров, наукой называют решение простейших инженерных задач. В информационном пространстве роль фундаментальной науки в развитии технологий явно занижена. Многие забывают, что сенсорный экран айфона — это не сам по себе сенсорный экран айфона, а воплощение в жизнь идей фундаментальных исследований полупроводниковых гетероструктур нашего соотечественника нобелевского лауреата Ж.И. Алферова. Карты Google (или Яндекcа) — это не просто карты в мобильнике, а воплощение фундаментальных исследований в области вычислительной геометрии. И кстати фильм “Аватар” — это тоже на 99% вычислительная геометрия.
Читать дальше →
Всего голосов 19: ↑12 и ↓7+5
Комментарии16

Smart IdReader SDK — встраиваем распознавание в проекты на Python и PHP

Время на прочтение4 мин
Количество просмотров5.8K

Мы, Smart Engines, продолжаем цикл статей про то, как встроить наши технологии распознавания (паспортов, банковских карт и других) в ваши приложения. Ранее мы уже писали про встраивание на iOS и Android, показывали, как встроить распознавание в Телеграм-бота, а сегодня мы расскажем про то, как работать с Python и PHP интерфейсами библиотеки распознавания Smart IDReader для использования на in-house сервере.


Кстати, список поддерживаемых нами языков программирования, помимо рассматриваемых здесь, включает C#, Objective-C, Swift и Java. Как и раньше, мы поддерживаем все популярные и многие непопулярные операционные системы и архитектуры, а наши бесплатные демонстрационные приложения доступны для скачивания из App Store и Google Play.


По традиции, демо-версия Smart IDReader SDK для Python и PHP вместе с примерами выложена на Github и доступна по ссылке.

Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

Информация

Сайт
smartengines.ru
Дата регистрации
Дата основания
Численность
51–100 человек
Местоположение
Россия