Как стать автором
Обновить

Исследование рынка систем распознавания эмоций

Время на прочтение12 мин
Количество просмотров28K
Ученые уже много лет работают не покладая рук, чтобы мощные вычислительные системы были способны адекватно уловить и идентифицировать мимику. В наши дни есть большие успехи, и дело не только лишь в совершенстве предложенных методов и алгоритмов, но и в разработке более новых. Уже достаточно много компаний предлагают программное обеспечение собственной разработки, поэтому я захотел узнать побольше о предоставляемых продуктах по распознаванию эмоций на лице человека.
Под катом много текста и картинок.

Распознавание эмоций является частью большого пласта науки, объединенного в названия «Распознавание образов» и «Обработка визуальной информации». В наши дни технологии по распознаванию перестают быть недосягаемыми и формируется новое веяние, влекущее за собой всех заинтересованных в методах идентификации и обработки найденных объектов и их признаков. Они плавно перетекают из области фантастики в реальную жизнь.

Существующие системы распознавания эмоций


Из коммерческих решений на рынке систем распознавания эмоций (emotion-recognition systems) наиболее совершенным и более интересным для рассмотрения в контексте задачи распознавания эмоций на сегодняшний день является продукт FaceReader голландской компании Noldus Information Technology.

1. FaceReader

• Компания – разработчик: Noldus Information Technology (Нидерланды)
Ознакомительная информация о продукте
• Текущая версия: 4.0



Программа может верно интерпретировать такие выражения лица, как «счастливое», «грустное», «сердитое», «удивленное», «испуганное», «недовольное» и «нейтральное», как видно на рисунке. Кроме того, FaceReader способен по лицам людей определять их возраст, пол и этническую принадлежность. FaceReader не нуждается в обучении и дополнительной настройке.
В программе реализованы технологии компьютерного зрения. В частности, это метод Active Template, заключающийся в наложении на изображение лица деформируемого шаблона:



Также, реализован метод Active Appearance Model, с помощью которого можно создавать искусственную модель лица с учетом контрольных точек и деталей поверхности, и сравнивать ее с образцами, заложенными в память.
Классификация происходит методами нейронных сетей с тренировочным набором в 2 000 фотографий.

Возможности программы:

• средний процент распознавания эмоций равен 89%. Для некоторых эмоций он выше, для некоторых ниже;
• наклон лица может быть любым в плоскости, его система обнаружит;
• программа работает с загружаемым видео в форматах с кодеками MPEG1, MPEG2, XviD, DivX4, DivX5, DivX6, DV-AVI и uncompressed AVI, причем определять эмоции можно пофреймно, либо полностью при просмотре всего видео. Также, FaceReader может работать со статичными изображениями, а также в реальном времени, если у пользователя подключена веб-камера;
• программа прекрасно визуализирована: всегда можно посмотреть гистограммы, диаграммы, процентаж выражаемых эмоций. А на таймлайне видны проявления микровыражений в определенный промежуток времени;
• FaceReader генерирует два текстовых файла, один – это лог проявления эмоций, а другой – статический, для сопряженной с данной программой уникальной системы управления визуальными данными The Observer XT, разработанной этой же компанией.

Недостатки программы:

• FaceReader не натренирован для распознавания детей до 5ти лет;
• Если человек в очках, то распознавание эмоций неточное, либо классификация не ведется;
• Люди с разным цветом кожи по-разному воспринимаются системой, программа не до конца адаптирована;
• Повернутое лицо не детектируется.

2. eMotion Software и GladOrSad

• Компания – разработчик: Visual Recognition (Нидерланды)
Ознакомительная информация о продукте
• Текущая версия: неизвестно

Система eMotion Software известна тем, что ее основатели распознали эмоции на картине «Мона Лиза». Результат показал, что она была на 83% счастливой, 9% отображали отвращение, 6% страх и всего на 2% Мона Лиза сердилась.
А еще система известна тем, что это, по сути, первое коммерческое платное «коробочное» решение. Наряду с данным решением, группа разработчиков запустила сайт GladOrSad.com – соответственно, Visual Recognition взяла первенство и в открытии веб-ресурса, посвященного онлайн-распознаванию эмоций.



Первым известным пользователем eMotion Software стала компания Unilever, внедрившая систему распознавания в аппарат по продаже мороженого – Unilever Share Happy. Люди улыбаются автомату, автомат дает за улыбки бесплатное мороженое!

Если человек проявляет эмоции, улыбается, хмурится или корчит гримасу, тысячи мелких мышц лица находятся в работе. Система распознавания эмоций, или ERS (Emotion-recognition system), создает 3D — модель лица, с выявлением 12 ключевых областей, таких как уголки глаза и уголки рта.
В данных программах отслеживающий алгоритм идентифицирует те же самые эмоции, их здесь шесть: гнев, печаль, страх, удивление, отвращение и счастье, а также седьмая – это их смешение.
Программное обеспечение не особо требовательно к вычислительной машине по техническим характеристикам. О деталях реализации алгоритма неизвестно, т.к. технология держится в секрете, брошюр с пояснениями я также не нашел, к сожалению.

3. MMER_FEASy — the FacE Analysis System

• Компания – разработчик: MMER-Systems (Германия)
Ознакомительная информация о продукте
• Текущая версия: неизвестно

Опять же, в разработке использована методология наложения на лицо определенной деформируемой маски, Active Appearance Model methodology, которая позволяет высчитывать нужные параметры в реальном времени. Работа с маской продемонстрирована на рисунке ниже:



Система использует три подключаемых модуля – MMER_Lab, MMER_GPU и MMER_Locate.
MMER_Locate обеспечивает нахождение лица на изображении, ММER_Lab классифицирует некоторые признаки данного изображения, а MMER_GPU обеспечивает эффективную работу всей системы:



Программа распознает шесть базовых эмоций, также предоставляет услуги по нахождению по лицам людей возраста, пола и этнической принадлежности. Также система идентифицирует персону если при этом когда-либо ранее эталонная фотография была загружена в базу.
В дополнительные возможности программы входит подключение к другим программам ее как модуля для удаленных ассистентов, ассистентов водителей, маркетинговых исследований и домашних мультимедиа – сервисов.
Недостатками программы можно считать не полный охват загружаемых данных, т.к. работать можно только с веб-камерой. Плохие результаты и по выгрузке данных, где можно просмотреть только «аватаризацию» лица, т.е. вместо маски подставляется это же лицо, но с другой мимикой.

4. FaceSecurity

• Компания – разработчик: Cognitec (Германия)
Ознакомительная информация о продукте
• Текущая версия: 4.6

Данный продукт состоит из нескольких выпускаемых компонентов, основанных на базе FaceVACS SDK. Это:
FaceVACS-DBScan with Examiner
FaceVACS-PortraitAcquisition
FaceVACS-VideoScan

FaceVACS-DBScan with Examiner:

Разработка предназначена для обработки уникальных баз и банков данных какой-либо категории людей, к примеру, сотрудников по работе.
Данный продукт представляет собой воплощение биометрической идентификации по эталону образцов из базы.
В новой версии программы система использует новый алгоритм сравнения B5T8 вкупе со старым A14T8, призванный улучшить определяемое сходство.
Кроме того, новый компонент Examiner допускает автоматические преобразования изображения для сравнения в галерее. Это позволяет разработанным операторам смотреть списки потенциальных партнеров при сохранении полного аудита для каждого шага в процессе.
Также данная разработка помогает следователям идентифицировать лица в местах преступления по фотографии и видеонаблюдению путем сопоставления изображений лиц в хранилище агенств.
FaceVACS-Examiner также предоставляет набор инструментов, которые помогают инспекции идентифицировать лицо своевременно, что позволяет следователям действовать в соответствии с результатами поиска в самый минимальный отрезок времени после совершения преступления.

Особенности:

• Кластерная конфигурация для многомиллионной обработки базы данных людей;
• Гибкое и удобное управление списком, который позволяет сортировать его, просматривать и фильтровать;
• Пакетное и интерактивное обучение, идентификация;
• Глубокое и гибкое управление связанных данных;
• Перенастраиваемые логи;
• Прегенерация баз данных (т.е. предварительная быстрая преднастройка перед выдачей результата);
• Доступны множества различных поисковых выборок по базе.

FaceVACS-PortraitAcquisition:

Создание и оценка цифровых портретов для фотодокументов, удостоверяющих личность. Работа компонента иллюстрирована рисунке:



Данный компонент упрощает производство портретов высокого качества для фото на паспорт, водительские права и прочие документы, которые подходят для распознавания лиц.
Графический пользовательский интерфейс продукта специально подстроен для визуального управления и оперирования процессом обработки таких мелочей как фронтальная поза, равномерное освещение, очки и зажмурившиеся глаза. Программное обеспечение специально настроено для оценки на соответствие изображения обязательным требованиям и лучшим практическим рекомендациям стандарта ISO 19794-5 фронтального типа изображения. Программа поддерживает интеграцию с помощью веб-служб (SOAP) для облегчения выдачи сделанного документа.

Особенности:

• Полное соответствие стандартам ISO 19794-5;
• Надежный и автоматизированный процесс сбора информации;
• Проверка фронтальной позы, наличия очков, равномерного освещения, размера головы, размеров изображения, открытия рта, поворота головы, проверка на тонированные стекла, на красные глаза, фронтальный взгляд глаз, экспозиции, цвета кожи, горячих точек, резкости;
• Удобный графический интерфейс пользователя;
• Настраиваемые параметры и пороговые значения;
• Поддерживается формат цифровых зеркальных фотокамер от Nikon (D5000) и Canon (EOS 1000D и 1100D EOS);
• Гибкая обрезка, при необходимости;
• Настраиваемое изображение при предпросмотре (размер, тип изображения, формат изображения);
• Гибкая интеграция с веб-сервисами.

FaceVACS-VideoScan:

Новое поколение компьютерного видеонаблюдения автоматически сканирует входящий видеопоток, обнаруживает несколько лиц и проверяет наличие возможных совпадений в «контрольном списке». Если соответствие найдено, операторы получают уведомления в реальном времени.
Приложение включает в себя не только выявление нежелательных людей в общественных местах, а также идентификацию высокопоставленных клиентов.

Особенности:

• Автоматическая слежка за лицом в реальном времени на нескольких видеопотоках;
• В режиме реального времени лицо сравнивается с эталонами «контрольного списка»;
• Регистрации при неподвижном изображении или при живом потоке видео в ручном и автоматическом режиме;
• Применение С++ API и Web Services API;
• Возможность масштабируемости в пределах «контрольного списка»: размер, количество видеопотоков и число видимых лиц на изображении.

Возможности программ Cognitec:

• Чрезвычайно высокая обработка сравнений по образцам (900 000 сравнений в базе за секунду на среднем по силе процессоре);
• Интеграция с веб-камерами, http – камерами, цифровыми фотоаппаратами, видеокамерами, а также поддержка изображений в распространенных форматах;
• Объемные базы данных, интеграция с Oracle, IBM DB2, MSSQL Server.

Недостатки:

• Вычисления практически во всех компонентах применимы только к фронтально расположенным лицам (возможны отклонения на 15 градусов, но не больше);
• Свет играет большую роль – к примеру, изображение лица в тени компоненты не распознают.

Нельзя не упомянуть о нашумевшем web-решении на базе FaceVACS-SDK и FaceVACS-DBScan, портале MyHeritage.com, где можно строить свое семейное дерево на основе распознавания лица, а также сравнить себя со знаменитостями, сделать морфинг лица, а также распознать и обозначить себя на фото.
Помимо Web-приложений, Cognitec предоставляет API для цифровых рекламных щитов — билбордов (billboard) с целью показа рекламы для целевых аудиторий.
Как уже упоминалось выше, Cognitec участвует и в машиностроении, системы данной компании применяются в автомобилях для анализа лиц водителей и попутчиков, а также безопасности, например, путем выявления позиции головы, обнаружения рассеяного взгляда, обнаружения закрытых глаз.
Еще одним выгодно выделяющим моментом Cognitec среди других компаний является наличие своего собственного SDK для мобильных телефонов.

5. Продукты Affective Computing Research Group

• Компания – разработчик: Affectiva (США)
Ознакомительная информация о продукте
• Текущая версия прикладного ПО: 1.0

Компания Розалинды Пикард, Affectiva, известна в первую очередь поставляемыми носимыми биосенсорами Q-Sensor. Но не только этим богата компания. Есть огромный опыт внедрения технологий среди Affective computing, или эмоциональных вычислительных систем, разработки идут с 1995 года. Проектов очень много. Это самая старейшая группа разработчиков, занимающаяся данными технологиями.
Есть, например, проект AffQuake на базе продукта ID Software Quake 3. Суть в том, чтобы игра реагировала на эмоциональные сигналы игрока. Геймера обвешивают датчиками, и если ему становится страшно, модифицированный Quake получает «физиологические сигналы» пользователя и заставляет точно так же бояться виртуальное воплощение игрока – оно в страхе отступает.
Или, к примеру, разработана игрушка «Эмоциональный тигр» (Affective Tigger). Данный робот может идентифицировать пять эмоциональных состояний играющего с ним ребёнка и выразить в ответ свою эмоцию. Если ребёнок прыгает, весело тискает и целует игрушку, то система распознавания эмоций и сенсорная система «тигра» это физическое воздействие фиксируют, после чего демонстрируется счастье: Affective Tigger смеётся и улыбается.
Есть занимательное решение для Web. Это инновационный продукт компании Affectiva, сбор данных об эмоциональном состоянии людей во всемирной паутине, Affdex. По большей части он используется для маркетинговых исследований.
Одним из способов распознавания эмоционального состояния по лицу в данных разработках является запись в реальном времени с последующим компьютерным анализом — методами сравнения с заложенными образцами (SURF и на основе SIFT- дескрипторов), а также вейвлет-методами. Работа данных методов применяется в такой программе как Pupeteer, оценивающей поведение и эмоциональное состояние учеников. Демонстрация работы программы:



В ходе эксперимента по данному методу шесть базовых эмоций компьютер определяет с 96-процентной точностью.
Решение примечательно еще тем, что распознает вкупе с эмоциями движения головы, такие как кивок или качание, мотания из стороны в сторону. Используются процессы Байесовского машинного обучения для классификации эмоций, а также для вычисления статистики и вычисления смешанных состояний, когда нельзя точно выразить, какая именно эмоция превалирует.
О самом программном обеспечении можно не многое сказать, так как технологии закрыты. Разработка ведется на С++, Objective C для iPhone. Графически оформляется через обычные инструменты, такие как timeline (или шкала времени), графики и диаграммы, что видно на следующем рисунке:



Среди особенностей можно заметить, что все решения хорошо прорисованы и адаптированы под заказчика, а из недостатков, пожалуй, наибольшим является наличие вычислительной машины с неслабым процессором (выше Core i5) для комфортной работы с приложениями.

Сравнение компаний и промежуточные итоги


Рассмотрены решения лишь некоторых игроков данного бизнеса. Остальные компании предоставляют свои продукты, предназначенные немного для иных задач, но разрабатываемые ими системы так или иначе интересны, потому что могут быть легко усовершенствованы до уровня распознавания эмоций. Это программы и решения, выполняющие такие задачи как:
верификация лица (системы безопасности и контроля доступа);
трекинг и отслеживание лица (системы видеонаблюдения);
сравнение людей по образу и подобию своему (системы поиска);
анимация лица и его преобразование (системы морфинга);
преобразование лица в 3D – модели (системы моделирования);
определение расы, возраста и пола человека (системы гендерной классификации);
многое другое.

Причем большинство компаний, разрабатывающих данные программы, предоставляют свой инструментарий (SDK – Software Development Kit) любому разработчику.
Ключевым критерием применения таких продуктов является их стоимость, а также стоимость предоставляемого SDK. Она колеблется от 5$ до 2 000$. Наиболее дорогостоящие продукты вряд ли будут применяться в небольших компаниях, где разработки такого рода не являются условием работы всей компании.
Ниже, в таблице, привожу список таких программ и комплексов программ. Конечно же, список со временем будет расширяться, но по состоянию на ноябрь 2011 года он актуален:


Актуальна деятельность компаний, ориентированных на web-разработки и технологии. Таковыми являются Google, Twitter, FaceBook и многие другие. Google Inc. применяет технологии распознавания лиц и эмоций для более умного поиска, Twitter оценивает настроение пишущих в онлайн-блогах людей, FaceBook недавно представил обществу новую фичу (усовершенствование) под названием Tagger, которая автоматически распознает, отмечает и подписывает лица друзей пользователя социальной сети.
Разработчики компании Face.com известны своими разработками, а также своей собственной SDK на JavaScript, которую использует PhotoTagger.
Недавно данной компанией была представлена технология, которая позволяет идентифицировать людей по фотографиям, опубликованным на Интернет-сайтах. Программа PhotoFinder анализирует цифровые изображения, найденные на страницах глобальной сети и сравнивает их с эталонным изображением искомого лица, подлинность которого не вызывает сомнения. Для обработки эталона используется алгоритм, который основывается на уникальном расположении различных частей лица — глаз, носа и рта. Вроде ничего нового, но такое программное обеспечение позволяет сконструировать огромнейшую базу пользователей сети Интернет. Данная технология реализована в виде виджетов и может встраиваться создателями web-порталов на их сайты. Поиск ведется как по фотографиям, так и по видео. Данный сервис уже оценили такие компании как Flickr и YouTube. Сторонники технологии считают, что разработка упростит поиск и установление личности. Но есть политика конфиденциальности, которую нарушать нельзя.
Не отступают и компании, представляющие данные инновации в своих продуктах, таких как цифровые фото- и видеокамеры. Таких компаний очень много, среди них Ricoh, Fujifilm, Canon, Nikon и другие.

Разобраны многие продукты компаний, есть достоинства программного обеспечения компаний, а также и недостатки. На основе данной информации мной было принято решение построить таблицу соответствия продуктов определенным критериям, главным для распознавания и выяснить сильные и слабые стороны таких модулей распознавания эмоций:


Выводы



Хотя некоторые компании утверждают, что их продукт чтения эмоций лица является наиболее правильным, важно отметить тот факт, что на сегодняшний день технологии есть, но они распознают только черты, присущие и наиболее подходящие данному выражению лица. Но далеко не всегда можно сказать, действительно такое чувство испытывает человек или же это просто натренированная улыбка, к примеру. Если же добиваться результата такого, чтобы внешнее выражение соответствовало внутренним чувствам пользователя программы, то, на мой взгляд, важно убедиться, что участнику действительно удобно и комфортно выражать свои чувства изнутри и проявлять их на своем лице, и что он этого хочет. Это достигается с использованием полного комплекса технологий, каковыми являются распознавание эмоций, распознавание выражения лица, распознавание речи и интонаций во время разговора данного человека, определение смысловой нагрузки и эмоциональных переживаний при письме и компьютерной переписке – всё это очень влияет на конечный результат. Также, можно использовать датчики.
Как видно из обзора, продукты представлены многими компаниями и в разном виде: от коробочных версий программного обеспечения до веб-решений на основе модели SaaS (Software as a Service – программное обеспечение как услуга) и применений в различных видах техники. Выявлены особенности и недостатки.
В финансовом плане спектр услуг сильно разнится, но подавляющее большинство мультифункциональных решений стоит дорого. Тем не менее, востребованность таких систем растет.

Спасибо за внимание! Пожалуйста, не пинайте автора слишком сильно, это мой первый топик на Хабре… но продолжение следует.
Теги:
Хабы:
+44
Комментарии27

Публикации

Изменить настройки темы

Истории

Ближайшие события