Как стать автором
Обновить

Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы

Время на прочтение5 мин
Количество просмотров9.6K

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:



Увеличить точность нахождения области губ разрабатываемой системы для пользователей с различными типами лица, цвета кожи, особенностей строения губ, характеристикам окружающей среды, освещения и так далее.

Задачи:



Провести фотографирования вариаций губ пользователей в различных положениях для увеличения точности системы ручным способом. Реализовать библиотеку базы данных системы по различным типам губ в движении на основе свободной системы управления базами данных (СУБД).

Введение



В предыдущих отчетах мною были проанализированы различного рода цветовые пространства, оптимальные для выделения объектов на заданном классе изображениях. Были исследованы различные алгоритмы распознавания человеческого лица и его характеристик. Также рассмотрены разного рода математические модели, которые могут использоваться для обработки визуальных данных в режиме реального времени. На основе проведенного исследования был реализован свой собственный алгоритм нахождения области губ. Однако точность активной контурной модели интересуемого объекта в представленном решении не всегда соответствует действительности. Так как перед нами стоит задача реализовать пользовательский продукт, то для увеличения точности модульного визуального решения в данном научном исследовании перед нами стоит задача собрать библиотеку данных по различным типам губ пользователей.

1. Фотографирование вариаций губ с разными типами лиц.



Так как представленной системе по разным причинам не всегда удавалось правильно провести локализацию области губ самостоятельно, то для того чтобы технология стала более эффективной было решено исследовать разные типы губ пользователей вручную, чтобы занести исходные данные на следующем этапе в базу данных системы.

Для осуществления данной задачи тестирования было проанализировано движение губ 18 пользователей. Исходные данные были сфотографированы вручную. Рисунок 1 демонстрирует лица пользователей с местом локализации области губ во время произношения речи.

image
image

2. Составление базы данных губ системы на базе MySQL.



MySQL — свободная система управления базами данных (СУБД). MySQL является собственностью компании Oracle Corporation, получившей её вместе с поглощённой Sun Microsystems, осуществляющей разработку и поддержку приложения [1]. Распространяется под GNU General Public License или под собственной коммерческой лицензией. Помимо этого разработчики создают функциональность по заказу лицензионных пользователей, именно благодаря такому заказу почти в самых ранних версиях появился механизм репликации.

Репликация — механизм синхронизации содержимого нескольких копий объекта. Под этим процессом понимается копирование данных из одного источника на множество других и наоборот, где:
• master — главный сервер, данные которого необходимо дублировать;
• replica — починенный сервер, хранящий копию данных главного[2].

MySQL является решением для малых и средних приложений. Входит в состав серверов WAMP, AppServ, LAMP и в портативные сборки серверов Денвер, XAMPP. Обычно MySQL используется в качестве сервера, к которому обращаются локальные или удалённые клиенты, однако в дистрибутив входит библиотека внутреннего сервера, позволяющая включать MySQL в автономные программы [3]. Именно эти библиотеки и будут использоваться при создании базы данных по губам пользователей.

Гибкость СУБД MySQL обеспечивается поддержкой большого количества типов таблиц: пользователи могут выбрать как таблицы типа MyISAM, поддерживающие полнотекстовый поиск, так и таблицы InnoDB, поддерживающие транзакции на уровне отдельных записей. Более того, СУБД MySQL поставляется со специальным типом таблиц EXAMPLE, демонстрирующим принципы создания новых типов таблиц. Благодаря открытой архитектуре и GPL-лицензированию, в СУБД MySQL постоянно появляются новые типы таблиц.
image
Конечно, нет смысла помещать в базу данных всю информацию, которая у нас есть. Например, не нужно хранить там картинки, хоть MySQL это и позволяет. Помещая в базу данных двоичные образы графических файлов, мы только замедлим работу своего сервера. Прочитать файл с картинкой с диска гораздо проще и, с точки зрения потребляемых ресурсов, экономичнее, нежели соединиться из скрипта к SQL, сделать запрос, получить образ, обработать его и, выдав нужные заголовки, показать посетителю сервера. Во втором случае операция выдачи картинки потребует в несколько раз больше ресурсов процессора, памяти и диска. Также стоит помнить о том, что существуют механизмы кэширования документов, которые позволяют пользователю экономить на трафике, а при динамической генерации контента мы фактически лишаем своих посетителей этой удобной возможности [4].

Вместо картинок лучше хранить в MySQL информацию, на основе которой можно генерировать ссылки на статические картинки в динамически создаваемых скриптами документах. При реализации нашей библиотеки данных мы использовали показатели, полученные на основе изменения расстояния по уголкам губ. Данный момент представлен на рисунке 3.
image
Данные статистических изменений положения губ пользователей были затем собраны в виде отдельной базы данных на основе СУБД MySQL сервера.

Таким образом, для повышения точности системы нахождения контура губ, были сфотографированы вручную в базу данных движения губ 18 различных пользователей. Фотографии лица и положения губ пользователей первоначально были проанализированы отдельно. Затем на основе исходных данных стала собираться готовая библиотека на базе СУБД MySQL.

Несмотря на то, что СУБД MySQL позволяет сохранять фотографии губ пользователей в системе, тем не менее, мы решили отказаться от этой возможности, поскольку такая концепция усложняет работу системы, так как приходиться иметь дело с очень большой библиотекой для обработки визуального сигнала. Поэтому за основу работы нашей системы было взято фиксирование положение контуров губ пользователей в пространстве. На основе данной концепции была сгенерирована возможность автоматического сохранения статического положения губ пользователей с целью дальнейшей доработки и совершенствования системы.

В перспективе предполагается дальнейшее усовершенствование базы данных разрабатываемой системы за счет автоматического фиксирование положения губ пользователей с самым различным типом лица, цветом кожи и условиями окружающей среды, а также возможности подстраивания системы под индивидуальные особенности конкретного пользователя.

Список литературы


1) Пример разработки для СУБД MySQL: macbug.ru/macosxsample/mysql
2) Основы репликации в MySQL: habrahabr.ru/post/56702
3) Плотников Д.Ю., Малёваный Е.Ф., Аноприенко А.Я. Разработка высоконагруженного веб-приложения// Информационные управляющие системы и компьютерный мониторинг (ИУС и КМ 2012) / Материалы III международной научно-технической конференции студентов, аспирантов и молодых ученых. — Донецк, ДонНТУ — 2012, с. 431-435
4) Оптимальное использование MySQL: www.mysql.ru/docs/optimal.html
Продолжение следует
Теги:
Хабы:
+8
Комментарии8

Публикации

Истории

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн