Исследователи Санкт-Петербургского федерального исследовательского центра РАН (СПб ФИЦ РАН) научились при помощи алгоритмов искусственного интеллекта и «компьютерного зрения» распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например в людных местах или при управлении тяжёлой техникой.
Сегодня системы, которые способны распознать речь человека (звуковой сигнал) для автоматизированного выполнения команд, активно внедряются в самые разные сферы, от сотовых телефонов до боевых вертолётов. Обычно их используют люди с травмами конечностей или операторы сложного оборудования, у которых заняты руки. А в последнее время в целях повышения комфорта пользователя всё большую популярность такие системы находят в различных сферах бизнеса, гаджетах и системах «умного» дома с голосовым управлением.
Хотя современные системы распознавания значительно продвинулись в точности интерпретации речи, в условиях сильного шума (громкие звуки от техники или от многолюдных мест) их эффективность может резко снизиться.
«Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает “по губам” слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и анализирует информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях», – рассказывает старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.
По его словам, приложение действует по аналогии с принципом работы когнитивной системы человека, который при разговоре в шумном месте непроизвольно начинает обращать внимание на губы собеседника, пытаясь прочитать по губам информацию, которую он мог не расслышать. Эта особенность подтверждена научными экспериментами, когда людям в шумных условиях предлагали распознавать только звуковую или только визуальную информацию. Однако наилучшие результаты продемонстрировала группа, получившая оба вида данных.
В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространённых команд. Причём, по словам учёных, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность.
В ходе экспериментов приложение использовалось водителями шумных большегрузных автомобилей одной из логистических компаний России. Для этого ПО было установлено на смартфоны испытуемых. Точность распознавания команд только по визуальным эффектам составила 60-80%, а в комбинации со звуковым сигналом – более 90%.
«Также в прошлом году на международных научных соревнованиях наша модель заняла первое место в мире по точности чтения речи по губам диктора. Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов. Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолётов и тяжёлой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», – поясняет Денис Иванько.
Исследование поддержано грантом РНФ (№ 21-71-00132). Кроме того, для разработанного программного обеспечения получено свидетельство о государственной регистрации. Результаты проекта также опубликованы в материалах профильной международной конференции European Signal Processing Conference (EUSIPCO).
Проект по разработке данного программного обеспечения является частью большой работы учёных СПб ФИЦ РАН по созданию специализированных систем автоматического распознавания речи. Например, ранее исследователи разработали интеллектуальную систему, помогающую врачам общаться с глухими пациентами.
Сегодня системы, которые способны распознать речь человека (звуковой сигнал) для автоматизированного выполнения команд, активно внедряются в самые разные сферы, от сотовых телефонов до боевых вертолётов. Обычно их используют люди с травмами конечностей или операторы сложного оборудования, у которых заняты руки. А в последнее время в целях повышения комфорта пользователя всё большую популярность такие системы находят в различных сферах бизнеса, гаджетах и системах «умного» дома с голосовым управлением.
Хотя современные системы распознавания значительно продвинулись в точности интерпретации речи, в условиях сильного шума (громкие звуки от техники или от многолюдных мест) их эффективность может резко снизиться.
«Мы разработали приложение для смартфона, которое распознает звучащую речь и считывает “по губам” слова пользователя, анализируя видеосигнал с камеры гаджета. Программа совмещает и анализирует информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что такая гибридная система значительно эффективнее распознает команды человека в сложных и шумных условиях», – рассказывает старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.
По его словам, приложение действует по аналогии с принципом работы когнитивной системы человека, который при разговоре в шумном месте непроизвольно начинает обращать внимание на губы собеседника, пытаясь прочитать по губам информацию, которую он мог не расслышать. Эта особенность подтверждена научными экспериментами, когда людям в шумных условиях предлагали распознавать только звуковую или только визуальную информацию. Однако наилучшие результаты продемонстрировала группа, получившая оба вида данных.
В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространённых команд. Причём, по словам учёных, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность.
В ходе экспериментов приложение использовалось водителями шумных большегрузных автомобилей одной из логистических компаний России. Для этого ПО было установлено на смартфоны испытуемых. Точность распознавания команд только по визуальным эффектам составила 60-80%, а в комбинации со звуковым сигналом – более 90%.
«Также в прошлом году на международных научных соревнованиях наша модель заняла первое место в мире по точности чтения речи по губам диктора. Участники обучали свои нейросети на открытой базе англоязычных данных, состоящей из 500 тыс. видеозаписей и тестировали их на наборе 25 тыс. записей. Точность нашей модели оказалась близка к 90% распознавания только на основе движений губ дикторов. Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолётов и тяжёлой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», – поясняет Денис Иванько.
Исследование поддержано грантом РНФ (№ 21-71-00132). Кроме того, для разработанного программного обеспечения получено свидетельство о государственной регистрации. Результаты проекта также опубликованы в материалах профильной международной конференции European Signal Processing Conference (EUSIPCO).
Проект по разработке данного программного обеспечения является частью большой работы учёных СПб ФИЦ РАН по созданию специализированных систем автоматического распознавания речи. Например, ранее исследователи разработали интеллектуальную систему, помогающую врачам общаться с глухими пациентами.