Bobrosoft 29 авг 2022 в 12:55

Как мы сделали распознавание речи нескольких говорящих

9 мин

12K

Блог компании SberDevicesМашинное обучение*Искусственный интеллектNatural Language Processing*Голосовые интерфейсы*

+21

Комментарии 16

Ogoun 29 авг 2022 в 16:01

Купил Алису и SberBox Time. Алиса распознает практически идеально, время отклика незаметно, из минусов - отсутствие HDMI. Поэтому взял колонку сбера чтобы зацепить к монитору, но на наличии HDMI плюсы и закончились. Нужно выговаривать четко, и громко. Некоторых людей в принципе отказывается слышать. Далеко не всегда понимает что ему сказано. И почему то очень долгий отклик. Если бы не возможность перепрошивки и подключения к монитору сдал бы сразу. А так использую как tvip приставку, практически не используя голосовое управление, т.к. оно бесполезно.

И пожалуйста, разработчики Сбербанка, учитывайте что не у всех людей есть Сбербанк онлайн. Эта привязка к нему где только можно мешает неимоверно. Например, я регистрируюсь, покупаю подписку Прайм, и теперь не могу зайти через SberId чтобы подключить на устройстве, т.к. пуши мне идут в несуществующий Сбербанк.Онлайн. Пробовал на другой номер, на который когда то много лет назад был подключен сбербанк онлайн, потом ушел. И теперь оказывается что этот номер телефона нельзя использовать для регистрации для использования SberboxTime, потому что он как то там заблокирован банком. Это же разные системы.

Ну и поддержка ожидаемо помочь не в силах. Максимум что смогли посоветовать, - другой номер. На текущий момент это нельзя считать готовой умной системой, скорее набор разного уровня сырости сервисов кое как скрепленных друг с другом.

ReadOnlySadUser 30 авг 2022 в 00:15

Но ведь есть станция Макс с Алисой. Там есть HDMI :)

Ogoun 30 авг 2022 в 11:32

Да, в плане на покупку есть, на sbertime скикда была, захотел посмотреть и сравнить.

djunka 30 авг 2022 в 17:51

Здравствуйте! По проблемам/вопросам с девайсом, репорт бага можно писать в чат https://t.me/sberdevices_chat

lazil 29 авг 2022 в 19:00

Ошибка во втором канале, распознало «А что сегодня на обед?», а говорит "Мам, что сегодня на обед?"

Bobrosoft 29 авг 2022 в 19:11

Да, идеального распознавания во всех случаях мы пока не достигли, бывают ошибки. :) Но в данном случае на результат работы ассистента это не влияет.

nehrung 29 авг 2022 в 21:19

Не умаляя важности описанной работы, всё же рискну затронуть ещё более важную (на мой взгляд), которая от описанной чуть в стороне.
Есть у меня приятельница, от рождения лишённая слуха. Разумеется, она давно и в совершенстве освоила практически все виды коммуникации глухонемых (в т.ч. и чтение речи по лицу собеседника). Сама она речи не лишена, хотя этому её учили в детстве, естественно, без использования звуковой обратной связи, и потому получился своеобразный акцент.
Так вот, есть один способ коммуникации, который ей недоступен, но очень нужен — это разговор по телефону. Существующие речевые распознавалки нормально работают только по чистому звуку прямо с микрофона, но если звуковой сигнал прошёл телефонный канал, который сузил полосу частот и добавил шумов и нелинейных искажений, распознавание резко ухудшается и становится малопригодным для практики. Мы перебрали весь софт на эту тему, до какого смогли дотянуться, и ничего подходящего не нашли. Может, вы, как профессионал, чего-нибудь посоветуете?

sbars 29 авг 2022 в 22:25

Сам не пробовал, но может вариант обмена голосовыми сообщениями через телеграм подойдёт, с распознаванием голосового сообщения в одну сторону в текст ботом (похоже есть разные варианты, в том числе с исходниками https://github.com/graynk/voicos)?

Bobrosoft 29 авг 2022 в 23:06

По конкретным решениям для вашей задачи не смогу подсказать, но распознавание речи из телефонии точно возможно. Например, у нас в сервисе для этого есть модель callcenter (https://developers.sber.ru/docs/ru/smartspeech/recognition-overview#akusticheskie-modeli).

nehrung 30 авг 2022 в 00:33

Софт для колл-центров — это мы пробовали. Оказывается, всё опробованное ориентировано на ограниченный словарь — только на нём удаётся добиться распознавания телефонной речи, достаточно точного для практического применения. А софт по вашей ссылке, насколько я могу судить, ориентирован не на обычный разговор, а на обработку «звуковых консервов» (аудиофайлы). В нашем же случае хотелось бы трансляции в текст обычной разговорной речи в темпе её произнесения (с приемлемой задержкой, порядка 2...4 сек), а уж с потерей интонационной и прочей эмоциональной составляющей мы как-нибудь смиримся.
Подозреваю, во многих конторах сейчас пытаются воспитать ИИ, способные на это, но до практической готовности, думаю, там далеко.

Bobrosoft 30 авг 2022 в 08:33

Если я правильно понял запрос, то режим потокового распознавания как раз решает такую задачу: https://developers.sber.ru/docs/ru/smartspeech/recognition-stream

nehrung 14 ноя 2022 в 22:39

Задачка, сформулированная мною в комментариях к этой статье (распознавание телефонной речи в интересах неслышащих абонентов), заинтересовала многих. Так вот, для сведения заинтересованных лиц, сообщаю: похоже, решение удалось найти. Его суть — использовать Скайп с включенными субтитрами (в последних версиях Скайпа появилась такая опция). Качество распознавания великолепное (на русском), ошибок не замечено, задержка незначительная (не более секунды). Проблема вызывного сигнала решается включением вибровызова (мобильный Скайп допускает это, десктопный — к сожалению, нет). Другая проблема — звонки с обычных телефонов на Скайп — тоже решается легко, открытием в Скайпе т.н. «второго номера» (опция «Скайп-номер»), на который и надо звонить. Пользуйтесь!

aoshik 9 янв 2023 в 14:09

Я не большой специалист, поэтому возможно предложу что-то не совсем правильное - Если предварительно перед распознованием пропускать через отдельнную нейронку, которая по спектрограмме оставит только голос?

nehrung 9 янв в 11:59

Прошёл год с момента этого обсуждения, и ваше предложение осуществилось! Я на днях приобрёл аппарат Google Pixel 6A под управлением Android 14 - так вот, в нём есть встроенная функция "Прямая расшифровка", выдающая титры на экран от обоих разговаривающих прямо в процессе разговора. Качество распознавания удовлетворительное. Раньше эту опцию приходилось устанавливать в смартфон только в виде отдельного приложения.

Таким образом проблема вроде бы нашла решение, но для него приходится покупать не такой уж дешёвый аппарат.

mbait 30 авг 2022 в 05:25

А есть пример, где F0 говорящих ближе друг к другу? А то так не совсем понятен успешный успех всей затей - высокий женский и низкий мужской голоса можно разделить обыновенными полосовыми фильтрами.

Bobrosoft 30 авг 2022 в 12:14

Есть даже несколько, сделали плейлист: https://on.soundcloud.com/BACW (аккуратно, один из примеров 16-18+, он помечен).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий