Как стать автором
Обновить

Как мы сделали распознавание речи нескольких говорящих

Время на прочтение9 мин
Количество просмотров10K
Всего голосов 24: ↑23 и ↓1+22
Комментарии16

Комментарии 16

Купил Алису и SberBox Time. Алиса распознает практически идеально, время отклика незаметно, из минусов - отсутствие HDMI. Поэтому взял колонку сбера чтобы зацепить к монитору, но на наличии HDMI плюсы и закончились. Нужно выговаривать четко, и громко. Некоторых людей в принципе отказывается слышать. Далеко не всегда понимает что ему сказано. И почему то очень долгий отклик. Если бы не возможность перепрошивки и подключения к монитору сдал бы сразу. А так использую как tvip приставку, практически не используя голосовое управление, т.к. оно бесполезно.

И пожалуйста, разработчики Сбербанка, учитывайте что не у всех людей есть Сбербанк онлайн. Эта привязка к нему где только можно мешает неимоверно. Например, я регистрируюсь, покупаю подписку Прайм, и теперь не могу зайти через SberId чтобы подключить на устройстве, т.к. пуши мне идут в несуществующий Сбербанк.Онлайн. Пробовал на другой номер, на который когда то много лет назад был подключен сбербанк онлайн, потом ушел. И теперь оказывается что этот номер телефона нельзя использовать для регистрации для использования SberboxTime, потому что он как то там заблокирован банком. Это же разные системы.

Ну и поддержка ожидаемо помочь не в силах. Максимум что смогли посоветовать, - другой номер. На текущий момент это нельзя считать готовой умной системой, скорее набор разного уровня сырости сервисов кое как скрепленных друг с другом.

Но ведь есть станция Макс с Алисой. Там есть HDMI :)

Да, в плане на покупку есть, на sbertime скикда была, захотел посмотреть и сравнить.

Здравствуйте! По проблемам/вопросам с девайсом, репорт бага можно писать в чат https://t.me/sberdevices_chat

Ошибка во втором канале, распознало «А что сегодня на обед?», а говорит "Мам, что сегодня на обед?"

Да, идеального распознавания во всех случаях мы пока не достигли, бывают ошибки. :) Но в данном случае на результат работы ассистента это не влияет.

Не умаляя важности описанной работы, всё же рискну затронуть ещё более важную (на мой взгляд), которая от описанной чуть в стороне.
Есть у меня приятельница, от рождения лишённая слуха. Разумеется, она давно и в совершенстве освоила практически все виды коммуникации глухонемых (в т.ч. и чтение речи по лицу собеседника). Сама она речи не лишена, хотя этому её учили в детстве, естественно, без использования звуковой обратной связи, и потому получился своеобразный акцент.
Так вот, есть один способ коммуникации, который ей недоступен, но очень нужен — это разговор по телефону. Существующие речевые распознавалки нормально работают только по чистому звуку прямо с микрофона, но если звуковой сигнал прошёл телефонный канал, который сузил полосу частот и добавил шумов и нелинейных искажений, распознавание резко ухудшается и становится малопригодным для практики. Мы перебрали весь софт на эту тему, до какого смогли дотянуться, и ничего подходящего не нашли. Может, вы, как профессионал, чего-нибудь посоветуете?

Сам не пробовал, но может вариант обмена голосовыми сообщениями через телеграм подойдёт, с распознаванием голосового сообщения в одну сторону в текст ботом (похоже есть разные варианты, в том числе с исходниками https://github.com/graynk/voicos)?

По конкретным решениям для вашей задачи не смогу подсказать, но распознавание речи из телефонии точно возможно. Например, у нас в сервисе для этого есть модель callcenter (https://developers.sber.ru/docs/ru/smartspeech/recognition-overview#akusticheskie-modeli).

Софт для колл-центров — это мы пробовали. Оказывается, всё опробованное ориентировано на ограниченный словарь — только на нём удаётся добиться распознавания телефонной речи, достаточно точного для практического применения. А софт по вашей ссылке, насколько я могу судить, ориентирован не на обычный разговор, а на обработку «звуковых консервов» (аудиофайлы). В нашем же случае хотелось бы трансляции в текст обычной разговорной речи в темпе её произнесения (с приемлемой задержкой, порядка 2...4 сек), а уж с потерей интонационной и прочей эмоциональной составляющей мы как-нибудь смиримся.
Подозреваю, во многих конторах сейчас пытаются воспитать ИИ, способные на это, но до практической готовности, думаю, там далеко.
Задачка, сформулированная мною в комментариях к этой статье (распознавание телефонной речи в интересах неслышащих абонентов), заинтересовала многих. Так вот, для сведения заинтересованных лиц, сообщаю: похоже, решение удалось найти. Его суть — использовать Скайп с включенными субтитрами (в последних версиях Скайпа появилась такая опция). Качество распознавания великолепное (на русском), ошибок не замечено, задержка незначительная (не более секунды). Проблема вызывного сигнала решается включением вибровызова (мобильный Скайп допускает это, десктопный — к сожалению, нет). Другая проблема — звонки с обычных телефонов на Скайп — тоже решается легко, открытием в Скайпе т.н. «второго номера» (опция «Скайп-номер»), на который и надо звонить. Пользуйтесь!

Я не большой специалист, поэтому возможно предложу что-то не совсем правильное - Если предварительно перед распознованием пропускать через отдельнную нейронку, которая по спектрограмме оставит только голос?

Прошёл год с момента этого обсуждения, и ваше предложение осуществилось! Я на днях приобрёл аппарат Google Pixel 6A под управлением Android 14 - так вот, в нём есть встроенная функция "Прямая расшифровка", выдающая титры на экран от обоих разговаривающих прямо в процессе разговора. Качество распознавания удовлетворительное. Раньше эту опцию приходилось устанавливать в смартфон только в виде отдельного приложения.

Таким образом проблема вроде бы нашла решение, но для него приходится покупать не такой уж дешёвый аппарат.

А есть пример, где F0 говорящих ближе друг к другу? А то так не совсем понятен успешный успех всей затей - высокий женский и низкий мужской голоса можно разделить обыновенными полосовыми фильтрами.

Есть даже несколько, сделали плейлист: https://on.soundcloud.com/BACW (аккуратно, один из примеров 16-18+, он помечен).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий