Комментарии 16
Купил Алису и SberBox Time. Алиса распознает практически идеально, время отклика незаметно, из минусов - отсутствие HDMI. Поэтому взял колонку сбера чтобы зацепить к монитору, но на наличии HDMI плюсы и закончились. Нужно выговаривать четко, и громко. Некоторых людей в принципе отказывается слышать. Далеко не всегда понимает что ему сказано. И почему то очень долгий отклик. Если бы не возможность перепрошивки и подключения к монитору сдал бы сразу. А так использую как tvip приставку, практически не используя голосовое управление, т.к. оно бесполезно.
И пожалуйста, разработчики Сбербанка, учитывайте что не у всех людей есть Сбербанк онлайн. Эта привязка к нему где только можно мешает неимоверно. Например, я регистрируюсь, покупаю подписку Прайм, и теперь не могу зайти через SberId чтобы подключить на устройстве, т.к. пуши мне идут в несуществующий Сбербанк.Онлайн. Пробовал на другой номер, на который когда то много лет назад был подключен сбербанк онлайн, потом ушел. И теперь оказывается что этот номер телефона нельзя использовать для регистрации для использования SberboxTime, потому что он как то там заблокирован банком. Это же разные системы.
Ну и поддержка ожидаемо помочь не в силах. Максимум что смогли посоветовать, - другой номер. На текущий момент это нельзя считать готовой умной системой, скорее набор разного уровня сырости сервисов кое как скрепленных друг с другом.
Но ведь есть станция Макс с Алисой. Там есть HDMI :)
Здравствуйте! По проблемам/вопросам с девайсом, репорт бага можно писать в чат https://t.me/sberdevices_chat
Ошибка во втором канале, распознало «А что сегодня на обед?», а говорит "Мам, что сегодня на обед?"
Есть у меня приятельница, от рождения лишённая слуха. Разумеется, она давно и в совершенстве освоила практически все виды коммуникации глухонемых (в т.ч. и чтение речи по лицу собеседника). Сама она речи не лишена, хотя этому её учили в детстве, естественно, без использования звуковой обратной связи, и потому получился своеобразный акцент.
Так вот, есть один способ коммуникации, который ей недоступен, но очень нужен — это разговор по телефону. Существующие речевые распознавалки нормально работают только по чистому звуку прямо с микрофона, но если звуковой сигнал прошёл телефонный канал, который сузил полосу частот и добавил шумов и нелинейных искажений, распознавание резко ухудшается и становится малопригодным для практики. Мы перебрали весь софт на эту тему, до какого смогли дотянуться, и ничего подходящего не нашли. Может, вы, как профессионал, чего-нибудь посоветуете?
Сам не пробовал, но может вариант обмена голосовыми сообщениями через телеграм подойдёт, с распознаванием голосового сообщения в одну сторону в текст ботом (похоже есть разные варианты, в том числе с исходниками https://github.com/graynk/voicos)?
По конкретным решениям для вашей задачи не смогу подсказать, но распознавание речи из телефонии точно возможно. Например, у нас в сервисе для этого есть модель callcenter (https://developers.sber.ru/docs/ru/smartspeech/recognition-overview#akusticheskie-modeli).
Подозреваю, во многих конторах сейчас пытаются воспитать ИИ, способные на это, но до практической готовности, думаю, там далеко.
Если я правильно понял запрос, то режим потокового распознавания как раз решает такую задачу: https://developers.sber.ru/docs/ru/smartspeech/recognition-stream
Я не большой специалист, поэтому возможно предложу что-то не совсем правильное - Если предварительно перед распознованием пропускать через отдельнную нейронку, которая по спектрограмме оставит только голос?
Прошёл год с момента этого обсуждения, и ваше предложение осуществилось! Я на днях приобрёл аппарат Google Pixel 6A под управлением Android 14 - так вот, в нём есть встроенная функция "Прямая расшифровка", выдающая титры на экран от обоих разговаривающих прямо в процессе разговора. Качество распознавания удовлетворительное. Раньше эту опцию приходилось устанавливать в смартфон только в виде отдельного приложения.
Таким образом проблема вроде бы нашла решение, но для него приходится покупать не такой уж дешёвый аппарат.
А есть пример, где F0 говорящих ближе друг к другу? А то так не совсем понятен успешный успех всей затей - высокий женский и низкий мужской голоса можно разделить обыновенными полосовыми фильтрами.
Есть даже несколько, сделали плейлист: https://on.soundcloud.com/BACW (аккуратно, один из примеров 16-18+, он помечен).
Как мы сделали распознавание речи нескольких говорящих