Comments 17
Купил Алису и SberBox Time. Алиса распознает практически идеально, время отклика незаметно, из минусов - отсутствие HDMI. Поэтому взял колонку сбера чтобы зацепить к монитору, но на наличии HDMI плюсы и закончились. Нужно выговаривать четко, и громко. Некоторых людей в принципе отказывается слышать. Далеко не всегда понимает что ему сказано. И почему то очень долгий отклик. Если бы не возможность перепрошивки и подключения к монитору сдал бы сразу. А так использую как tvip приставку, практически не используя голосовое управление, т.к. оно бесполезно.
И пожалуйста, разработчики Сбербанка, учитывайте что не у всех людей есть Сбербанк онлайн. Эта привязка к нему где только можно мешает неимоверно. Например, я регистрируюсь, покупаю подписку Прайм, и теперь не могу зайти через SberId чтобы подключить на устройстве, т.к. пуши мне идут в несуществующий Сбербанк.Онлайн. Пробовал на другой номер, на который когда то много лет назад был подключен сбербанк онлайн, потом ушел. И теперь оказывается что этот номер телефона нельзя использовать для регистрации для использования SberboxTime, потому что он как то там заблокирован банком. Это же разные системы.
Ну и поддержка ожидаемо помочь не в силах. Максимум что смогли посоветовать, - другой номер. На текущий момент это нельзя считать готовой умной системой, скорее набор разного уровня сырости сервисов кое как скрепленных друг с другом.
Но ведь есть станция Макс с Алисой. Там есть HDMI :)
Здравствуйте! По проблемам/вопросам с девайсом, репорт бага можно писать в чат https://t.me/sberdevices_chat
Ошибка во втором канале, распознало «А что сегодня на обед?», а говорит "Мам, что сегодня на обед?"
Есть у меня приятельница, от рождения лишённая слуха. Разумеется, она давно и в совершенстве освоила практически все виды коммуникации глухонемых (в т.ч. и чтение речи по лицу собеседника). Сама она речи не лишена, хотя этому её учили в детстве, естественно, без использования звуковой обратной связи, и потому получился своеобразный акцент.
Так вот, есть один способ коммуникации, который ей недоступен, но очень нужен — это разговор по телефону. Существующие речевые распознавалки нормально работают только по чистому звуку прямо с микрофона, но если звуковой сигнал прошёл телефонный канал, который сузил полосу частот и добавил шумов и нелинейных искажений, распознавание резко ухудшается и становится малопригодным для практики. Мы перебрали весь софт на эту тему, до какого смогли дотянуться, и ничего подходящего не нашли. Может, вы, как профессионал, чего-нибудь посоветуете?
Сам не пробовал, но может вариант обмена голосовыми сообщениями через телеграм подойдёт, с распознаванием голосового сообщения в одну сторону в текст ботом (похоже есть разные варианты, в том числе с исходниками https://github.com/graynk/voicos)?
По конкретным решениям для вашей задачи не смогу подсказать, но распознавание речи из телефонии точно возможно. Например, у нас в сервисе для этого есть модель callcenter (https://developers.sber.ru/docs/ru/smartspeech/recognition-overview#akusticheskie-modeli).
Подозреваю, во многих конторах сейчас пытаются воспитать ИИ, способные на это, но до практической готовности, думаю, там далеко.
Если я правильно понял запрос, то режим потокового распознавания как раз решает такую задачу: https://developers.sber.ru/docs/ru/smartspeech/recognition-stream
Я не большой специалист, поэтому возможно предложу что-то не совсем правильное - Если предварительно перед распознованием пропускать через отдельнную нейронку, которая по спектрограмме оставит только голос?
Прошёл год с момента этого обсуждения, и ваше предложение осуществилось! Я на днях приобрёл аппарат Google Pixel 6A под управлением Android 14 - так вот, в нём есть встроенная функция "Прямая расшифровка", выдающая титры на экран от обоих разговаривающих прямо в процессе разговора. Качество распознавания удовлетворительное. Раньше эту опцию приходилось устанавливать в смартфон только в виде отдельного приложения.
Таким образом проблема вроде бы нашла решение, но для него приходится покупать не такой уж дешёвый аппарат.
Довожу до сведения заинтересованных лиц, что нашлось ещё одно решение затронутой мною проблемы. Это приобретение самсунговского смартфона флагманского уровня. Гугл-Пиксель 6А, как оказалось, проблемы не решает, поскольку русского языка среди поддерживаемых в нём нет. А вот у Самсунга - есть! Начиная с S23 Ultra и новее. Бешеных денег платить не надо, бэушный S23 можно купить за 40 тыр и даже дешевле. А титры в нём (причём именно со звука, пришедшего по проводам, т.е. заведомо не самого высококачественного) распознаются прекрасно, с задержкой 0,5...1 сек.
А есть пример, где F0 говорящих ближе друг к другу? А то так не совсем понятен успешный успех всей затей - высокий женский и низкий мужской голоса можно разделить обыновенными полосовыми фильтрами.
Есть даже несколько, сделали плейлист: https://on.soundcloud.com/BACW (аккуратно, один из примеров 16-18+, он помечен).
Как мы сделали распознавание речи нескольких говорящих