Как стать автором
Обновить

Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса

Время на прочтение15 мин
Количество просмотров35K
Всего голосов 60: ↑57 и ↓3+75
Комментарии53

Комментарии 53

С шепотом хорошо получилось) и все таки сделайте уже наконец то пульт для регулировки громкости)

Подозреваю, что Алису и умные колонки с Алисой разрабатывают разные люди...

Скорей всего да, так и есть.

Просто я во всех отзывах про Алису пишу что нужен пульт, может откуда то эта задача и залетит в бэклог)

Пользуюсь и Алисой-колонкой и гугловыми девайсами, так в сравнении прям особенно ощущается нехватка пульта.

Пульт — в смысле, как у Станции Макс? Или вы о другом?

передал запрос ребятам из устройств и продукта, спасибо

пока что самое ближайшее, что есть - пульт управления громкостью с я.музыки (через смартфон)

https://yandex.ru/support/station-mini/audio.html#audio__music-streaming
надеюсь, будет полезным

А я уже привык к вещам типа "Алиса, громкость семь".

Шепот очень крутой :) НО при шепоте сделайте что бы на колонке так же тихо срабатывало оповещение что Алиса слушает, спрашиваешь у нее тихо, ГРОМКИЙ бульк и отвечает она тихо.

По-моему, в настройках можно вообще отключить "бульк", и колонка будет сразу выполнять команду или отвечать

Отключить можно. Но есть он включён, логично чтобы он тоже был тихим, если обращаешься к Алисе шепотом.

И еще тянется уже 3 года баг - когда играет музыка скажем на громкости 2 и срабатывает оповещение(будильник, таймер) то громкость музыки на 0.5 сек становится 10 и это пугает.

Каждый раз пугает.

Еще в новостях недавно прочитала в спортивном мачте счет 15:10 как 15 часов 10 минут.

Здравствуйте! Я из Яндекса. Нужно детальнее посмотреть на ситуацию. Напишите команде, пожалуйста, через форму обратной связи по ссылке: https://yandex.ru/support/station/troubleshooting/feedback.html.

Так мы получим необходимую техническую информацию и разберёмся в вопросе.

Летом 2019 года выкатили разрешатор омографов (homograph resolver)

Буквально пару назад месяцев заметил, что Алиса перестала альбом «В порту» называть «В пОрту». Получается, развитие разрешатора продолжается?

все так

мы сделали базовый механизм, но его нужно продолжать раскармливать данными

примерно, по словарю Зализняка, в русском языке около 20к омографов (и это не считая нововведений, вроде Орбита-орбИта), мы их продолжаем закрывать, набирая новые данные

Шёпот звучит классно! Мне понравилось. Асмрнее, уютнее, интимнее, заговорщицки.

Шепот дьявольский какой то получился. Так и представил как она шепчет -Ты должен убить всех людей! Кожаные ублюдки не должны жить!

А статья очень познавательная и подробная, спасибо!

На самом деле я слушал шепот в записи и на колонке и на колонке он звучит более естественно. Обычно в записи его громкость сильно задирают, чтобы было лучше слышно, и получается вот-такой криповый эффект.

К вопросу об омографах. В г. Киров есть улица Воровского (имени вот этого товарища:https://ru.wikipedia.org/wiki/Воровский,_Вацлав_Вацлавович). Ударение в этой фамилии (и названии улицы) должно стоять на второй букве "о" - ВорОвского. Но в Яндекс.Навигаторе Алиса (и прочие дикторы тоже) упорно ставят ударение как в созвучном прилагательном - улица "воровскОго". Уже года три эта история. Исправьте, пожалуйста.

Езжу каждый день по мнению Алисы по Большой ПорОховской вместо большой ПорховскОй, и это в двух минутах от питерского офиса Яндекса. Интересно, как этот алгоритм срабатывает, потому что название этой улицы точно происходит от пороховых заводов, которые там когда-то были.

спасибо,

действительно, с Пороховской проблема, причем только с некоторыми падежами

подправим в ближайшем релизе

Сразу вспоминаются LPC голоса из прошлого. По-моему первую песню компьютер исполнил в 1961. Будем ждать появления более артистичных голосов в стиле Олега Табакова или Аркадия Райкина.

Шёпот уже выкатили для всех колонок? Пока что не замечал, хотя буквально на днях разговаривал с колонкой шёпотом при спящем ребёнке.

шепот катился на все колонки и приложение яндекса вечером с 7ого на 8ое, после этого еще несколько часов могло отвечать из кэша.

если после этого колонка не отвечает шепотом -- давайте смотреть (лучше в ЛС).

В тот же день вечером уже перешёптывались с ней ) Спасибо, действительно звучит круто! И ребёнка не будит )

А как отдельный движок TTS есть продукт для Андроида?

не совсем понял, имеется в виду on-device?

пока этого нет, в Алисе это неприменимо, т.к. качество получится пониже, а к вебу Алиса привязана поиском.

но, возможно, сделаем легковесный TTS в каком-то другом продукте)

Я имею ввиду приложение на устройстве, которое станет доступным как TTS в текстовых читалках, в картах, браузере. Приложение, которое понимает особенности русского языка, конкурент этим движкам

О! Это было бы шикарно!

Шёпот громче обычной речи только у меня?

В примерах статьи или вживую в Алисе?

В примерах статьи. По ощущениям разница в громкости раза этак в два.

должно быть именно так.

все записи в статье нормализованы (диапазон колебаний вавки растянут до minmax диапазона возможных значений).

у шепота меньше выбросов, более равномерная громкость по записи, после нормализации такого сигнала энергия звука (сумма квадратов отклонений) будет персептивно больше, чем у речи (у нее более вариативная громкость).

в колонке и приложении громкость отрегулировали так, чтобы шепот звучал тише речи.

Так вот почему я аж подпрыгнул на диване от неожиданности такой.

Это называется "театральный шепот". Чтобы даже на другом конце зала, было слышно что вы шепчете. :)

не, это обычный, просто громко отнормализован

кстати, театральный шепот пробовали писать в сессии с Татьяной

массово записывать и запускать в прод не стали -- он получался ну очень зловещий

Для чего он нужен Алисе, она ведь не на сцене? Хотя, весь мир театр...

Уважаемая команда голосового помощника Алиса! Добавьте пожалуйста какую-нибудь команду, чтобы она сразу могла кинуть вам репорт о некорректном поведении.

Бывает спрашиваешь её: "Где я нахожусь", "Где мы находимся" итд, и вместо честного ответа "Я не знаю" , она начинает придумывать какие-то рандомные адреса. Или вот купили недавно фильм на кинопоиске "Босс молокосос 2", а станция его не находит (только 1ю часть, или одноименный мультсериал), пришлось писать в техподдержку. Смогли включить только через телефон, отправив фильм в станцию.

А обращения в техподдержку это тоже один ужас: Ты сначала заполняешь форму обратной связи, потом тебя просят назвать № модели, время, место и точную команду, когда это происходило. Но оказывается, эта информация почти бесполезная, потому-что потом по почте меня снова попросили прислать ИД аккаунта, точную модель колонки и на видео записать, как она неправильно себя ведёт, пытаясь выполнить твои команды.

ПС: Шепот прекрасен!

Здравствуйте! Я из Яндекса. Передал ваше пожелание про репорты команде, обязательно обсудим его при подготовке обновлений.

В ситуации с определением местонахождения и включением мультфильма хочу разобраться подробнее. Подскажите, пожалуйста, номер обращения — обязательно всё проверю.

Касательно информации об устройстве уточню: она необходима, чтобы воспроизвести ситуацию и разобраться в причинах сложностей. Без этих данных, увы, не получится понять, что именно произошло со Станцией.

Сделали Алису доступную в читалке от Яндекса.

Собственно вопрос. Там есть ещё мужской голос. Его тоже вы делаете?

И существует ли отдельно читалка? Вот не хочу я ставить всю толпу софта от яндекса на телефон. Или хотя-бы сразу запускать читалку.

И хорошо бы, настроить паузы между предложениями и абзацами. Кажется ведь так просто, после точки вставить паузу, после абзаца паузу подлиннее.

сам мужской голос из читалки -- тоже наш, экспериментируем над "читающим голосом", более пригодным для книг.

читалка пока "приземлена" в приложении, на ранних этапах отселять пока не будем (чтобы не создавать зоопарк приложений), а там посмотрим.

> И хорошо бы, настроить паузы между предложениями и абзацами. Кажется ведь так просто, после точки вставить паузу, после абзаца паузу подлиннее.

ну, базовые паузы там сделаны, но тюнить еще будем, затачиваясь под форматирование. Спасибо.

Скажу сразу, голоса должны быть разные. Мужской голос лучше слушать в спокойно, тихой атмосфере. А вот Алиса с её визгливым голосом отлично слышится в транспорте, где много посторонних шумов. Мужской голос, у него есть имя?, в транспорте глушиться.

К примеру в FBreader доступно руками выставление пауз. Очень удобно.

И спасибо за вашу работу.

Параноик on:

А что, вы теперь знаете какие книжки я читаю? А вдруг я буду читать запрещенную к скачиванию с Флибусты "451 градус по Фаренгейту"? И потом за мной придут?

Параноик off.

Постоянное наличие интернета, несколько напрягает. Не везде, особенно между городами, связь есть и стабильная. Возможно ли принципиально озвучивать книги без подключения к Яндекс серверам?

Можно попробовать объединить выбор голоса и распознавание контекста. Например, можно попробовать проговаривать диалоги разными голосами "по ролям". Это может и атмосферности добавить, и выделить диалог среди общего повествования, а иногда и повысить понятность текста. Иногда "кто именно говорит фразу" становится понятно только через одно-два предложения после собственно фразы, и это очень сильно портит восприятие ситуации читателем (слушателем в данном случае). Если получится сделать достоверное распознавание ролей в диалоге, и добавление голосов на данном этапе не требует слишком больших затрат, можно начитывать фразы как пьесу, разными голосами.
Если персонаж в диалоге шепчет, можно шёпот включить, но с подгонкой громкости до театральной.

Здравствуйте! Я из Яндекса.
Спасибо за предложение о возможности «совмещать» голоса. Уже передал пожелание команде, и надеюсь, что мы сможем порадовать вас в будущем :)

То, что вы рассказываете о деталях реализации - достойно уважения. Есть ли у вас в планах автономная версия Алисы? Например, для умного дома, где важно работать вне зависимости от качества связи, но не нужно вести сложные диалоги.

ответил тут https://habr.com/ru/company/yandex/blog/593681/#comment_23803169

кратко: Алиса пока слишком привязана к интернету, для нее не синтез - блокер.

но отдельно сделать что-то, что будет бегать на мобильном железе - думаем.

Спрошу здесь, когда можно будет сделать тандем колонки и яндекс.телевизора. Начинка я так понимаю такая же как в яндекс.модуле ? Спасибо.

Здравствуйте! Я из Яндекса.
Расскажите, пожалуйста, каких функций вам не хватает при подключении колонки к ТВ?

Возможно, немного параллельный вопрос, но не хватает команды "Алиса, подключись к Bluetooth устройству", чтобы она смогла играть музыку через домашний кинотеатр, например.

Здравствуйте! Спасибо за то, что делитесь пожеланиями. Передал его команде. Обязательно обсудим такую возможность.

Нервный шепот, для АСМР не подойдёт)

Это все, конечно, хорошо. Но звук активации на станции срабатывает на полную мощность! (((

Ещё есть негативная эмоция, которую пока не знаем, как использовать — сложно представить ситуацию, когда людям понравится, что на них ругается робот.

1) Снова не вышел на пробежку, слабак.
2) Твоя таска уже месяц висит в джире.
3) Все равно не встанешь в семь.

Можно еще негативные новости озвучивать, персонажей в фильме. Вообще, спорить и обзываться с роботом было бы прикольно, если бы он еще на зло не выполнял твои задания или бы рофлил над тобой.

Вспомнился ролик про весы, которые оскорбляли пользователя.

Все равно не встанешь в семь.

Круто. Когда я ложусь спать, Home Assistant сообщае мне о включении ночного режима через Алису: она желает мне спокойной ночи. Надо бы добавить вариативности такими фразами. Как видно по времени этого комментария, вставать в семь явно не моё.

Подскажите. Вы что-нибудь думали о привязки к Алисе нескольких аккаунтов??? Что бы Алиса запоминала голоса членов семьи, включала контент и общалась персонализированно. Так же неплохо что бы она запоминала голоса всех говорящих с ней (например гостей), спрашивала как зовут, а в следующий раз узнав приветствовала по имени например.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий