
Мы недавно писали про обновление нашего публичного синтеза, silero-tts. В прошлый раз мы существенно увеличили скорость, качество и добавили поддержку омографов.
В этот раз мы хотим вас порадовать особенной фичей, которая в большинстве случаев стабильно не работает даже в гигантских моделях синтеза, которые требуют для своей работы на 3-4 порядка больше вычислительных ресурсов и современные серверные видеокарты (наш синтез запускается даже на слабых процессорах).
Как вы догадались, эта фича — это постановка вопросов. Если просуммировать основные текущие фичи:
Высокая скорость;
Поддержка SSML;
Автоматическая простановка ударений и омографов;
Установка через
torch.hub,pipи просто локально через торч;Доступны голоса
aidar,baya,kseniya,xenia(eugeneв модель с вопросами доедет чуть позже);Теперь есть поддержка 4 типов вопросов: специальные (с вопросительным словом), общие (с выделением какого-либо слова), альтернативные ("ты любишь рыбу или мясо?") и вопросы-хвостики ("не так ли?").
Для максимальной выразительности в общих вопросах настоятельно рекомендуется выделять интонационный центр звёздочками.
Послушаем примеры
Илья, общие вопросы:
Ксения, вопросы-хвостики:
Ксения, общие вопросы:
Например, вот эти аудио сгенерированы вот таким кодом:
Скрытый текст
import IPython.display as ipd texts = [ '*Организаторы* прислали нам электронные билеты?', 'Организаторы *прислали* нам электронные билеты?', 'Организаторы прислали *нам* электронные билеты?', 'Организаторы прислали нам *электронные* билеты?', 'Организаторы прислали нам электронные *билеты*?' ] for i, text in enumerate(texts): audio = model.apply_tts(text=text, speaker='xenia') ipd.display(ipd.Audio(audio, rate=48000))
Ксения, частные вопросы:
Про вопросы в русском языке

В русском языке существует три основные стратегии маркировки вопросов: грамматическая (порядок слов), лексическая (вопросительные слова, частицы) и просодическая (интонация).
Грамматическая стратегия в русской разговорной речи используется очень редко: обязательной инверсии для вопросов нет, и по порядку слов в предложении невозможно достоверно определить, вопрос это или нет.
Лексическая стратегия (через вопросительное слово и конструкции вроде "не так ли?" или "или") — самая простая для синтеза, поскольку вопрос однозначно определяется на уровне текста, а просодический контур в целом не слишком отличается от повествовательного.
Однако эта стратегия не используется в общих вопросах ("Ты дома?"), которые в корпусах составляют примерно половину от всей массы вопросов. Просодическая стратегия является самой главной в русском языке и самой сложной для TTS: интонационный акцент может ставиться практически на любое слово, вне зависимости от его позиции или части речи, и от позиции акцента зависит смысл высказывания:
Он ПРИШЁЛ? (да, явился наконец-то);
ОН пришёл? (нет, пришла его кошка).
В итоге, для реализации русской вопросительной интонации в TTS оказывается недостаточно подать корпус вопросительных предложений. Для обучения модели необходима разметка на типы вопросов в зависимости от стратегии реализации, а также выделение слова, на которое падает просодический акцент.
Как использовать новую фичу?
Просто скачайте новую модель и пишите вопросы как обычно. Если вопрос общий, то для максимальной выразительности следует выделить интонационный центр звёздочками.
Для альтернативных, специальных или вопросов-хвостиков можно не указывать интонационный центр (если указать, будет лучше звучать).
Также добавился параметр intensity=3, отвечающий за "силу" интонации. Но мы рекомендуем его оставить по-умолчанию, то есть всегда 3. В будущем значение по-умолчанию может поменяться, как и сила выразительности. Сейчас 3 соответствует скорее нормальной интонации.
На практике, самые "сложные" общие вопросы (с интонационным центром) выглядят вот так:
texts = [ '*Организаторы* прислали нам электронные билеты?', 'Организаторы *прислали* нам электронные билеты?', 'Организаторы прислали *нам* электронные билеты?', 'Организаторы прислали нам *электронные* билеты?', 'Организаторы прислали нам электронные *билеты*?' ] for i, text in enumerate(texts): audio = model.apply_tts(text=text, speaker='xenia')
Пакет pip и примеры запуска
Мы уже писали про pip-пакет, pip install silero. Если использовать его, то минимальный код запуска выглядит уже совсем лаконично:
!pip install silero from silero import silero_tts model, example_text = silero_tts(language='ru', speaker='v5_4_ru') audio = model.apply_tts(text=example_text)
Полный код запуска, например с использованием torch.hub со всеми флагами уже выглядит вот так (подробнее можно потыкать в интерактивном ноутбучке):
import torch language = 'ru' model_id = 'v5_4_ru' device = torch.device('cpu') model, example_text = torch.hub.load(repo_or_dir='snakers4/silero-models', model='silero_tts', language=language, speaker=model_id) model.to(device) # gpu or cpu sample_rate = 48000 speaker = 'xenia' put_accent=True put_yo=True put_stress_homo=True put_yo_homo=True example_text = 'Меня зовут Лева Королев. Я из готов. И я уже готов открыть все ваши замки любой сложности!' audio = model.apply_tts(text=example_text, speaker=speaker, sample_rate=sample_rate, put_accent=put_accent, put_yo=put_yo, put_stress_homo=put_stress_homo, put_yo_homo=put_yo_homo) ssml_sample = """ <speak> <p> Когда я просыпаюсь, <prosody rate="x-slow">я говорю довольно медленно</prosody>. Потом я начинаю говорить своим обычным голосом, <prosody pitch="x-high"> а могу говорить тоном выше </prosody>, или <prosody pitch="x-low">наоборот, ниже</prosody>. Потом, если повезет – <prosody rate="fast">я могу говорить и довольно быстро.</prosody> А еще я умею делать паузы любой длины, например, две секунды <break time="2000ms"/>. <p> Также я умею делать паузы между параграфами. </p> <p> <s>И также я умею делать паузы между предложениями</s> <s>Вот например как сейчас</s> </p> </p> </speak> """ audio = model.apply_tts(ssml_text=ssml_sample, speaker=speaker, sample_rate=sample_rate)
Про омографы, скорость и размер модели можно подробнее прочитать в прошлой статье.
Вместо вывода
У нас недавно получилось добиться нетривиального прогресса по сбору данных для модели расстановки омографов, плюс в дополнение к вопросам мы также планируем добавить эмфазы (яркое выделение какого-то конкретного слова в повествовательном предложении).
Если у вас есть какие-то прикольные или оригинальные идеи насчёт улучшения открытого синтеза речи - будем рады обсудить в комментариях или в тикетах в репозитории. Вы также можете прислать свои данные для ударений и омографов - мы сделаем базовую библиотеку лучше.
