Комментарии 12
Добрый день , спасибо за обновление ! Интонации вопросительных предложений значительно улучшат натуральность синтеза - а возможность выделения ключевых слов подтвердит что Силеро лидер доступных решений синтеза на русском языке ! Очень ждем ваше обновление омографов для русского языка !
Самый качественный открытый синтез на русском языке! Ну неужели никто ещё не навайбкодил движок tts для простой установки в Андроид?
Как прикрутить к ebook2audiobook?
Идеал вещь эфемерная, поэтому радует сам процесс движения к нему. Спасибо.
Из идей... я наиболее чувствителен к интонированию. Включая пунктуационные паузы, как внутри, так и между предложениями. Там тоже немало нюансов. Поэтому предложу для внутреннего тестирования использовать стихи. На них все моменты наиболее заметны. А уж что покажется вам достойным улучшения, смотрите сами. Не стоит ожидать профессиональной артистической декламации, но уровень школьника на 4 балла (по 5-балльной системе) вполне достижим при ограниченных системных ресурсах.
В стихах нужно соблюдение внутреннего ритма. То есть нужно знать размер и под него подстраивать рисунок.
Решение задачи чтения стихов чем-то сродни пению песен. Это как бы продукт совсем с ортогональными целями.
Включая пунктуационные паузы, как внутри, так и между предложениями.
Для тонкого управления паузами сейчас есть SSML.
Я не знаю, что нужно. Вам виднее. Может сложно, а может и не так.
Предлагая в качестве образца древние движки, я обжегся на человеческом восприятии. Говорю, смотрите на просодию, а люди слыша древнюю фонетику, сразу ставят крест. Но вроде вы специалисты и такое не грозит. Существовал синтезатор — Loquendo Olga. В ее исполнении, стихи интонировались вполне приемлемо. Если не твердая четверка, так тройка с плюсом.
Образец на 4pda, для скачивания требуется регистрация.
С удивлением обнаружил, что синтез речи требует больше ресурсов CPU, чем распознавание...
Хотя у людей наоборот - ребёнок болтает без умолку, мало слушая родителей :)
Вы попросили прикольных и оригинальных идей. У меня есть прикольная, но не слишком оригинальная — сконвертируйте в ONNX и добавьтесь в пакет sherpa. Там все TTS в этом пакете сразу погрустнеют.)
Что касается конвертации, то ONNX-версии у нас естественно есть, но мы их придерживаем для заказчиков, когда нужна какая-то особенная кастомизация / сборка под особенное железо.
Что касается самого ONNX, тогда вся обвязка будет торчать, придется заводить пакет как минимум, и как следствие реально портативность не вырастет (тут не просто одна голая TTS модель).
Что касается именно этого проекта - даже если и публиковать какие-то артефакты в onnx, то вижу мало смысла лить им воду на мельницу.
А насколько этично, если я сам пакет для себя сделаю на базе вашей tts?
Понимаю, что там у вас несколько слоёв, не только tts, как раз для максимально живого голоса.
Вопрос исключительно теоретический.
PS, ещё видел торч адаптации для мобилок, но вызывает сомнение пригодность к конвертации всего кода. Сама голая tts, понятно, пригодна.
PS случайно не туда написал. Это долго было бы ответом в ветку про ONNX.

Теперь silero-tts v5 на русском языке умеет задавать вопросы