еще на 8.10 (или раньше) я как-то обнаружил команду:
'espeak'
она мне читала текстовый файл с нашими стихами и мы с подругой ухахатывались!!!
русский тоже присутствовал.
смотрите 'man espeak'…
сейчас проверим. Просто у espeak в поддерживаемых языках (http://espeak.sourceforge.net/languages.html) для русского написано So far it's just an initial attempt with basic pronunciation rules.
Но надо попробовать. Как попробую отпишусь.
Мне кажется, что подобные посты с не до конца полученным результатом стимулируют вытягивание знаний из ленивых, но знающих эту тему профи. Самим писать статью лень («Ну это же очевидно!») а вот в комментах кто-нибудь да и напишет что-то в стиле «Вы не правы, под линуксом легко и непринужденно текст читает прога %appName%! Почитайте вот этот мануал». Не оставаться же равнодушным, когда в соседнем посте под виндой все гладко и красиво.
Странно, я не ждал в комментариях ответ на главный вопрос жизни, вселенной и всего такого. Я и так знаю что 42.
Просто во время своих экспериментов я потратил достаточно времени на гугления, и поэтому решил поделиться своими изысканиями.
Можно поставить под вайн SAPI и Голосовой движок, а потом использовать govorilka cp. К сожалению на данный момент лучшие русскоязычные движки под винду. Медвед чтоли бы денег подкинул на развитие отечественных голосовых технологий под линукс. Это же важно на самом деле.
Ну SAPI и голосовой движок под вайном это имхо извращение, как говорит всегда мой знакомый «Если ты юзаешь софт под вайном, а зачем тебе собственно прослойка в виде linux'a»
^_^ к тому же интеграции с программами которые поддерживают festival не будет.
Для виндошного голоса не знаю, под рукой нет винды :)
а для festival'а делаем вот так.
cat book.txt | text2wave -o file.wav -eval '(voice_msu_ru_nsh_clunits)'
получившийся wav файл сжимаем lame'ом.
lame file.wav file.mp3
А с полученной mp3 шкой можно делать что угодно.
Угу, задержка у него что то уж очень значительная, не сказать чтобы у меня уж шибко мощная система, но на мой взгляд он столько думает сколько он думать не должен.
думаю, хорошим оценочным параметром может служить отношение времени синтеза к времени звучания.
на достаточно длинных фразах, по идее, оно должно стремиться к какому-то фиксированному значению.
оно же умеет генерить звук в файл?
При запуске festival'a происходит чтение всех необходимых правил для русского языка, и для самого festival'a. Если же исключить загрузку, то есть запустить festival как сервер, то все правила уже будут загруженны, и по идее должно быстрее работать
а! ну да.
у меня он как-то по дефолту как сервер в голове нарисовался, такчто я подумал, что те 1.5 секунды — это чисто синтез.
буду, наверно, скоро поднимать тестовый астериск, поиграюсь на нём.
Синтез русской речи в Linux