tkf31 мая 2009 в 16:03

Синтез русской речи в Linux

3 мин

57K

Настройка Linux *

+51

Комментарии 58

НЛО прилетело и опубликовало эту надпись здесь

aborovinskih 31 мая 2009 в 17:16

Как всегда имеем дело с хитрой системой костылей и подпорок. Linux…
Спасибо за заметку, будем пробовать.

eugenex15 31 мая 2009 в 17:21

еще на 8.10 (или раньше) я как-то обнаружил команду:
'espeak'
она мне читала текстовый файл с нашими стихами и мы с подругой ухахатывались!!!
русский тоже присутствовал.
смотрите 'man espeak'…

tkf 31 мая 2009 в 17:41

сейчас проверим. Просто у espeak в поддерживаемых языках (http://espeak.sourceforge.net/languages.html) для русского написано So far it's just an initial attempt with basic pronunciation rules.
Но надо попробовать. Как попробую отпишусь.

gothica 31 мая 2009 в 18:06

у меня при попытке
espeak -f game.log
espeak: wave_pulse.cpp:707: size_t wave_write(void*, char*, size_t): Assertion `stream' failed.
Aborted

tkf 31 мая 2009 в 18:31

Ну что же, попробовал espeak. Качество просто ужас. Далекий до идеала Festival заметно лучше espeak'a.

gothica 31 мая 2009 в 19:05

Вообщем www.acapela.tv/ хорошая тема

Be3 31 мая 2009 в 17:23

Теперь будет с кем поговорить, холодными сибирскими ночами xD А как качество речи? не режет слух?

tkf 31 мая 2009 в 17:37

Качество речи чем то сильно напоминает Мерлина майкрософтсовского, то есть не блещет.

f0b0s 31 мая 2009 в 17:28

ну вот опять.
зачем пост сразу после виндового аналога.
эх, сейчас посыпятся холивары.

tkf 31 мая 2009 в 17:36

Ну я прочитал про виндовый аналог, и мне стало интересно а как с этим сейчас под линем. ^_^

kottt 31 мая 2009 в 17:55

Мне кажется, что подобные посты с не до конца полученным результатом стимулируют вытягивание знаний из ленивых, но знающих эту тему профи. Самим писать статью лень («Ну это же очевидно!») а вот в комментах кто-нибудь да и напишет что-то в стиле «Вы не правы, под линуксом легко и непринужденно текст читает прога %appName%! Почитайте вот этот мануал». Не оставаться же равнодушным, когда в соседнем посте под виндой все гладко и красиво.

tkf 31 мая 2009 в 18:07

Странно, я не ждал в комментариях ответ на главный вопрос жизни, вселенной и всего такого. Я и так знаю что 42.
Просто во время своих экспериментов я потратил достаточно времени на гугления, и поэтому решил поделиться своими изысканиями.

kottt 31 мая 2009 в 18:09

С вами все понятно — вы уже запустили голос. А я, например, жду :)

eugenex15 1 июн 2009 в 09:58

простите не в тему (возможно офтопик),

то статью я написать не могу:
1. я был на работе и занят (когда комментировал)
2. у меня карма минусовая (могу только комментировать)

kottt 2 июн 2009 в 12:05

т.е., у вас есть, чем поделиться с общественностью?

eugenex15 7 июн 2009 в 12:12

:) при первой возможности!!!
а у Вас? :)

kottt 7 июн 2009 в 13:41

Мне в этом плане делиться нечем — сам пока набираюсь знаний. Да и возможность пропала не так давно. Сейчас опять терпеливо набираю хабрасилу :)

rengel_system 31 мая 2009 в 17:30

Этот пакет можно не ставить ручками, а подключить вот этот ppa.

sol_linux 31 мая 2009 в 17:33

Автор, напиши лучше про распознование речи, к примеру Sphinx
Мне так и не удалось его настроить

Siddthartha 31 мая 2009 в 18:27

присоединяюсь. тоже неудалось.

tkf 31 мая 2009 в 18:29

Так как тема самому интересно, то надо будет попробовать. Хотя я слышал что качество распознование оставляет желать много лучшего.

litum 31 мая 2009 в 17:44

«качество синтеза далеко до голоса Алены»

А с чего это линуксоид мечтает о голосе Алены? Только Ричард и Линус!

sol_linux 31 мая 2009 в 17:54

А кто такая Алена?

litum 31 мая 2009 в 17:58

Роскошная женщина с сексуальным голосом.

tkf 31 мая 2009 в 17:59

Голосовой движок под Microsoft'ский SAPI. В этом комменте выкладывали пример habrahabr.ru/blogs/powershell/60965/#comment_1666861

PsySonic 31 мая 2009 в 18:13

Можно поставить под вайн SAPI и Голосовой движок, а потом использовать govorilka cp. К сожалению на данный момент лучшие русскоязычные движки под винду. Медвед чтоли бы денег подкинул на развитие отечественных голосовых технологий под линукс. Это же важно на самом деле.

tkf 31 мая 2009 в 18:17

Ну SAPI и голосовой движок под вайном это имхо извращение, как говорит всегда мой знакомый «Если ты юзаешь софт под вайном, а зачем тебе собственно прослойка в виде linux'a»
^_^ к тому же интеграции с программами которые поддерживают festival не будет.

НЛО прилетело и опубликовало эту надпись здесь

tkf 31 мая 2009 в 19:46

Выложил примеры синтеза речи. Пока выложил на народ, если кто может предложить другое место, то воспользуюсь с удовольствием

НЛО прилетело и опубликовало эту надпись здесь

tkf 31 мая 2009 в 20:14

Запишем подкаст из общения TTS'ок ^_^
Дамс, качество у вашего синтезатора получше, но ничего и наш дорастет.

НЛО прилетело и опубликовало эту надпись здесь

diogen 31 мая 2009 в 19:49

Ох, Алёнушка… *мечтательно вздыхает*

НЛО прилетело и опубликовало эту надпись здесь

LANdiver 31 мая 2009 в 21:48

forum.sources.ru/index.php?showtopic=204030&view=showall
вот тут предлагают голос чуть по лучше, судя по образцу синтеза. сам не ставил.

tkf 31 мая 2009 в 21:55

это билд с того же сайта откуда я брал голос. Версия вроде та же :(

LANdiver 31 мая 2009 в 22:00

я попробовал текст, который они там синтезировали, у меня звучит по другому

НЛО прилетело и опубликовало эту надпись здесь

Nebulosa 1 июн 2009 в 04:53

Позволю себе дать ссылку archlinux.org.ru/arch_forum/viewtopic.php?f=8&t=1509&p=13915#p13915 Все достаточно грамотно расписано.

AgaFonOff 1 июн 2009 в 06:47

Даёшь хабраинтервью (подкаст) с диктором — прототипом Алёны!

Sigura 1 июн 2009 в 07:05

напишите как сделать из воспроизведения текста mp3 файл, а потом разбить на файлы по 4-5м

тогда можно будет создавать аудио книги самостоятельно :)

уверен это будет интересно

tkf 1 июн 2009 в 20:59

Для виндошного голоса не знаю, под рукой нет винды :)
а для festival'а делаем вот так.
cat book.txt | text2wave -o file.wav -eval '(voice_msu_ru_nsh_clunits)'
получившийся wav файл сжимаем lame'ом.
lame file.wav file.mp3
А с полученной mp3 шкой можно делать что угодно.

Sigura 2 июн 2009 в 04:14

Спасибо!

win тут и не причём :)

осталось найти простой способ сделать split для mp3 :)

tkf 2 июн 2009 в 07:14

не уверен поможет ли вам, но посмотреть в эту сторону mp3splt.sourceforge.net/mp3splt_page/home.php, сам не пользовался поэтому ничего сказать не могу.

qmax 1 июн 2009 в 20:23

к плюсам Фестиваля стоит упомянуть поддержку в VoIP станции Asterisk:
www.voip-info.org/wiki/view/Asterisk+festival+installation

это может серёзно разнообразить телефонийный экспириенс.
другое дело, что задержка на синтез может оказаться неприемлемой в интерактивном режиме.

tkf 1 июн 2009 в 20:43

Угу, задержка у него что то уж очень значительная, не сказать чтобы у меня уж шибко мощная система, но на мой взгляд он столько думает сколько он думать не должен.

qmax 1 июн 2009 в 20:57

а есть конкретные замеры затрат времени на синтез?

tkf 1 июн 2009 в 21:00

Даже не знаю как бы это замерить, если есть предложения как правильно это измерить то могу провести тесты.

qmax 1 июн 2009 в 21:04

думаю, хорошим оценочным параметром может служить отношение времени синтеза к времени звучания.
на достаточно длинных фразах, по идее, оно должно стремиться к какому-то фиксированному значению.
оно же умеет генерить звук в файл?

tkf 1 июн 2009 в 21:13

угу умеет habrahabr.ru/blogs/linux/60977/#comment_1671419
Сейчас сделал замеры, для кусков речи длинной в секунду и в 5 секунд, перед началом синтеза он думает приблизительно 1,5 секунды.

SergeyKish 2 июн 2009 в 19:34

Русский голос довольно объемный, можно исключить время загрузки используя сервер. Подключил так MCabber и IRSSI

$ festival --server
$ cat speaker.py
…
CMD_MSG_SAY = 'echo "%s" | festival_client --async --ttw --aucommand \'aplay $FILE\''

qmax 2 июн 2009 в 19:41

что-то не понял, как это поможет сократить время загрузки?
особенно в контексте использования изнутри астериска…

tkf 2 июн 2009 в 20:49

При запуске festival'a происходит чтение всех необходимых правил для русского языка, и для самого festival'a. Если же исключить загрузку, то есть запустить festival как сервер, то все правила уже будут загруженны, и по идее должно быстрее работать

qmax 2 июн 2009 в 20:54

а! ну да.
у меня он как-то по дефолту как сервер в голове нарисовался, такчто я подумал, что те 1.5 секунды — это чисто синтез.
буду, наверно, скоро поднимать тестовый астериск, поиграюсь на нём.

telegamochka 2 июн 2009 в 08:46

Перепостила Вашу статью в community.livejournal.com/ru_wearable/55002.html (со ссылками и указанием авторства), если Вы против — скажите, уберу пост.

azimut 30 июн 2009 в 09:03

Хороший материал, есть только момент — да, это работает после плясок из консоли. Но увы, не работает в KDE 3.5

Зарегистрируйтесь на Хабре, чтобы оставить комментарий