Не понятно, почему все так радуются этой ужасной (не похожей на человеческую речь) озвучки от гугла?
Вот пример работы встроенного движка в mac os («Здравствуйте, оставайтесь на линии»): zalil.ru/32182164 (111 Kb)
через консольную утилиту можно выбирать десятки голосов для почти всех стран, в том числе по несколько вариантов для некоторых стран включая пол, десяток разных форматов файла для вывода, качество, битрейт, количество каналов для некоторых голосов и т.д. При этом можно сразу хоть книжку целую озвучить в один подход.
Ну так, для «встроенного движка в mac os» нужен сам Mac OS, также как для Microsoft Speech нужен Windows.
То есть, нужно или астериск под macos/windows ставить или придумывать как все связать, не говоря уже о покупке лицензий и фруктового железа.
Или, если ты говоришь о разовом синтезе (по готовому сценарию) и ручном переносе, то да, все верно.
Хотя живой человек еще лучше прочитает. С тем же успехом можно позвонить в свой call-центр (или можно даже в чужой) и сказать: «Привет девчонки! Повторяйте за мной».
Сейчас в моей компании нет голосового меню, потому что никто не знает какое оно должно быть, как будет звучать, и записывать, то что не знаешь, очень сложно. Но сегодня у меня появилась возможность прикинуть структуру, попробовать, послушать в телефоне, переписать фразы и даже узнать реакцию клиентов. Хотя, наверное, после утверждения сценария голосового меню, к девчонкам все таки стоит позвонить.
Статья о простом и быстром, а не о качественном :-)
Круть неимоверная, только в систему надо несколько пакетов доустановить.
ffmpeg,flac,php5-curl
Есть энтузиасты которые смогут реализовать следующую схему?
Звоним Астериску, Астериск записывает и с помощью Google Speech API выдает нам текст.
Тест загоняем в переводчик, из переводчика озвучиваем его на английском языке и отдаем Siri.
С ответом от Siri производим обратный порядок действий, и как в итоге общаемся с ней на ломаном русском. :)
Синтез и распознавание речи от Google для Asterisk