miroslav Dec 2 2011 at 10:55

Синтез и распознавание речи от Google для Asterisk

5 min

85K

Доброе утро!

Вчера вечером заглянул на Хабр, увидел статью Google translate+Asterisk IVR и у меня волосы зашевелились в подмышках.

Синтез речи, как это просто!
Не нужно собирать Festival и искать для него семплы. Все уже готово, просто и от Google.

Сразу переписал предложенный вариант на свою любимый php и оформил в виде AGI для вызова из Астериска. Хотел чтобы синтез можно было использовать одной строкой в диалпланет, как стандартную команду SayDigits():

Пример использования в extensions.ael:

s => {
        Answer();
        Wait(1);
        AGI(say.php,"Здравствуйте");
        AGI(say.php,"Вас приветствует компания");
        AGI(say.php,"Habrahabr!",en);
        AGI(say.php,"Ваш звонок важен для нас!");
        AGI(say.php,"Пожалуйста!");
        AGI(say.php,"оставайтесь на линии");
        AGI(say.php,"Вам обязательно ответят!");
};

И сам php код (должен быть /var/lib/asterisk/agi-bin/say.php):

#!/usr/bin/php -q
<?php
$agivars = array();
while (!feof(STDIN)) {
    $agivar = trim(fgets(STDIN));
    if ($agivar === '')
        break;

    $agivar = explode(':', $agivar);
    $agivars[$agivar[0]] = trim($agivar[1]);
}
extract($agivars);

$text = $_SERVER["argv"][1];
if (isset($_SERVER["argv"][2])) $lang = $_SERVER["argv"][2];
else $lang = 'ru';

$md5 = md5($text);

$prefix = '/var/lib/asterisk/festivalcache/';
$filename = $prefix.$md5;

if (!file_exists($filename.'.alaw')) {
    $wget = 'wget -U "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5" ';
    $wget.= '"http://translate.google.com/translate_tts?q='.$text.'&tl='.$lang.'" -O '.$filename.'.mp3';
    $ffmpeg = 'ffmpeg -i '.$filename.'.mp3 -ar 8000 -ac 1 -ab 64 '.$filename.'.wav -ar 8000 -ac 1 -ab 64 -f alaw '.$filename.'.alaw -map 0:0 -map 0:0';
    $exec = $wget.' && '.$ffmpeg.' && rm '.$filename.'.mp3 '.$filename.'.wav';
    exec($exec);
}

echo 'STREAM FILE "'.$filename.'" ""'."\n";
fgets(STDIN);
exit(0);
?>

В моем Asterisk основным кодеком является alaw, по этому mp3 конвертирую сразу в alaw.

После 10 минут восторга, я вспомнил, что у Google есть возможность распознавать речь (как в поиске с мобильного телефона). Полазил по интернетам и нашел статью Управление голосом. Распознавание русской речи, где лежит пример на php для распознавания речи средствами Google.

Переписал код в форму AGI и получил (/var/lib/asterisk/agi-bin/voice.php):

#!/usr/bin/php -q
<?
$agivars = array();
while (!feof(STDIN)) {
    $agivar = trim(fgets(STDIN));
    if ($agivar === '')
        break;

    $agivar = explode(':', $agivar);
    $agivars[$agivar[0]] = trim($agivar[1]);
}
extract($agivars);

$filename = $_SERVER["argv"][1];

exec('flac -f -s '.$filename.'.wav -o '.$filename.'.flac');

$file_to_upload = array('myfile'=>'@'.$filename.'.flac');
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,"https://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=ru-RU");
curl_setopt($ch, CURLOPT_POST,1);
curl_setopt($ch, CURLOPT_HTTPHEADER, array("Content-Type: audio/x-flac; rate=8000"));
curl_setopt($ch, CURLOPT_POSTFIELDS, $file_to_upload);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
$result=curl_exec ($ch);
curl_close ($ch);

$json_array = json_decode($result, true);
$voice_cmd = $json_array["hypotheses"][0]["utterance"];

unlink($filename.'.flac');
unlink($filename.'.wav');

echo 'SET VARIABLE VOICE "'.$voice_cmd.'"'."\n";
fgets(STDIN);
echo 'VERBOSE ("'.$voice_cmd.'")'."\n";
fgets(STDIN);
exit(0);
?>

Google Speech API принимает звуковые файлы в формате flac и speex, из примера оставил flac.
В переменную ${VOICE} будет установлен распознанный текст.

Общий пример использование в extensions.ael:

s => {
        Answer();
        Wait(1);
        AGI(say.php,"Здравствуйте");
        AGI(say.php,"Пожалуйста");
        AGI(say.php,"Скажите имя сотрудника");
        Record(/tmp/${UNIQUEID}.wav,3,20);
        AGI(say.php,"Вы сказали");
        Playback(/tmp/${UNIQUEID});
        AGI(voice.php,/tmp/${UNIQUEID});
        AGI(say.php,"Система услышала");
        AGI(say.php,"${VOICE}");
        Hangup();
    };

Record записывает wav файл максимальной длиной 20 секунд и заканчивает запись после 3 секунд тишины.
Так как это тестовый пример мы прослушиваем сказанное и потом синтезируем распознаный текст.

Что можно сказать, Google — молодцы!
Теперь понятно как чистый Asterisk обучить синтезу и распознаванию речи, без использования Festival и Sphinx.

И если начальство попросит быстро сделать голосовую IVR менюшку, мы сможем удивить!

Добавил

Прочитал коментарий пользователя int80h, прочитал про миграцию с Google Translate API на Bing Translate API и подумал что во всем нужна альтернатива.

Версия 2.0
say.php с возможностью синтеза речи через Microsoft Translator:

#!/usr/bin/php -q
<?php
$agivars = array();
while (!feof(STDIN)) {
    $agivar = trim(fgets(STDIN));
    if ($agivar === '')
        break;
    $agivar = explode(':', $agivar);
    $agivars[$agivar[0]] = trim($agivar[1]);
}
extract($agivars);

$text = $_SERVER["argv"][1];
if (isset($_SERVER["argv"][2]) && in_array($_SERVER["argv"][2], array('g','m'))) $voice = $_SERVER["argv"][2];
else $voice = 'g';
if (isset($_SERVER["argv"][3])) $lang = $_SERVER["argv"][3];
else $lang = 'ru';

$md5 = md5($text.$voice.$lang);

$prefix = '/var/lib/asterisk/festivalcache/';
$appid = 'T0CQJrrwQ1NcJFlJshEfWTzaI18B4TzVvBKx9CDoLvf8*';
$filename = $prefix.$md5;

if (!file_exists($filename.'.alaw')) {
    if ($voice == 'm') {
        $ext = '.wav';
        exec('wget "http://api.microsofttranslator.com/V2/Http.svc/Speak?language='.$lang.'&format=audio/wav&options=MaxQuality&appid='.$appid.'&text='.$text.'" -O '.$filename.$ext);
    } else {
        $ext = '.mp3';
        exec('wget -U "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5" "http://translate.google.com/translate_tts?q='.$text.'&tl='.$lang.'" -O '.$filename.$ext);
    }

    if (@filesize($filename.$ext) > 0) {
        exec('ffmpeg -i '.$filename.$ext.' -ar 8000 -ac 1 -ab 64 -f alaw '.$filename.'.alaw -map 0:0');
    }

    unlink($filename.$ext);
}

if (file_exists($filename.'.alaw')) {
    echo 'STREAM FILE "'.$filename.'" ""'."\n";
    fgets(STDIN);
} else {
    echo 'VERBOSE ("Speech Error!")'."\n";
    fgets(STDIN);
}
exit(0);
?>

Microsoft отдает звук в формате wav (у mp3 качество нулевое) и просит какой-то Bing AppId (взял с сайта microsofttranslator.com, посмотрим сколько проживет).
Качество синтеза мне показалось хуже чем у Google, но ударение в именах ставит более правильно.

AGI(say.php,"Здравствуйте",m);

AGI(say.php,"Здравствуйте",${ГОЛОС},${ЯЗЫК});
${ГОЛОС} - может быть m или g (если опустить = g)
${ЯЗЫК} - ru, en и прочее (если опустить = ru)

Русский текст будет работать только при ru, английский будет всегда, но при ru будет «ломаным».
В тексте работают ударения (' перед гласной) и знаки препинания (например !) меняют интонацию.

PS: Заменил, что распознавание речи может выдавать пустой текст, но при повторной отправке того же файла, все проходит гладко, странно это :-)

Hubs:

Development of communication systems