Faight 21 сен 2016 в 17:04

Использование Google Cloud Speech API v2 в Asterisk для распознавания русской речи

6 мин

45K

API*Google API*Яндекс API*Asterisk*

Из песочницы

+20

Комментарии 10

varnav 21 сен 2016 в 18:18

Каков процент правильно распознанных фраз в реальных условиях?

Faight 21 сен 2016 в 23:06

К концу следующей недели смогу сказать, когда будет больше данных. Предварительно 80-90%.

fleaump 22 сен 2016 в 12:25

У яндекса для длинных аудиофайлов надо нормально разбивать на чанки во время отправки, либо воспользоваться их утилитой на питоне, и всё замечательно распознается

Deq56 22 сен 2016 в 12:42

Использую его для распознования фамилий, очень плохо распознает. Самый большой минус нельзя указать предметную область.

datalink 21 сен 2016 в 19:08

А попробуйте вот это

sox test.wav -r 16000 -b 16 -c 1 test.raw

вместе со Speechkit

curl -X POST -H «Content-Type: audio/x-pcm;bit=16;rate=16000» --data-binary "@test.raw" «https://asr.yandex.net/asr_xml?uuid=<идентификатор пользователя>&key=<API-ключ>&topic=queries»

есть ли разница с первоначальным?

еще есть вариант через потоковое апи/клиент, это более правильный способ для длинных фраз https://github.com/yandex/speechkitcloud/tree/master/python

Faight 21 сен 2016 в 23:11

А попробуйте вот это

Безрезультатно.

еще есть вариант через потоковое апи/клиент, это более правильный способ для длинных фраз

Спасибо за ссылку, проглядел ее в документации! Обязательно попробую, когда будет время. Есть пара идей, как это можно использовать.

alekseev_ap 21 сен 2016 в 19:18

Очень интересно, продолжайте писать на эту тему!

Sleuthhound 21 сен 2016 в 21:26

Есть проект https://github.com/zaf/asterisk-speech-recog
Вот только не знаю работает ли он с новым Google Cloud Speech API, со старым v2 (https://www.google.com/speech-api/v2/recognize) он прекрасно работает, но все упирается в ключ от старого API, их уже не выдают, благо я в свое время отхватил безлимитный и надеюсь пожизненный, так что пока работаю с ним.

it2manager 22 сен 2016 в 12:42

Распознавание сильно зависит от качества потока. Мы, для исправления ситуации, меняли кодек на шлюзах с 729 на 711 — разница в распознавании значительна.

Wicron 17 ноя 2016 в 13:01

Как заставить вашу систему распознавать сигнал, записанный с частотой дискретизации 48 кГц?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Использование Google Cloud Speech API v2 в Asterisk для распознавания русской речи

Комментарии 10

Публикации

Истории