Как стать автором
Обновить

Комментарии 10

Каков процент правильно распознанных фраз в реальных условиях?
К концу следующей недели смогу сказать, когда будет больше данных. Предварительно 80-90%.
У яндекса для длинных аудиофайлов надо нормально разбивать на чанки во время отправки, либо воспользоваться их утилитой на питоне, и всё замечательно распознается
Использую его для распознования фамилий, очень плохо распознает. Самый большой минус нельзя указать предметную область.
А попробуйте вот это
sox test.wav -r 16000 -b 16 -c 1 test.raw

вместе со Speechkit
curl -X POST -H «Content-Type: audio/x-pcm;bit=16;rate=16000» --data-binary "@test.raw" «https://asr.yandex.net/asr_xml?uuid=<идентификатор пользователя>&key=<API-ключ>&topic=queries»

есть ли разница с первоначальным?

еще есть вариант через потоковое апи/клиент, это более правильный способ для длинных фраз https://github.com/yandex/speechkitcloud/tree/master/python
А попробуйте вот это


Безрезультатно.

еще есть вариант через потоковое апи/клиент, это более правильный способ для длинных фраз


Спасибо за ссылку, проглядел ее в документации! Обязательно попробую, когда будет время. Есть пара идей, как это можно использовать.
Очень интересно, продолжайте писать на эту тему!
Есть проект https://github.com/zaf/asterisk-speech-recog
Вот только не знаю работает ли он с новым Google Cloud Speech API, со старым v2 (https://www.google.com/speech-api/v2/recognize) он прекрасно работает, но все упирается в ключ от старого API, их уже не выдают, благо я в свое время отхватил безлимитный и надеюсь пожизненный, так что пока работаю с ним.
Распознавание сильно зависит от качества потока. Мы, для исправления ситуации, меняли кодек на шлюзах с 729 на 711 — разница в распознавании значительна.
Как заставить вашу систему распознавать сигнал, записанный с частотой дискретизации 48 кГц?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации