Комментарии 15
Asterisk всё больше и больше набирает популярность — что не может не радовать!
+3
Красиво. А насколько реально таким же образом сохранять текстовые «конспекты» звонков? Я имею в виду — что, если после разговора отправить его запись на распознавание — получим ли мы более или менее читабельный результат?
+4
кстати да очень интересно!? Пробовали? Есть какие результаты?
+1
Нет, к сожалению. Вот только пришла в голову такая идея, после прочтения поста. Планирую сейчас и попробовать.
+2
Классно! Спасибо.
По поводу записи диктовки, шансов на вменяемый текст — мало. Для примера, можно прочитать небольшой отрывок из любого текста. При длинном предложении распознавание начинает сильно тупить.
По поводу записи диктовки, шансов на вменяемый текст — мало. Для примера, можно прочитать небольшой отрывок из любого текста. При длинном предложении распознавание начинает сильно тупить.
+1
Для диктовки мне кажется надо использовать WebSpeechAPI
www.google.com/intl/en/chrome/demos/speech.html
www.google.com/intl/en/chrome/demos/speech.html
0
Подписываюсь на результаты проб распознавания звонков.
У Яндекса в этом API есть ограничение на размер файла, но у них есть возможность загружать большие файлы отдельным образом — они мне даже python-скрипт присылали, который все типа правильно засылает к ним.
У Яндекса в этом API есть ограничение на размер файла, но у них есть возможность загружать большие файлы отдельным образом — они мне даже python-скрипт присылали, который все типа правильно засылает к ним.
0
Подобная система.
Тоже на Asterisk сделана.
Тоже на Asterisk сделана.
+1
На базе технологий Центра Речевых Технологий. Если бы у ЦРТ был публичный HTTP API для распознавания (для синтеза речи у ЦРТ есть voicefabric.ru), то можно было бы к voicer'у прикрутить как яндекс и google.
Но… решение ЦРТ приобретается в виде MRCP-сервера и интегрируется через Asterisk Speech Recognition API ( wiki.asterisk.org/wiki/display/AST/Speech+Recognition+API), что приводит нас к несколько иному виду системы. Схема от ЦРТ www.speechpro.ru/files/product/barishnya/images/barishnya_837.jpg
Спасибо за наводку: ЦРТ открыл демо-доступ к Барышне, заценил интерфейс bar.speechpro.ru и примеры файлов грамматик bar.speechpro.ru/grammars/ALL.xml
В Барышне ведется учет обращений и топ популярных запросов на распознавание. Может добавить в voicer?
Но… решение ЦРТ приобретается в виде MRCP-сервера и интегрируется через Asterisk Speech Recognition API ( wiki.asterisk.org/wiki/display/AST/Speech+Recognition+API), что приводит нас к несколько иному виду системы. Схема от ЦРТ www.speechpro.ru/files/product/barishnya/images/barishnya_837.jpg
Спасибо за наводку: ЦРТ открыл демо-доступ к Барышне, заценил интерфейс bar.speechpro.ru и примеры файлов грамматик bar.speechpro.ru/grammars/ALL.xml
В Барышне ведется учет обращений и топ популярных запросов на распознавание. Может добавить в voicer?
+1
Тогда теряется скорость набора. Я, например, даже убрал приветствие, заменив ее коротким бипом. Бип, «Лёня Голубков мобильный», и пошел вызов. Или «попробуйте еще раз».
Но, в целом, часто действительно требуется подтверждение, поэтому можно отправить распознаное на TTS для получения записи. Для этого в моих npm-ках yandex-speech, google-speech есть и на TTS обертка.
Но, в целом, часто действительно требуется подтверждение, поэтому можно отправить распознаное на TTS для получения записи. Для этого в моих npm-ках yandex-speech, google-speech есть и на TTS обертка.
0
Мы пользуемся внутри ЦРТ Барышней уже 4 года.
Могу сказать, что мы ее долго «пилили», что бы ей было действительно удобно пользоваться в реальной жизни.
Например, при ошибках распознавания мы ранее говорили об этом абоненту и предлагали повторить запрос, на это уходило 3-5 сек. Когда ты пользуешься системой каждый день по 50 раз, то знаешь наизусть все фразы и они сильно раздражают. Поэтому у нас сейчас вместо многих сообщений просто короткие но разные звуковые «бибигалки».
В результате у нас 2 версии системы: для внешнего мира и неподготовленного пользователя и для внутреннего пользования с максимально быстрым взаимодействием, без всяких «бла-бла». В этом случае она реально удобнее и быстрее DTMF.
Могу сказать, что мы ее долго «пилили», что бы ей было действительно удобно пользоваться в реальной жизни.
Например, при ошибках распознавания мы ранее говорили об этом абоненту и предлагали повторить запрос, на это уходило 3-5 сек. Когда ты пользуешься системой каждый день по 50 раз, то знаешь наизусть все фразы и они сильно раздражают. Поэтому у нас сейчас вместо многих сообщений просто короткие но разные звуковые «бибигалки».
В результате у нас 2 версии системы: для внешнего мира и неподготовленного пользователя и для внутреннего пользования с максимально быстрым взаимодействием, без всяких «бла-бла». В этом случае она реально удобнее и быстрее DTMF.
+1
И это я вам рассказывал в предыдущем комментарии как устроено взаимодействие Барышни с астериском? Больше не буду: )
В РЖД недавно встречал на одном из номеров 8-800 сервис проверки наличия билетов, и там есть распознавание станции отправления и прибытия. Это не технологии ЦРТ?
В РЖД недавно встречал на одном из номеров 8-800 сервис проверки наличия билетов, и там есть распознавание станции отправления и прибытия. Это не технологии ЦРТ?
0
Да, это один из наших первых крупных проектов. Там стоит распознавание слитной речи. Можно в одном предложении сказать куда хотите поехать, откуда и когда и она вам зачитает список поездов и свободные места в них. Подробнее здесь.
+1
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Быстрый голосовой набор на Asterisk