Как стать автором
Обновить

Комментарии 17

Прикольная идея. А каково качество распознавания? Как часто вместо «колбаса» получается «конь босой»?
Качество неплохое, если хорошо говорить. Но фамилии, например, особенное какие-нибудь «эдакие» могут и из 10 попыток ни разу не распознаться. Тут стоит понимать, что это дает общее представление о голосовом сообщении. Соответственно поняв о чем речь можно отсеять это сообщение или наоборот уделить ему пристальное внимание и прослушать звук.
Спасибо, в личку уже тоже написали.
Спасибо большое трем пользователям, кто сделал доброе дело и сообщил об опечатке в личку, плюс ребята разъяснили про то что 'скачек — это родительный падеж слова «скачки»'.
Да вообще классная штука, но пока как игрушка. Думал когда то, ну допилю распознование команд, или там ещё чего интерактивненького, а гугл возьми и прикроет апи, страшно.
Из мыслей — можно ведь потом просто другие движки прикрутить, пусть и не такие качественные. Главное, чтобы разработка своя была качественная, а адаптировать функцию по распознаванию можно позже к чему угодно. Мне просто хотелось раскрыть идею, казалось бы так просто, но настолько удобно получается.
Классно, как раз в google voice это именно так и работает. Причем текс который он распознал «не уверненно», google voice помечает сереньким.
Не зря сервис сообщает «confidence» — по нему как раз можно ориентироваться. Например, можно писать письма в html формате и там уже определять цвет текста исходя из «confidence». Спасибо, хороший вектор идеи с цветом.
Пробовал раньше использовать этот сервис Google, но почему-то стабильно возвращалось utterance пустым.
«Content-Type: audio/x-flac; rate=16000» -O — «www.google.com/speech-api/v1/recognize?lang=ru-RU&client=chromium»
В Content-Type указывается audio/x-flac для wav-файлов?
Я отправляю flac — вот тут конвертирование:
sox tmp.wav message.flac pad .1 0 rate 16k > /dev/null 2>&1
Лучше бы сделали простой способ: тыкнул кнопку адресата, поднял трубку, наговорил текст, текст отправился по мейлу в справочнике (это когда кнопку тыкал). А на приемной стороне человек берет зазвонившую трубку и прослушивает «мыло». Оплачиваем только интернет и электричество и больше никому и ничего=)
Предложение, конечно, интересное, но все же проще тогда mp3 файл пересылать по почте, а не так
«неточное распознавание» --> «некачественный синтез и отсутствие интонации». А с mp3 получится без испорченного телефона во-первых, во-вторых, система может обойтись без услуг Google.
А потребителю долампочки что именно будет гулять по сети: текстовые файлы или звук сжатый. Начать можно с звука — это проще всего и к этому все готово. Делов-то — написать оригинальный почтовик.
И почему этого до сих пор нет. Все IP-телефония =)
у гугла ограничение на длину распознаваемого текста есть. 'Привет, как дела, перезвони мне' наверное распознает, но на большее лучше не расчитывать.
Давайте продолжит мысль.
Когда нам нужна услуга доставки голоса в почту? Чаще если мы за границей.
Что нам нужно после пр. ослушивался / чтения сообщения? Ответить
Номер абонента, например МТС передает в теме письма с голосовым файлом.
Дальше есть два варианта:
1 подключиться к смс шлюзу, и при ответе на письмо отправлять его абоненту множеством смс
2 синхронизировать записную кишку с бд сервера, по мобильному номеру идентифицировать абонента и отправлять ответ на его е- почту

Есть еще и изощренные варианты.
Ответить на письмо текстом
Превратить его голов (text2vose)
Отправить входящщим звонком на номер из темы письма
Получить обратно на почту статут доставки звонка (до звонился не до звонился, сколько %записи прослушал
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории