Sleuthhound25 мая 2012 в 10:26

Использование Google Speech API для управления компьютером

3 мин

72K

Google API * Delphi *

Из песочницы

Комментарии 12

Hawkin 25 мая 2012 в 10:47

Режима постояннного поиска команд нету? :-[

Sleuthhound 25 мая 2012 в 11:02

Есть, это называется «Максимальный уровень сигнала для начала записи» и «Кол. срабатываний на макс. уровень» и рядом с ними галка для активации режима.

То есть работает режим так: постоянно анализируется уровень сигнала с микрофона, как только он превысит порог N раз, то начинается запись, как только уровень опуститься ниже минимума M раз, запись прекратиться и данные улетят в Google для распознавания.

Но постоянный поиск — это постоянная отправка запросов в Google и некоторые задержки в приеме команд, т.к. все делается в один поток. Как бы Google не обиделся при большом потоке шелухи.

Rai220 25 мая 2012 в 12:29

Пробовал сделать похожу программу — получилась такая штука: youtu.be/zNIlF-dxn-s

А вообще в Anodrid 4.0+ есть «непрерывное» распознавание речи. Если бы его использовать для распознавания, то проблемы с активацией не было бы.

Jey 25 мая 2012 в 16:25

я бы предложил ещё добавить сюда ключевую фразу для активации. т.е. что б можно иметь что-то вроде диалога: -компьютер; — слушаю; — включи музыку. для распознания ключевой фразы можно использовать встроенную в windows7 систему распознавания, ну или что-то простенькое своё, если есть такая возможность.

Sleuthhound 26 мая 2012 в 06:51

>>Пробовал сделать похожу программу — получилась такая штука: youtu.be/zNIlF-dxn-s

Это скорее аналог Siri для PC, у меня же это программ для управления компьютером в чистом виде.

>>ключевую фразу для активации. т.е. что б можно иметь что-то вроде диалога: -компьютер; — слушаю; — включи музыку. для распознания ключевой фразы можно использовать встроенную в windows7 систему распознавания, ну или что-то простенькое своё, если есть такая возможность.

С этим как раз есть сложности, свой алгоритм распознавания изобретать очень трудоемко, для этого есть специализированные аппаратные решения, которые как раз и использует Google.

Насколько я знаю, встроенная в Windows система распознавания не поддерживает русский язык.

Sleuthhound 26 мая 2012 в 06:54

>>> А вообще в Anodrid 4.0+ есть «непрерывное» распознавание речи. Если бы его использовать для распознавания, то проблемы с активацией не было бы.

Нужно поковыряться, что там придумали на этот счет. Возможно они используют возможности DSP процессора телефона, на обычном PC такое сложно сделать.

CyberLab 26 мая 2012 в 20:39

Оказывается я не один над подобной программой работаю
Вот так работает моя программа

Sleuthhound 27 мая 2012 в 14:44

>>Оказывается я не один над подобной программой работаю
>>Вот так работает моя программа

Мой проект несколько иной, у меня не стоит задача создания ИИ на основе нейронных сетей или чего то подобного. Я просто управляю компьютером посредством голосовых команд, логика тут жесткая, никакой полемики с компьютером я не веду, дана команда, если она распознана, то выполняется какое-то действие.

CyberLab 28 мая 2012 в 12:10

Программу планирую научить не только болтать, но и выполнять команды.
Программа создавалась для бытового робота

Sleuthhound 28 мая 2012 в 12:29

Можем попробовать объединить усилия, если интересно, то черкни в аську 161867489

hemn6vyr 21 июл 2013 в 16:53

Программа интересна. Хотел увидеть исходники, но, к сожалению, не нашёл их. Там только скомпиленные проекты.
Если можно и не жалко просьба выкинуть исходники :-)

Sleuthhound 4 сен 2013 в 08:45

Исходники в репозитарии code.google.com/p/mspeech/source/browse/#svn%2Ftrunk

Зарегистрируйтесь на Хабре, чтобы оставить комментарий