Ну это только вы )) и сколько же у них ограничения? )) вообще-то под андроидом ограничения нет, но все же — слушать постоянно голос в облаке… это как-то что-то странно… И гугл будет очень недоволен, если это будет делать еще хотя бы пара тысяч человек…
Шум не любит не покетсфинкс, а я конкретная аккустическая модель. Если натренеровать свою — будет работать и в шуме.
Если постоянно слушать эфир… Ну что тут сказать — трафик плюс гугл в конечном итоге откажет вашему приложению в обслуживании, как только вашей системой начнете пользоваться не только вы…
Первая проблема — не проблема. Решается за счет правильно написанной грамматики (garbage) и фильтрации результат по score, который можно легко посчитать. Это обычная практика для распознавания на базе контекстно-свободной грамматики.
Второе — «в разы понижает удобство»??? Я как-то не заметил этого «в разы». А вы гуглом все время слушаете эфир на предмет команды?? Ого… Гугл вас забанит или весь трафик съест )) Плюс гугл любит становиться «недоступным» — это все же облачный сервис…
Третье — еще все зависит от микрофона. Вы говорите что гугл распознает с нескольких метров?? Не поверю. Гугл распознавание рассчитано на небольшое расстояние. А в шуме вы от него вообще не добьетесь результата на расстоянии метра.
Статья классная! Но ребят, то о чем вы рассказываете — далеко не обработка естественного языка…
Гораздо интереснее варианты типа «выключи весь свет и кондиционеры в комнатах когда я уйду из дома» или «уменьши яркость всего освещения кроме настольный лампы», «а теперь сделай побольше». Притом что умный дом — это далеко не только розетки…
Для задач типа вашей — вот например уже с голосовым управлением сразу http://habrahabr.ru/post/237589/
Для задач с естественным языком — есть множество гораздо более гибких подходов с извлечением смысла из фразы и поддержанием контекста и диалога. И причем с открытым API типа http://habrahabr.ru/company/ifree/blog/202132/
Если будет интересно — давайте пообщаемся. Мы занимаемся той же темой.
Есть еще по тапу на виджет. Или с бт гарнитуры. Или из шторки — быстрый старт. У Дуси активаций масса. Читайте внимательнее.
Если у вас разблокируется при графическом ключе — то это уже проблемы вашей прошивки.
Уязвимости? Ээ… Так поставьте графический ключик. Хотя Если ваш телефон в руки взял злоумышленник — то пенять тут на ассистента без толку, ваши данные и без него станут доступны.
Кстати все виды активации можно вообще выключить. Так что об «уязвимостях» тут говорить неуместно.
Ну теоретически можно. Но на какой движок и зачем вы будете это отправлять? Тем более если вы что-то сказали, то pocketsphinx все равно вернет вам какую-то гипотезу по грамматике.
Это вещи на стыке разных технологий. Задача процессинга текста по сути никак не связана с распознаванием. Также как и распознавание с процессингом. Но при реализации в единой парадигме можно решать обе задачи более эффективно.
Грамматики тут не принимают участия. Если вы про активацию голосом. В активации голосом нужно подбирать подходящее значение порога.
Плюс еще важно, что активационная фраза не должна быть короткой. Примерно 2 слова по 2-3 слога в каждом. Необходимо также очень аккуратно писать транскрипции.
Лимитов нет никаких.
Если постоянно слушать эфир… Ну что тут сказать — трафик плюс гугл в конечном итоге откажет вашему приложению в обслуживании, как только вашей системой начнете пользоваться не только вы…
Второе — «в разы понижает удобство»??? Я как-то не заметил этого «в разы». А вы гуглом все время слушаете эфир на предмет команды?? Ого… Гугл вас забанит или весь трафик съест )) Плюс гугл любит становиться «недоступным» — это все же облачный сервис…
Третье — еще все зависит от микрофона. Вы говорите что гугл распознает с нескольких метров?? Не поверю. Гугл распознавание рассчитано на небольшое расстояние. А в шуме вы от него вообще не добьетесь результата на расстоянии метра.
Гораздо интереснее варианты типа «выключи весь свет и кондиционеры в комнатах когда я уйду из дома» или «уменьши яркость всего освещения кроме настольный лампы», «а теперь сделай побольше». Притом что умный дом — это далеко не только розетки…
Для задач типа вашей — вот например уже с голосовым управлением сразу http://habrahabr.ru/post/237589/
Для задач с естественным языком — есть множество гораздо более гибких подходов с извлечением смысла из фразы и поддержанием контекста и диалога. И причем с открытым API типа http://habrahabr.ru/company/ifree/blog/202132/
Если будет интересно — давайте пообщаемся. Мы занимаемся той же темой.
Какие результаты вы бы предложили отправлять через mqtt???
и в умный дом еще
Если у вас разблокируется при графическом ключе — то это уже проблемы вашей прошивки.
Кстати все виды активации можно вообще выключить. Так что об «уязвимостях» тут говорить неуместно.
Плюс еще важно, что активационная фраза не должна быть короткой. Примерно 2 слова по 2-3 слога в каждом. Необходимо также очень аккуратно писать транскрипции.