Голос не в openHAB, а в виде отдельного сервиса TTS на машине, где крутится openHAB. Он в свою очередь предоставляет возможность вызова сервиса TTS с конкретной строкой для зачитывания. По сути можно поставить какой-угодно TTS с любыми голосами.
Здесь вы описываете, как делаете что-то «по-приколу» и «для себя», и на основе этого делаете вывод о том, что подход с распознаванием речи тупиковый… По крайней мере это странно. Мы же предлагаем попробовать вполне конкретный подход.
Про одну кнопку на клавиатуре — это и правда удобно когда она под рукой и когда для конкретной задачи нужно нажать только ОДНУ кнопку. А голосом зачастую можно сделать это быстрее и понятнее всем пользователям. Но это зависит конечно от конкретной задачи. Так что обобщать тут довольно сложно.
В умных домах как раз натяжки меньше всего — тк там вы имеете дело с множеством различных устройств, с разной функциональностью — в этом случае голос как единый способ управления всем очень подходит. Недаром именно это направление сейчас развивается активнее всего. То, чего вы не видите сейчас, инженеры как раз видят, и в ближайшем будущем продемонстрируют.
1. Свайпнул с экрана блокировки вверх — активировался микрофон
2. Сказал «Поставь Мадонну» (никто не заставляет вас сидеть около колонки)
3. Слушать музыку
Это всего лишь пример того, как API позволяет взаимодействовать с кучей разнородных устройств, а не только работать на смартфоне, выполняя всякие задачи.
Ваш пример с поисковиками неуместен, т.к. здесь речь идет не о поиске информации, а об управлении логикой приложений и устройств.
Голосовое управление удобно в массе случаев — в том числе и дома, где много устройств и под каждое пульт не найдешь.
В этой статье мы предлагаем сам API для сторонних разработчиков, а не конкретные решения. Разработчик может сделать так, чтобы его приложением как раз могла воспользоваться бабушка, если ей надо.
Читайте статью внимательнее — здесь речь немного о другом.
Сам принцип управления голосом заключается не только в распознавании голоса, а в понимании речи.
Наш API дает функцию «извлечения смысла» из фразы. Это и создает возможность сделать такое управление удобным — когда система «понимает» контекст, а не просто исполняет записанные команды.
Тем не менее, проблема качества распознавания в различных условиях и на различных девайсах конечно же остается, продолжает решаться, и вскоре, как мы надеемся, будут реализованы действительно принципиально новые подходы в этом направлении.
Насколько мне известно, это совершенно другой вид API — он чисто web-based. Другими словами, сами разработчики этого ассистента интегрируют в него функцию по отображению странички веб-сайта по некоторой команде.
API Ассистента на русском предлагает гораздо больше по части интеграции в само стороннее приложение. Здесь сам программист использует API для управления логикой своего приложения с помощью диалогов.
Мы вскоре в цикле статей опишем что прячется под капотом, что используется из алгоритмов.
То, что вы называете «шаблонные механизмы формирования ответов на вопросы» — здесь неуместно, т.к. вы сами видите, что приложение не просто формирует ответы на вопросы — оно поддерживает диалог, умеет понимать контекстные задачи и т.д.
Нейронные сети — это те же шаблоны кстати, только получаемые в процессе «обучения» — предоставления сети большого количества входных данных.
Вы можете сами попробовать апи. Его цель — предоставить разработчикам ДОСТУПНУЮ технологию речевого взаимодействия с пользователем.
На сайте http://voiceassistant.mobi все ссылки на документацию и примеры на github. Лицензирование — свободное, можете использовать в своих приложениях.
На разных устройствах гугл-распознавание может работать по-разному — все зависит от качества микрофона, шумов вокруг и многих других факторов. Но имена типа Позвони Васе — должно работать нормально. И естественно если фамилия в контакте редкая, то гугл может опросту о ней ничего не знать и вернуть совсем другой вариант. Для этого могут быть использованы другие системы распознавания под конкретные задачи.
В данном приложении — гугл. Но вообще, наша технология независима от системы распознавания — может применяться любая, заточенная под конкретные задачи.
Так никто не мешает использовать андроид-устройство в качестве точки входа для умного дома. Мы как раз и представляем человеческое апи для этих и многих других задач и бесплатно.
Берем кофеварку, подключаем в сеть через zwave розетку и командуем ассистенту — Умный дом включи кофеварку! А потом, когда ассистент поймет, что такое кофеварка и куда она включена, можно записать свою команду — Умный дом включи кофеварку когда услышишь фразу Свари мне кофе!
Для реализации не на мобильной платформе потребуется техническое оснащение в виде микрофонов и удобный способ активации, плюс решение по распознаванию речи. Сам облачный nlp мы откроем для всех разработчиков в ближайшем будущем.
Как и комментом ранее замечу, что статья не о приложении, а об апи, который позволяет сделать гораздо больше, чем представвленное на видео.
И кстати искать пульт несложно по-вашему? А пульт, который может управлять одновременно и светом и кондеем, и подключен к xbmc по вайфаю? Тем более, что активировать микрофон можно будет и без прикосновений со временем — одним только голосом. И кстати если уж речь о самом приложении — то с помощью него можно управлять и не только умным домом.
Про одну кнопку на клавиатуре — это и правда удобно когда она под рукой и когда для конкретной задачи нужно нажать только ОДНУ кнопку. А голосом зачастую можно сделать это быстрее и понятнее всем пользователям. Но это зависит конечно от конкретной задачи. Так что обобщать тут довольно сложно.
2. Сказал «Поставь Мадонну» (никто не заставляет вас сидеть около колонки)
3. Слушать музыку
Это всего лишь пример того, как API позволяет взаимодействовать с кучей разнородных устройств, а не только работать на смартфоне, выполняя всякие задачи.
Ваш пример с поисковиками неуместен, т.к. здесь речь идет не о поиске информации, а об управлении логикой приложений и устройств.
В этой статье мы предлагаем сам API для сторонних разработчиков, а не конкретные решения. Разработчик может сделать так, чтобы его приложением как раз могла воспользоваться бабушка, если ей надо.
Читайте статью внимательнее — здесь речь немного о другом.
Наш API дает функцию «извлечения смысла» из фразы. Это и создает возможность сделать такое управление удобным — когда система «понимает» контекст, а не просто исполняет записанные команды.
Тем не менее, проблема качества распознавания в различных условиях и на различных девайсах конечно же остается, продолжает решаться, и вскоре, как мы надеемся, будут реализованы действительно принципиально новые подходы в этом направлении.
API Ассистента на русском предлагает гораздо больше по части интеграции в само стороннее приложение. Здесь сам программист использует API для управления логикой своего приложения с помощью диалогов.
То, что вы называете «шаблонные механизмы формирования ответов на вопросы» — здесь неуместно, т.к. вы сами видите, что приложение не просто формирует ответы на вопросы — оно поддерживает диалог, умеет понимать контекстные задачи и т.д.
Нейронные сети — это те же шаблоны кстати, только получаемые в процессе «обучения» — предоставления сети большого количества входных данных.
Вы можете сами попробовать апи. Его цель — предоставить разработчикам ДОСТУПНУЮ технологию речевого взаимодействия с пользователем.
Собственно все ))
И кстати искать пульт несложно по-вашему? А пульт, который может управлять одновременно и светом и кондеем, и подключен к xbmc по вайфаю? Тем более, что активировать микрофон можно будет и без прикосновений со временем — одним только голосом. И кстати если уж речь о самом приложении — то с помощью него можно управлять и не только умным домом.