All streams
Search
Write a publication
Pull to refresh
74
0
Дмитрий Че @morfeusys

Программист

Send message
Голос не в openHAB, а в виде отдельного сервиса TTS на машине, где крутится openHAB. Он в свою очередь предоставляет возможность вызова сервиса TTS с конкретной строкой для зачитывания. По сути можно поставить какой-угодно TTS с любыми голосами.
В том и дело, что сейчас такой опции больше нет
Ну вы пока нигде и не встретите распознавание речи по конкретному голосу. Даже если это не гугл, а нюанс или еще что-то.
Здесь вы описываете, как делаете что-то «по-приколу» и «для себя», и на основе этого делаете вывод о том, что подход с распознаванием речи тупиковый… По крайней мере это странно. Мы же предлагаем попробовать вполне конкретный подход.
Про одну кнопку на клавиатуре — это и правда удобно когда она под рукой и когда для конкретной задачи нужно нажать только ОДНУ кнопку. А голосом зачастую можно сделать это быстрее и понятнее всем пользователям. Но это зависит конечно от конкретной задачи. Так что обобщать тут довольно сложно.
В умных домах как раз натяжки меньше всего — тк там вы имеете дело с множеством различных устройств, с разной функциональностью — в этом случае голос как единый способ управления всем очень подходит. Недаром именно это направление сейчас развивается активнее всего. То, чего вы не видите сейчас, инженеры как раз видят, и в ближайшем будущем продемонстрируют.
1. Свайпнул с экрана блокировки вверх — активировался микрофон
2. Сказал «Поставь Мадонну» (никто не заставляет вас сидеть около колонки)
3. Слушать музыку

Это всего лишь пример того, как API позволяет взаимодействовать с кучей разнородных устройств, а не только работать на смартфоне, выполняя всякие задачи.

Ваш пример с поисковиками неуместен, т.к. здесь речь идет не о поиске информации, а об управлении логикой приложений и устройств.
Голосовое управление удобно в массе случаев — в том числе и дома, где много устройств и под каждое пульт не найдешь.
В этой статье мы предлагаем сам API для сторонних разработчиков, а не конкретные решения. Разработчик может сделать так, чтобы его приложением как раз могла воспользоваться бабушка, если ей надо.
Читайте статью внимательнее — здесь речь немного о другом.
Сам принцип управления голосом заключается не только в распознавании голоса, а в понимании речи.
Наш API дает функцию «извлечения смысла» из фразы. Это и создает возможность сделать такое управление удобным — когда система «понимает» контекст, а не просто исполняет записанные команды.
Тем не менее, проблема качества распознавания в различных условиях и на различных девайсах конечно же остается, продолжает решаться, и вскоре, как мы надеемся, будут реализованы действительно принципиально новые подходы в этом направлении.
Насколько мне известно, это совершенно другой вид API — он чисто web-based. Другими словами, сами разработчики этого ассистента интегрируют в него функцию по отображению странички веб-сайта по некоторой команде.
API Ассистента на русском предлагает гораздо больше по части интеграции в само стороннее приложение. Здесь сам программист использует API для управления логикой своего приложения с помощью диалогов.
Голосовой интерфейс неудобен только в случае неудобной реализации. Сделать реализацию удобной — в этом и состоит смысл нашего апи.
Мы вскоре в цикле статей опишем что прячется под капотом, что используется из алгоритмов.
То, что вы называете «шаблонные механизмы формирования ответов на вопросы» — здесь неуместно, т.к. вы сами видите, что приложение не просто формирует ответы на вопросы — оно поддерживает диалог, умеет понимать контекстные задачи и т.д.
Нейронные сети — это те же шаблоны кстати, только получаемые в процессе «обучения» — предоставления сети большого количества входных данных.
Вы можете сами попробовать апи. Его цель — предоставить разработчикам ДОСТУПНУЮ технологию речевого взаимодействия с пользователем.
На сайте http://voiceassistant.mobi все ссылки на документацию и примеры на github. Лицензирование — свободное, можете использовать в своих приложениях.
По-моему никаких проблем.
На разных устройствах гугл-распознавание может работать по-разному — все зависит от качества микрофона, шумов вокруг и многих других факторов. Но имена типа Позвони Васе — должно работать нормально. И естественно если фамилия в контакте редкая, то гугл может опросту о ней ничего не знать и вернуть совсем другой вариант. Для этого могут быть использованы другие системы распознавания под конкретные задачи.
В данном приложении — гугл. Но вообще, наша технология независима от системы распознавания — может применяться любая, заточенная под конкретные задачи.
Так никто не мешает использовать андроид-устройство в качестве точки входа для умного дома. Мы как раз и представляем человеческое апи для этих и многих других задач и бесплатно.
Берем кофеварку, подключаем в сеть через zwave розетку и командуем ассистенту — Умный дом включи кофеварку! А потом, когда ассистент поймет, что такое кофеварка и куда она включена, можно записать свою команду — Умный дом включи кофеварку когда услышишь фразу Свари мне кофе!

Собственно все ))
Для реализации не на мобильной платформе потребуется техническое оснащение в виде микрофонов и удобный способ активации, плюс решение по распознаванию речи. Сам облачный nlp мы откроем для всех разработчиков в ближайшем будущем.
Да вы можете и сами попробовать — для этого мы анонсировали апи )) Управлять навигатором или даже реализовать Джарвиса — все это можно без проблем.
Как и комментом ранее замечу, что статья не о приложении, а об апи, который позволяет сделать гораздо больше, чем представвленное на видео.
И кстати искать пульт несложно по-вашему? А пульт, который может управлять одновременно и светом и кондеем, и подключен к xbmc по вайфаю? Тем более, что активировать микрофон можно будет и без прикосновений со временем — одним только голосом. И кстати если уж речь о самом приложении — то с помощью него можно управлять и не только умным домом.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity