Как стать автором
Обновить

Комментарии 74

Круто, интересно, но, купив ваше приложение и побаловавшись пару часов больше его не использую, просто неудобно и всё тут. А в случае с домом так это вообще — достать телефон, разблокировать (всё, уже надоело), запустить программу, внятно, напрягая речь, сказать, что хочешь, дождаться результата. Пара-тройка таких действий может вывести из себя, куда проще взять пульт и включить-выключить-перемотать.
В этой статье рассказывается больше о самой платформе создания голосовых ассистентов. Процесс активации микрофона со временем может быть совершенно другим — активация голосом, сенсорами и т.п. Взять пульт и включить-выключить конечно можно, но зачастую все гораздо быстрее за счет голоса — поставить нужный трек, перемотать, включить громкость процентов на 10 и т.п. Мы сейчас показываем кейсы, которые могут быть реализованы сторонними программистами гораздо лучше!
Технология мне понравилась на самом деле, качество распознавания отличное, синтез речи тоже хорош. Только применение хромает.
А вот с «быстрее за счет голоса» готов поспорить. В ролике есть фраза — включи фильм — а какой фильм, непонятно, название сказать — поймет? Или поймет — включи фильм, который я вчера вечером скачал, не помню как называется. Или вот я скажу — включи последний альбом Beneath the Massacre, имея в виду последний не в дискографии, а в моей папке с музыкой, и, кстати, как распознается английская речь в моём «идеальном» произношении? А, например, — перемотай до барабанного соло?
Можно привести миллион примеров, но статья не об этом же :)
Название фильма поймет. Даже если название сказать не полностью, или не совсем правильно. Также и музыку — сказать если «Включи Мадонну». Посмотрите на канале в ютюбе.
Статья дает описание того, как можно реализовать все эти возможности, и даже как сделать это лучше, чем на видео — все в руках программиста, который использует технологию.
Расценивайте это как первый шаг, представьте что лет через 10 эта система будет иметь микрофон в каждой комнате, с небольшим компом на стене, который будет все это обрабатывать. Приходите домой, говорите что-то в стиле «Привет, дом», система включает вам свет, чтобы вы разделись, спрашивает, подогреть ли еды, вы проходите, садитесь на диван, просите чтобы система подобрала вам фильм «с интересным финалом», она на основе ваших предпочтений выбирает фильмец и так далее. В таком виде это действительно может быть удобнее чем управление при помощи пультов.
Свет включает простейший датчик присутствия, а вот еду как подогревать? Кто-то же ее в подогревательный механизм должен был поставить? А если это борщ, который к вечеру просто скиснет, если стоит не в холодильнике? :) Или после команды «Подогрей мне еды» система будет переводить холодильник в режим нагрева? А что, минут через 15 там и вареные яйца и жаренная колбаса и борщ горячий, вареная сгущенка, печеные яблоки, картошка в мундире, ммм…
Насчет «интересного финала» вы тоже загнули. Т.е. это я после просмотра каждого фильма должен буду заполнять анкету «почему мне понравился или не понравился этот фильм», чтобы система хоть как то адекватно реагировала.
Это я к чему тут изливаюсь — без искусственного интеллекта тут не обойтись.
Заполнять не надо. Просто будет достаточно сказать «больше артхауса от этого режиссера не качать»
Холодильник с микроволновкой и грилем давно пора объединять, кстати. А так же с посудомойкой и шкафом для посуды.
Вы забыли сказать, что пульт надо еще найти! А телефон в большинстве с тобой. Да и почему именно телефон, помошнитк может быть встроен в любой андроид, а он в свою очередь находиться всегда дома и реагировать на голосовую команду?!
А этот API можно использовать как сервис из моего Java приложения? Или только Android?
Это только Android на данный момент.
Очень жаль…
Все зависит от того, что вы хотите использовать в качестве сервиса в таком случае. Облачное решение для nlu будет вскоре открыта в составе данной технологии.
Хочу научить мой «умный дом» говорить и понимать меня)… Не могу найти для этого нормального решения не под windows.
присоединяюсь к предыдущему оратору.
Я бы купил за разумные деньги такую услугу на сервисе (а еще круче оффлайн).

ЗЫ: так же для «хитрого дома».
Присоединяюсь. Очень интересна платформа для общения с пользователем, причем не только как пользователю, но и как компании.
Для реализации не на мобильной платформе потребуется техническое оснащение в виде микрофонов и удобный способ активации, плюс решение по распознаванию речи. Сам облачный nlp мы откроем для всех разработчиков в ближайшем будущем.
Микрофоны — не проблема. Активация… Вот тут как раз, как мне кажется проще, чем на мобильных устройствах — можно как раз постоянно слушать звук на предмет нужной фразы, не считаясь с затратами процессора и энергии.
Хочу научить мой «безумный дом» варить мне кофе… Но кроме хотения я ничего не предпринимаю в этом направлении :(
Берем кофеварку, подключаем в сеть через zwave розетку и командуем ассистенту — Умный дом включи кофеварку! А потом, когда ассистент поймет, что такое кофеварка и куда она включена, можно записать свою команду — Умный дом включи кофеварку когда услышишь фразу Свари мне кофе!

Собственно все ))
Таких решение нет.
Пытаюсь его сделать уже пару месяцев как. Офлайн распознавание + синтез речи + некое подобие ИИ на AIML.

Если Вы сильны в Си то пишите, расскажу суть и чем сможете помочь.
Это действительно очень здорово. Искренне надеюсь, что ваш проект продолжит свое успешное развитие и дальше.
Спасибо! Да, мы не намерены останавливаться, это только начало.
Насколько я знаю более Google Now предоставляет API начиная с версии 4.4?
Дайте ссылку, плиз.
Google Now в 4.4 позволяет только открыть ваше приложение по некоторому запросу — здесь не идет речи о голосовом управлении функциями самого приложения, не выходя из ассистента.
Тоже пробовал приложение. Конечно классно, но надоедает. Голос не очень приятный. Я думаю, что люди скорее предпочтут пощёлкать пультом, чем искать телефон, вспоминать графический ключ, искать в меню ассистента и диктовать (про виджеты знаю). Это просто никому ненужно. Apple никогда не делала или делала что то просто так.
Основная проблема взаимодействия — нет толковой возможности просто спросить и получить ответ. Без всяких доставаний-разблокировок и прочего. Банальный паттерн поведения — отложить будильник на пять минут голосом, когда телефон на зарядке, а ты в кровати. Или опять-же голосом узнать текущее время из той же диспозиции.
Действительно, на данный момент самая главная проблема Ассистента — это его быстрый запуск. Знаем, работаем над этим, и так или иначе мы его (быстный запуск) реализуем.

Главная проблема здесь — это то, что постоянное слушанье аудио-канала — довольно энергозатратная операция, и без поддержки со стороны железа (и/или ОС) сделать такой кейс, мягко говоря, затруднительно. Например Moto X для того чтобы отзываться на «Ok, Google» имеет себе сопроцессор который никогда не спит.

У нас есть в запасе также другие подходы к проблеме быстрого запуска Ассистента, мы экспериментируем, отлаживаем, выбираем.

Следите за обновлениями.
Не только запуск, но и модальные окна «не удалось распознать фразу». Они тоже заставляют брать аппарат в руки, чтобы продолжить готовить.
Громко крикнуть на улице «будильник на [текущее время]» станет распространенной шуткой.
Формат це, ентер, ентер!
Как и комментом ранее замечу, что статья не о приложении, а об апи, который позволяет сделать гораздо больше, чем представвленное на видео.
И кстати искать пульт несложно по-вашему? А пульт, который может управлять одновременно и светом и кондеем, и подключен к xbmc по вайфаю? Тем более, что активировать микрофон можно будет и без прикосновений со временем — одним только голосом. И кстати если уж речь о самом приложении — то с помощью него можно управлять и не только умным домом.
Выглядит крайне футуристично. А вы не думали добавить в систему сарказм? Получился бы Джарвис 0.01
А ещё систему можно встроить в навигатор на андроиде и держать в машине. Получится K.I.T.
А ещё мне надо купить губозакатывалку.
А ещё можно продавать наборы вот таких маленьких GPS-штук www.xakep.ru/post/61581/
После этого, спросив у системы «Где этот пульт от телевизора?» можно получить точный ответ.
Да вы можете и сами попробовать — для этого мы анонсировали апи )) Управлять навигатором или даже реализовать Джарвиса — все это можно без проблем.
Немного упустил момент: технология распознавания речи используется собственная или же применяется решение от Google?
В данном приложении — гугл. Но вообще, наша технология независима от системы распознавания — может применяться любая, заточенная под конкретные задачи.
Круто, чо! Жаль, никто не пилит oss-аналогов…
а вот создать открытую технологию диалоговой системы (с поддержанием контекста, извлечением смысла и т.д.) не удавалось еще никому
Это точно :(
Плюсую. В принципе, понимаю, что разработчикам тоже хочется кушать хлеб с маслом (и с икоркой, ага). Но… Я готов заплатить разумные деньги, но дайте человеческое API! У меня есть Андроид, но у меня есть и своя система умного дома, в которую я бы хотел принести такое решение.
Так никто не мешает использовать андроид-устройство в качестве точки входа для умного дома. Мы как раз и представляем человеческое апи для этих и многих других задач и бесплатно.
Тогда мне не понятна модель лицензирования. На каких условиях предоставляется API? Где можно посмотреть примеры?
На сайте http://voiceassistant.mobi все ссылки на документацию и примеры на github. Лицензирование — свободное, можете использовать в своих приложениях.
Голос как то коряво распознаётся, заставить набрать номер из тел. справочника просто нереально :(
На разных устройствах гугл-распознавание может работать по-разному — все зависит от качества микрофона, шумов вокруг и многих других факторов. Но имена типа Позвони Васе — должно работать нормально. И естественно если фамилия в контакте редкая, то гугл может опросту о ней ничего не знать и вернуть совсем другой вариант. Для этого могут быть использованы другие системы распознавания под конкретные задачи.
Он сможет распознать слова типа Филипс, Кокакола, Хюндай?
Только что попробовал, все распозналось (хюндай со второго раза, правда).
По-моему никаких проблем.
Скажите честно, Вы используете нейронные сети или машинное алгоритмы обучение для совершенствования исполнения команд? Про распознавание и синтез я не говорю, это не ваши алгоритмы.
Если нет (не используете), то заголовок «Искусственный интеллект под Android с открытым API» как минимум, вводит в заблуждение людей. Звучит громко, но если за ним стоит только шаблонные механизмы формирования ответов на вопросы, то грустно как-то.
Мы вскоре в цикле статей опишем что прячется под капотом, что используется из алгоритмов.
То, что вы называете «шаблонные механизмы формирования ответов на вопросы» — здесь неуместно, т.к. вы сами видите, что приложение не просто формирует ответы на вопросы — оно поддерживает диалог, умеет понимать контекстные задачи и т.д.
Нейронные сети — это те же шаблоны кстати, только получаемые в процессе «обучения» — предоставления сети большого количества входных данных.
Вы можете сами попробовать апи. Его цель — предоставить разработчикам ДОСТУПНУЮ технологию речевого взаимодействия с пользователем.
Интересный вариант. Надо будет попробовать разобраться с API.
Я у себя для управления умным домом на MajorDoMo делал следующим образом — смартфон/планшет на Android + Tasker +AutoVoice plug-in + Bluetooth-гарнитура. Tasker/Autovoice настроены так, что пытаются распознать все звуки и по произношению «триггерного» слова (в моём случае это «Алиса, ...») передают всю фразу на сервер, а там уже средствами MajorDoMo идёт обработка фразы на команды («включи музыку», «открой пожалуйста гараж» и т.п.). Можно вместо триггерного слова начинать распознавание речи по нажатию кнопки на гарнитуре.
Честно говоря, на практике не часто пользуюсь — голосовой интерфейс не самый удобный, но со стороны впечатляет :)
Голосовой интерфейс неудобен только в случае неудобной реализации. Сделать реализацию удобной — в этом и состоит смысл нашего апи.
Я не против — сделайте удобно и все будут только рады. Интересно, как апи может сделать более удобным сам принцип управления голосом? Ваше апи упрощает получение описанного мной результата — приём и обработку голосовых команд, это на самом деле здорово. Я просто не считаю голосовое управление само по себе очень удобным. Это не камень в ваш огород, вовсе нет. Как раз появление новых удобных приложений, на основе удобных API эту ситуацию может исправить.
Сам принцип управления голосом заключается не только в распознавании голоса, а в понимании речи.
Наш API дает функцию «извлечения смысла» из фразы. Это и создает возможность сделать такое управление удобным — когда система «понимает» контекст, а не просто исполняет записанные команды.
Тем не менее, проблема качества распознавания в различных условиях и на различных девайсах конечно же остается, продолжает решаться, и вскоре, как мы надеемся, будут реализованы действительно принципиально новые подходы в этом направлении.
молодцы, неплохая идея и реализация, как я могу посудить, тоже.

Советую еще посмотреть на проект Voicesphere:
techcrunch.com/2013/10/28/voicesphere-brings-voice-control-to-facebook-instagram-others-enterprise-apps-coming-next/
voicesphere.herokuapp.com/

Обратите внимание на то как происходит интеграция API для стороннего приложения (скажем spotify) и системы распознавания команд.
Проект этот еще совсем сырой, но посмотреть на чужие решения одинаковых задач, я думаю, было бы полезно. В том числе и с точки зрения маркетинга.

Удачи!
Насколько мне известно, это совершенно другой вид API — он чисто web-based. Другими словами, сами разработчики этого ассистента интегрируют в него функцию по отображению странички веб-сайта по некоторой команде.
API Ассистента на русском предлагает гораздо больше по части интеграции в само стороннее приложение. Здесь сам программист использует API для управления логикой своего приложения с помощью диалогов.
Мне вообще вот что интересно: а такие вещи в принципе востребованы людьми? Впечатление, что это просто фишка из фантастического фильма, а не что-то, что будет оценено пользователями как полезное. Вот в новых смартфонах Самсунга — управление глазами, жестами итд итп. Много ли людей этим пользуется именно для дела, а не для развлечения и демонстрации телефона друзьям?

К тому же, в приведённом видео: человек задаёт роботу вопрос о погоде. Вместо того, чтобы дать человеческий ответ типа «Да там прохладно (подразумевая — по сравнению со вчерашним днём), одевайся потеплее (в смысле, чем вчера)», система выдаёт человеку кучу цифровой информации, трудно воспринимаемой на слух. Градусы, ветер, влажность — мы привыкли читать это с экрана, а не слушать. То, что там дальше — тем паче: впечатление, что идёт диалог компьютера и программиста («Применить») — для кого это всё сделано? Какой обычный человек будет держать в голове всю эту логическую структуру? Сможет ли бабушка пользоваться этой системой или вообще понять что это такое?

К тому же, немного не понятно, что такого нового здесь демонстрируется. Лет 7 назад я увлекался системами CarPC и у меня в машине стоял ноутбук с системой распознавания речи и скриптом, который я сам написал. У меня был голосовой поиск музыки и голосовой запуск всех нужных приложений. Это очень впечатляло друзей (а особенно девушек). У системы было имя (Кристина) — по аналогии с одноимённым фильмом по Ст. Кингу. На это имя она и отзывалась. Ко мне она обращалась «Повелитель». :) Но это игрушка, с которой я завязал. С тех пор мне это совершенно не интересно и не нужно.

Кстати, голосовое управление ещё имеет смысл в машине — где неудобно отвлекаться на набор текста руками. А дома зачем? Я специально не делаю у себя никакого умного дома именно чтобы были хотя бы лишние поводы двигаться телом. С этим голосовым управлением можно вообще вечером, придя домой, плюхнуться на диван и, не вставая, пролежать весь вечер, слушая музыку и смотря ТВ, и там же, отдав команду потушить свет, продолжить дальнейшее лежание в сон.

Кстати, прошло 7 лет с моих экспериментов, а ваша система работает точно так же как моя: разговаривать с ней нужно тщательно расставляя слова и дожидаясь реакции по 2-3 секунды. Конечно, у вас на видео этого нет, но когда команда распознаётся неверно, начинаешь сердиться, орать на систему. Со стороны это выглядит очень смешно. ))

Вы не попытались сделать систему такой, чтобы с ней мог общаться обычный неподготовленный человек. Т.е., это обычный компьютер, к которому прикрутили распознавалку и синтезатор речи.

Сделайте недорогого робота, который будет мыть посуду, прибираться по дому и ходить за хлебом (или хотя бы заказывать его онлайн) — и люди будут его с удовольствием покупать. А голосовое управление телевизором и кондиционером полезно только чтобы развлечь друзей. И то, максимум один раз.
Где-то видел статистику по поисковикам, где говорилось что голосовым поиском пользуются ~3% юзеров. Поэтому я согласен, что все эти головые фишки просто игрушка и не более.
Как только придумают как удобно и не выжирая батарею запускать обработчик голоса тогда и будет видна польза. Сейчас же заходим на сайт разработчиков и смотрим, например, видео управления музыкой. Что надо сделать (смотря на видео демо):
1. нажать кнопку
2. поднести телефон (издалека мешают шумы?)
3. четко сказать
4. ждать реакции
В классическом управлении мы бы еще на первом шаге кликнули на play/stop и тд и все. Итого тратим кучу времени на игры с голосовым управлением
1. Свайпнул с экрана блокировки вверх — активировался микрофон
2. Сказал «Поставь Мадонну» (никто не заставляет вас сидеть около колонки)
3. Слушать музыку

Это всего лишь пример того, как API позволяет взаимодействовать с кучей разнородных устройств, а не только работать на смартфоне, выполняя всякие задачи.

Ваш пример с поисковиками неуместен, т.к. здесь речь идет не о поиске информации, а об управлении логикой приложений и устройств.
Пример был как показатель в реальной работе (голосой поиск в гугле, апишка от яндекса и т.д.). Я к тому, что сейчас реальных приложений Android, где голосовое управление/жесты к месту — это разве что навигаторы в машине и т.д. (ну может быть с натяжной умные дома, хотя в коментах выше уже это опровергли).
По личному опыту с голосовым распознаванием гугла — шанс сказать что-то с 1 раза 50/50, если именно не напрягаться под распознаватель.
Тоесть сомнения не по лично вашему API, а о таковом способе взаимодействия с приложением в целом на телефонах
В умных домах как раз натяжки меньше всего — тк там вы имеете дело с множеством различных устройств, с разной функциональностью — в этом случае голос как единый способ управления всем очень подходит. Недаром именно это направление сейчас развивается активнее всего. То, чего вы не видите сейчас, инженеры как раз видят, и в ближайшем будущем продемонстрируют.
Ну дак вы о будущем, а я о настоящем, в таком виде как оно есть сейчас. Ну не суть, вобщем ждем с нетерпением API не только для андроида)
Голосовое управление удобно в массе случаев — в том числе и дома, где много устройств и под каждое пульт не найдешь.
В этой статье мы предлагаем сам API для сторонних разработчиков, а не конкретные решения. Разработчик может сделать так, чтобы его приложением как раз могла воспользоваться бабушка, если ей надо.
Читайте статью внимательнее — здесь речь немного о другом.
Лет 7 назад я увлекался системами CarPC и у меня в машине стоял ноутбук с системой распознавания речи и скриптом, который я сам написал. У меня был голосовой поиск музыки и голосовой запуск всех нужных приложений. Это очень впечатляло друзей (а особенно девушек). У системы было имя (Кристина) — по аналогии с одноимённым фильмом по Ст. Кингу. На это имя она и отзывалась. Ко мне она обращалась «Повелитель». :)


Забавно, сколько интересных вещей делается «по приколу» и «для себя».

Я для себя сделал систему управления жестами а-ля Кинект, которая работала на обычной веб-камере где-то за год до появления Кинекта. Работало через распознавание движения на сцене; чтобы не было фальшивых срабатываний, система активировалась через рисование специального знака и так же деактивировалась.

Увы, действительно — такие мелочи очень прикольны, когда смотришь на них первый раз, но в повседневной жизни их использовать достаточно неудобно — активация, распознавание и т.д. — куда как удобнее нажать одну кнопку на клавиатуре, если она под рукой.
Здесь вы описываете, как делаете что-то «по-приколу» и «для себя», и на основе этого делаете вывод о том, что подход с распознаванием речи тупиковый… По крайней мере это странно. Мы же предлагаем попробовать вполне конкретный подход.
Про одну кнопку на клавиатуре — это и правда удобно когда она под рукой и когда для конкретной задачи нужно нажать только ОДНУ кнопку. А голосом зачастую можно сделать это быстрее и понятнее всем пользователям. Но это зависит конечно от конкретной задачи. Так что обобщать тут довольно сложно.
А голоса оно различает? Чтобы только я мог заводить свой будильник на 4 утра, а не всякие крикуны на улице)
Распознавание гугловое, т.е. — нет…
Ну вы пока нигде и не встретите распознавание речи по конкретному голосу. Даже если это не гугл, а нюанс или еще что-то.
Что интересно, раньше такая возможность, как «Индивидуальное распознавание», была, а сейчас я такой опции не наблюдаю… Возможно она все-таки есть и активирована по умолчанию, т.к. все-таки все девайсы, преимущественно — это персонализированные устройства, а точней персонализирован ваш аккаунт в Гугл…
В том и дело, что сейчас такой опции больше нет
Зарегистрируйтесь на Хабре, чтобы оставить комментарий