Как стать автором
Обновить

Комментарии 44

Учитесь у детей, у некоторых давно защита от этого есть, им нужно по три раза повторять одно и тоже.
Три раза нельзя — Майкл Китон появится.
Мне кажется, что яндекс навигатор уже пользуется данной функцией.
Убить всех человеков! (с)
Аналогично реагирует яндекс.навигатор, когда его упоминают по радио
Достаточно упомянуть в разговоре ИНДЕКС или КОДЕКС.
Странно, что в устройстве не предусмотрели идентификацию хозяина по тембру голоса (или как там это организовано?).
ну это устройство позиционируется как больше семейный помощник, а не как сири.
Возможно, это снижает стабильность распознавания.
От этого существует слово активации ("ok, glass — take a photo", "Siri make me a sandwich"), без которого он не будет реагировать на команды.

Если слово произнесли случайно, но в течение N минут команд не поступило, то прекращать ожидать команды (пока слово активации не скажут снова).
он не смог прослушать историю о помощнике до конца, так как когда его помощник услышал своё имя
Это сложнее, ведь после имени помощника могут произнести примеры команд.
Возможное решение — пользователь сам выбирает слово активации (заставить изменить слово по умолчанию через 30 дней после покупки, как пароли).
Так, видимо, по радио так и говорили: «Достаточно сказать: „Alexa, сделай то-то“, и оно вам это сделает» (у Amazon Echo, если я правильно понял, активируется так), т.е. произнесли фразу со словом активации.
Вот я и предлагаю, чтобы пользователь давал своему устройству кличку.
Чтобы было не "окей глас, сделай фотку", а "Тузик, сделай фотку".
А, извиняюсь, не дочитал. Да, было бы логично, но как это распознавать? Я так понимаю, что сейчас эта штука в оффлайне умеет распознавать только кличку, а остальное распознаёт через инет. А распознавать произвольное слово, которым захочет его называть пользователь, у ней мощи не хватит.
Человек выбирает кличку помощника, произнося её вслух.
Сохранить эту запись (1-2 секунды) локально. А потом сравнивать с записью.
Локально можно распознавать ограниченный набор слов. а не только одно заранее заданное. Так что думаю можно будет переобучить на новое, уогда будет поддержка в софте.
Давным-давно старые, "не умные", маломощные телефоны запросто справлялись с распознаванием [заранее записанных] имён в адресной книге — в любом современном устройстве явно это можно реализовать — было бы желание разработчиков [не привязывать всё к интернет]...
у нее есть еще пара-тройка слов-активаторов, которые можно использовать без любых танцев. вот только подавляющее большинство не пользуются этой возможностью.
Сименс М55 был, голосовой набор (предварительно обучение) распознавал даже в маршрутке шумной без проблем.
А как у софта ныне с определением звучания голоса (В смысле, вообще в этой области, не конкретно у помошников)? Можно добавить функцию, при которой помощник будет импринтиться на голос хозяина, и соответственно игнорировать все остальные.
НЛО прилетело и опубликовало эту надпись здесь
Гораздо выгоднее будет «Окей, Алекса, отправь смс на номер 4422», предварительно зарегистрированный на свое имя
Планшет стоит в док-станции рядом с компьютером. Не очень часто, но довольно стабильно, при просмотре на компьютере новостей с выставок и презентаций по youtube планшет радостно реагирует на "Ok, google!", сказанное в ролике. Наверное, почти каждый сталкивался с ситуацией, когда "возбуждается" несколько android-устройств, находящихся в пределах слышимости. Причём, если несколько устройств принадлежат одному владельцу — надо делать "персонализацию" устройств, а не персонализацию владельцев в вызовах.
НЛО прилетело и опубликовало эту надпись здесь
Распознавание фразы "OK, Google!" с любого экрана дополнительно включается в настройках Google Now, и поддерживается не на всех устройствах. Плюс есть еще распознавание при заблокированном экране, которое работает на еще меньшем количестве устройств...
Абсолютно верно. Речь шла об Nexus 7 (2013) Wi-Fi с прошивкой 6.0.1 и настроенном, как вы описали, Google Now — поскольку большей частью он живёт на рабочем столе, это довольно удобный вариант [за исключением описанных выше ситуаций ;)].
Так что всё-таки какое-то "прозвище" для каждого устройства должно быть.
НЛО прилетело и опубликовало эту надпись здесь
Хаа, на вопросе Джея про овцу у меня откликнулась лежащая рядом с колонками Сири из планшета.

https://www.youtube.com/watch?v=uPwo-nHWQaM&feature=youtu.be&t=76
Это ещё что. Capital One, видимо, не в курсе такой ситуации, так как теперь их клиенты могут проверять свой баланс и оплачивать счета, разговаривая с виртуальным помощником. Источник.
Предвижу художественный проект:
рядом стоят несколько «умных» предметов, и пытаются другим отдать приказание отдать приказание, в режиме свободной конкуренции.
Зрители могут принимать посильное участие.
Десятка утюгов, микроволновок и прочих погодных станций будет достаточно.
Ждём голосовых вирусов.
Помню, как-то разговорился с таксистом (вызванным в Яндекс.Такси) о его работе, так навигатор за поездку раза 4 спрашивал маршрут, услышав свое имя…
Решение на самом деле может быть очень простым — нужно во все рекламные ролики зашивать неслышимый человеком звуковой код, который бы говорил Amazon Echo, что не нужно активироваться. Другое дело, что этот код могут зачем-то использовать в злых умыслах.
А динамики любого телевизора/радио точно смогут воспроизвести что-то, неслышимое человеком?
Не обязательно ультразвук. Можно код передать и в слышимом диапазоне, но незаметно для ушей. Один из таких примеров это как работает Shazam — приложение вычленяет код из музыки и отправляет его на сервер, чтобы получить в ответ какая это песня. Мы, конечно, слышим музыку, но понятия не имеем, что за код отправляет программа.
Ну вообще-то Shazam так не работает. Вы же не думаете, что например Битлы вставляли в свою музыку какой-то там код?
Кодом являются вычисляемые характеристики из музыки.
Именно, при чем даже можно почитать какие именно:
Since Shazam needs to be noise tolerant, only the loudest notes are kept.

Т.е. шазам наоборот выбирает самые громкие ноты (что в общем довольно логично).
Даже не беря в расчет неочевидность принципиальной возможности реализации неслышимого человеку сигнала на оборудовании для воспроизведения и распознавагия звука в доступном человеку диапазоне — сама концепция «реагируем на все подряд, если нет специальной команды не реагировать» кажется не слишком логичной.
ИМХО, ставить приемник рядом с управляемой голосом техникой априори плохая идея. Это хуже, чем подпустить кота к клавиатуре.
На правах шутки: кто-то позвонит на утреннее радио в интерактив и в прямом эфире крикнет "OK google, проститутки недорого", вечером по всей стране скандалы, на следующий день волна разводов и у всех в контекстной рекламе — проститутки… Вот это мега-троллинг! Развитие технологий показывает нам всё новые и новые чудеса.
Мечта, получить «Исин» с книги «Хакеры», становится все ближе.
У меня на Андроиде клавиатура с голосовым набором однажды очень резво набирала текст, слушая фильм, который я в этот момент смотрел. Почти без ошибок.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории