Комментарии 24
Т.е. ранее Алисы слушала все время, но активировалась по ключевому слову "Алиса" и начинала передавать данные на серверы разработчиков по запросу пользователя, а теперь она может активироваться чаще и размывается грань между одним стоп-словом и передачей данных.
Так не активируйте эту опцию ¯\_(ツ)_/¯
Честно говоря, я крайне в общих чертах представляю как работает распознавание речи и сколько требует ресурсов этот процесс. В идеале, если это можно развернуть на локальном сервере, то с помощью обычного микрофона можно реализовать большой объём навыков той же Алисы.
У меня сейчас часть команд Алисы обрабатываются на локальном сервере HA, но распознавание всё равно идёт через сервер Яндекса. Грустно
Есть такая штука https://github.com/alphacep/vosk-api
Звучит интересно, спасибо за ссылку!
А не в курсе, Обработка естественного языка (NLP) там поддерживается?
И такая штука есть https://github.com/openai/whisper.
Если у вас есть видеокарта, в первую очередь Nvidia, то распознавание будет весьма быстрым (чем больше шейдеров, тем быстрее).
Распознавание быстрых команд происходит локально, так же, как и слово "Алиса". И только после этого команда передается на сервер. Точно не знаю, но это разумно с точки зрения оптимизации.
В подтверждение этому сейчас проверил: если сказать "выключи свет везде", то срабатывает. Если находясь в комнате сказать "выключи свет в коридоре", то выключает в комнате. То есть обрабатывается локально только конкретные вшитые формулировки фраз, без нужды обрабатывать контекст речи на сервере
Она не понимает сейчас без активации через Алису "...везде" и "...в комнате". Все команды обрабатывает как "выключи свет" и если колонка добавлена в комнату, то она выполнит действие в комнате только. Если привязана только к дому, то выключит весь свет. Но вот распознавание команд происходит локально. Достаточно отключить интернет и сказать фразу на что она ответит, то нет интернета
Т.е. ранее Алисы слушала все время, но активировалась по ключевому слову "Алиса"
да, как и все другие. чтобы Алиса не слушала, надо её убить полностью.
мне интересен другой момент: как она понимает, что разговаривают с ней и это команда ей? не все люди-то это понимают. а тут что, при разговоре с человеком Алиса будет действовать в силу своего понимания и, следовательно, устраивать дичь? например, рассказываешь человеку историю, а в это время у тебя выключается свет, начинает играть музыка, вызывается наряд полиции....
как по мне, самое логичное было активировать её обращением. да и то, живые Алисы наверняка страдали. а тут...
Не совсем так. У меня на колонке есть кнопка, которая выключает микрофон на аппаратном уровне.
А так да, всё остальное время колонка слушает и ждёт, когда, услышит слово "Алиса", чтобы выполнить команду.
Не знаю как у других, но все чаще на фразу: Алиса, стоп! - начинает диктовать какой то рандомный адрес организации. Теперь стоп слово будет: стоп! стоп, Алиса стоп?
Согласие пользователя на подписки и покупки различных "Яндекс.Товаров" всё ещё требуется?
Ай-яй-яй, товарищи, недоработки!
Почему-то мне всё больше ситуация напоминает известный мем
Hidden text

Почему нельзя запускать быстрые команды через приложение "Умный дом", почему нельзя давать команды через чат с Алисой в приложении Яндекс? Также не хватает простого пульта от колонки в приложении.
Вот еще бы чуть чуть доработали, чтобы она понимала где включить или выключить свет. Думаю редко надо включить свет сразу везде. Обычно это какая-то определенная комната или источник света. Надо то всего лишь после обнаружения команды "включи свет" послушать еще чуть чуть и проверить нет ли там указания комнаты или источника как при активации с "Алиса..."
А когда уже можно будет сказать: «Алиса, включи 4 сначала», вместо «Алиса, включи 4, Алиса, сначала». Казалось бы, очевидная вещь… а еще, я один не понимаю смысла в этих «запускаю», «сейчас включу» и тп?
Алиса стала понимать быстрые команды без прямого обращения к ней