Комментарии 117
Было бы интересно увидекть реальные результаты работы, потому что про M5Stack ATOM Echo противоречивые отзывы, нет уверенности, что справится, а про ESP32-S3-BOX очень мало обратнлй связи, но цена в несколько раз выше, является ли это показателем качества? Возможно есть еще варианты
К сожалению нашёл только эти два варианта, ESP32-S3-BOX (он с дисплеем) - по фоткам из интернета с прошитой ESPHome выглядит симпатично.
Цена вот только на него немного странная. Чего туда на эти деньги напихали то такого ?
Посмотрите в сторону ReSpeaker-lite или полноценный, это модуль из 2 или 4 микрофонов. Слышит в целом неплохо, насколько я знаю, он в основе голосовой коробки которую HA продвигает
это этот?
У меня лайт, как по ссылке, хочется больше, эта слышит, но надо модель whisper не ниже large использовать, накладно или медленно выходит.
А железка хом ассистаната, вроде на 4х микрофонах, а это ReSpeaker Mic Array V2.0
это которая Home Assistant Voice Preview Edition?
Да, она
не вариант, это тестовое решение и очень сырое, но главное, подключение разпазнование речи возможно двумя способом, первый через HA Cloud, подписка стоит 7,5 евро в месяц, но не уверен, что сейчас оплатить ее возмжно. Второй вариант локально, потребуются дополнения: Whisper, Piper, русский язык не поддерживается, вообще локально помимо англйского очень мало что поддерживает.
- а вы точно продюссер? (c)
не надо вводить в заблуждение никого, русский поддерживается из коробки и в HA и в whisper и в piper
https://rhasspy.github.io/piper-samples/
https://github.com/openai/whisper
гонять локально, нужна видяха,что быбыло приятно по скорости
все верно, подтянутся Whisper и Piper. Купил для экспериента Home Assistant Green и Home Assistant Preview Edition, вот инструкция по установке https://support.nabucasa.com/hc/en-us/articles/25918770371229-Getting-started-with-Home-Assistant-Preview-Edition.
на выходе получается, русский, как и многие друкгие языка локально не поддерживаются

английский на люой вкус



если ты про стариковский метод из скотча и изоленты, поведай секрет
плюс для развития https://www.michaelsleen.com/ha-voice-pe/
открывасем страницу модуля https://www.home-assistant.io/voice-pe/
выбираем русский язык




это все на видяхе крутится
используется железо, о котором мы говорили выше?
в этот кейс можно еще добавить Home Assistant Voice Preview Edition(в комментариях он звучал), от самого HA, по цене сопоставим с ESP32-S3-BOX и тоже использует ESP32-S3
на это устройство можно не тратить время, тк. это тестовое решение и очень сырое, но главное, подключение разпазнование речи возможно двумя способом, первый через HA Cloud, подписка стоит 7,5 евро в месяц, но не уверен, что сейчас оплатить ее возмжно. Второй вариант локально, потребуются дополнения: Whisper, Piper, русский язык не поддерживается, вообще локально помимо англйского очень мало что поддерживает., вот хороший обзор https://www.michaelsleen.com/ha-voice-pe/ сравниваются оба способа.
Зачем N95 за 14 если можно взять Ryzen 5 6600H+Radeon 660M + 16Гб + 512Гб за 17000
https://www.ozon.ru/product/firebat-mini-pk-amd-ryzen-5-6600h-ram-16-gb-ssd-512-gb-amd-radeon-660m-windows-11-home-am02-chernyy-1846291873/
В целом да, сейчас не обязательно самые дешёвые цены на китайской площадке
Я скорее про то, что 3 вариант не сильно отличается по цене от второго.
Я не силён в этом, но вроде как llm научились на APU запускать https://github.com/rjmalagon/ollama-linux-amd-apu
LLM и на CPU работают, вопрос скорости генерации токенов (и обработки запроса). А скорость зависит от пропускной способности памяти, где видеокарты как раз в почете.
С этой точки зрения APU не имеют особого смысла - просто потому, что скорость памяти не меняется.
P.S. Самый большой эффект оптимизаций видел в обработке запросов, но не в генерации (ik_llama.cpp в разы быстрее llama.cpp на CPU).
Вообще N95 вполне может обходиться без вентилятора. А с Ryzen-ами такое уже не прокатывает. Что-то типа такого Алиэкспресс
Спасибо

У меня миник на n100 и без вентилятора он очень горячий, рука еле терпит. Вот такой калхозинг решает проблему(цена вопроса 200 рублей).
Ну так это смотря что делать. Да и N100 заявлен до 105 градусов. А это далеко не то что рука может терпеть. Умному дому много не надо. Время работы на распознавание речи и ответ это очень немного а не постоянная нагрузка. Постоянный мониторинг это на столько мизерная нагрузка что можно и не обращать внимания. У меня N95 валяется в углу, торренты раздает да файловая помойка на Ubuntu Server. Только раз в полгода выключаю от пыли почистить.
Это включая стоимость ибупрофена? :)
Вот совпадение, как раз сегодня такой должен прийти, как раз под эти же самые задачи
За 7-8к можно боксы на N150 Урвать, тоже веселая железка.
я не понял, зачем оставлять raspberry pi если мощную x86 машину придется завести? разделять слишком умный функционал от базового? Какую именно работу хотите поручить малинке если сервер выключится?
p.s. настоятельно рекомендую посмотреть на скорость получения результата голос -> whisper -> llm -> tts -> ответ и при использовании локальных моделей она вам НЕ понравится!
Если же собираетесь использовать зарубежных провайдеров (типа openai/anthropic/google/xai/alibaba/deepseek..) то настоятельно рекомендую посмотреть у них realtime api (как минимум у гугла и openai они есть) с мультимодальными голосовыми моделями (или гугл), работающими как с текстом так и с голосом в одном контекстном окне, скорость их реакции максимально приближена к естественному человеческому.
p.p.s. точно знаю у meta и майкрософта (phi 4) были мультимодальные модели для работы с голосом в реальном времени, но не попадался красивый готовый пример для локального запуска, ну и гугл недавно пиарился со своей мультимодальной моделью для смартфонов в открытом доступе, может там тоже голос есть.
Спасибо
У phi 4 с русским языком "очень не очень".
Гугл пиарился с gemma-3n, но она только текст и картинки принимает, если не ошибаюсь.
Llama - их множество, дотренированных различным образом, но не пробовал. В целом об их моделях молва идет как о не очень качественных (не знаю, на сколько это соотносится с реальностью).
Я бы посмотрел на Voxtral от mistralai.
В целом, те модели от mistralai, что пробовал, русский понимают, пускай и не лучшим образом (но именно Voxtral не пробовал).
К сожалению мультимодальность gemma (google) ограничена только LLM и VLM, в качестве tts довольно шустро (и не нагруженно) работают silero, piper(на Rpi запускается без проблем, звучит кстати тоже неплохо) coqui tts(но постоянно пытается произнести точки aka "поинт\поинти\пынта") terra tts (если добавить RUAccent вообще звучит замечательно) А вот что касаемо STT пока подробно вопрос не изучал к сожалению
Добрый день!
Пытался внедрить голосовое управление по схеме m5 atom - whisper - ha (вм на synology хранилке)
Настроил на активацию голосом (okay Jarvis Или okay naboo). Впечатление - с заметным лагом в 70% случаев срабатывает. Но пришлось рефачить конфиг - обзывать все устройства в соответствии с best practices. С пары метров ловит более менее прилично, если находится в прямой видимости.
Далее подключал llm (небольшие gemma и Llama), запущенную на пк. Стало чуть веселее, уже не строгое "включить свет кухня", а "сделай светло на кухне". Но иногда ошибается и включает свет не там).
Пока остановил эксперименты - для полностью локального и постоянного решения нужен какой-то не сильно шумный и дорогой девайс под llm и ускорение whisper.
Что лучше для такой системы HomeAssistant на докер контейнерах ручных или HomeAssistant OS?
Еще, не совсем понятно, почему бы не использовать сразу один сервер большой, ведь ресурсы большого сервера в любом случае требуются?
Пока не решил для себя как окончательно сделать. Или 2 или 3 вариант рассматриваю
В плане дороговизны, может быть, можно использовать китайские старые зеоны. У них и ядер много, и в случае необходимости видеокарту добавить можно. Получится дешевый сервер, куда можно поместить что угодно
на большой машине поставить Proxmox, а там в контейнерах все что нужно.
В докере с плагинами HA сложновато. А с baremetal системой есть шанс сломать конфиг и чинить его с красными глазами.
В идеале поставить Proxmox а в нем завести виртуалку с HomeAssistantOS. В таком случае всегда есть бекапы, легко расширить ресурсы и переехать с одного хоста на другой, итд.
(Скрипты TTEK делают заведение такой виртуалки делом пары минут)
HA очень хочет эксклюзивно работать на своей ос. Так что или отдельный одноплатник или proxmox.
Нынче, начиная с 2025.06, все типы установок кроме home assistant os объявили устаревшими (, и скоро видимо придется обновляться совсем на свой страх и риск
Добрый день по распознованию речи я для себя открыл https://huggingface.co/t-tech/T-one вот такую штуку, работает шустро, с русским языком идеально, в реальном времени, на вашей малинке конечно не запуститься нужно 8 гигов малинка но если будете использовать сервер то идеально, у себя накрутил на сервере, и с esp передаёт звук работает быстро. Тк сам сейчас задумываюсь делать альтернативу яндексу то что бы не городить лишнего планирую делать связку, колонки с Алисой остаются, задать активную фразу которая будет через хом ассистент передавать на мой сервер для перевода в речь, на том же сервере стоит ещё одна ллм для обработки запроса и от неё ответ отдавать тоже через хом ассистент на колонки яндекса.
Вот не поверишь у меня точно такие же взгляды на построение умного дома :-) и щас воюю с твоей проблемой, я переехал с тв приставка s912 amlogic (мощнее твоего распберри), на интел nuc 6 там склерон 4 ядра, 8 ram, ssd, hassio просто летать начал, для stt использую vosk, вобще ниодного вопроса ни по разбору речи ни по быстродействию, а вот assist дно он даже на падежах спотыкается... ну и у меня мысли прошить Алису или марусю или ещё кого-то из их семейства на армбиан и накатить туда войс сателлит есть приложение от home assistant
для малины есть плата расширения для работы с ии. Может быть ее для обработки голоса хватит. https://www.raspberrypi.com/products/ai-kit/
А у вас HASS отчужден от инета, не обновляется... Хотя эти обновления немало крови попили... иной раз всю ифраструктуру перепахивать приходилось...
чет какой-то зоопарк получается вместо одного сервера с гипервизором.
Попробуй вместо whisper использовать vosk. Он побыстрее работает
Это все конечно занимательные развлечения, но сколько вы рассчитываете жить без интернета? За день-два любые аварии провайдера устраняются. День-два вы же проживете без Алисы?
Тот же и ещё куча других вопросов решается резервным каналом (он же у вас есть?).
А если больше пары дней без инета, тут наверное лучше тушёнки и свечей закупить, чем ещё горсть железа.
Тут как бы основной посыл статьи немного другой - в самом начале обозначено то что меня напугало.
Добро пожаловать в современный мир. Пара дней без инета - это теперь нормально.
Управление домашними устройствами , по-моему, должно работать офлайн.
У меня на даче интернет, в текущей ситуации, отсутствует, алиса в ауте, все устройства тоже. Резервный канал невозможен. Да и в принципе, на кой команды гонять через какие-то облака, чтобы включить свет в ванной или выключить кондиционер.
На случай отсутствия голосового помощника наверное есть пульты, приложения, панели с кнопками.
Мне сложно судить насколько это неудобно привыкшим к голосовому управлению людям, мне наоборот, куда проще молча найти пульт/приложение и ткунть пару кнопок, чем открывать рот и говорить.
А еще можно во всяких удобных местах приколотить на стену гвоздями планшеты 6-10" с уже открытым интерфейсом, хотя бы к тому же HA.
Плюсы в том, что можно мимоходом посмотреть обстановку и что-то включить-выключить (не заморачиваясь "где этот телефон?!", не ожидая пока что-то там запустится).
При этом можно и с телефона, если лень подниматься с дивана.
Голосовое? Ну, это очень на любителя, либо одинокого, всеми покинутого, кому и поговорить не с кем...
HA полностью локален
Тут даже не вопрос интернета а вопрос алисы дома. Бесполезная + дорогая коробка + требует подписку, с очень кривым домом (удя) который интегрируется со скрипом, с обновлениями становится тупее.
За цену одной яндекс станции про ( в районе 20к) можно взять мини пк на N150 или свежем райзене, пару малин с шилдами для микрофона и динамика, и пару аудио систем 2,0 для лучшего звука, и сделать заметно более гибкий умный дом который не требует подписок и не дружит с товарищем майором.
Пробовал M5 Stack Atom Echo - слабоват микрофон и дохлый динамик
Купил на пробу "официальный" Home Assistant Voice Preview Edition - совсем другое дело, микрофоны получше и ответы слышно :)
Если нужно - есть русский опенсорс голосовой помощник Ирина с полным оффлайном: https://habr.com/ru/articles/595855/, https://github.com/janvarev/Irene-Voice-Assistant
На Гитхабе 900+ звезд, расширяется плагином, есть плагин интеграции с HA. Распознавание голоса делается на лету легким VOSK, довольно качественно. Запускали даже на Raspberry, правда, там надо немного долбаться с докером; я предпочитаю запускать на старом компьютере.
Обработка команд - либо по соотвествию слов (быстро, дешево), либо можно прокинуть до LLM локальной или облачной (тогда вызывается один из tools).
Спасибо
Накатал статью на Хабр про последний апдейт Ирины: https://habr.com/ru/articles/932072/
Задарили недавно Home Assistant Voice Preview Edition, детально погонять не успел, но:
Для облака нужен VPN, локально на raspberry pi 4 без танцев с бубнами распознавание не завелось
Русский язык заявлен только в облаке
Можно кастомизировать вплоть до перепрошивки устройства
Assist в сравнении с алисой это такое ... своеобразие. Выше уже писали best practices по именованию объектов, но даже банальное "Включи весь свет" или указание комнаты у меня не завелось. Управление работает только если точно назвать объект в hass (и если whisper его правильно распознает, например "основной свет кабинет" иногда распознается как "основной свет в кабинете" и выдает ошибку).
Банально поболтать тоже не выходит, ни спросить погоду, ни все остальное - "сообщение не распознано". Работает только то, что завязано на Home Assistant.
Глубоко вникнуть во все детали у меня, к сожалению, не вышло, полностью отказываться от Алисы не собираюсь, но поразбираться с новым девайсом, локальными модельками и своей логикой - собираюсь. Благо в качестве основного устройства могу использовать стационарный ПК, т.к. он всегда в сети.
Я тестил с телефона в паре с чатгпт в настройках AI, дом настроен по комнатам с русскими названиями, сами устройства названы как попало.
Русский понимает без проблем, включи весь свет понимает без проблем, включи свет в комнате тоже, но точечные команды понимает с трудом если светильники не названы нормально. То же "включи ночник в зале" оно поймет только если ночник называется ночником а не shellyplus1pm-441793a962b0 (у меня ночником розетка шелли рулит), но это вполне логично.
В целом если посидеть с конфигами один раз, то можно привести это все в рабочее состояние.
С локальным AI все сложнее, у чатгпт сколько денег отдал столько токенов будет, а дома в llama можно любую сеть поднять но нужно много видеопамяти.
Если есть желание гонять LLM - то лучше сразу на полноценный комп закладываться, с видеокартой и прочими ништяками.
Я бы на мини-системник на базе AMD Ryzen AI MAX+ 395 посмотрел - распаяно 128GB быстрой памяти (что хорошо для LLM), но цена - около 200к, что не так уж и бюджетно (хотя если собирать новый комп с похожими характеристиками, то не сильно дешевле выйдет).
Может для умного дома и избыточно, но мощная локальная LLM пригодится и в повседневной жизни.
у меня hass вместе с whisper и piper крутятся на безвентиляторном неттопе от китайцев с n100 в качестве процессора. увы этого камушка явно маловато для распознавания речи, в процессе распознавания команды, даже пары слов процессор грузится на 100% на 5-10 секунд хотя в остальное время он простаивает.

посмотрите на orin jetson nano dev kit 8/16 гб
Он заточен на запуск локальных моделей.
Сомневаюсь, что N100 хватит под Whisper и Piper с приемлемыми задержками, надо что-то помощнее.
А если на человеческий язык перевести, то как это можно использовать - для чего такие решения?
нормальный voice chat, с детектором активности, остановкой процессинга, с вызовом функций, с качественными stt/tts. Все по сути есть, из коробки. Можно и локально, а можно и облачно запустить.
Меня терзают смутные сомнения что очень скоро omni модели (qwen вроде есть же, но примеры еще не догрызли на huggingface), сделают создание "Алисы" очень простым. Функциональные вызовы почти везде из коробки есть в новых моделях, MCP/АCP стандарты допиливают, для интеграции чего хочешь.
У китайцев полно их мелких компов (sophon, не уверен что по памяти точно написал но там сложно с поддержкой и документацией), jetson orin nx можно - к нему и камеру сразу прикрутить. Омни модель, в ней tts/stt встроенные, распознавалка с камеры туда же, нормальный мини комп с ускорителем и обвязка с микрофонами как обычно.
Да что ж так все сложно то... ESP32-S3 с EspHome ассистентом с local wake word на борту. Самый быстрый Wyoming - vosk, самый красивый голос (как по мне) Silero. Есть заброшенный проект Silero-TTS-Service - прямая интеграция с HA. Все это работает на малине 4В с 4GB + SSD. В отличии от автора статьи - у меня все в контейнерах, включая vosk, Silero-TTS-Service (пересобранный), EspHome. Колонки откликаются на Алексу. Дальше все зависит от Ваших желаний. Прямая интеграция с AI прямо в HA доступна давно. И да, все локально.
А одноплатники с какими нибудь нейросопроцессорами не поддерживаются системами распознавания речи?
@empenoso у тебя на скрине умного дома есть влажность растений в комнатах, там просто меряет или автополив, если ли у тебя заметки на эту тему?
А какой может быть минус в использовании macmini 2011-2012 года под HA? Их сейчас отдают за 6т.р. уже с ssd и 8-16гб ram. У меня сейчас установлен на таком proxmox с ha, в usb торчит zigbee.
оно точно того стоит?
https://cloudfree.shop/product/home-assistant-voice-preview-edition/
Давно хотел собрать себе голосового помощника, чтоб можно было обращаться к нему "товарищ майор".
Впринципе даже неважно как он будет выглядеть. В моем случае планирую пока превратить старый пк в такого "помощника". А что, мне по сути то от алисы требуется: музыка, таймер/будильник, википедия. Но идея перенести это в физический корпус воодушевляет)
А зачем вообще нужен умный дом, кто-нибудь может объяснить? Без маркетологической мишуры.
Удобство. Технологичность.
Если прям совсем без маркетинговой: то просто доказать себе что можешь. Можешь не спать несколько недель подбирая китайские датчики разной совместимости, настраивая систему, которая будет менять яркость лампочки голосом, говорить про «влажность цветков» и может даже что-то включать и открывть, даст тебе мнимое чувство защиты от протечки/пожара и возможность следить кто к жене приходит пока тебя дома нет.
В итоге, при всех назвать это удобством и технологичностью, а после с гордым чувством самоудовлетворения от сэкономленных секунд на рутинных действиях тратить в 5 раз больше времени на отладку и поддержания системы, не говоря уже про деньги. Отдельный кайф - если небольшой дом или живешь в маленькой квартире где все в шаговой доступности. Бонусом идет прокачка навыков работы с командной строкой и чтение документации на английском.
Это действительно интересно и занимательно
А у Алисы ведь есть оффлайн режим. Поэтому вопрос: умеет самоделка что-то, что не умеет Алиса?
Например музыку с жесткого диска без подписки включать?
Очень жду следующей статьи с конкретными действиями.
Голосую за второй вариант. Критичная инфраструктура остается на одноплатнике(надеюсь с ссд). Отдельный узел с распознаванием и туда же можно докинуть распознавание лиц, если станет скучно.
Первый вариант я уже у себя успел опробовать. Как и ожидалось, слишком долго на интел4000.. На Алисе можно команд 5 перепробовать до того, как забракуется один запрос в локалке. Уже закупил n150 но не знал, что можно распределить по сети .. Теперь бы инструкцию для ленивых - how-to)
А если к этому всему попробовать прикрутить NPU типа Google Coral? У меня по крутится через Whisper ассистент от KinCony на i3 14100 32Gb и все медленно и печально. Есть ещё Xiaozhi через облако, но он не всеми устройствами умеет управлять.
Тоже не хотел Алису и сделать все автономно.
На базе N150+НА+n8n+whisper (все локально) собрал так, что в ТГ бота говоришь, что нужно сделать, n8n кидает фразу в виспер, он ее более-менее транскрибирует и перекидывает в OpenRouter (в фри версию чата), у которого в системном аромате стоит одна задача - понять, что я имею ввиду из 2 частей: 1. Какой объект я имею ввиду 2. Что я с ним хочу сделать (вкл/выкл).
И отдает обратно в n8n в нужную ветку, у которого на выходе много устройств от HA.
Работает из-за доп.ИИ так, что легко понимает фразы: "Включи над головой на кухне", "выруби все", "чёт над столом темно"
я то думал вы делитесь опытом а не размышлениями на будущее.
в конце 24го, начале 25го я тестировал такую систему на мощном i7 сервере 32Gb RAM 16 ГБ VRAM и медиум моделью Whisper с 4мя бимами. Результат был мягко говоря, разочаровывающий. до алисы не дотягивает, то ли из-за качества микрофонов ( использовал esp32 +inmp441) то ли из-за не способности виспером хорошо распознавать русскую речь.
Клиент вбухнул серьезные деньги на оффлан умный дом , а по итогу остались у разбитого корыта.
Large модель тупила даже на таком серьезном железе. Может у меня руки кривые. Но был разочарован. Кто знает, виспер мог улучшиться за эти пол года
что значит тупила? какого рода проблемы были или речь просто об отсутствии реалтайм? но это просто выбор не того инструмента!
p.s. не уверен что адекватно оффлайн русскоязычное распознование реалтайм существует, все что есть это: распознать фразу -> получить текст -> обработать -> синтезировать -> воспроизвести (почти ничего из этого не распаралеливается, т.е. только последовательно), что ни при каких условиях не может быть реалтайм
Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент