empenoso29 июл 2025 в 00:26

Экологичное расставание с Алисой: строим полностью локальный и приватный голосовой ассистент

Простой

8 мин

51K

Умный домГаджетыНастройка Linux * Open source *

Мнение

🛸 Космотекст

+153

120

Комментарии 120

DashBerlin 29 июл 2025 в 01:35

Было бы интересно увидекть реальные результаты работы, потому что про M5Stack ATOM Echo противоречивые отзывы, нет уверенности, что справится, а про ESP32-S3-BOX очень мало обратнлй связи, но цена в несколько раз выше, является ли это показателем качества? Возможно есть еще варианты

empenoso 29 июл 2025 в 01:53

К сожалению нашёл только эти два варианта, ESP32-S3-BOX (он с дисплеем) - по фоткам из интернета с прошитой ESPHome выглядит симпатично.

xSVPx 29 июл 2025 в 22:36

Цена вот только на него немного странная. Чего туда на эти деньги напихали то такого ?

wrewolf 6 авг 2025 в 09:16

Посмотрите в сторону ReSpeaker-lite или полноценный, это модуль из 2 или 4 микрофонов. Слышит в целом неплохо, насколько я знаю, он в основе голосовой коробки которую HA продвигает

DashBerlin 11 авг 2025 в 17:16

это этот?

wrewolf 12 авг 2025 в 16:00

У меня лайт, как по ссылке, хочется больше, эта слышит, но надо модель whisper не ниже large использовать, накладно или медленно выходит.

А железка хом ассистаната, вроде на 4х микрофонах, а это ReSpeaker Mic Array V2.0

DashBerlin 12 авг 2025 в 20:23

это которая Home Assistant Voice Preview Edition?

wrewolf 13 авг 2025 в 06:13

Да, она

DashBerlin 23 авг 2025 в 00:00

не вариант, это тестовое решение и очень сырое, но главное, подключение разпазнование речи возможно двумя способом, первый через HA Cloud, подписка стоит 7,5 евро в месяц, но не уверен, что сейчас оплатить ее возмжно. Второй вариант локально, потребуются дополнения: Whisper, Piper, русский язык не поддерживается, вообще локально помимо англйского очень мало что поддерживает.

wrewolf 25 авг 2025 в 20:41

- а вы точно продюссер? (c)

не надо вводить в заблуждение никого, русский поддерживается из коробки и в HA и в whisper и в piper

https://rhasspy.github.io/piper-samples/

https://github.com/openai/whisper

гонять локально, нужна видяха,что быбыло приятно по скорости

DashBerlin 25 авг 2025 в 21:45

все верно, подтянутся Whisper и Piper. Купил для экспериента Home Assistant Green и Home Assistant Preview Edition, вот инструкция по установке https://support.nabucasa.com/hc/en-us/articles/25918770371229-Getting-started-with-Home-Assistant-Preview-Edition.

на выходе получается, русский, как и многие друкгие языка локально не поддерживаются

английский на люой вкус

если ты про стариковский метод из скотча и изоленты, поведай секрет

плюс для развития https://www.michaelsleen.com/ha-voice-pe/

открывасем страницу модуля https://www.home-assistant.io/voice-pe/

выбираем русский язык

wrewolf 26 авг 2025 в 19:14

ставим whisper, piper, openwakeworrd и полетели

дополнительно можно выбрать еще и локальную ллм

это все на видяхе крутится

DashBerlin 27 авг 2025 в 20:25

используется железо, о котором мы говорили выше?

wrewolf 28 авг 2025 в 08:04

Нет, микрофон другой у меня RespeakerLite, но если идти по стандартному мастеру настройки (а снача я попробовал делать так), то теже самы картинки как у вас были, что русский тольк в облаке, надо руками ставить доп аддоны, что бы русский добавить и кастомый пайплайн для него.

DashBerlin 28 авг 2025 в 09:08

тепеь понятно, спасибо

DashBerlin 1 авг 2025 в 11:45

в этот кейс можно еще добавить Home Assistant Voice Preview Edition(в комментариях он звучал), от самого HA, по цене сопоставим с ESP32-S3-BOX и тоже использует ESP32-S3

DashBerlin 23 авг 2025 в 00:01

на это устройство можно не тратить время, тк. это тестовое решение и очень сырое, но главное, подключение разпазнование речи возможно двумя способом, первый через HA Cloud, подписка стоит 7,5 евро в месяц, но не уверен, что сейчас оплатить ее возмжно. Второй вариант локально, потребуются дополнения: Whisper, Piper, русский язык не поддерживается, вообще локально помимо англйского очень мало что поддерживает., вот хороший обзор https://www.michaelsleen.com/ha-voice-pe/ сравниваются оба способа.

Abyss777 29 июл 2025 в 03:48

Зачем N95 за 14 если можно взять Ryzen 5 6600H+Radeon 660M + 16Гб + 512Гб за 17000
https://www.ozon.ru/product/firebat-mini-pk-amd-ryzen-5-6600h-ram-16-gb-ssd-512-gb-amd-radeon-660m-windows-11-home-am02-chernyy-1846291873/

empenoso 29 июл 2025 в 04:09

В целом да, сейчас не обязательно самые дешёвые цены на китайской площадке

Abyss777 29 июл 2025 в 04:16

Я скорее про то, что 3 вариант не сильно отличается по цене от второго.

Я не силён в этом, но вроде как llm научились на APU запускать https://github.com/rjmalagon/ollama-linux-amd-apu

SabMakc 29 июл 2025 в 08:02

LLM и на CPU работают, вопрос скорости генерации токенов (и обработки запроса). А скорость зависит от пропускной способности памяти, где видеокарты как раз в почете.

С этой точки зрения APU не имеют особого смысла - просто потому, что скорость памяти не меняется.

P.S. Самый большой эффект оптимизаций видел в обработке запросов, но не в генерации (ik_llama.cpp в разы быстрее llama.cpp на CPU).

SserjIrk 29 июл 2025 в 04:51

Вообще N95 вполне может обходиться без вентилятора. А с Ryzen-ами такое уже не прокатывает. Что-то типа такого Алиэкспресс

empenoso 29 июл 2025 в 05:03

Спасибо

Illiiilll 30 июл 2025 в 05:46

У меня миник на n100 и без вентилятора он очень горячий, рука еле терпит. Вот такой калхозинг решает проблему(цена вопроса 200 рублей).

SserjIrk 30 июл 2025 в 06:23

Ну так это смотря что делать. Да и N100 заявлен до 105 градусов. А это далеко не то что рука может терпеть. Умному дому много не надо. Время работы на распознавание речи и ответ это очень немного а не постоянная нагрузка. Постоянный мониторинг это на столько мизерная нагрузка что можно и не обращать внимания. У меня N95 валяется в углу, торренты раздает да файловая помойка на Ubuntu Server. Только раз в полгода выключаю от пыли почистить.

Nafiganado 24 авг 2025 в 16:13

Это включая стоимость ибупрофена? :)

MrLizard 29 июл 2025 в 09:35

Вот совпадение, как раз сегодня такой должен прийти, как раз под эти же самые задачи

Tirarex 29 июл 2025 в 12:51

За 7-8к можно боксы на N150 Урвать, тоже веселая железка.

rPman 29 июл 2025 в 04:39

я не понял, зачем оставлять raspberry pi если мощную x86 машину придется завести? разделять слишком умный функционал от базового? Какую именно работу хотите поручить малинке если сервер выключится?

p.s. настоятельно рекомендую посмотреть на скорость получения результата голос -> whisper -> llm -> tts -> ответ и при использовании локальных моделей она вам НЕ понравится!

Если же собираетесь использовать зарубежных провайдеров (типа openai/anthropic/google/xai/alibaba/deepseek..) то настоятельно рекомендую посмотреть у них realtime api (как минимум у гугла и openai они есть) с мультимодальными голосовыми моделями (или гугл), работающими как с текстом так и с голосом в одном контекстном окне, скорость их реакции максимально приближена к естественному человеческому.

p.p.s. точно знаю у meta и майкрософта (phi 4) были мультимодальные модели для работы с голосом в реальном времени, но не попадался красивый готовый пример для локального запуска, ну и гугл недавно пиарился со своей мультимодальной моделью для смартфонов в открытом доступе, может там тоже голос есть.

empenoso 29 июл 2025 в 04:41

Спасибо

SabMakc 29 июл 2025 в 08:18

У phi 4 с русским языком "очень не очень".
Гугл пиарился с gemma-3n, но она только текст и картинки принимает, если не ошибаюсь.
Llama - их множество, дотренированных различным образом, но не пробовал. В целом об их моделях молва идет как о не очень качественных (не знаю, на сколько это соотносится с реальностью).

Я бы посмотрел на Voxtral от mistralai.
В целом, те модели от mistralai, что пробовал, русский понимают, пускай и не лучшим образом (но именно Voxtral не пробовал).

MrLizard 29 июл 2025 в 09:35

К сожалению мультимодальность gemma (google) ограничена только LLM и VLM, в качестве tts довольно шустро (и не нагруженно) работают silero, piper(на Rpi запускается без проблем, звучит кстати тоже неплохо) coqui tts(но постоянно пытается произнести точки aka "поинт\поинти\пынта") terra tts (если добавить RUAccent вообще звучит замечательно) А вот что касаемо STT пока подробно вопрос не изучал к сожалению

maniak26 29 июл 2025 в 05:04

Добрый день!

Пытался внедрить голосовое управление по схеме m5 atom - whisper - ha (вм на synology хранилке)

Настроил на активацию голосом (okay Jarvis Или okay naboo). Впечатление - с заметным лагом в 70% случаев срабатывает. Но пришлось рефачить конфиг - обзывать все устройства в соответствии с best practices. С пары метров ловит более менее прилично, если находится в прямой видимости.

Далее подключал llm (небольшие gemma и Llama), запущенную на пк. Стало чуть веселее, уже не строгое "включить свет кухня", а "сделай светло на кухне". Но иногда ошибается и включает свет не там).

Пока остановил эксперименты - для полностью локального и постоянного решения нужен какой-то не сильно шумный и дорогой девайс под llm и ускорение whisper.

empenoso 29 июл 2025 в 05:11

Спасибо

rPman 29 июл 2025 в 09:08

с каким системным промптом у вас gemma ошибалась?

maniak26 30 июл 2025 в 07:40

с дефолтным - под капотом home assiatant генерит промпт для instruct моделей с описанием всех элементов дома и как с ними взаимодействовать можно

XTBZ 29 июл 2025 в 05:14

Что лучше для такой системы HomeAssistant на докер контейнерах ручных или HomeAssistant OS?

Еще, не совсем понятно, почему бы не использовать сразу один сервер большой, ведь ресурсы большого сервера в любом случае требуются?

empenoso 29 июл 2025 в 05:28

Пока не решил для себя как окончательно сделать. Или 2 или 3 вариант рассматриваю

XTBZ 29 июл 2025 в 05:51

В плане дороговизны, может быть, можно использовать китайские старые зеоны. У них и ядер много, и в случае необходимости видеокарту добавить можно. Получится дешевый сервер, куда можно поместить что угодно

empenoso 29 июл 2025 в 05:52

Место только. У меня есть специальная ниша в стене - поместиться ли такая сборка - надо смотреть

almirus 29 июл 2025 в 07:20

на большой машине поставить Proxmox, а там в контейнерах все что нужно.

isden 3 авг 2025 в 13:36

Это не очень хорошая идея. Я через это проходил уже (несколько RPi разных поколений -> большая рязань с проксмокс). С одной стороны - да, круто, куча плюшек. Но с другой - большая коробка с вентиляторами и заморочки с ИБП. В итоге сейчас все работает на orange pi 5 plus. Там и NPU есть, и микрофон.

Tirarex 29 июл 2025 в 12:53

В докере с плагинами HA сложновато. А с baremetal системой есть шанс сломать конфиг и чинить его с красными глазами.

В идеале поставить Proxmox а в нем завести виртуалку с HomeAssistantOS. В таком случае всегда есть бекапы, легко расширить ресурсы и переехать с одного хоста на другой, итд.

(Скрипты TTEK делают заведение такой виртуалки делом пары минут)

empenoso 29 июл 2025 в 14:27

Спасибо

XTBZ 6 авг 2025 в 11:12

Я уже несколько раз по глупости обновлялся при использовании контейнеров, и часть функционала или устройств отваливались. Куча часов работы, чтобы всё исправить и не переподключать все домашние устройства. Хотя один раз пришлось всё переподключать...

Barnaby 29 июл 2025 в 14:53

HA очень хочет эксклюзивно работать на своей ос. Так что или отдельный одноплатник или proxmox.

isden 3 авг 2025 в 13:39

У меня развернуто на убунте arm64 от Joshua Riek в подмане =) Никто не возражал особо.

wrewolf 6 авг 2025 в 09:20

Нынче, начиная с 2025.06, все типы установок кроме home assistant os объявили устаревшими (, и скоро видимо придется обновляться совсем на свой страх и риск

Alexroll11 29 июл 2025 в 05:39

Добрый день по распознованию речи я для себя открыл https://huggingface.co/t-tech/T-one вот такую штуку, работает шустро, с русским языком идеально, в реальном времени, на вашей малинке конечно не запуститься нужно 8 гигов малинка но если будете использовать сервер то идеально, у себя накрутил на сервере, и с esp передаёт звук работает быстро. Тк сам сейчас задумываюсь делать альтернативу яндексу то что бы не городить лишнего планирую делать связку, колонки с Алисой остаются, задать активную фразу которая будет через хом ассистент передавать на мой сервер для перевода в речь, на том же сервере стоит ещё одна ллм для обработки запроса и от неё ответ отдавать тоже через хом ассистент на колонки яндекса.

empenoso 29 июл 2025 в 05:40

Спасибо

xaxexa 29 июл 2025 в 05:40

Вот не поверишь у меня точно такие же взгляды на построение умного дома :-) и щас воюю с твоей проблемой, я переехал с тв приставка s912 amlogic (мощнее твоего распберри), на интел nuc 6 там склерон 4 ядра, 8 ram, ssd, hassio просто летать начал, для stt использую vosk, вобще ниодного вопроса ни по разбору речи ни по быстродействию, а вот assist дно он даже на падежах спотыкается... ну и у меня мысли прошить Алису или марусю или ещё кого-то из их семейства на армбиан и накатить туда войс сателлит есть приложение от home assistant

empenoso 29 июл 2025 в 05:41

Спасибо

lolo333 29 июл 2025 в 05:41

для малины есть плата расширения для работы с ии. Может быть ее для обработки голоса хватит. https://www.raspberrypi.com/products/ai-kit/

j_aleks 29 июл 2025 в 05:54

А у вас HASS отчужден от инета, не обновляется... Хотя эти обновления немало крови попили... иной раз всю ифраструктуру перепахивать приходилось...

empenoso 29 июл 2025 в 06:23

Не отчужден. Обновляется. Да, потом что-нибудь слетает.

Steelycrack 29 июл 2025 в 05:58

чет какой-то зоопарк получается вместо одного сервера с гипервизором.

DimkaI 6 авг 2025 в 05:38

А посчитайте во сколько выльется сервер с гипервизором (это ещё и лицензии на гипервизор) и сравните со стоимостью этого модульного решения. К тому же малинки могут сутками питаться от павербанка, а для сервера придётся дорогой ИБП ставить.

glonas 10 авг 2025 в 07:08

N100 8 ватт ест , проксмокс бесплатно .

DimkaI 10 авг 2025 в 11:50

То есть вы на базе велосипеда собираете боинг на 600 мест и утверждаете что этот велосипед не только летает, но и прекрасно справляется с рейсовыми перевозками.

Ну-ну. Тогда да, чо уж там.

glonas 24 окт 2025 в 11:32

Что за бред ? За цену малинки беспонтовой я возьму 2 n100 , да и что эта малинку может ? Лампочку включать выключать , для камер предлагаете еще регистратор купить ? Или это уже не умный дом ?

yavasilek 29 июл 2025 в 06:22

Попробуй вместо whisper использовать vosk. Он побыстрее работает

AlexZino 30 июл 2025 в 11:19

Подскажите на голом Андроид можно запустить распознавание речи, используя vosk. Мне нужно на ноловном устройстве авто реализовать голосового ассистента.

rPman 30 июл 2025 в 11:53

с google apps идет поддержка распознования и синтеза, штатный SpeechRecognizer его умеет вызывать, по уму должно работать и оффлайн

AlexZino 31 июл 2025 в 10:31

У меня голый, кастрированный китайцами Андроид 9. Туда не поставить гугл сервисы и апп

rPman 31 июл 2025 в 10:33

и это не работает?

ncix 29 июл 2025 в 07:01

Это все конечно занимательные развлечения, но сколько вы рассчитываете жить без интернета? За день-два любые аварии провайдера устраняются. День-два вы же проживете без Алисы?

Тот же и ещё куча других вопросов решается резервным каналом (он же у вас есть?).

А если больше пары дней без инета, тут наверное лучше тушёнки и свечей закупить, чем ещё горсть железа.

empenoso 29 июл 2025 в 07:07

Тут как бы основной посыл статьи немного другой - в самом начале обозначено то что меня напугало.

earth_power 29 июл 2025 в 07:55

А почему не перейти на зарубежное решение, гугл, эпл или амазон колонку? И разве нет готовых оффлайн решений? Как то очень муторно и дорого отказываться от колонки за 2500р

empenoso 29 июл 2025 в 08:20

Сейчас таких цен на Алисы нет

DaemonGloom 29 июл 2025 в 08:02

Добро пожаловать в современный мир. Пара дней без инета - это теперь нормально.

empenoso 29 июл 2025 в 08:21

В Перми на самом деле перебоев вроде не было

Ruwster 29 июл 2025 в 09:06

Управление домашними устройствами , по-моему, должно работать офлайн.

У меня на даче интернет, в текущей ситуации, отсутствует, алиса в ауте, все устройства тоже. Резервный канал невозможен. Да и в принципе, на кой команды гонять через какие-то облака, чтобы включить свет в ванной или выключить кондиционер.

ncix 29 июл 2025 в 09:15

На случай отсутствия голосового помощника наверное есть пульты, приложения, панели с кнопками.
Мне сложно судить насколько это неудобно привыкшим к голосовому управлению людям, мне наоборот, куда проще молча найти пульт/приложение и ткунть пару кнопок, чем открывать рот и говорить.

JBFW 29 июл 2025 в 16:05

А еще можно во всяких удобных местах приколотить на стену гвоздями планшеты 6-10" с уже открытым интерфейсом, хотя бы к тому же HA.

Плюсы в том, что можно мимоходом посмотреть обстановку и что-то включить-выключить (не заморачиваясь "где этот телефон?!", не ожидая пока что-то там запустится).
При этом можно и с телефона, если лень подниматься с дивана.

Голосовое? Ну, это очень на любителя, либо одинокого, всеми покинутого, кому и поговорить не с кем...

empenoso 29 июл 2025 в 16:16

Лёжа на диване очень удобно сказать закрой шторы если например отсвечивает на телеке

xSVPx 29 июл 2025 в 22:28

Но зачем ?

Если регулярно отсвечивает на телеке шторы должны закрываться сами...

empenoso 29 июл 2025 в 09:20

HA полностью локален

Tirarex 29 июл 2025 в 12:58

Тут даже не вопрос интернета а вопрос алисы дома. Бесполезная + дорогая коробка + требует подписку, с очень кривым домом (удя) который интегрируется со скрипом, с обновлениями становится тупее.

За цену одной яндекс станции про ( в районе 20к) можно взять мини пк на N150 или свежем райзене, пару малин с шилдами для микрофона и динамика, и пару аудио систем 2,0 для лучшего звука, и сделать заметно более гибкий умный дом который не требует подписок и не дружит с товарищем майором.

teodorso 30 июл 2025 в 00:10

мини 2 - 5к новая, и любые колонки к ней. для управления умным домом подписка не нужна, как и для чего угодно кроме музыки

chercheur 29 июл 2025 в 07:06

Пробовал M5 Stack Atom Echo - слабоват микрофон и дохлый динамик

Купил на пробу "официальный" Home Assistant Voice Preview Edition - совсем другое дело, микрофоны получше и ответы слышно :)

janvarev 29 июл 2025 в 08:16

Если нужно - есть русский опенсорс голосовой помощник Ирина с полным оффлайном: https://habr.com/ru/articles/595855/, https://github.com/janvarev/Irene-Voice-Assistant

На Гитхабе 900+ звезд, расширяется плагином, есть плагин интеграции с HA. Распознавание голоса делается на лету легким VOSK, довольно качественно. Запускали даже на Raspberry, правда, там надо немного долбаться с докером; я предпочитаю запускать на старом компьютере.

Обработка команд - либо по соотвествию слов (быстро, дешево), либо можно прокинуть до LLM локальной или облачной (тогда вызывается один из tools).

empenoso 29 июл 2025 в 08:21

Спасибо

janvarev 29 июл 2025 в 12:53

Накатал статью на Хабр про последний апдейт Ирины: https://habr.com/ru/articles/932072/

DashBerlin 29 июл 2025 в 16:24

как раз в тему, статья появилась в ленте, спасибо!

positroid 29 июл 2025 в 08:27

Задарили недавно Home Assistant Voice Preview Edition, детально погонять не успел, но:

Для облака нужен VPN, локально на raspberry pi 4 без танцев с бубнами распознавание не завелось
Русский язык заявлен только в облаке
Можно кастомизировать вплоть до перепрошивки устройства
Assist в сравнении с алисой это такое ... своеобразие. Выше уже писали best practices по именованию объектов, но даже банальное "Включи весь свет" или указание комнаты у меня не завелось. Управление работает только если точно назвать объект в hass (и если whisper его правильно распознает, например "основной свет кабинет" иногда распознается как "основной свет в кабинете" и выдает ошибку).
Банально поболтать тоже не выходит, ни спросить погоду, ни все остальное - "сообщение не распознано". Работает только то, что завязано на Home Assistant.

Глубоко вникнуть во все детали у меня, к сожалению, не вышло, полностью отказываться от Алисы не собираюсь, но поразбираться с новым девайсом, локальными модельками и своей логикой - собираюсь. Благо в качестве основного устройства могу использовать стационарный ПК, т.к. он всегда в сети.

Tirarex 29 июл 2025 в 13:05

Я тестил с телефона в паре с чатгпт в настройках AI, дом настроен по комнатам с русскими названиями, сами устройства названы как попало.

Русский понимает без проблем, включи весь свет понимает без проблем, включи свет в комнате тоже, но точечные команды понимает с трудом если светильники не названы нормально. То же "включи ночник в зале" оно поймет только если ночник называется ночником а не shellyplus1pm-441793a962b0 (у меня ночником розетка шелли рулит), но это вполне логично.

В целом если посидеть с конфигами один раз, то можно привести это все в рабочее состояние.

С локальным AI все сложнее, у чатгпт сколько денег отдал столько токенов будет, а дома в llama можно любую сеть поднять но нужно много видеопамяти.

SabMakc 29 июл 2025 в 08:30

Если есть желание гонять LLM - то лучше сразу на полноценный комп закладываться, с видеокартой и прочими ништяками.

Я бы на мини-системник на базе AMD Ryzen AI MAX+ 395 посмотрел - распаяно 128GB быстрой памяти (что хорошо для LLM), но цена - около 200к, что не так уж и бюджетно (хотя если собирать новый комп с похожими характеристиками, то не сильно дешевле выйдет).

Может для умного дома и избыточно, но мощная локальная LLM пригодится и в повседневной жизни.

empenoso 29 июл 2025 в 09:05

Я уже завёл.

13werwolf13 29 июл 2025 в 09:54

у меня hass вместе с whisper и piper крутятся на безвентиляторном неттопе от китайцев с n100 в качестве процессора. увы этого камушка явно маловато для распознавания речи, в процессе распознавания команды, даже пары слов процессор грузится на 100% на 5-10 секунд хотя в остальное время он простаивает.

empenoso 29 июл 2025 в 14:28

А как на счёт "человечности" голосов?

13werwolf13 29 июл 2025 в 15:53

Мой голос вполне человечный 😁😁😁

А вообще не могу сказать, я строю по принципу "говорю я, а не мне".

empenoso 29 июл 2025 в 16:16

А, да, перепутал

artmel 29 июл 2025 в 12:58

посмотрите на orin jetson nano dev kit 8/16 гб

Он заточен на запуск локальных моделей.

apcs660 29 июл 2025 в 14:25

Jetson Orin NX 8/16? Чтоб два раза не вставать и поделать что то полезное помимо колонки?

Akr0n 29 июл 2025 в 12:59

Сомневаюсь, что N100 хватит под Whisper и Piper с приемлемыми задержками, надо что-то помощнее.

apcs660 29 июл 2025 в 15:38

Интересно, решения типа livekit могут быть полезны в колоночном деле?

empenoso 29 июл 2025 в 15:44

А если на человеческий язык перевести, то как это можно использовать - для чего такие решения?

apcs660 29 июл 2025 в 17:53

нормальный voice chat, с детектором активности, остановкой процессинга, с вызовом функций, с качественными stt/tts. Все по сути есть, из коробки. Можно и локально, а можно и облачно запустить.

Меня терзают смутные сомнения что очень скоро omni модели (qwen вроде есть же, но примеры еще не догрызли на huggingface), сделают создание "Алисы" очень простым. Функциональные вызовы почти везде из коробки есть в новых моделях, MCP/АCP стандарты допиливают, для интеграции чего хочешь.

У китайцев полно их мелких компов (sophon, не уверен что по памяти точно написал но там сложно с поддержкой и документацией), jetson orin nx можно - к нему и камеру сразу прикрутить. Омни модель, в ней tts/stt встроенные, распознавалка с камеры туда же, нормальный мини комп с ускорителем и обвязка с микрофонами как обычно.

dr_Sergeus 29 июл 2025 в 16:12

Да что ж так все сложно то... ESP32-S3 с EspHome ассистентом с local wake word на борту. Самый быстрый Wyoming - vosk, самый красивый голос (как по мне) Silero. Есть заброшенный проект Silero-TTS-Service - прямая интеграция с HA. Все это работает на малине 4В с 4GB + SSD. В отличии от автора статьи - у меня все в контейнерах, включая vosk, Silero-TTS-Service (пересобранный), EspHome. Колонки откликаются на Алексу. Дальше все зависит от Ваших желаний. Прямая интеграция с AI прямо в HA доступна давно. И да, все локально.

empenoso 29 июл 2025 в 16:17

Спасибо

nv13 29 июл 2025 в 16:18

А одноплатники с какими нибудь нейросопроцессорами не поддерживаются системами распознавания речи?

DashBerlin 29 июл 2025 в 18:29

@empenoso у тебя на скрине умного дома есть влажность растений в комнатах, там просто меряет или автополив, если ли у тебя заметки на эту тему?

empenoso 30 июл 2025 в 05:44

просто меряет

Seregaural 30 июл 2025 в 01:09

А какой может быть минус в использовании macmini 2011-2012 года под HA? Их сейчас отдают за 6т.р. уже с ssd и 8-16гб ram. У меня сейчас установлен на таком proxmox с ha, в usb торчит zigbee.

Radexxx 30 июл 2025 в 01:09

оно точно того стоит?
https://cloudfree.shop/product/home-assistant-voice-preview-edition/

empenoso 30 июл 2025 в 05:45

Насколько я понял это просто другой вариант ESP32-S3-BOX-3 из статьи. Так что как раз всё что описано применимо

MadMax1234 30 июл 2025 в 04:23

Давно хотел собрать себе голосового помощника, чтоб можно было обращаться к нему "товарищ майор".

empenoso 30 июл 2025 в 04:40

Вот и карты в руки

JohnGear 30 июл 2025 в 15:16

Впринципе даже неважно как он будет выглядеть. В моем случае планирую пока превратить старый пк в такого "помощника". А что, мне по сути то от алисы требуется: музыка, таймер/будильник, википедия. Но идея перенести это в физический корпус воодушевляет)

nicknamenull 30 июл 2025 в 20:31

А зачем вообще нужен умный дом, кто-нибудь может объяснить? Без маркетологической мишуры.

empenoso 31 июл 2025 в 01:12

Удобство. Технологичность.

Skill777 31 июл 2025 в 10:55

Если прям совсем без маркетинговой: то просто доказать себе что можешь. Можешь не спать несколько недель подбирая китайские датчики разной совместимости, настраивая систему, которая будет менять яркость лампочки голосом, говорить про «влажность цветков» и может даже что-то включать и открывть, даст тебе мнимое чувство защиты от протечки/пожара и возможность следить кто к жене приходит пока тебя дома нет.

В итоге, при всех назвать это удобством и технологичностью, а после с гордым чувством самоудовлетворения от сэкономленных секунд на рутинных действиях тратить в 5 раз больше времени на отладку и поддержания системы, не говоря уже про деньги. Отдельный кайф - если небольшой дом или живешь в маленькой квартире где все в шаговой доступности. Бонусом идет прокачка навыков работы с командной строкой и чтение документации на английском.

Это действительно интересно и занимательно

AlexeyOs 1 авг 2025 в 08:11

А у Алисы ведь есть оффлайн режим. Поэтому вопрос: умеет самоделка что-то, что не умеет Алиса?

Например музыку с жесткого диска без подписки включать?

Kosbespapiros 2 авг 2025 в 07:51

Очень жду следующей статьи с конкретными действиями.

Голосую за второй вариант. Критичная инфраструктура остается на одноплатнике(надеюсь с ссд). Отдельный узел с распознаванием и туда же можно докинуть распознавание лиц, если станет скучно.

Первый вариант я уже у себя успел опробовать. Как и ожидалось, слишком долго на интел4000.. На Алисе можно команд 5 перепробовать до того, как забракуется один запрос в локалке. Уже закупил n150 но не знал, что можно распределить по сети .. Теперь бы инструкцию для ленивых - how-to)

Letum 4 авг 2025 в 20:37

А если к этому всему попробовать прикрутить NPU типа Google Coral? У меня по крутится через Whisper ассистент от KinCony на i3 14100 32Gb и все медленно и печально. Есть ещё Xiaozhi через облако, но он не всеми устройствами умеет управлять.

Asm0deus 9 авг 2025 в 12:52

Тоже не хотел Алису и сделать все автономно.

На базе N150+НА+n8n+whisper (все локально) собрал так, что в ТГ бота говоришь, что нужно сделать, n8n кидает фразу в виспер, он ее более-менее транскрибирует и перекидывает в OpenRouter (в фри версию чата), у которого в системном аромате стоит одна задача - понять, что я имею ввиду из 2 частей: 1. Какой объект я имею ввиду 2. Что я с ним хочу сделать (вкл/выкл).

И отдает обратно в n8n в нужную ветку, у которого на выходе много устройств от HA.

Работает из-за доп.ИИ так, что легко понимает фразы: "Включи над головой на кухне", "выруби все", "чёт над столом темно"

nicelight_nsk 13 авг 2025 в 08:46

я то думал вы делитесь опытом а не размышлениями на будущее.
в конце 24го, начале 25го я тестировал такую систему на мощном i7 сервере 32Gb RAM 16 ГБ VRAM и медиум моделью Whisper с 4мя бимами. Результат был мягко говоря, разочаровывающий. до алисы не дотягивает, то ли из-за качества микрофонов ( использовал esp32 +inmp441) то ли из-за не способности виспером хорошо распознавать русскую речь.
Клиент вбухнул серьезные деньги на оффлан умный дом , а по итогу остались у разбитого корыта.
Large модель тупила даже на таком серьезном железе. Может у меня руки кривые. Но был разочарован. Кто знает, виспер мог улучшиться за эти пол года

rPman 13 авг 2025 в 11:39

что значит тупила? какого рода проблемы были или речь просто об отсутствии реалтайм? но это просто выбор не того инструмента!

p.s. не уверен что адекватно оффлайн русскоязычное распознование реалтайм существует, все что есть это: распознать фразу -> получить текст -> обработать -> синтезировать -> воспроизвести (почти ничего из этого не распаралеливается, т.е. только последовательно), что ни при каких условиях не может быть реалтайм

MADLexx 20 сен 2025 в 17:19

А вот если рассматривать вариант 3, но на базе уже существующего медиасервера с ОС TrueNAS Scale? Я его собрал из старого железа, которое и выкинуть было жалко и продавать смысла не было: компьютер на базе i7 3770k и ОЗУ 32гб. Использую его как медиасервер для просмотра фильмов. Можно на нём развернуть Home Assistant в докере и поставить Whisper и Piper? Мощности старичка по идее должно хватить, тем более транскодингом видео он не занимается. И насколько чувствительные микрофоны у ATOM Echo ? Одного на комнату 20 м2 достаточно будет? У меня была первая колонка от партнеров с Алисой, IRBIS A, приходилось ей кричать в паре метров.

empenoso 21 сен 2025 в 05:16

пробовать надо 🤷

Зарегистрируйтесь на Хабре, чтобы оставить комментарий