Comments 11
очень интересно, но нифига не понятно - сколько это стоит.В том числе сколько киловатт-часов в месяц может стоить вот это вот всё
Из личного, если собственную домашнюю песочницу добротную, чтобы 30B+ модели тянула, можно уложиться в 200-250К рублей, но с учётом что это не просто поиграться на досуге в на перспективу заработка. Лично взял Gmktec Evo-x2, да ноунайм но 128 оперативы и 32 ядра, за глаза и на перспективу. На стареньком железе гипотезы сложновато подтверждать.
а зачем телега и ИИ для вот этого всего, что может великий и могучий умный дом (почти у все в квартирах) - помигать лампочкой, повключать теплый пол, подергать умную розетку?
Причем, вот, скажем - стоит кофеварка (автоматическая). Дергая розетку, ей можно только сделать хуже, а включить наливание кофе нужного рецепта - это тема совсем непростая. И так со всем: скажем, включить ТВ мало, нужно еще включить на нём нужный фильм/мультик, причем не на дорогом и пустом Кинопоиске (там поиск почти наверняка не будет успешен), а... ну, где найдет!
Плюс статье поставил, но всё же есть много спорных моментов по выбранным инструментам.
Например: лишние телодвижения с mcp для llama3.1 8b. По сути проблема в моделе, и подстраивать под неё тулсет вместо выбора другой модели, когда этот выбор есть (а он есть и на мал) - довольно странно. Можно было взять gemma 3 4b и он бы работал лучше старой ламы, по крайней мере с вызовом тулов у него проблем нет. В крайнем случае можно было использовать и бесплатные нелокальные модели с openrouter (или даже лучше с cerebras), и для этого не нужно платить ни копейки. Просто настраиваете список фоллбэк моделей на случай выхода за лимиты или недоступности моделей.
Сейчас, совсем недавно, ещё gemma 4 вышла (в вашем случае именно на e4b надо смотреть), она мультимодальная и мультиязычная, то есть можно ещё и без whisper'а обойтись и работать с ней голосом напрямую.
В общем, работу вы провели приличную, но часть её можно было сделать проще)
Для управления НА голосом локально достаточно встроенного ассистента+ esp32 s3 которая может локально обрабатывать активацию голосом одной из трёх фраз. После чего используется vosk + whisper для локального распознавания команды и её выполнения. Работает достаточно стабильно при условии хорошего микрофона на входе есп
Думаю локальная оллама для распознования голоса - это оверкилл. Если гуглы не порезаны, то гугл спикер колонка + виртуальный matter device на NodeRed (про n8n не в курсе) - закрывают вопрос для большинства сценариев.
А встроенные гпу не пойдут? А то так то производительность 1060 это уже даже ниже встройки, но лишние 50-70Вт в 1060 кажутся избыточными
Решение: скрипт update-ha-context.sh получает данные из Home Assistant через mcporter, парсит термостаты и температуру, записывает в TOOLS.md. Модель получает актуальные данные в промпте — tool calling не нужен
Как это не нужен, а как умным домом управлять?
Спасибо за подробный разбор практик развертывания всего этого хозяйства!
...но use-case-ы использования остались непонятны...
Не хватет расбери пай с микрофоном и вайфай, что бы не использовать тг для общения.
AI для умного дома: что уже работает сегодня (часть 1)