DIY-тенденция: парень собрал визуального ассистента на Raspberry, Qwen3 1.7b и Gemma3 1b / Хабр

Кажется, для мастерства, которое можно проявить с помощью Raspberry Pi, действительно нет границ. Один из пользователей GitHub, Симоне Марцулли, не просто задумал создать собственного локального ИИ‑агента — он обучил его жить и работать прямо на Raspberry Pi 5.

Главная цель Марцулли, по крайней мере на бумаге, была до смешного простой: ничего не должно покидать Raspberry Pi. К тому же Симоне хотел, чтобы весь внутренний механизм работал на открытых LLM и общение с ботом строилось исключительно на голосе.

Для своего детища он подобрал небольшой корпус, экран и вентилятор — и в конечном итоге родился умный дисплей, которому он дал имя Max Headbox.

На дисплее отображается лицо — анимированное в GIMP на основе одного из fluentemoji от Microsoft, — и это лицо меняется в ответ на голосовые команды, которые активируются после произнесения ключевого слова. Марцулли добавил и сенсорное управление: лёгкое касание включает микрофон и позволяет озвучить запрос. Ещё одно касание останавливает запись, а если постучать по экрану во время ответа модели, то можно отменить запрос.

Интерфейс он сделал намеренно лаконичным: три вращающиеся цветные ленты выступают индикаторами состояний — готовность к ключевому слову (синяя), идёт запись голоса (красная), модель работает (разноцветная).

Что касается моделей, то в качестве «мозга», принимающего решения, он выбрал Qwen3 1.7b, а в роли эмоционально‑разговорного модуля — Gemma3 1b, чтобы бот мог отвечать живее и выразительнее.

Поскольку Raspberry Pi по железу не так мощна, Марцулли пришлось выбирать модели осторожно. Любая крупная LLM быстро «положила бы» процессор и память Pi, поэтому он нашёл разумный баланс между скоростью и выразительностью, остановившись на моделях диапазона 1B–2B параметров.

К счастью, Симоне Марцулли тщательно задокументировал весь проект на GitHub — со списком деталей, пошаговой установкой и нюансами настройки. Что касается железа, понадобится Raspberry Pi 5 (Headbox тестировали на версиях 16 и 8 ГБ), USB‑микрофон (Марцулли советует этот) и комплект GeeekPi из экрана, корпуса и вентилятора.

Кроме того, на самой Pi нужно установить несколько ключевых компонентов: Ruby 3.3.0, Node 22, Python 3 и Ollama. За голосовое управление отвечают Vosk API — распознаёт ключевые слова и faster‑whisper — для быстрой и точной транскрипции речи. А создание инструментов, которыми сможет пользоваться агент, предельно понятное: необходимо лишь написать JavaScript‑модуль, экспортирующий объект с четырьмя полями.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

ИСТОЧНИК

DIY-тенденция: парень собрал визуального ассистента на Raspberry, Qwen3 1.7b и Gemma3 1b

Другие новости

Информация