RadioCaroline 13 ноя 2024 в 08:38

Умелец создал голосового ассистента на базе Raspberry Pi и ChatGPT

2 мин

5.6K

Raspberry Pi * DIY или Сделай сам

Комментарии 12

0Bannon 13 ноя 2024 в 08:49

Иии... Запустил на нём doom опять?

RadioCaroline 13 ноя 2024 в 09:00

Ну да. Теперь он говорит голосами демонов.

grvelvet 13 ноя 2024 в 09:00

устройство не будет привязано к серверам Amazon

Зато будет привязано к серверам openai?

RadioCaroline 13 ноя 2024 в 09:03

Хе-хе...не знаю.

putnik 13 ноя 2024 в 09:10

Именно. Причём даже больше, чем реально требуется на RPi 5:

OpenAI whisper-1 API
OpenAI ChatGPT gpt-3.5-turbo API
OpenAI tts-1 API

Даже RPi 4 хватало, чтобы делать распознавание и генерацию текста локально, пусть и с заметной задержкой, а уж на RPi 5 хотелось бы видеть решение без отправки лишней информации в облако.

Однако без вентилятора здесь всё же не обойтись, поскольку платы Raspberry Pi 5 часто перегреваются.

Учитывая, что локальный код сводится к записи звука, отправки его в облако, получению звукового файла из облака и его проигрыванию, что-то тут сделано явно не так.

grvelvet 13 ноя 2024 в 09:12

Меня посетили те же мысли

ShadF0x 13 ноя 2024 в 16:26

Генерацию текста я б малине доверять не стал, тут как раз можно использовать облако\runpod. А вот анализ голоса и синтез TTS - это запросто. У spchat заявлена поддержка RPi4, Piper как раз изначально под малину делали.

ITDiver77 14 ноя 2024 в 16:33

Серьёзно? LLM на рпи5? Это смешно, почти в голос. Адекватный опенсорс и на здоровом домашнем железе не поднять, либо надо очень много денех в топовую видюху вбахать. Ведь вариант задать вопрос и сходить сварить кофе пока генерится ответ это не вариант для голосового ассистента, не так ли? И всё равно упереться что опенсорс по качеству сильно уступает проприетарщине и особенно чатегу, пока оккупировавшему пальму первенства...

Хотя, использование старых дешёвых моделей тоже непонятно... Верхние версии того же чатега уже могут общаться практически как человек, в том числе моделируя голос не как Алиса, академически, а подражая интонации и произношению реальных людей. Ну и качество ушло радикально вперёд, зачем 3.5 в конце 2024 года? Это примерно как играть в современный шутер на 4к мониторе на старинной видюхе, выставив разрешение 640*480....

Для ассистентов, с прикрученным рагом, да ещё и отфайнтюненых, идея вполне себе, для ответов на типовые запросы в области бизнеса компании. Зачем платить много за качество чатботов, если можно получить приемлимое качество дешевле, т.е. решать бизнес задачу дешевле.

Но очевидно, тут не решается бизнес задача, а делается для себя. И зачем, потратив кучу сил для себя, экономить на спичках? Да и раг тут особо не поможет, и файнтюн очень ограниченно применим...

А вот что касается излишнести rpi5, кмк, для такого должно и рпи3 за глаза быть, ведь всё считается в облаке, от Малинки действительно, только записать и проиграть)

putnik 15 ноя 2024 в 08:47

Извиняюсь, сейчас перечитал, и понял, что меня увело куда-то не туда. Имелось ввиду не LLM, а TTS. Да, к сожалению LLM сейчас ужасно медленные на таком железе, и непонятно, есть ли какие-то надежды в будущем (более мощные RPi или облегчённые модели) их подружить.

SHAREN 13 ноя 2024 в 15:24

Интересно он отвечает в режиме трансляции или дожидается пока придёт весь ответ и только после этого начинает говорить

CyberexTech 13 ноя 2024 в 16:31

Что-то подобное я уже делал, только для реализации применил более дешёвый одноплатник. Видео.

ViskasSP1vom 14 ноя 2024 в 00:10

Jarvis ?!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий