Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 12

Иии... Запустил на нём doom опять?

Ну да. Теперь он говорит голосами демонов.

устройство не будет привязано к серверам Amazon

Зато будет привязано к серверам openai?

Хе-хе...не знаю.

Именно. Причём даже больше, чем реально требуется на RPi 5:

  • OpenAI whisper-1 API

  • OpenAI ChatGPT gpt-3.5-turbo API

  • OpenAI tts-1 API

Даже RPi 4 хватало, чтобы делать распознавание и генерацию текста локально, пусть и с заметной задержкой, а уж на RPi 5 хотелось бы видеть решение без отправки лишней информации в облако.

Однако без вентилятора здесь всё же не обойтись, поскольку платы Raspberry Pi 5 часто перегреваются.

Учитывая, что локальный код сводится к записи звука, отправки его в облако, получению звукового файла из облака и его проигрыванию, что-то тут сделано явно не так.

Меня посетили те же мысли

Генерацию текста я б малине доверять не стал, тут как раз можно использовать облако\runpod. А вот анализ голоса и синтез TTS - это запросто. У spchat заявлена поддержка RPi4, Piper как раз изначально под малину делали.

Серьёзно? LLM на рпи5? Это смешно, почти в голос. Адекватный опенсорс и на здоровом домашнем железе не поднять, либо надо очень много денех в топовую видюху вбахать. Ведь вариант задать вопрос и сходить сварить кофе пока генерится ответ это не вариант для голосового ассистента, не так ли? И всё равно упереться что опенсорс по качеству сильно уступает проприетарщине и особенно чатегу, пока оккупировавшему пальму первенства...

Хотя, использование старых дешёвых моделей тоже непонятно... Верхние версии того же чатега уже могут общаться практически как человек, в том числе моделируя голос не как Алиса, академически, а подражая интонации и произношению реальных людей. Ну и качество ушло радикально вперёд, зачем 3.5 в конце 2024 года? Это примерно как играть в современный шутер на 4к мониторе на старинной видюхе, выставив разрешение 640*480....

Для ассистентов, с прикрученным рагом, да ещё и отфайнтюненых, идея вполне себе, для ответов на типовые запросы в области бизнеса компании. Зачем платить много за качество чатботов, если можно получить приемлимое качество дешевле, т.е. решать бизнес задачу дешевле.

Но очевидно, тут не решается бизнес задача, а делается для себя. И зачем, потратив кучу сил для себя, экономить на спичках? Да и раг тут особо не поможет, и файнтюн очень ограниченно применим...

А вот что касается излишнести rpi5, кмк, для такого должно и рпи3 за глаза быть, ведь всё считается в облаке, от Малинки действительно, только записать и проиграть)

Извиняюсь, сейчас перечитал, и понял, что меня увело куда-то не туда. Имелось ввиду не LLM, а TTS. Да, к сожалению LLM сейчас ужасно медленные на таком железе, и непонятно, есть ли какие-то надежды в будущем (более мощные RPi или облегчённые модели) их подружить.

Интересно он отвечает в режиме трансляции или дожидается пока придёт весь ответ и только после этого начинает говорить

Что-то подобное я уже делал, только для реализации применил более дешёвый одноплатник. Видео.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости