Pull to refresh

Comments 5

Учитывая описанное в статье, все-таки рекомендую посмотреть в сторону опенсорс голосового помощника Ирины: https://habr.com/ru/articles/932072/ (1000 звезд Гитхаба уже)

Есть:

  • vosk stt для стримингового входа (дешево, быстро)

  • плагинная система (писать свои команды)

  • при необходимости ai tools интеграции с OpenAI-совместимым сервером (хоть с внешним сервисом, хоть с чем-то запущенным в ollama, без разницы)

Ну и еще куча всего по мелочи - клиент-сервер, плагины от комьюнити и прочее.

Насчет "долгой работы с интернетом" - в предложенном в статье варианте да, практически неизбежна задержка в 10-20 секунд. Лучшие варианты - только напрямую вызывать perplexity llm онлайн по api, она быстро у себя сделает и даст ответ, иначе все +- долго.

спасибо за ссылку Ирины, обязательно посмотрю. А по поводу API perplexity, я не спорю, я бы мог использовать и API Serp.dev, как у автора с реддита. Но задумка была именно в том, чтобы не использовать API, да, это с одной стороны не современный подход, но хотелось бы сделать все самостоятельно, без надобности от кого то зависеть.

Просто если "искать в интернете" - все равно от кого-то зависеть придется )))

Если было бы чисто LLM, то можно было бы да, все автономно сделать. Но поиск так не сделаешь.

Значит ни какого дообусения не было?

Я тоже пытался сделать подобного агента только брал модель llama3 8b, влезла в память видеокарты. Но всеравно я остался недоволен. Вопрос ответ отраьатывало а как только добавлял контекст нейронка начинала тупить. Хорошо показала модель llama3 72b, но из за своего размера обработка была крайне долгой.

В итоге пришел к тому что если нужно что-то легковесное то нейронку нужно дообучить , работать с командами и т.д.

Спасибо за вопрос, на данном этапе нет, не дообучал, статья написана, как введение, т.к это только начало работы над десктопными голосовыми агентами и было интересно, возможно ли сейчас сделать что то минимально работоспособное(как видно из статьи - возможно даже больше). Но в планах конечно имеется, т.к выводом ответов недоволен. Сейчас сел за работу по улучшению данного агента и главное изменение это переход от gemma 3 1b к qwen 3 0.6b(хочу еще попробовать на qwen 3 1.7b), с дальнейшим дообучением именно под задачи по управлению ПК. Так же собираюсь дообучить модель vosk-small-ru, и расширить ее лексикон на 200-500 слов. По поводу моделей llama - в целом их понимание русского языка оставляет желать лучшего, можете попробовать взять qwen 3 4b non-thinking либо те же самые gemma 3 4-8b, показывают действительно хорошие результаты и без файн тюнинга. Просто я использую маленькие модели в виду ограничений мощности видеокарты, поэтому основная нагрузка у меня идет на процессор.

Sign up to leave a comment.

Articles