Comments 5
Учитывая описанное в статье, все-таки рекомендую посмотреть в сторону опенсорс голосового помощника Ирины: https://habr.com/ru/articles/932072/ (1000 звезд Гитхаба уже)
Есть:
vosk stt для стримингового входа (дешево, быстро)
плагинная система (писать свои команды)
при необходимости ai tools интеграции с OpenAI-совместимым сервером (хоть с внешним сервисом, хоть с чем-то запущенным в ollama, без разницы)
Ну и еще куча всего по мелочи - клиент-сервер, плагины от комьюнити и прочее.
Насчет "долгой работы с интернетом" - в предложенном в статье варианте да, практически неизбежна задержка в 10-20 секунд. Лучшие варианты - только напрямую вызывать perplexity llm онлайн по api, она быстро у себя сделает и даст ответ, иначе все +- долго.
спасибо за ссылку Ирины, обязательно посмотрю. А по поводу API perplexity, я не спорю, я бы мог использовать и API Serp.dev, как у автора с реддита. Но задумка была именно в том, чтобы не использовать API, да, это с одной стороны не современный подход, но хотелось бы сделать все самостоятельно, без надобности от кого то зависеть.
Значит ни какого дообусения не было?
Я тоже пытался сделать подобного агента только брал модель llama3 8b, влезла в память видеокарты. Но всеравно я остался недоволен. Вопрос ответ отраьатывало а как только добавлял контекст нейронка начинала тупить. Хорошо показала модель llama3 72b, но из за своего размера обработка была крайне долгой.
В итоге пришел к тому что если нужно что-то легковесное то нейронку нужно дообучить , работать с командами и т.д.
Спасибо за вопрос, на данном этапе нет, не дообучал, статья написана, как введение, т.к это только начало работы над десктопными голосовыми агентами и было интересно, возможно ли сейчас сделать что то минимально работоспособное(как видно из статьи - возможно даже больше). Но в планах конечно имеется, т.к выводом ответов недоволен. Сейчас сел за работу по улучшению данного агента и главное изменение это переход от gemma 3 1b к qwen 3 0.6b(хочу еще попробовать на qwen 3 1.7b), с дальнейшим дообучением именно под задачи по управлению ПК. Так же собираюсь дообучить модель vosk-small-ru, и расширить ее лексикон на 200-500 слов. По поводу моделей llama - в целом их понимание русского языка оставляет желать лучшего, можете попробовать взять qwen 3 4b non-thinking либо те же самые gemma 3 4-8b, показывают действительно хорошие результаты и без файн тюнинга. Просто я использую маленькие модели в виду ограничений мощности видеокарты, поэтому основная нагрузка у меня идет на процессор.
Десктопный агент на базе Gemma 3 1b