и подскажите, так же скачивали zip архив? И после фраз агент просто отключался или выдает ошибку? В последней версии на сайте чуть подправил этот баг(сам не сталкивался с ним, хотя тестирование проводил уже на 10и устройствах) там прописал код автоперезапуска при непредвиденном отключении
да, небольшое обновление уже залито - добавлена поддержка телеграм, то есть можете голосом попросить ответить человеку или написать в беседу, а так же прочитать последние сообщения от конкретного пользователя. И добавлена система модулей - чтение документов и встроенный интерпретатор python для сложных математических задач, генерации пароля и в будущем для генерации кода. Добавлю на сайте блог изменений, прошу прощения, что сразу не сделал
По поводу обратной связи, создал тг канал для этого https://t.me/agent_vera_ai. По функционалу все описано в документации на сайте и в readme на гитхабе, но по ходу дела будет обновляться. С веб-браузером пока агент работает минимально, то есть это открытие сайтов по уже вписанным в конфиг, веб-поиск, погода, курсы валют, но в будущем планирую сделать и полное взаимодействие с браузером. На счет распознавания согласен полностью с вами, но пока это самый простой и низкозатратный способ локального STT, пробую с другими STT нейросетями/плагинами, пока засматриваюсь на whisper base/small. И касательно Вера, стоп - для немедленной остановки, вы можете просто сказать вера, чтобы прервать ее речь. Спасибо огромное за комментарий и обратную связь! Приму к сведению и подправлю.
Спасибо за комментарий, не проверял на кириллице, обязательно проверю и подправлю. Если проект интересен, то попрошу вас подписаться на тг канал https://t.me/agent_vera_ai. Его как раз и создал для обратной связи/пожеланий/отзывов
а текстовый вариант есть, просто напрямую в терминал пишите, можно без Вера. С файловыми операциями заметил уже много проблем(спасибо читателям), на тестировании не обратил на них внимания, так что в ближайшие день-два обновлю репозиторий
честно говоря, как агента для программирования пока не задумывал, может в следуюющих выпусках уже. Можете поэксперементировать, вместо Qwen 3 1.7B попробовать Qwen 2.5 coder 3B. Но тогда думаю и системный промпт чуть переписать.
тут к сожалению проблема уже с самим датасетом vosk, он сам по себе маленький и WER у него составляет в районе 20-25%. Можете вместо маленькой версии vosk, попробовать поставить большую. Рассматриваю и другие варианты, whisper, + недавно вышли новые модели GigaAM, так что думаю буду отходить от vosk. А по поводу cmd - еще не добавил :) Очень много уже предложений поступило по улучшению функционала, так что на днях выложу чуть улучшенную версию
при общении голосом перед запросом(командой) говорите Вера: Вера, закрой телеграм. Можете и после запроса. Суть такова, что агент по идее должен работать постоянно в фоне, но если он на каждый ваш диалог будет отвечать - то будет черт пойми что, соответственно, пока базовая логика как у Алисы - говорите Вера и далее ваш запрос. В текстовом режиме можно писать без Вера. Если что вся информация по использованию есть и на сайте Vera Agent и в репозитории tripleguard/agent_vera
Честно, пытаюсь сделать, т.к вопрос для самого актуальный. Возникли определенные трудности (пытался сделать через selenium, но безрезультатно), сейчас пробую сделать через веб версию телеграмма и самописное расширение, полет пока нормальный, но думаю до ума доведу уже после нового года
Понял вас, проведу заново тестирования, постараюсь разобраться в чем проблема. Перед публикацией само собой проводил тесты на 5-и разных устройствах, проблем не возникало, так что это прям интересную задачу вы дали.
если скачали zip файл, то там сразу gguf версия модели уже предустановлена (Qwen3-1.7B). Возможно проблема будет в отсутствии C++ библиотек (требуются для llama-cpp-python). Попробуйте установить Microsoft Visual C++ Redistributable: https://aka.ms/vc14/vc_redist.x64.exe После установки перезагрузите компьютер. И отпишите, пожалуйста, если так же выключается
интересное замечание, проведу еще раз тесты, спасибо. А подскажите вы установили версию с exe или запускаете через исходники? И установлена ли модель gguf?
ну мне кажется около полугода будет +- прозрачно, как было и у cursor вначале, просто стоит учитывать, что cursor ввел все эти нововведения, когда уже начались проблемы с финансами, чего у гугл пока не предвидится, учитывая, что у них бесплатный доступ к firebase studio, google ai studio, недавно добавили build в studio и теперь своя полноценная ide, скорее он по максимуму будет привлекать разрабов к себе, всякими низкими ценами, льготами и т.д и т.п
Спасибо за вопрос, на данном этапе нет, не дообучал, статья написана, как введение, т.к это только начало работы над десктопными голосовыми агентами и было интересно, возможно ли сейчас сделать что то минимально работоспособное(как видно из статьи - возможно даже больше). Но в планах конечно имеется, т.к выводом ответов недоволен. Сейчас сел за работу по улучшению данного агента и главное изменение это переход от gemma 3 1b к qwen 3 0.6b(хочу еще попробовать на qwen 3 1.7b), с дальнейшим дообучением именно под задачи по управлению ПК. Так же собираюсь дообучить модель vosk-small-ru, и расширить ее лексикон на 200-500 слов. По поводу моделей llama - в целом их понимание русского языка оставляет желать лучшего, можете попробовать взять qwen 3 4b non-thinking либо те же самые gemma 3 4-8b, показывают действительно хорошие результаты и без файн тюнинга. Просто я использую маленькие модели в виду ограничений мощности видеокарты, поэтому основная нагрузка у меня идет на процессор.
спасибо за ссылку Ирины, обязательно посмотрю. А по поводу API perplexity, я не спорю, я бы мог использовать и API Serp.dev, как у автора с реддита. Но задумка была именно в том, чтобы не использовать API, да, это с одной стороны не современный подход, но хотелось бы сделать все самостоятельно, без надобности от кого то зависеть.
принял, спасибо за обратную связь! Тоже думаю в будущем сделать поддержку CUDA, но пока бросил силы на версии под linux и macOS
и подскажите, так же скачивали zip архив? И после фраз агент просто отключался или выдает ошибку? В последней версии на сайте чуть подправил этот баг(сам не сталкивался с ним, хотя тестирование проводил уже на 10и устройствах) там прописал код автоперезапуска при непредвиденном отключении
да, небольшое обновление уже залито - добавлена поддержка телеграм, то есть можете голосом попросить ответить человеку или написать в беседу, а так же прочитать последние сообщения от конкретного пользователя. И добавлена система модулей - чтение документов и встроенный интерпретатор python для сложных математических задач, генерации пароля и в будущем для генерации кода. Добавлю на сайте блог изменений, прошу прощения, что сразу не сделал
По поводу обратной связи, создал тг канал для этого https://t.me/agent_vera_ai. По функционалу все описано в документации на сайте и в readme на гитхабе, но по ходу дела будет обновляться. С веб-браузером пока агент работает минимально, то есть это открытие сайтов по уже вписанным в конфиг, веб-поиск, погода, курсы валют, но в будущем планирую сделать и полное взаимодействие с браузером. На счет распознавания согласен полностью с вами, но пока это самый простой и низкозатратный способ локального STT, пробую с другими STT нейросетями/плагинами, пока засматриваюсь на whisper base/small.
И касательно Вера, стоп - для немедленной остановки, вы можете просто сказать вера, чтобы прервать ее речь. Спасибо огромное за комментарий и обратную связь! Приму к сведению и подправлю.
Спасибо за комментарий, не проверял на кириллице, обязательно проверю и подправлю. Если проект интересен, то попрошу вас подписаться на тг канал https://t.me/agent_vera_ai. Его как раз и создал для обратной связи/пожеланий/отзывов
а текстовый вариант есть, просто напрямую в терминал пишите, можно без Вера. С файловыми операциями заметил уже много проблем(спасибо читателям), на тестировании не обратил на них внимания, так что в ближайшие день-два обновлю репозиторий
честно говоря, как агента для программирования пока не задумывал, может в следуюющих выпусках уже. Можете поэксперементировать, вместо Qwen 3 1.7B попробовать Qwen 2.5 coder 3B. Но тогда думаю и системный промпт чуть переписать.
тут к сожалению проблема уже с самим датасетом vosk, он сам по себе маленький и WER у него составляет в районе 20-25%. Можете вместо маленькой версии vosk, попробовать поставить большую. Рассматриваю и другие варианты, whisper, + недавно вышли новые модели GigaAM, так что думаю буду отходить от vosk.
А по поводу cmd - еще не добавил :) Очень много уже предложений поступило по улучшению функционала, так что на днях выложу чуть улучшенную версию
при общении голосом перед запросом(командой) говорите Вера: Вера, закрой телеграм. Можете и после запроса. Суть такова, что агент по идее должен работать постоянно в фоне, но если он на каждый ваш диалог будет отвечать - то будет черт пойми что, соответственно, пока базовая логика как у Алисы - говорите Вера и далее ваш запрос. В текстовом режиме можно писать без Вера. Если что вся информация по использованию есть и на сайте Vera Agent и в репозитории tripleguard/agent_vera
Спасибо за поддержку! Как раз и стараюсь сделать максимально просто и отзывчиво, чтобы в двух шагах: запустил и пользуешься
Честно, пытаюсь сделать, т.к вопрос для самого актуальный. Возникли определенные трудности (пытался сделать через selenium, но безрезультатно), сейчас пробую сделать через веб версию телеграмма и самописное расширение, полет пока нормальный, но думаю до ума доведу уже после нового года
Понял вас, проведу заново тестирования, постараюсь разобраться в чем проблема. Перед публикацией само собой проводил тесты на 5-и разных устройствах, проблем не возникало, так что это прям интересную задачу вы дали.
если скачали zip файл, то там сразу gguf версия модели уже предустановлена (Qwen3-1.7B). Возможно проблема будет в отсутствии C++ библиотек (требуются для llama-cpp-python). Попробуйте установить Microsoft Visual C++ Redistributable: https://aka.ms/vc14/vc_redist.x64.exe После установки перезагрузите компьютер. И отпишите, пожалуйста, если так же выключается
интересное замечание, проведу еще раз тесты, спасибо. А подскажите вы установили версию с exe или запускаете через исходники? И установлена ли модель gguf?
а подскажите системные характеристики ваши, и лог ошибки выдает или просто молча выключается?
Спасибо, за подсказку. А сможете скинуть статью или сразу аккаунт его? Если остался вдруг
заметил, что в ридми файле и на сайте допустил ошибку, прошу прощения. Пробовали git clone https://github.com/tripleguard/agent_vera.git ? только что проверил - должно работать
ну мне кажется около полугода будет +- прозрачно, как было и у cursor вначале, просто стоит учитывать, что cursor ввел все эти нововведения, когда уже начались проблемы с финансами, чего у гугл пока не предвидится, учитывая, что у них бесплатный доступ к firebase studio, google ai studio, недавно добавили build в studio и теперь своя полноценная ide, скорее он по максимуму будет привлекать разрабов к себе, всякими низкими ценами, льготами и т.д и т.п
Спасибо за вопрос, на данном этапе нет, не дообучал, статья написана, как введение, т.к это только начало работы над десктопными голосовыми агентами и было интересно, возможно ли сейчас сделать что то минимально работоспособное(как видно из статьи - возможно даже больше). Но в планах конечно имеется, т.к выводом ответов недоволен. Сейчас сел за работу по улучшению данного агента и главное изменение это переход от gemma 3 1b к qwen 3 0.6b(хочу еще попробовать на qwen 3 1.7b), с дальнейшим дообучением именно под задачи по управлению ПК. Так же собираюсь дообучить модель vosk-small-ru, и расширить ее лексикон на 200-500 слов. По поводу моделей llama - в целом их понимание русского языка оставляет желать лучшего, можете попробовать взять qwen 3 4b non-thinking либо те же самые gemma 3 4-8b, показывают действительно хорошие результаты и без файн тюнинга. Просто я использую маленькие модели в виду ограничений мощности видеокарты, поэтому основная нагрузка у меня идет на процессор.
спасибо за ссылку Ирины, обязательно посмотрю. А по поводу API perplexity, я не спорю, я бы мог использовать и API Serp.dev, как у автора с реддита. Но задумка была именно в том, чтобы не использовать API, да, это с одной стороны не современный подход, но хотелось бы сделать все самостоятельно, без надобности от кого то зависеть.