Pull to refresh

Comments 24

мне признаться интересно, можно ли Hermes использовать как прослойку между каким-нибудь проектом и текстовым браузером на vps (w3w например), чтобы подключиться к веб-версиям нейронок. тогда токены безлимитны (но контекста не будет).
Тоесть задаёшь в проекте вопрос к Hermes, он переправляет запрос на веб-версию Claude, chtGPT и тд, а потом возвращает от них ответ

Сомневаюсь, что сработает. Даже если ИИ-чаты от корпораций работают в текстовых браузерах (в чём я не уверен:), Hermes должен на них как-то заходить. Для этого: (1) либо использовать бюджетную модель в качестве мозгов (что уже небесплатно), либо (2) писать скрипт-прокладку (что возможно, но отсутствует в архитектуре Hermes "из коробки")

Наконец, сила агента - не в способности "давать ответы", а в способности дёргать внешние tools (чтобы совершать работу). А я практически уверен, что в бесплатных ИИ-чатах для браузеров, эта фича вырезана на уровне системного промпта.

Если вдруг стоит задача тотальной экономии на токенах - сейчас проще настроить несколько бесплатных OpenRouter-аккаунтов с ротацией ключей (по 50 бесплатных запросов в день на каждом аккаунте)

Всю дорогу думал, что это реклама VPS

P.S. Все эти использования автономных агентов для составления списков покупок - не целевая трата дорогостоящих ресурсов. Потом будете удивляться почему так внезапно дорожают тарифы

Если мыслить в таком ключе - вы явно пропустили "рекламу" подписки на китайских ИИ-провайдеров. ¯\_(ツ)_/¯

Что касается VPS - лично мне было бы странно написать подробную статью-инструкцию "бери и делай", но упустить этот существенный шаг из страха что это кому-то не понравится. Поэтому написал.

... использования автономных агентов для составления списков покупок - не целевая трата дорогостоящих ресурсов

Ну, это вопрос философии и отношения к жизни. Экономить или инвестировать (в себя). В том числе - вкладывать время и деньги в изучение новых технологий. На Хабре об этом и пишут.

Что касается денег: по моим грубым оценкам, "список покупок с gemini-v3.1-flash-lite" - при использовании несколько раз в неделю - потребляет менее 30 рублей в месяц. Для меня это не та сумма, которая требует экономии. Время дороже - а вот оно экономится.

У меня такие "мелкие сервисы" (типа "диетолога", "корреспондента" и т.п.) от агентов сидят на недоиспользуемых лимитах разных подписок. Не просто хватает - даже не видно в расходах.

Интересно, а что если подключить локальную модель вроде qwen3.5-9b? В диалогах и написании кода она не ощущается глупой

Здесь, насколько я понимаю, не про "поговорить", а про вызов инструментов всяких. И для таких целей (дернуть MCP или даже просто команду с нужными параметрами запустить) нужна гораздо выше точность.

В диалоге вы мелкие огрехи простите. А тут каждая буковка важна.

Человек поймет хоть "delete", хоть "remove", хоть "uninstall" и даже не заметит подвоха. А при вызове инструмента это уже ошибка.

Так что вряд ли можно на такую мелкую рассчитывать. Ну разве что для состоавления списка покупок, где огрехи человек исправит.

Выше уже ответили, что бюджетные модели не всегда справляются с вызовом инструментов.

Приведу ещё три примера неудачного использования бюджетной deepseek-v4-flash (а она жирнее qwen3.5-9b в несколько раз)

  • Когда просил агента с бюджетной моделью прислать мне файл с диска VPS в телегу, то периодически получал ответ вида "прислал", но файла не было. То есть он не смог вызвать инструмент и даже не заметил. С llm-флагманами за месяц такого не было ни разу.

  • Когда настраивал Xray на VPS, то дипсик-флеш создал конфиг с двумя нодами на одном порту (что недопустимо, т.к. не работает). То есть задачу выполнил, а "внимания к деталям" не проявил. Флагманы под капотом так не косячили.

  • Когда делал pdf-отчёты (кейс#2 из статьи), то deepseek-v4-flash справился, но на результат было сложно смотреть без слёз: получался поверхностный нейрослоп. А какой-нибудь GLM 5.1 или Sonnet 4.6 выдавали глубокое исследование, которое я сам брал в работу.

Первые две проблемы решаются ценой личного времени и точной постановкой задач агенту. Третья - силами бюджетных моделей - не решается.

Большое спасибо за вашу статью. Решился попробовал hermes как раз после прочтения. Установил на vps в docker (правда четко все получилось только с 3-й попытки). В качестве основной модели выбрал как раз deepseek v4 flash (не удержался из-за цены). Вообще это мой первый опыт как с агентами, так и с VPS, Docker и даже openrouter. У меня он на удивление с первого раза поднял VPN на xray (правда создать два нода я попросил не сразу, а уже после создания первичной конфигурации (оба по 30 мбит/с). Он также посоветовал для STT использовать бесплатный groq. Для настройки файрвола и VPN он сгенерировал ssh ключ (предоставил инструкцию для внесения в список разрешенных на сервере), по которому он позже и установил vpn, а также внес изменения в firewall. Для генерации изображения нашел бесплатный сервис Pollinations.ai ,а для vision дешевый gemini flash lite. По его seo анализу сайта провел исправления в antigravity с gemini. Не знаю как с топовыми моделями, но даже flash версия deepseek творит чудеса за копейки (особенно если делегировать часть заданий его бесплатной версии). Может для определенных задач в будущем и буду использовать более продвинутые модели, но пока что я приятно удивлен. Удивляюсь сколько обычных ежедневных задач можно легко автоматизировать

А поможет ли более высокий уровень размышления модели? Как думаете смогла ли бы модель `deepseek-v4-flash` дать более приемлемый результат на ваши задачи если бы уровень reasoning был не дефолтный medium, a xhigh?

Реддит просто кишит хвалой v4 flash.

Улучшить результат - да, может. Заменить флагманы - нет :)

Deepseek-v4-flash реально хорош, субъективно: на уровне Claude Sonnet полгода назад. Просто если сравнивать его с современными флагманами (использовать Hermes с разными моделями некоторое время) - разница становится очевидна.

Классный разбор. Особенно любопытна идея самообучения через скиллы - по сути, можно не просто пользоваться инструментом, а постепенно «воспитывать» себе цифрового напарника.

Отличная статья, спасибо! Опыт - штука бесценная.
От себя добавлю - мне сразу не понравился терминал Hermes, я подключил его к Open WebUI - красота. Но, вчера прочитал, что гермесовцы свой интерфейс сделали - пока не пробовал.

У Hermes есть вебморда, но там функционал меньше чем в терминале, а юзабилити ниже плинтуса (цветовая гамма + шрифты = нечитаемое нечто), поэтому я его даже в статье не упомянул.

Open WebUI

Благодарю, интересная штука, не знал

Можно ли с Hermes использовать подписку ChatGPT Pro? Может быть вопрос глуповат, пока что плаваю в теме.


P.S.
За статью спасибо! Захотелось попробовать

Неа, ChatGPT API не входит в подписку ChatGPT Pro. Для Hermes нужен именно доступ к вызову LLM через API.

"Американцы" в свои подписки включают только свои приложения, а за API берут оплату отдельно . А вот "китайцы" - наоборот, продают ежедневные лимиты доступа к API по подписке.

Напрямую использовать подписку ChatGPT Pro как API-провайдера для Hermes нельзя, но OAuth-варианты вроде OpenAI Codex OAuth работают. У себя настроил, всё ок.

Отличная статья! Даже из-за нее зарегистрировался на Хабре. Подскажи, есть опыт использования подписки, какую стоит брать? В подписке супер и ультра под капотом уже будут все флагманы?

Судя по всему это скрин подписки от авторов Hermes?

Я у них тестил только "бесплатную" подписку, про другие не знаю ¯\_(ツ)_/¯

Сам пока использую давно купленные токены от гугла (gemini-3-flash-preview) и дипсика (4-pro)

А если брать подписку - то рекомендую рассмотреть китайцев: у них лимиты (как правило) больше.

Кто-то подключал YandexGPT когда Hermes запущен в dockere?
Не пойму какие настройки использовать в .env

Это конечно ответ на другой вопрос)) но получилось подружить с Гигачатом только через их же модуль gpt2giga (поселил в отдельном от гермеса контейнере) - напрямую через гигачатский OAuth пройти не получилось. Но теперь гермес видит все их модели.

Осталось только сравнить их с зарубежными, пусть даже и не флагманами

Кстати, а можно статистику использования токенов? у кого как и на каких задачах/моделях, в сутки например))

Благодарю за столь проработанную статью!

Примеры с конкретными скилами и артифактами, очень ценны оказались!)

Комментарий от @Dmitry_al:

Есть на github два проекта которые позволяют бесплатно использовать qwen и deepseek модели.

https://github.com/ForgetMeAI/FreeQwenApi
https://github.com/ForgetMeAI/FreeDeepseekAPI
Сам ими пользуюсь. Суть в том, что через них вы логинитесь (как бы вы это делали в обычном чате) и получаете доступ к модели.

... оно для всего подходит. У вас локально поднимается некий gateway и передает запросы в модель и обратно. Я подключал к hermes, opencode и другим агентам.
Также есть возможность поставить его на vps и тогда модель будет работать 24/7

Sign up to leave a comment.

Articles