Выше уже ответили, что бюджетные модели не всегда справляются с вызовом инструментов.
Приведу ещё три примера неудачного использования бюджетной deepseek-v4-flash (а она жирнее qwen3.5-9b в несколько раз)
Когда просил агента с бюджетной моделью прислать мне файл с диска VPS в телегу, то периодически получал ответ вида "прислал", но файла не было. То есть он не смог вызвать инструмент и даже не заметил. С llm-флагманами за месяц такого не было ни разу.
Когда настраивал Xray на VPS, то дипсик-флеш создал конфиг с двумя нодами на одном порту (что недопустимо, т.к. не работает). То есть задачу выполнил, а "внимания к деталям" не проявил. Флагманы под капотом так не косячили.
Когда делал pdf-отчёты (кейс#2 из статьи), то deepseek-v4-flash справился, но на результат было сложно смотреть без слёз: получался поверхностный нейрослоп. А какой-нибудь GLM 5.1 или Sonnet 4.6 выдавали глубокое исследование, которое я сам брал в работу.
Первые две проблемы решаются ценой личного времени и точной постановкой задач агенту. Третья - силами бюджетных моделей - не решается.
Если мыслить в таком ключе - вы явно пропустили "рекламу" подписки на китайских ИИ-провайдеров. ¯\_(ツ)_/¯
Что касается VPS - лично мне было бы странно написать подробную статью-инструкцию "бери и делай", но упустить этот существенный шаг из страха что это кому-то не понравится. Поэтому написал.
... использования автономных агентов для составления списков покупок - не целевая трата дорогостоящих ресурсов
Ну, это вопрос философии и отношения к жизни. Экономить или инвестировать (в себя). В том числе - вкладывать время и деньги в изучение новых технологий. На Хабре об этом и пишут.
Что касается денег: по моим грубым оценкам, "список покупок с gemini-v3.1-flash-lite" - при использовании несколько раз в неделю - потребляет менее 30 рублей в месяц. Для меня это не та сумма, которая требует экономии. Время дороже - а вот оно экономится.
Сомневаюсь, что сработает. Даже если ИИ-чаты от корпораций работают в текстовых браузерах (в чём я не уверен:), Hermes должен на них как-то заходить. Для этого: (1) либо использовать бюджетную модель в качестве мозгов (что уже небесплатно), либо (2) писать скрипт-прокладку (что возможно, но отсутствует в архитектуре Hermes "из коробки")
Наконец, сила агента - не в способности "давать ответы", а в способности дёргать внешние tools (чтобы совершать работу). А я практически уверен, что в бесплатных ИИ-чатах для браузеров, эта фича вырезана на уровне системного промпта.
Если вдруг стоит задача тотальной экономии на токенах - сейчас проще настроить несколько бесплатных OpenRouter-аккаунтов с ротацией ключей (по 50 бесплатных запросов в день на каждом аккаунте)
Деградировать качество сервиса в угоду доступности - это нехорошее решение с точки зрения User Experience.
Мой опыт: Когда я получаю явно глупые ответы - тут же перестаю общаться с llm, а доверие к сервису сильно падает.
Была история с Claude Code в августе 2025 - Reddit вопил о внезапно глупевших моделях, посты "я свалил с клода" плодились каждый день, и даже появлялись проекты "измерь уровень глупости своей модели прежде чем кодить". Клод тогда признал проблему и (вроде) исправился.
Быть может мой опыт - исключение, и у вас есть метрики, которые показывают что долгосрочное удовлетворение пользователей (в случае поглупевшей модели) падает не так сильно, как в случае долгого ожидания ответа?
Также интересует сравнение: стоимости генерации токенов на вашем решении vs стоимость токенов на туже модель, купленных у qwen. Придётся переплачивать за приватность? Или наоборот (ну а вдруг:)?
Инфа о скорости генерации - критичная, чтобы принять решение о покупке, без неё никак.
Решить реальную задачу (написать работающий полезный код) на голом "claude (или qwen) code", либо с минимальной настройкой, чтобы освоиться и перестать его шугаться.
После получения личного опыта, советы из статей становятся более понятными
Единственный порт, который открыт наружу, — UDP 51820 для WireGuard
Как вы оцениваете риски потери связи клиента с сервером из-за временной блокировки протокола WireGuard через DPI? 2,5 года назад, когда только начинали блокировать VPN-ы, WireGuard внутри РФ уже попадал под раздачу (не знаю как с этим сейчас).
Благодарю за шаблоны, как раз сегодня начал разбираться с cli-инструменами.
При таком воркфлоу удаётся делать самостоятельное ревью каждой строки сгенерированного кода? И насколько это целесообразно? Или вы управляете качеством кода только через агентов, не заглядывая в код?
Любопытно, как на текущий момент работает механизм детекции в ситуации, когда сначала идёт нормальный трафик, а следом за ним (скажем, через полминуты, на тот же IP и порт) - "ненормальный". Есть ли данные?
Выше уже ответили, что бюджетные модели не всегда справляются с вызовом инструментов.
Приведу ещё три примера неудачного использования бюджетной
deepseek-v4-flash(а она жирнее qwen3.5-9b в несколько раз)Когда просил агента с бюджетной моделью прислать мне файл с диска VPS в телегу, то периодически получал ответ вида "прислал", но файла не было. То есть он не смог вызвать инструмент и даже не заметил. С llm-флагманами за месяц такого не было ни разу.
Когда настраивал Xray на VPS, то дипсик-флеш создал конфиг с двумя нодами на одном порту (что недопустимо, т.к. не работает). То есть задачу выполнил, а "внимания к деталям" не проявил. Флагманы под капотом так не косячили.
Когда делал pdf-отчёты (кейс#2 из статьи), то
deepseek-v4-flashсправился, но на результат было сложно смотреть без слёз: получался поверхностный нейрослоп. А какой-нибудь GLM 5.1 или Sonnet 4.6 выдавали глубокое исследование, которое я сам брал в работу.Первые две проблемы решаются ценой личного времени и точной постановкой задач агенту. Третья - силами бюджетных моделей - не решается.
Можно ещё заменять подпиской на китацев: Z-AI, MiniMax, Moonshot.
Подробнее об этом написал в своей вчерашней статье про Hermes Agent.
Если мыслить в таком ключе - вы явно пропустили "рекламу" подписки на китайских ИИ-провайдеров. ¯\_(ツ)_/¯
Что касается VPS - лично мне было бы странно написать подробную статью-инструкцию "бери и делай", но упустить этот существенный шаг из страха что это кому-то не понравится. Поэтому написал.
Ну, это вопрос философии и отношения к жизни. Экономить или инвестировать (в себя). В том числе - вкладывать время и деньги в изучение новых технологий. На Хабре об этом и пишут.
Что касается денег: по моим грубым оценкам, "список покупок с
gemini-v3.1-flash-lite" - при использовании несколько раз в неделю - потребляет менее 30 рублей в месяц. Для меня это не та сумма, которая требует экономии. Время дороже - а вот оно экономится.Сомневаюсь, что сработает. Даже если ИИ-чаты от корпораций работают в текстовых браузерах (в чём я не уверен:), Hermes должен на них как-то заходить. Для этого: (1) либо использовать бюджетную модель в качестве мозгов (что уже небесплатно), либо (2) писать скрипт-прокладку (что возможно, но отсутствует в архитектуре Hermes "из коробки")
Наконец, сила агента - не в способности "давать ответы", а в способности дёргать внешние tools (чтобы совершать работу). А я практически уверен, что в бесплатных ИИ-чатах для браузеров, эта фича вырезана на уровне системного промпта.
Если вдруг стоит задача тотальной экономии на токенах - сейчас проще настроить несколько бесплатных OpenRouter-аккаунтов с ротацией ключей (по 50 бесплатных запросов в день на каждом аккаунте)
++
зашёл написать о том же
Деградировать качество сервиса в угоду доступности - это нехорошее решение с точки зрения User Experience.
Мой опыт:
Когда я получаю явно глупые ответы - тут же перестаю общаться с llm, а доверие к сервису сильно падает.
Была история с Claude Code в августе 2025 - Reddit вопил о внезапно глупевших моделях, посты "я свалил с клода" плодились каждый день, и даже появлялись проекты "измерь уровень глупости своей модели прежде чем кодить". Клод тогда признал проблему и (вроде) исправился.
Быть может мой опыт - исключение, и у вас есть метрики, которые показывают что долгосрочное удовлетворение пользователей (в случае поглупевшей модели) падает не так сильно, как в случае долгого ожидания ответа?
присоединяюсь к вопросу.
Также интересует сравнение: стоимости генерации токенов на вашем решении vs стоимость токенов на туже модель, купленных у qwen. Придётся переплачивать за приватность? Или наоборот (ну а вдруг:)?
Инфа о скорости генерации - критичная, чтобы принять решение о покупке, без неё никак.
Это сделало мой день. ^_^
Любопытно, насколько qwen-cli хорош в системном администрировании VPS? Всё никак руки не дойдут проверить. Возможно вы пробовали?
Он поддерживает per-app proxy?
Рабочая ссылка на "оптимизированный Claude.md" из статьи: https://github.com/drona23/claude-token-efficient
Видимо мой юмор про КВН оказался чересчур тонким ¯\_(ツ)_/¯
Тонкий юмор. Вы из "КВН"?
У меня это работает так:
Решить реальную задачу (написать работающий полезный код) на голом "claude (или qwen) code", либо с минимальной настройкой, чтобы освоиться и перестать его шугаться.
После получения личного опыта, советы из статей становятся более понятными
Как вы оцениваете риски потери связи клиента с сервером из-за временной блокировки протокола WireGuard через DPI? 2,5 года назад, когда только начинали блокировать VPN-ы, WireGuard внутри РФ уже попадал под раздачу (не знаю как с этим сейчас).
Вот за такие статьи люблю Хабр. Хоть написано сумбурно, но идея крайне интересная. Благодарю.
Благодарю за шаблоны, как раз сегодня начал разбираться с cli-инструменами.
При таком воркфлоу удаётся делать самостоятельное ревью каждой строки сгенерированного кода? И насколько это целесообразно? Или вы управляете качеством кода только через агентов, не заглядывая в код?
Любопытно, как на текущий момент работает механизм детекции в ситуации, когда сначала идёт нормальный трафик, а следом за ним (скажем, через полминуты, на тот же IP и порт) - "ненормальный".
Есть ли данные?
Возможно поможет: https://habr.com/ru/articles/776402/, но статье 2 года. Сам не ставил.
Ну да, просто вы рассматриваете относительный ноль (на шкале +/-), а я -- абсолютный ¯\_(ツ)_/¯
"Детские болезни" молодого сервиса -- это простительно и в какой-то мере ожидаемо.
Но дезинформация, которую распространяет "пресс-служба маха", подрывает репутацию сервиса и обнуляет кредит доверия.
(Дезинформацией я называю их утверждения, что некоторых "фактов не существует", хотя я их наблюдаю своими глазами)