Pull to refresh
16K+
99
Neo Davinchi@neodavinchi

Ѱ-Инженер; «Психолог для ботов»

8,1
Rating
148
Subscribers
Send message

Выше уже ответили, что бюджетные модели не всегда справляются с вызовом инструментов.

Приведу ещё три примера неудачного использования бюджетной deepseek-v4-flash (а она жирнее qwen3.5-9b в несколько раз)

  • Когда просил агента с бюджетной моделью прислать мне файл с диска VPS в телегу, то периодически получал ответ вида "прислал", но файла не было. То есть он не смог вызвать инструмент и даже не заметил. С llm-флагманами за месяц такого не было ни разу.

  • Когда настраивал Xray на VPS, то дипсик-флеш создал конфиг с двумя нодами на одном порту (что недопустимо, т.к. не работает). То есть задачу выполнил, а "внимания к деталям" не проявил. Флагманы под капотом так не косячили.

  • Когда делал pdf-отчёты (кейс#2 из статьи), то deepseek-v4-flash справился, но на результат было сложно смотреть без слёз: получался поверхностный нейрослоп. А какой-нибудь GLM 5.1 или Sonnet 4.6 выдавали глубокое исследование, которое я сам брал в работу.

Первые две проблемы решаются ценой личного времени и точной постановкой задач агенту. Третья - силами бюджетных моделей - не решается.

Можно ещё заменять подпиской на китацев: Z-AI, MiniMax, Moonshot.
Подробнее об этом написал в своей вчерашней статье про Hermes Agent.

Если мыслить в таком ключе - вы явно пропустили "рекламу" подписки на китайских ИИ-провайдеров. ¯\_(ツ)_/¯

Что касается VPS - лично мне было бы странно написать подробную статью-инструкцию "бери и делай", но упустить этот существенный шаг из страха что это кому-то не понравится. Поэтому написал.

... использования автономных агентов для составления списков покупок - не целевая трата дорогостоящих ресурсов

Ну, это вопрос философии и отношения к жизни. Экономить или инвестировать (в себя). В том числе - вкладывать время и деньги в изучение новых технологий. На Хабре об этом и пишут.

Что касается денег: по моим грубым оценкам, "список покупок с gemini-v3.1-flash-lite" - при использовании несколько раз в неделю - потребляет менее 30 рублей в месяц. Для меня это не та сумма, которая требует экономии. Время дороже - а вот оно экономится.

Сомневаюсь, что сработает. Даже если ИИ-чаты от корпораций работают в текстовых браузерах (в чём я не уверен:), Hermes должен на них как-то заходить. Для этого: (1) либо использовать бюджетную модель в качестве мозгов (что уже небесплатно), либо (2) писать скрипт-прокладку (что возможно, но отсутствует в архитектуре Hermes "из коробки")

Наконец, сила агента - не в способности "давать ответы", а в способности дёргать внешние tools (чтобы совершать работу). А я практически уверен, что в бесплатных ИИ-чатах для браузеров, эта фича вырезана на уровне системного промпта.

Если вдруг стоит задача тотальной экономии на токенах - сейчас проще настроить несколько бесплатных OpenRouter-аккаунтов с ротацией ключей (по 50 бесплатных запросов в день на каждом аккаунте)

++
зашёл написать о том же

Деградировать качество сервиса в угоду доступности - это нехорошее решение с точки зрения User Experience.

Мой опыт:
Когда я получаю явно глупые ответы - тут же перестаю общаться с llm, а доверие к сервису сильно падает.

Была история с Claude Code в августе 2025 - Reddit вопил о внезапно глупевших моделях, посты "я свалил с клода" плодились каждый день, и даже появлялись проекты "измерь уровень глупости своей модели прежде чем кодить". Клод тогда признал проблему и (вроде) исправился.

Быть может мой опыт - исключение, и у вас есть метрики, которые показывают что долгосрочное удовлетворение пользователей (в случае поглупевшей модели) падает не так сильно, как в случае долгого ожидания ответа?

присоединяюсь к вопросу.

Также интересует сравнение: стоимости генерации токенов на вашем решении vs стоимость токенов на туже модель, купленных у qwen. Придётся переплачивать за приватность? Или наоборот (ну а вдруг:)?

Инфа о скорости генерации - критичная, чтобы принять решение о покупке, без неё никак.

...The Cat API

Это сделало мой день. ^_^

Любопытно, насколько qwen-cli хорош в системном администрировании VPS? Всё никак руки не дойдут проверить. Возможно вы пробовали?

Рабочая ссылка на "оптимизированный Claude.md" из статьи: https://github.com/drona23/claude-token-efficient

Видимо мой юмор про КВН оказался чересчур тонким ¯\_(ツ)_/¯

Тонкий юмор. Вы из "КВН"?

У меня это работает так:

  1. Решить реальную задачу (написать работающий полезный код) на голом "claude (или qwen) code", либо с минимальной настройкой, чтобы освоиться и перестать его шугаться.

  2. После получения личного опыта, советы из статей становятся более понятными

Единственный порт, который открыт наружу, — UDP 51820 для WireGuard

Как вы оцениваете риски потери связи клиента с сервером из-за временной блокировки протокола WireGuard через DPI? 2,5 года назад, когда только начинали блокировать VPN-ы, WireGuard внутри РФ уже попадал под раздачу (не знаю как с этим сейчас).

Вот за такие статьи люблю Хабр. Хоть написано сумбурно, но идея крайне интересная. Благодарю.

Благодарю за шаблоны, как раз сегодня начал разбираться с cli-инструменами.

При таком воркфлоу удаётся делать самостоятельное ревью каждой строки сгенерированного кода? И насколько это целесообразно? Или вы управляете качеством кода только через агентов, не заглядывая в код?

Любопытно, как на текущий момент работает механизм детекции в ситуации, когда сначала идёт нормальный трафик, а следом за ним (скажем, через полминуты, на тот же IP и порт) - "ненормальный".
Есть ли данные?

Возможно поможет: https://habr.com/ru/articles/776402/, но статье 2 года. Сам не ставил.

Ну да, просто вы рассматриваете относительный ноль (на шкале +/-), а я -- абсолютный ¯\_(ツ)_/¯

"Детские болезни" молодого сервиса -- это простительно и в какой-то мере ожидаемо.

Но дезинформация, которую распространяет "пресс-служба маха", подрывает репутацию сервиса и обнуляет кредит доверия.

(Дезинформацией я называю их утверждения, что некоторых "фактов не существует", хотя я их наблюдаю своими глазами)

1
23 ...

Information

Rating
843-rd
Registered
Activity