Обновить

Комментарии 13

Сомнительно, ну Ок

Жень, а ты за 200 баксов купил? ))) или вообще не пользуешься ) По старинке копи-паст из ChatGPT или DeepSeek китайский? )

Какой-то древний подход. Сейчас используют сабагентов и умный роутинг. Главный агент (например Claude oppus) разбивает задачу на подзадачи для других агентов, доку пишет например gemini, код пишет например sonnet, мр ревьюит например deepseek, анализирует код например chatgp и так далее. Для каждой задачи/шага выбирают своего оптимального агента. И это все работает в связке, chatgp проанализировал код и отдал главному, главный прям в плане вписал какие именно файлы надо менять, чтобы кодописатель не лез в кодовую базу и ничего не анализиовал сам. Причем если например закончились токены для кодописателя sonnet, через конфигурацию идем и меняет на что-то другое.
Такой подход позволяет более равномерно утилизировать токены на всех агентах и использовать бесплатных/дешевых агентов для вспомогательных вещей, типа поиск по кодовой базе.

Звучит интерено - статью напишите? и с цифрами - по чем удовольствие выходит.

А тут и писать особо нечего, ставим opencode в виде cli или плагина для ide. Все делаете по инструкции. Если надо чтобы это все было заряжено, ставите ohmyopenagent или расширяете плагинами. Так же читаете доку на ohmyopenagent, там есть рекомендованный сетап на 30 баксов, есть описание всех моделей, и почему и для чего они были выбраны и для каких задач лучше. Что подключать зависит уже от вас, можете подключить любой провайдер, тот же openrouter или copilot c кучей моделей (если ставите ohmyopenagent то он спросит что за провайдеры нужны и сгенерирует нужную конфигурацию)

Можно использовать Claude code + proxy, через прокси подменить модели на нужные, и потом уже переключаться вручную между ними.

Я бы использовал так, Claude code + proxy если именно надо все фишки Claude code, скилы, хуки, и прочие возможности. Вот статья на эту тему https://habr.com/ru/companies/yadro/articles/1029288/

Чистый opencode, если охота иметь больше контроля, и меньше тратить токенов. Всегда можно навернуть плагинов, чтобы получить например Ralph режим (это что-то типа while true; делай задачу пока все тесты не будут зелеными)

И opencode + ohmyopenagent, куча интергированных плагинов, разные агенты, автоматические режимы работы. Больше потребляет токенов.

Есть и другие агенты(оркестраторы агентов) - roo, kilo, cline, но их я не пробовал.

С opencode бывают проблемы, за ним надо следить, бывает игнорирует промпт, надо повторять, бывает в авторежиме (ohmyopenagent) как будто зацикливаться на этапе планирования и его выполняет по кругу не переходя к кодингу, бывает сабтаска подвисает. В этом плане Claude code получше будет.

Есть еще get-shit-done, это полностью разработка автоматическая разработка, тоже есть возможность настраивать модели для разных задач (под капотом там pi agent). Но мне не сильно зашло, сильно много вопросов задает, результат очень зависит от того что ты отвечаешь. Создавал один и тот же проект с нуля, чуть по разному отвечал, план создания и развития проекта получался очень разный. В существующий проект интегрировалось сложно, генерит кучу документов которые забивают контекстное окно. Вообщем вещь хорошая, но не для моих задач.

Конкретно сейчас мой сетап такой opencode + ohmyopenagent и copilot за 10 баксов, поменяется тарификация или лимиты у copilot перейду что-то другое.

Прикольно - надо попробовать - спасибо!

Единственно не уверен что будет выгодно по токенам платить даже за Kimi, DeepSeek, GLM. По факту они в 5 раз дешевле за 1 млн токенов чем GPT и то что от Anthropic. Но опять же вы покупаете когда тариф с лимитами это не одно и тоже как платить за каждый токен... к томуже уровень умности у этих моделей куда ниже...

Переходить на оплату по токенам нужно тогда когда не влазишь в лимиты подписки. И тот же opencode(как и другие оркестратор) никак не управляет подписками, он просто подключает провайдер и дергает внутри агента нужную модель в нужно провайдере.

Объясняю на примере Copilit Pro за 10 баксов доступно 300 запросов в месяц, для Cloude Sonnet 4.6 мультипликатор 1, тоесть в месяц доступно 300 запросов, для Grok Code Fast 1 мультипликатор 0.25 тоесть всего доступно 1200 запросов в месяц.
Причем один запрос максимально 128К входящих токенов, тоесть в идеальной ситуации мы можем послать 128К * 300 токенов = 37.5M токенов. Да это все в 5 часовых лимитах и прочие ограничения.

А если те же 37.5М токенов заслать через api для того же Cloude Sonnet 4.6 это 3$ за миллион токенов это уже 112.5$.

Но вот для Grok Code Fast 1 ситуация другая, можно послать 128К * 1200 токенов = 150M токенов. Через api 150M токенов для Grok Code Fast 1 обойдутся 30 баксов, по 0.2$ за миллион. Думаю что это из-за того что Microsoft вложился в Anthropic и получает ресурсы по скидки, и заинтересован в раскрутке их моделей.

У opencode go в доке написано

Бесплатные модели включают Big Pickle плюс промо-модели, доступные на данный момент, с квотой 200 запросов/день. Go включает GLM-5.1, GLM-5, Kimi K2.5, Kimi K2.6, MiMo-V2.5-Pro, MiMo-V2.5, Qwen3.5 Plus, Qwen3.6 Plus, MiniMax M2.5, MiniMax M2.7, DeepSeek V4 Pro и DeepSeek V4 Flash с более высокими квотами запросов, применяемыми в скользящих окнах (5 часов, неделя и месяц), что примерно эквивалентно $12 за 5 часов, $30 в неделю и $60 в месяц (фактическое количество запросов зависит от модели и использования).

Тоесть если посылать максимально большие запросы как в примере выше то максимум можно утилизировать на 60$, если сравнивать с ценой за токены.

Похоже что для провайдеров выгодно продавать такие планы, потому что клиенты не утилизируют все запросы по максимуму, плюс многие пользователи берут минималку чтобы просто попробовать, и в реальности не тратят даже 10$ если смотреть по цене api.

У копилота плюс что у него доступны модели Anthropic и OpenAI одновременно, и для оркестраторов это круто, потому что там где сильны модели Anthropic слабы модели от OpenAI и наоборот. Но c 1-го июня майки меняют тарификацию и вроде как мультипликаторы и надо будет смотреть выгодно будет их дальше использовать или нет.

Я пробовал считать это не только через цену токенов, а через реальную практику использования AI-агентов для разработки.

У меня вывод такой: не всегда выгоднее сразу уходить в API и платить по токенам. В моем сценарии часто проще и дешевле взять несколько отдельных подписок по 20$.

Например, за условные 60$ в месяц можно держать сразу три подписки: ChatGPT Plus / Codex, Claude Pro / Claude Code, Google AI Pro / Gemini.

В итоге получается не один общий лимит, а три независимых пула лимитов у разных провайдеров. Для обычной разработки это удобно: одну задачу можно дать Codex, другую Claude, третью Gemini. Где-то лучше справляется Anthropic, где-то OpenAI, где-то Gemini. При этом ты не сжигаешь деньги напрямую за каждый токен.

Я пробовал работать через токены, и там проблема в том, что математически это выглядит красиво только в идеальных расчетах. Например, можно посчитать 128k контекста, умножить на количество запросов и получить огромную цифру. Но в реальной работе ты не всегда эффективно используешь весь контекст. Часто агенту нужна одна конкретная задача: поправить баг, отрефакторить файл, написать тесты, объяснить кусок кода, проверить PR.

В таком режиме подписки оказываются очень практичными. Ты платишь фиксированную сумму, не думаешь о каждом запросе как о расходе, и можешь переключаться между сильными моделями.

Да, сравнивать подписки и API напрямую сложно. У подписок лимиты непрозрачные: там окна, мультипликаторы, ограничения по моделям и внутренние правила. Это не то же самое, что купить чистые токены через API. Но с практической точки зрения для разработчика фиксированные подписки часто дают больше пользы за те же деньги.

По поводу дешевых моделей через API у меня позиция такая: они не плохие. Qwen, Kimi, DeepSeek, GLM и другие модели иногда очень хорошо работают за свою цену. Но для сложного кодинга, архитектуры, рефакторинга, поиска багов и агентной работы топовые модели OpenAI, Anthropic и Google в среднем пока надежнее.

Поэтому я бы не сравнивал только цену за миллион токенов. Это важная метрика, но не единственная. В разработке важнее не сколько токенов ты купил, а сколько задач реально закрыл.

Для себя я пришел к такой схеме: лучше иметь несколько подписок по 20$ и использовать каждую под свои задачи, чем пытаться все время оптимизировать цену токена через API. В моем сценарии это оказалось практичнее.

Я бы сказал так.

Сначала начинаем с провайдеры с простой подпиской за 10/20 баксов, с 5-и часовыми лимитами и прочими ограничениями. Оптимизируем свою работу за счет умного оркестратора и нужных настроек. Дорогие модели выполняют более сложную работу, дешевые простую и с учетом особенностей моделей, в доке про ohmyopenagent можно про это почитать. Оптимизируем более сложные моменты, например, добавляем lsp сервера, mcp сервера и прочее, чтобы оркестратор например типы для typescript выводил с помощью lsp или фиксил ошибки, а не слал запросы, или mcp для индексации кодовой базы, чтобы не было кучи вызовов grep и анализа выводов этой команды.

Когда упираемся в лимиты, добавляем еще один/два провайдера с простой подпиской за 10/20 баксов. Оптимизируем роутинг, lsp, mcp.

Если опять упираемся в лимиты, то да уже переходим на оплату за API для каких-то моделей, но опять таки оптимизация тут такая же как и в предыдущих пунктах. Никто например не мешает для планировщика использовать github-copilot/claude-opus-4.6, а для кодинга, openrouter/claude-sonnet-4.6 с оплатой за токены.

С оптимизаций роутинга все просто, или делаем `bunx oh-my-openagent install` отвечаем на вопросы какие провайдеры подключены и получаем готовый конфиг с fallback или читаем доки и правим конфиг. В вот с lsp/mcp надо играться и подбирать под свои задачи и свой стек.

И еще все сильно зависит от стиля разработки, при ручной разработке, написал задачу, посмотрел diff, запустил, скинул ошибку, получил фикс довольно сложно попасть в лимиты, и токены улетают не очень сильно. При полностью автоматической разработке каждый шаг очень сильно зависит от предыдущего. Планировщик должен простой промпт преобразовать в хороший план задавая вопросы и анализируя код. От плана зависит то какие задачу каким сабагентам уйдут в работу. От того как задача поставлена сабагенту и какие lsp/mcp доступны такой и будет результат.

Я бы сказал что пока не пройдешь путь с лимитированными планами, и оптимизациями, идти в платное API смысла нету, токены будут улетать.

И еще, если проект большой, и надо модели с большим контекстом, то тут вариант только API. Если окно забито больше чем на 50% то llm начинает галлюцинировать, а на лимитированном плане копилота например всего 128К для любой модели, а через API можно получить окно 1М для Opus/Sonnet

У Вас же просто ручной роутинг без учета особенностей моделей, и вы по сути залили проблему деньгами. За 50 баксов можно взять Copilot Pro+ (40 баксов) + OpenCode Go(10 баксов) - в таком сетапе моделей будет больше(и полностью бесплатные тоже есть в этих планах) и по лимитам явно не меньше чем в Вашем сетапе. Так же явная проблема с том что качество кода всегда плавает из-за того что разные задачи идут в разные модели, с оркестратором качество +- одинаковое из-за того что этапы и модели стандартизированы.

что то из мира вайбкодинга

у меня параллельно codex и clode не потому что я экономлю, а потому что они оба часто впадают в маразм, урезая модели внезапно из-за чего пользоваться чем то одним нормальным нереально.

сабагенты бесполезны если модель-лидер окажется шизом с альцгеймером

а перекрестные проверки и фиксы жрут больше токенов чем просто юзать один и тот же провайдер на постоянке. в таком случае тогда лучше просто несколько по 20 иметь

никто кроме сс / codex не может нормальный код писать. Я пробовал gemini cli, opencode (qwen3.6, minimax, kimi …) качество хуже / либо занимает больше времени. Проще купить нормальную подписку и добавить туда всяких оптимизаций токенов и тп

ну самый аутсайдер это gemini если сравнивать с codex и claud code - но работать можно... а китайский модели на сложных агентских задачах мне кажется вообще не тянут - по крайней мере те что запускались на мой 16 GB VRAM видюхе на компе - может если меть мощную видюху они тянут? где 120-200B параметров? просто такая видюха стоит явно на 1 косарь баксов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации