efreelancer12 июн в 18:07

У вайбкода два пути: Code-подписка и API

Простой

8 мин

21K

Машинное обучение * Искусственный интеллект

Обзор

+28

Комментарии 38

Kenya-West 12 июн в 18:50

Спасибо за аналитику, плюсанул от души! Недавно (сегодня) в связи с огромным зоопарком моделей, провайдеров, сложностью сетевых переплетений в стиле сексуальных девиаций "кто с кем, cuck и через что" и "выстрелом" (а по fuck'ту прогреву лаоваев) Xiaomi MiMo по якобы "дешевизне" я позаботился вопросом анализа этого всего бобра. И тут ваша статья, шикарно.

Один вопрос - кодинг агенты ведь не предназначены напрямую для OpenClaw? Короче, раньше был бесплатный тест-драйв от GenSee.ai - они тебе и сервер, и агента, и платную нейросети полностью бесплатно давали. Сейчас таких предложений забесплатно даже по триалу нет, а цены поднимаются выше $30/месяц. Почему? Ведь есть же бесплатные модели... Не очень понимаю. Мне бот нужен чисто для 10-20 нормисов в ватсаппе со средним IQ не выше 80, так что туда любая модель и сервер подойдут. Согласен платить $1-3 в месяц, сервер есть. А предложений на рынке почему-то нет...

joomlageek 12 июн в 19:50

Может проще кинуть на API Qwen/Deepseek/Mimo/Openrouter несколько долларов если запросов немного? Зачем смотрите сразу подписку, платите за запрос. Сравните цены, качество, сделайте выводы.

Бесплатные предложения есть, например, ollama cloud, Nvidia дают бесплатно API с лимитами.

akakoychenko 12 июн в 22:07

Мне бот нужен чисто для 10-20 нормисов в ватсаппе со средним IQ не выше 80, так что туда любая модель и сервер подойдут

Откуда такая уверенность, что тупой энд-юзер -> низкие требования к модели?)

Если пользователь не сильно интеллектуален, значит, и запросы формулирует не факт, что качественно, что может требовать даже большей нагрузки на модель, чем общение с, например, выпускников физмат вуза, способным строго сформулировать задачу.

Кроме того, маленькие модели ох как любят галлюцинировать. Если там что-то типа техсаппорта, то можно внезапно наобещать этим нормисам слишком многого

Dhwtj 13 июн в 08:34

кто с кем, cuck и через что

Если материшься делай это грамотно

Слово такое есть но смысл не подходит

ivolake 12 июн в 18:50

А Trae и Qoder почему не сравнили?

efreelancer 12 июн в 20:20

О данных платформах ранее не слышал, но за наводку спасибо, попробую.

Dreams_and_magic 12 июн в 19:06

регистрируетесь на openrouter через почту на иностранном почтовике (не google!), пополняете криптой - сами или через барыг на ggsel.
на этом всё, юзайте аккакунт до исчерпания денег:) потом цикл повторить.

Kenya-West 12 июн в 19:30

Тот самый OpenRouter, который не пинал только ленивый? Они лагают так, будто там на каждый запрос живой индиец отвечает.

Dreams_and_magic 12 июн в 20:00

Скорость зависит от модели. Бесплатные очень медленные, платные быстрые.

efreelancer 12 июн в 20:30

В целом к OpenRouter к меня нет претензий, за некоторыми нюансами, хороший поставщик, а для фалбэка так вообще идеальный, однако, выскажу непопулярное на Хабр мнение, но лично я к крипте после 22го года как-то с лёгким недоверием отношусь, поэтому и не упомянул в посте данный вариант. Но не спорю, что он тоже вполне рабочий.

mahmud90 13 июн в 02:46

Зарегистрирован на openrouter через почту gmail, оплачиваю рублями через plati.market (в итоге оплата идет криптой, имею в виду что на plati.market можно спокойно оплатить рублями).

0whitewolf0 14 июн в 07:19

Я не разобрался до конца как это работает. Но что-то через openrourer деньги сжигаются очень быстро. Вот например дипсик про напрямую я закинул 5 баксов, Я неделю гонял где суммарно больше 60 млн токенов, да там большая часть дешевых кешированных, и осталось еще 2.5 бакса. Через опенроутер я попробовал одну задачу только на анализ проекта поставить и у меня он сжег сразу 1 бакс при этом мне ещё пришлось остановить. Да и с другими моделями тоже быстро жгутся. В общем пока мне опенроутер показался очень дорогим. А вот дипсик очень радует и качеством и скоростью и ценой.

MEGA_Nexus 12 июн в 19:37

У вайбкода два пути: Code-подписка и API

Скорее два стула, а не два пути )))

nav68 12 июн в 19:42

Один жидкий, а второй без бумажки.

efreelancer 12 июн в 20:27

Давно мечтал сделать такой звонкий и хлёсткий заголовок, а так-то согласен)

Ещё есть третий путь ~~и он у каждого свой~~ в виде on-premise моделей на домашнем железе, но тут потребуется это самое железо прикупить, а моделям более менее приличным железа надо много.

fire64 12 июн в 19:46

у Z.AI GLM бесплатный агентный режим через веб интерфейс, вполне себе неплохо работает и вроде без жёстких лимитов.

Dreams_and_magic 12 июн в 20:02

И у Opencode есть:)

imann 12 июн в 20:01

ну как так, все импортное. А если надо что-то конфиденциальное обработать на сервере в РФ? Яндекс становится все дороже с каждым днём((

efreelancer 12 июн в 20:24

Не всё импортное, я в список специально ещё Koda и Neuraldeep добавил, обе компании в России находятся, Koda делаете агента Kodacode, а у Neuraldeep on-premise модельки на своём железе.

imann 13 июн в 17:42

За Neuraldeep спасибо, буду читать

ale007xd 14 июн в 01:23

Для конфиденциального только своё поднимать, и я бы в сторону Яндекс тем более не смотрел

Dreams_and_magic 12 июн в 20:08

И ещё очень хорошо и быстро работает "Gemini 3.1 flash" и "Gemini 3.1 flash Lite", у "Gemini 3.1 flash Lite" бесплатно 500 запросов в день, для нетяжёлого использования хватает.

Использую бесплатный лимит "Gemini 3.1 flash Lite" в OpenCode.
Как использовать бесплатный лимит Gemini в OpenCode, скоро выйдет статейка (на модерации).

efreelancer 12 июн в 20:22

Эх если у гугла не было запрета на доступ к моделям из России, то я бы их тоже попробовал, как-то слишком быстро определяют даже через туннели, не успевал распробовать, поэтому в ресёрч и не попали.

MrInfinity666 13 июн в 08:09

У меня три подписки про на год бесплатные + ультра на месяц за полцены. Никакими ограничениями за последний год и не пахло

Sol0Zon3 13 июн в 13:17

Тегните меня пожалуйста, буду ждать вашу статью)

StudyQA 12 июн в 22:17

Практика из продакшена: 100+ сессий Claude Code в день на нескольких проектах.

API (через Claude Code CLI) выигрывает, когда нужна автоматизация: cron-задачи, пакетная обработка, CI/CD пайплайны. У меня 107 Telegram-топиков, каждый маршрутизирует задачи отдельной сессии Claude с собственным контекстом. Это невозможно через Code-подписку.

Подписка выигрывает для интерактивной разработки: когда сидишь перед экраном и итеративно отлаживаешь. Артефакты, предпросмотр, файловый менеджер.

Ключевое наблюдение: стоимость API непредсказуема. Один неудачный промпт с большим контекстом может стоить больше, чем дневной лимит подписки. Для команд без опыта оптимизации промптов подписка безопаснее.

brrr 13 июн в 09:30

А можете поделиться, что разрабатываете и как пайплайн устроен?

rPman 13 июн в 16:33

У меня 107 Telegram-топиков

что это такое, в смысле как организовали работу?

bjl 13 июн в 01:06

Deepseek reasonix вышел, не смотрели?

efreelancer 13 июн в 05:10

Не пробовал, на вид какая-то сторонная разработка по типу OpenCode.

Ra2007 13 июн в 07:58

Работаю на Max подписке Claude Code уже два месяца, до этого сидел на API с pay-per-token. Разница в экономике ощутимая, но не там где ожидал. Токены на API при активной разработке выходили в $150-200 в месяц, Max стоит $100, казалось бы очевидно. Но главная выгода не в деньгах, а в поведении: когда платишь за токен, начинаешь неосознанно сжимать контекст, резать историю, избегать больших файлов. На фиксированной подписке агент наконец-то получает полный контекст без ограничений и качество заметно другое. Единственное о чём редко пишут: у Code-подписок свои rate limits которые не совпадают с API лимитами, и в пиковые часы можно упереться в throttling даже на Max.

MaXaoH_Forever 13 июн в 11:26

А мы просто кибер-рэкет, хочешь к нам - давай плати!

MrFr3di 13 июн в 12:47

Дешёвые цены на токены дипсика у кодикроутера, сравнивал многие сервисы и скажу так: везде охуели

AiR_WiZArD 13 июн в 18:07

Вот только таблица вообще неинформативна. Цены у всех +- одинаковые, а вот кол-во токенов, выдающихся за подписку совершненно разное и потратить их можно тоже по разному. У клода 5 часовое окно довольно маленькое и рассчитано на то, что бы за один днень не получилось все лимиты сжечь. У alibaba (квен) ровно противоположное - токенов дается не так что бы много, да и к тому же ты можешь потратить всю месячную квоту хоть за один день. z.ai как и openai находятся где-то посредине, можно потратить за 2 дня недельный запас, если очень надо. После тестов пришел к тому, что z.ai с 80$ подпиской меня более чем устраивает, в отличии от закрытых модель хотя бы есть уверенность, что под капотом в очередной раз не перекрутят модель, как уже делали openai и антропики.

efreelancer 13 июн в 20:48

Спасибо за критику, замечание справедливое. В этом посте я специально начал с верхнего уровня - цен, формата подписок и общей логики тарифов. До честного сравнения по токенам, окнам, месячным квотам и тому, как быстро всё это можно сжечь, там ещё копать и копать.

Буду только рад, если кто-то после этого сделает более дотошный разбор. Потому что по деньгам тарифы действительно похожи, а по фактической ёмкости и ограничениям могут отличаться очень сильно.

ale007xd 14 июн в 01:25

если модель — это всего лишь провайдер событий, как построить детерминированную систему, которая переживёт смену Claude → GPT → Qwen → MiMo без переписывания логики? И выбирать в итоге ту, которая актуальна с точки зрения цены на прямо сейчас?

rPman 14 июн в 02:54

Не думаю что детерменированность возможна при условии использования llm, их поведение хаотично и сильно зависит не только от входных данных но и от их подачи.

Эффективная работа агентов на основе llm сильно зависит от системных промптов и особенностях алгоритмов организации цикла и сжатия длинного контекста. Топовые агенты (claude code и codex от openai) еще под капотом имеют роутер, меняющий модель на слабую в зависимости от задачи (у других компаний можно выбирать вручную), что так же не способствует детерменированности.

Совершенно нормально сделать 10 запусков агента с одними и теми же вводными и получить разные результаты.

RichHE 15 июн в 06:11

Обзор огонь, как раз вовремя! Экономика кодовых агентов в режиме 24/7 — это сейчас реально самая больная тема. Когда агент начинает по кругу перечитывать контекст репозитория, прогонять тесты и вайбкодить сам себя, стандартные лимиты подписок улетают за пару дней. Провайдеры через специализированные эндпоинты (тот же Claude Code через ACP) пытаются это балансировать своими внутренними алгоритмами кэширования, но контекст всё равно пухнет экспоненциально.

Я сейчас ради спортивного интереса ковыряю с математической стороны одно решение как раз для таких долгоживущих харнесов — динамический семантический компрессор промптов (Prompt Compression) на базе легковесной локальной модели.

Суть в том, чтобы перед тем, как агент выплеснет всю историю чата, системных промптов и кусков кода в API, прогонять этот массив через промежуточный слой, который безжалостно вырезает низкоэнтропийные токены и стоп-слова, оставляя только жесткую семантическую суть для attention-механизма старшей модели. По тестам на текстах выходит экономия до 30-40% объема без потери качества логики.

Как думаете, если внедрить такую прослойку прямо в кастомный харнес между агентом и условным OpenRouter/API, чтобы зажимать исходящий контекст «на лету», это сильно поломает кодогенерацию в сложных многошаговых задачах, или для экономии квот имеет право на жизнь?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий