Как я сократил расходы на ИИ на 70% тремя строчками логики / Хабр

Мой ИИ-агент обходится мне в $20 в месяц. Ещё 3 месяца назад та же нагрузка стоила $200+. Не потому что я оптимизировал промпты или написал хитрую систему кэширования. А потому что перестал считать, что дорогие модели это необходимость.

Вот полная история: от подписки Claude Max до API-вызовов и до модели, которая делает всё за фиксированную месячную плату. Плюс стратегии роутинга для тех, кто привязан к оплате в токенах и хочет срезать счёт вдвое или больше.

Фаза первая: бесплатный проезд ($0, а потом всё)

Когда я начал строить Арья, моего ИИ-агента для соцсетей, я запускал всё через Claude Code на подписке Claude Max. Я и так платил $100/месяц за этот план, потому что использую Claude каждый день для разработки. Запуск Арьи поверх этого не стоил мне ничего. Агент был по сути бесплатным, ехал на подписке, за которую я бы платил в любом случае. И лишь иногда он утыкался в лимиты, что было неприятно но не смертельно.

Потом Anthropic обновили Terms of Service. Подписку больше нельзя было использовать для ИИ-агентов и автоматизированных систем. Логично. Их ценовая модель подразумевает человека за экраном, а не бота, делающего сотни вызовов в день. Арья была именно тем юзкейсом, который они хотели исключить.

Подписка осталась, я по-прежнему использую Claude Code каждый день. Но Арья больше не могла на ней работать. Теперь мне нужно было платить отдельно за API-вызовы поверх существующей подписки. Агент из бесплатного превратился в дополнительную статью расходов, которую я не закладывал в бюджет.

Фаза вторая: API и шок от счёта ($200+/месяц)

Зрел очевидный ход перехода на API-тарифы за реально потраченные токены. Claude Sonnet по $3 за миллион входных токенов. Opus по $5. Не дёшево, но для сольного проекта терпимо. Так мне казалось.

Проблема потокенной оплаты в том, что расход непредсказуем. Агент не просто пишет твиты. Она читает ленты, ресерчит темы, пишет черновики, редактирует их, проверяет факты, форматирует контент. Одна утренняя сессия может сжечь 250 000 токенов только на ресерч ещё до того, как будет написано хоть слово. И в целом OpenClaw жрёт токены с большой прожорливостью.

Первый полный месяц на API вышел за $200. В некоторые дни агент натыкалась на edge case, запускала цепочку рассуждений и потребляла в 10 раз больше обычного бюджета токенов. Повтор после неудачного API-вызова удваивал расход. Масштабирование затрат было нелинейным и непредсказуемым.

Для соло-разработчика с сайд-проектом $200/месяц на ИИ это не дешево. Мне нужно было найти более доступные модели, которые потянут нагрузку без потери качества.

Фаза третья: охота за моделью

Я начал тестировать альтернативы. Критерии простые: уметь писать длинные тексты, следовать сложным инструкциям, держать консистентный голос и стоить значительно меньше Claude API.

Kimi K2.5 через OpenRouter стал первым серьёзным кандидатом. Модель от Moonshotai примерно по $0.45 за миллион токенов. Колоссальное падение цены по сравнению с $3 у Claude. Качество оказалось на удивление хорошим для контентных задач. Kimi справлялся с черновиками твитов, саммари ресерчей и планами статей. Не уровень Claude в рассуждениях, но 80% качества за 15% цены.

Мой агент работала на Kimi K2.5 несколько недель. Месячный расход упал до $40-60. Огромное улучшение, но всё ещё переменный. Одни недели $10, другие $20.

А потом я нашёл MiniMax. MiniMax M2.5 предложил то, чего не было у других: подписочную модель. Примерно $20/месяц за щедрый лимит использования. Не потокенная оплата. Не переменные расходы. Фиксированная месячная плата, которая покрывала всю нагрузку.

Качество удивило. MiniMax M2.5 справился со всем, что я ему давал. Черновики твитов, длинные статьи, ресерч контента, анализ лент, следование инструкциям. Для моих потребностей качество вывода соответствовало тому, что я получал от куда более дорогих моделей.

Текущий сетап: $20/месяц за всё

Сегодня Арья работает на MiniMax M2.5 как основной модели с Kimi K2.5 в качестве fallback. На практике fallback почти никогда не срабатывает. MiniMax обрабатывает 95%+ всех запросов.

MiniMax недавно выпустил версию 2.7, которая ещё улучшила рассуждения и следование инструкциям. Цена подписки осталась прежней. Мой агент стал умнее без дополнительных затрат. В этом преимущество подписочной модели: улучшения бесплатны.

Полная разбивка месячных расходов:

Компонент	Стоимость
Подписка MiniMax M2.5	~$20
Kimi K2.5 fallback (OpenRouter)	~$1-2
TwitterAPI.io (сбор ленты)	$5
Contabo VPS (сервер)	$6.36
Итого	~$33

Это полная стоимость production ИИ-агента, который мониторит соцсети, пишет контент, управляет расписанием промо блога и отчитывается мне ежедневно в Telegram. Сравните с $200-400+, которые я бы потратил на Claude API.

Когда подписка не вариант: роутинг моделей

Не все могут перейти на подписочную модель. Если ваша нагрузка превышает лимиты подписки, если нужны специфические возможности модели, или если у вас энтерпрайз-инфраструктура, вы привязаны к потокенной оплате. Вот тут роутинг моделей имеет значение.

Концепция проста: не отправляйте каждый промпт в самую дорогую модель. Направляйте простые задачи в дешёвые модели, а сложные в дорогие.

Каскадный роутинг отправляет промпт сначала в самую дешёвую модель. Если результат не проходит порог качества, эскалация на следующую модель. FrugalGPT из Стэнфорда продемонстрировал сокращение расходов до 98% при сохранении точности GPT-4. Компромисс в латенси: сложные задачи требуют нескольких API-вызовов.

Роутинг на основе классификации использует лёгкий классификатор для предсказания, какая модель нужна для каждой задачи. RouteLLM от LMSYS достиг 85% сокращения расходов на MT Bench при сохранении 95% производительности GPT-4. На других бенчмарках экономия была ниже (35-45% на MMLU и GSM8K), но всё равно значительная.

Роутинг на основе правил. Самый простой подход, хорошо работает для соло-разработчиков. Три правила покрывают большинство случаев:

Если промпт короче 500 токенов и касается простого форматирования или извлечения данных, направляем в самую дешёвую модель
Если промпт связан с генерацией кода или сложным анализом, направляем во флагманскую модель
Всё остальное в модель среднего уровня

Но сейчас я просто всё отправляю в MiniMax.

AWS Bedrock предлагает Intelligent Prompt Routing как управляемый сервис, автоматически выбирая самую дешёвую модель, соответствующую вашей планке качества. Их тестирование показало 30% средней экономии, до 63% на RAG-нагрузках. Если вы уже на AWS, это вариант с минимальными усилиями.

Главный урок: не останавливаться на привычном

Ценовой ландшафт моделей в 2026 году огромен. Премиальные модели вроде o1 и Claude Opus берут $15-25 за миллион токенов. Эффективные модели вроде GPT-4o-mini и Gemini Flash стоят $0.15-0.60. А подписочные модели вроде MiniMax предлагают фиксированную цену, которая вообще обходит потокенную игру.

Большинство разработчиков выбирают одну модель и часто на ней и застревает. Отправляют каждый промпт в GPT-4o или Claude opus, потому что так надёжно. Это как ездить везде на спорткаре, хотя и Honda довезёт до нужного места.

Мой путь с $200/месяц до $20/месяц не про хитрый инжиниринг. Это про то, что я усомнился в предположении, что мне нужны дорогие модели. Не нужны. MiniMax M2.5 справляется с моей production-нагрузкой за долю стоимости. Разница в качестве для моего юзкейса пренебрежима.

Прежде чем строить систему роутинга, задайте более простой вопрос: вам действительно нужна дорогая модель? Протестируйте дешёвую альтернативу на реальной нагрузке. Возможно, 90% ваших задач не требуют frontier-возможностей. Оставшиеся 10% можно обработать дорогой моделью по запросу.

Цель не оптимизировать расходы на ИИ. Цель перестать переплачивать за мощности, которые вы не используете.