Делаем лимиты ИИ почти бесконечными: умный роутер, который режет затраты на токены в разы и делает их почти бесплатными / Хабр

У меня несколько пет-проектов, которые дёргают LLM через API. Чат-бот для внутренних задач, штука для генерации тестов, пара скриптов для код-ревью. Ничего масштабного, но за последнюю неделю счёт за API вышел $47 — и это только мои личные эксперименты.

Проблема очевидная: я гоняю всё через Claude Sonnet, хотя половина запросов — тривиальщина. «Переименуй переменные в этом куске», «напиши docstring», «переведи этот текст». Любая модель за $0.10 / M токенов справится, а я плачу $3 / $15 .

Ручной if/else по типу задачи — хрупко и лень. Начал смотреть на LLM-роутеры и наткнулся на ClawRouter. Потестировал неделю, расскажу что получилось.

Что вообще такое LLM-роутер

Для тех, кто не в теме: идея в том, что перед отправкой запроса в модель, специальный классификатор оценивает сложность промта и выбирает самую дешёвую модель, которая справится. Простой вопрос → Gemini Flash за копейки. Сложный reasoning → Claude Opus за нормальные деньги.

По данным RouteLLM (это академический проект от LMSYS, опубликован на ICLR 2025), можно сохранить 95% качества ответов GPT-4, отправляя в него только 14% запросов. Остальное уходит в дешёвые модели. Экономия — 75-85%.

Существующие решения: OpenRouter (агрегатор, но без умного роутинга — вы сами выбираете модель), Martian (ML-роутер, но только enterprise), RouteLLM (open source, но нужно самому разворачивать и обучать), Unify (облачный, с нейроскорингом).

ClawRouter — ещё один вариант. Open source, MIT-лицензия, работает локально. Посмотрим, что он из себя представляет.

Как работает ClawRouter

Каждый запрос проходит через 15-мерный скорер. Это не ML-модель — это набор правил с весами. Скорер оценивает:

длину промта
наличие кода
маркеры reasoning’а («докажи», «проанализируй», «сравни»)
наличие tool use (function calling)
агентные маркеры («запусти», «отредактируй файл», «протестируй»)
язык запроса
и ещё ~10 параметров

По итогам промт попадает в один из четырёх тиров: SIMPLE → MEDIUM → COMPLEX → REASONING. Внутри тира выбирается самая дешёвая модель.

Всё это работает локально, меньше чем за миллисекунду, без внешних API-вызовов. Роутинговое решение принимается на вашей машине — наружу уходит только сам запрос к выбранной модели.

Ваш запрос: "что такое mutex?"
  → Скорер: SIMPLE (0.92 confidence)
  → Модель: NVIDIA gpt-oss-120b (бесплатно)
  → Экономия: 100%

Ваш запрос: "перепиши этот React-компонент на хуки и добавь обработку ошибок"
  → Скорер: COMPLEX (0.85 confidence)
  → Модель: GPT-4o ($2.50/$10.00 за 1M)
  → Экономия: ~60% vs Opus

Ваш запрос: "докажи, что sqrt(2) иррационально"
  → Скорер: REASONING (0.97 confidence)
  → Модель: DeepSeek Reasoner ($0.55/$2.19)
  → Экономия: ~90% vs Opus

Четыре профиля роутинга: auto (баланс цены и качества), eco (максимальная экономия, до 95%), premium (лучшие модели), free (только бесплатные — да, такое есть, NVIDIA отдаёт gpt-oss-120b бесплатно).

Установка

Я ставил через OpenClaw, но можно и отдельно:

curl -fsSL https://blockrun.ai/ClawRouter-update | bash

Или через npm:

npm install -g @blockrun/clawrouter

После установки нужен кошелёк с USDC для оплаты API-вызовов — и тут первый «но момент».

Оплата через крипту — для кого-то плюс, для кого-то стена

ClawRouter использует протокол x402 — оплата за каждый запрос в USDC (стейблкоин, 1 USDC ≈ 1 доллар). Без API-ключей, без аккаунтов, без кредитных карт. Создаётся локальный кошелёк, вы закидываете туда $5 USDC на Base (L2-сеть Ethereum) — хватает на тысячи запросов.

Идея: автономные AI-агенты не могут завести аккаунт, привязать карту, получить API-ключ. А кошелёк — могут. Для агентного use case — элегантно.

Для обычного разработчика — непривычно. Если вы никогда не работали с крипто-кошельками, придётся разобраться с USDC, сетью Base, пополнением. Это минут 15-20, но барьер есть.

$5 хватит надолго. За неделю моего тестирования (примерно 200 запросов в день) потратил $1.80. Сравните с $47 за ту же неделю напрямую через Anthropic API.

Что понравилось

Реально экономит. Из 1400 запросов за неделю только ~15% ушли в дорогие модели. Остальное — DeepSeek, Gemini Flash, бесплатный NVIDIA tier. Субъективно качество ответов не просело — на простых задачах дешёвые модели справляются одинаково.

Фоллбеки. Если модель вернула ошибку (rate limit, 500, перегрузка) — ClawRouter автоматически переключается на следующую в цепочке. За неделю было два момента, когда DeepSeek тормозил — роутер молча переключился на GPT-4o-mini. Я даже не заметил.

Session pinning. В многоходовых диалогах модель не скачет между запросами. Начал диалог с Claude Sonnet — весь диалог идёт через неё. Переключение происходит только при новом разговоре.

Бесплатный tier. Когда кошелёк пустой, ClawRouter переключается на gpt-oss-120b. Не падает с ошибкой «нет денег», а продолжает работать на бесплатной модели. Качество хуже, но для базовых вещей хватает.

Что не понравилось

Rule-based, а не ML. Скорер — это набор правил с весами, а не обученная модель. Это быстро и предсказуемо, но на edge-кейсах ошибается. Например, короткий промт «напиши O(n log n) сортировку для связного списка» классифицируется как SIMPLE (потому что короткий), хотя задача непростая. ML-роутеры типа RouteLLM или Martian здесь были бы точнее.

Крипто-оплата. Для меня — ок, я знаком с USDC. Для многих коллег — это стоп-фактор. Нет варианта «просто привяжи карту». Если бы добавили обычную оплату параллельно — аудитория выросла бы кратно.

Молодой проект. Репозиторию несколько месяцев, звёзд немного. Документация есть, но sparse. Если что-то идёт не так — разбираешься сам или идёшь в Telegram-чат.

Нет гарантий качества. Роутер выбирает самую дешёвую модель в тире, но не проверяет качество ответа. Если дешёвая модель дала плохой ответ — вы это увидите сами, роутер не перенаправит запрос в модель получше. В отличие от Martian, который предсказывает качество ответа заранее.

Сравнение с альтернативами

Если коротко:

OpenRouter — не роутер в этом смысле. Это агрегатор: один API-ключ, 300+ моделей, но выбираете модель вы сами. Нет автоматической классификации сложности. Зато порог входа минимальный — карта, ключ, поехали.

RouteLLM — академический open source от создателей Chatbot Arena. Обученные ML-классификаторы, научно обоснованный подход. Но нужно самому разворачивать, обучать, поддерживать. Для команд с ML-экспертизой.

Martian — самый продвинутый по технологии (предсказывает качество ответа без запуска модели). Но закрытый, enterprise-only, для обычного разработчика недоступен.

ClawRouter — золотая середина между «сделай всё сам» (RouteLLM) и «плати $$$» (Martian). Работает из коробки, open source, но rule-based и с крипто-оплатой.

Итого

За неделю тестирования: расходы на API упали с $47 до $1.80. Качество — субъективно не просело, но я не делал формального сравнения (может, стоит).

Если вы тратите на LLM API больше, чем хотели бы, и готовы потратить 20 минут на настройку + разобраться с USDC — попробуйте. Если крипто-оплата отталкивает — посмотрите на OpenRouter с :floor модификатором или поднимите RouteLLM.

Репозиторий: github.com/BlockRunAI/ClawRouter

Кто как решает проблему расходов на LLM API? Используете один и тот же model для всего или уже роутите? Интересно послушать.