Comments 14
https://github.com/musistudio/claude-code-router
Работает с личным ключём openrouter, с корпоративной litellm, с локальной ollama, да и практически со всем что есть
Это прекрасно!
Подскажете впечатления от моделей? Одно дело "запускается, а другое - чтобы действительно пользу приносило. Слабо верится, что с Ollama/LM Studio что-то путное даже на 24GB VRAM получится.Дешевле через API.
Всё из топов программерских бенчмарков работает хорошо. Раньше были косяки с tool usage, но теперь с транформерами ccr они практически исчезли.
Я пользуюсь тут или чем-то с большим контекстом (Gemini/gpt4.1), или чем-то очень дешёвым (qwen/deepseek/kimi), или даже бесплатным на openrouter.
Из ollama пользовался чем-то 7b:q4 в качестве background модели (у меня 8гб vram), но теперь все только из API.
Я пользуюсь тут или чем-то с большим контекстом (Gemini/gpt4.1),
Я знаю способ с добавлением в CLAUDE.md инструкций типа "When analyzing large codebases or multiple files that might exceed context limits, use the Gemini CLI with its massive context window. Use gemini -p
to leverage Google Gemini's large context capacity...".
Через ccrouter можно непосредственно из Claude Code выбирать особую модель (типа как Opus Plan Mode, но Gemini)? Ну или для конкретного агента явно задать Gemini...
Из ollama пользовался чем-то 7b:q4
Ну для autocompletion в каком-нибудь Continue - да. А в Claude Code какая-то польза от таких мелких моделей есть?
Через ccrouter можно непосредственно из Claude Code выбирать особую модель
Да, в longContext в разделе router конфига
А в Claude Code какая-то польза от таких мелких моделей есть?
Для саммари/коммитов/etc мелочевки cc использует haiku. Вот её ccr и заменяет на background модель
А gpt-oss-20b юзал? У меня тоже 8врам и 32 ддр5, 33 токена/с выдает, вроде как по тестам и 4.1 жпт делает, по качеству ± qwen 30 coder. Интересно эти конфиги протестить, но пока не дошли до этого руки, если сможешь - с удовольствием жду результатов.
Нет, не пользовался. Я забил почти на все локальные LLM, которые проще использовать из сторонних API. Иногда что-то совсем маленькое и специализированное гоняю, вроде jan от Menlo или ocr какие-то, но уже не для кодинга непосредственно.
gpt-oss-20b меня вполне устроил для работы с MCP. Но кодить с локальными - (на бытовом железе) IMHO не эффективно.
Попробовал ccr. Gemini со своим бесплатным ключом не смог запустить. gemini enerate_content_free_tier_requests, limit:2
. Это настраивается?
Через OpenRouter все время занято. Подсунул в OpenRouter свой бесплатный ключ от Gemini, только тогда завелось.
Еще вижу возможность использования gemini-cli. Есть ли подсказки, как запустить? По идее gemini-cli значительно большие лимиты дает, чем просто через API. В таком виде было бы интересно.
Ну и на всякий случай - для Code Plan GLM надо указывать https://api.z.ai/api/coding/paas/v4/chat/completions.
Локальные модельки с 30б имея 24врам вполне жизненный вариант. Придётся поиграть с настройками, чтоб контекст вылазил в врам и все довольно шустро работает.
да вроде 4.5 sonnet 20 евро в месяц стоит. это что, дорого? Сейчас обед в не особо приличном месте стоит дороже.
И вам хватает его лимитов?
Я умудрился даже GLM довести до "5-часовой лимит исчерпан, подождите", а это втрое больше, чем Sonnet. Всего-то заставил не только написать целый модуль по описанию, но и тесты к нему, и все отладить.
И это не было "ушел в цикл". Он делом занимался, исправлял свои косяки. К примеру, в процессе работы решил функцию переделать в асинхронную (вполне обоснованно) и потом во многих местах добавлять await. Или после mypy вылизывать, чтобы не было ругательств на типы (хотя можно и без такого, конечно).
Так что вечером не смог закончить, утром продолжил сессию и быстренько выдал уже полностью рабочий вариант. Sonnet при таких объемах минимум $100/мес стоит. А с мелкими задачами мне RooCode и на бесплатных моделях с OpenRouter вполне норм помогает.
P.S. Я GLM не идеализирую, код руками проверяю, переспрашиваю, чтои зачем он наваял, если что-то не понимаю... Токенов улетает немеряно.
Несколько файлов из того репозитория положил в
ls ~/.claude/agents/
backend-architect.md
code-reviewer.md
code-simplifier.md
test-writer-fixer.md
И в промпте просто указываю разрешение/рекомендацию их использовать:
Write basic tests for
acache.py
.
There must be CRUD for SID table, testing these operations will be enough.Use test-writer-fixer agent.
Optimize and simplify code @...
Use code-simplifier agent.
А там уж этот "оптимизатор" сам развернется вовсю. Собственно, я обычно пишу "потоком", чтобы работало и проходило тесты. А потом "симплификатор" из больших функций делает мелкие (в .md ему же указн SOLID и прочее), разбивает на классы для функциональной группировки, и т.п.
Как гонять Claude Code (и не только) с качественными моделями задешево?