Обновить

Комментарии 10

мы уже используем Gemma 4, заменив ею Ollama

Вы смогли моделью заменить платформу для запуска моделей?

Лучше - мы смогли написать об этом на Хабр! /s

Не совсем так. Скорее отказались от Ollama как от лишней надстройки. Ollama довольно закрытая, несмотря на позиционирование как open-source решения, плюс есть вопросы к тому, как под капотом устроена работа с данными и телеметрией. При этом сам Ollama скорее обертка над llama.cpp, который и является основным движком запуска моделей.

Мы в итоге ушли на более прямую open-source связку: напрямую llama.cpp + llama-swap для управления моделями и API. Так просто больше контроля и понимания того, что происходит внутри.

Уфф, не знаю зачем я это прочитал, все равно буду дальше использовать Qwen3.6 для своих преводов. Ещё упомяну, что МоЕ модели, можно запускать и на 8-16 vram карточках.

Я поробовал moe-вариант gemma4. Он тоже не плох. Но очень сильно требует памяти под kv-кэш, даже с квантованием в 32 гб видеопамяти не все пока получилось. Думаю с cpu-moe его стоит попробовать как qwen3.6-35b

Кто нибудь их использует как локальные LLM для OpenClaw ?

У меня на 8GB VRAM запускается Gemma 4 26B A4B но работает очень медленно 1-2-3 минуты на ответ,  Gemma 4 E4B работает быстрее, как qwen3.5:9B ~ 30 с -1 минута.

Какая из них больше подходить для агентской работы и работы с инструментами ?

Из того что вы перечислили вам подойдет скорее qwen3.5:9B, просто потому что на 8GB VRAM всё остальное будет работать слишком тяжело. Но в целом 8GB для агентов это мало. Они быстро забивают контекстное окно, и нормальный объем контекста для реальной работы туда уже не помещается. Модели такого размера пока слабоваты именно для агентских задач: часто ошибаются, теряют контекст и начинают нести ерунду при работе с инструментами.

По-хорошему нужно смотреть в сторону моделей от 26B+, тот же qwen3.6:35b-A3E уже ощущается сильно стабильнее.

Уж лучше честные 12b чем moe на 3b.

Плотно тестировал в opencode. Все мелкие модели просто несравнимо хуже по качеству чем qwen3.6-35b. Несмотря на большее количество активных параметров.

Смотрите на qwen3.6-35b. Она будет немного быстрее вашей gemma4 и меньше ест память. Но на самом деле для начала погуглите, что такое cpu-moe. Llama.cpp и lm-studio точно умеют в cpu-moe. Личный опыт - для инференса с cpu-moe надо брать ik_llama.cpp - форк специально под cpu-gpu с cpu-moe (у меня, к примеру, он дал прирост с 51 до 63 т/с). Дальше потихоньку тюните: включаете квантование kv кэша q8_0, подбираете минимально приемлимый объем контекста и пытаетесь через n-cpu-moe часть слоев экспертов перенести на gpu, пока там памяти хватает.

У меня на 5060 ti 16gb получилось оставить на cpu 11 слоев с контекстом 220000 (мне много нужно).

В итоге можно получить неплохую производительность по токенамв секунду. Но надо учитывать, что время первого токена будет не малым (я сейчас добил объем vram до 32 гб и теперь пользую без cpu-moe. Время первого токена 1 с, а было до 5 с). Об этом никто почему-то не пишет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации