rnbparty21 мая в 11:50

Что такое Gemma 4: обзор новой LLM от Google

Средний

25 мин

20K

Искусственный интеллект

Обзор

+13

Комментарии 15

KYuri 21 мая в 13:12

мы уже используем Gemma 4, заменив ею Ollama

Вы смогли моделью заменить платформу для запуска моделей?

janvarev 21 мая в 14:12

Лучше - мы смогли написать об этом на Хабр! /s

rnbparty 22 мая в 09:46

Не совсем так. Скорее отказались от Ollama как от лишней надстройки. Ollama довольно закрытая, несмотря на позиционирование как open-source решения, плюс есть вопросы к тому, как под капотом устроена работа с данными и телеметрией. При этом сам Ollama скорее обертка над llama.cpp, который и является основным движком запуска моделей.

Мы в итоге ушли на более прямую open-source связку: напрямую llama.cpp + llama-swap для управления моделями и API. Так просто больше контроля и понимания того, что происходит внутри.

BroniTimGert 21 мая в 21:08

Уфф, не знаю зачем я это прочитал, все равно буду дальше использовать Qwen3.6 для своих преводов. Ещё упомяну, что МоЕ модели, можно запускать и на 8-16 vram карточках.

slabnoff 23 мая в 06:14

Я поробовал moe-вариант gemma4. Он тоже не плох. Но очень сильно требует памяти под kv-кэш, даже с квантованием в 32 гб видеопамяти не все пока получилось. Думаю с cpu-moe его стоит попробовать как qwen3.6-35b

MAT-POC 22 мая в 05:18

Кто нибудь их использует как локальные LLM для OpenClaw ?

У меня на 8GB VRAM запускается Gemma 4 26B A4B но работает очень медленно 1-2-3 минуты на ответ, Gemma 4 E4B работает быстрее, как qwen3.5:9B ~ 30 с -1 минута.

Какая из них больше подходить для агентской работы и работы с инструментами ?

rnbparty 22 мая в 09:58

Из того что вы перечислили вам подойдет скорее qwen3.5:9B, просто потому что на 8GB VRAM всё остальное будет работать слишком тяжело. Но в целом 8GB для агентов это мало. Они быстро забивают контекстное окно, и нормальный объем контекста для реальной работы туда уже не помещается. Модели такого размера пока слабоваты именно для агентских задач: часто ошибаются, теряют контекст и начинают нести ерунду при работе с инструментами.

По-хорошему нужно смотреть в сторону моделей от 26B+, тот же qwen3.6:35b-A3E уже ощущается сильно стабильнее.

Elaugaste 23 мая в 05:26

Уж лучше честные 12b чем moe на 3b.

slabnoff 23 мая в 06:20

Плотно тестировал в opencode. Все мелкие модели просто несравнимо хуже по качеству чем qwen3.6-35b. Несмотря на большее количество активных параметров.

slabnoff 23 мая в 06:37

Смотрите на qwen3.6-35b. Она будет немного быстрее вашей gemma4 и меньше ест память. Но на самом деле для начала погуглите, что такое cpu-moe. Llama.cpp и lm-studio точно умеют в cpu-moe. Личный опыт - для инференса с cpu-moe надо брать ik_llama.cpp - форк специально под cpu-gpu с cpu-moe (у меня, к примеру, он дал прирост с 51 до 63 т/с). Дальше потихоньку тюните: включаете квантование kv кэша q8_0, подбираете минимально приемлимый объем контекста и пытаетесь через n-cpu-moe часть слоев экспертов перенести на gpu, пока там памяти хватает.

У меня на 5060 ti 16gb получилось оставить на cpu 11 слоев с контекстом 220000 (мне много нужно).

В итоге можно получить неплохую производительность по токенамв секунду. Но надо учитывать, что время первого токена будет не малым (я сейчас добил объем vram до 32 гб и теперь пользую без cpu-moe. Время первого токена 1 с, а было до 5 с). Об этом никто почему-то не пишет.

Oeaoo 23 мая в 21:47

А мне вот чисто интересно, я не спец. А не разумнее ли купить мак для подобных задач, чтобы туда всё помещалось?

slabnoff 24 мая в 11:15

Я смотрел и mac и немного более интересный вариант на ryzen ai 295+. Дохлые они на самом деле по производительности или весьма дороги получаются. Основное достоинство - можно загрузить большую модель, но шевелиться она будет не быстро, за быстро надо совсем много заплатить, сопоставимо с серверным ускорителем. Самое оптимальное сейчас несколько 3090 - скорость исполнения будет комфортной.

В моем случае, когда все эти игры в ии скорее хобби, такие траты не обоснованы.

Elaugaste 24 мая в 12:01

там шина один фиг тонкая, запустить запустите а производительность будет уныная.
Чтоб летало, лучший вариант это 4090 на 48gb, а лучше rtx 6000. Но оба варианта стоят столько что сидишь и думаешь о том имеет ли это какой то смысл даже на фоне подписки за 200$.

Особенно если через пару лет аппетиты уменьшатся или цены на память станут более нормальными

slabnoff 24 мая в 14:07

Согласен. В целом не специализированное железо быстро упирается в кучу ограничений.

Была мысль вложиться в несколько v100 с nvlink. Это бюджетнее, чем 4090 48гб. Но все равно дорого, да и не сильно просто.

Alexprog1 25 мая в 05:13

С флешки она будет работать?)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий