runaway_llm2 апр в 16:24

Вышла Google Gemma 4 — открытая модель с 31 млрд параметров обходит ИИ вдвое крупнее

2 мин

50K

Искусственный интеллектМашинное обучение *

+37

Комментарии 33

Sanitir 2 апр в 16:49

Можно ли из ~~говна~~gemini сделать не говно? Даже пробовать не буду.

Noizefan 2 апр в 16:52

кому интересно - на олламе уже есть, но требует v0.20.0 который пока пре релиз
прямо сегодня потестить - собирать олламу из исходников

upd: https://github.com/ollama/ollama/releases/tag/v0.20.0-rc0

siv237 3 апр в 04:29

Там еще обещанный долгожданный TurboQuant не добавили?

jarkevithwlad 3 апр в 05:35

есть форки llama.cpp с турбоквантом

dkeiz 2 апр в 17:20

В целом интересно, PLE для мультимодальных и hybrid attention как уже стандарт в 2026 году. Будет интересно посравнивать с прямым конкурентом от qwen, надеюсь gemma окажется хоть в чем то лучше. А потом квен подтянется, и так весь год, эх мечты.

Riketta 3 апр в 11:06

Qwen вроде уже все. Для 3.6 весов не опубликовано. И после разборок внутри команды, когда лидер и часть команды ушли (которые и были за открытость), есть мысли что это не совпадение.

dkeiz 3 апр в 16:25

уже спросили в твиттере, какие из моделей выложить. Ждем на неделе обновленные

Filipp42 2 апр в 17:51

Ура!
Я так ждал! Я использовал Gemma 3 12b когда отключали интернет. Вот не знаю, будет ли эта версия лучше, чем предыдущая. С одной стороны, она лучше обучена, а с другой, она сильно меньше.

MAT-POC 10 апр в 17:10

по тестам модели google проигрывает Qwen3.5-9B

4external 2 апр в 18:45

что-то 31b по бенчам в текстах не обходит, а даже чуть ниже qwen3.5 27b
для меня важно, т.к. планирую взять ПК с 48гб unified memory, как помощника в кодинге.

jshapen 2 апр в 20:07

В кодинге все "маленькие" модели жутко сливают облачным. Вместо 48 лучше взять 24, а на сэкономленные 400 баксов обвайбкодиться с головой.

alexmasyukov 3 апр в 12:14

48 в любом случае не помешает, локальные модели не только для кодинга пригодятся. Но кодинг и 48гб оперативки - это ничто и звать это никак. Это чушь и бред. Из личного опыта.

alexmasyukov 3 апр в 12:12

У меня Macbook Pro M4 Pro на 48гб, никакого помщника вы там особо не запустите, 27b разогревают процессор даже через MLX. А на других способах запуска производительность -50% у моделей. Как автокомплит - там меньше модель пойдет, как собственный кодер, который тупее Haiku в пару раз - 20 токенов в секунду будет лучшей скоростью. Проверено.
Лучше сразу брать Mac Pro на 128гб M3 Max, вот это уже машина для реального кодинга.

Triton5 2 апр в 18:53

Google: Gemma 4 31B
$0.14/M input tokens // $0.40/M output tokens

jarkevithwlad 2 апр в 20:00

промпт: создай сортировку пузырьком на html визуально красивую как пример

Qwen3.5-27B-Opus.Q4_K_M.gguf.html (qwen code llama.cpp)
Qwen3.5-27B-Opus.Q4_K_M.gguf.html v2 (web chat llama.cpp)
Qwen3.5-27B-Q4_K_M.gguf.html (web chat llama.cpp)
gemma-4-31B-it-Q4_K_M.gguf.html (qwen code llama.cpp)
gemma-4-31B-it-Q4_K_M.gguf.html v2 (web chat llama.cpp)

kujoro 2 апр в 20:32

если одно и тоже, почему такое большое различие?

Notevil 3 апр в 04:40

Попросите 5 программистов сделать одно и тоже. Одинаково получится?

Politura 3 апр в 05:21

-it - это же версия без размышлений, которая сразу ответ выплевывает?

levch_andrew 3 апр в 05:48

instruction tuned

alexmasyukov 3 апр в 12:18

мышление можно включить/отключить програмно во время запуска или запроса к модели, это не совсем от версии модели зависит

Hulkoooz 6 апр в 08:38

А можно раскрыть - какой вывод из представленных результатов?

По мне так все варианты рабочие.

jarkevithwlad 6 апр в 11:39

вывод у каждого свой мне лично дизайн квена больше нравится

yeruer 13 апр в 05:25

ползунок пробовал крутить или просто на яркие цвета посмотрел и остался доволен?

puchuu 2 апр в 20:50

По бенчам она хуже квен 3.5 27b, нету смысла. Как максимум - на должность судьи.

vyacheslavteplyakov 2 апр в 21:03

3.5 27b плотная модель, ее не корректно сравнивать, тогда уж брать 35b a3b, она тоже с MoE.

puchuu 2 апр в 21:33

31b плотная и 27b тоже плотная.

krendelbok 3 апр в 10:13

По каким именно бенчам? В первые дни туда лучше не смотреть, поддержка в тулах допиливается, первые загруженные модели часто с ошибками в конфигах и не оптимальными настройками. Вот через недельку уже можно смотреть

DaneSoul 2 апр в 21:33

Всего в семейство вошли четыре модели — E2B, E4B, 26B MoE и 31B Dense

Странно почему есть совсем маленькие и относительно большие, но нет средних моделей на 8B-16B, под распространенный размер видеопамяти у пользователей.

Triton5 2 апр в 23:13

Наверное, именно потому и нет! :)

SchwarzFuchs 2 апр в 23:15

Большие MoE это по сути и есть средние модели, склеенные в одну, вполне неплохо работают на средних GPU. А если говорить исключительно про плотные, то моё предположение в том, что средние модели одновременно слишком ресурсоёмки для простых задач и слишком тупы для сложных. В итоге ни для того, ни для другого их использовать смысла особо нет на данном этапе развития.

moooV 3 апр в 07:07

Ждем GLM5-flash лучше 😑

Axelaredz 3 апр в 11:12

GLM 5 поставили выше Qwen 3.5))
Кажется бенчмаркисты на практике сами ничего не проверяют)
Там кстати вышел Qwen 3.6

DiscoNotBall 6 апр в 08:39

Очень хорошо. Как раз начал проектирование персонажа на основе геммы 3 12В. Думаю Гемма 4 26В не то что порвёт предыдущую модель, а выведет реализм на новый уровень. Ибо старая при контексте 10к бывает теряет нить повествования. Буду качать)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий