Комментарии 33
Можно ли из говнаgemini сделать не говно? Даже пробовать не буду.
кому интересно - на олламе уже есть, но требует v0.20.0 который пока пре релиз
прямо сегодня потестить - собирать олламу из исходников
upd: https://github.com/ollama/ollama/releases/tag/v0.20.0-rc0
В целом интересно, PLE для мультимодальных и hybrid attention как уже стандарт в 2026 году. Будет интересно посравнивать с прямым конкурентом от qwen, надеюсь gemma окажется хоть в чем то лучше. А потом квен подтянется, и так весь год, эх мечты.
Ура!
Я так ждал! Я использовал Gemma 3 12b когда отключали интернет. Вот не знаю, будет ли эта версия лучше, чем предыдущая. С одной стороны, она лучше обучена, а с другой, она сильно меньше.
что-то 31b по бенчам в текстах не обходит, а даже чуть ниже qwen3.5 27b
для меня важно, т.к. планирую взять ПК с 48гб unified memory, как помощника в кодинге.
В кодинге все "маленькие" модели жутко сливают облачным. Вместо 48 лучше взять 24, а на сэкономленные 400 баксов обвайбкодиться с головой.
У меня Macbook Pro M4 Pro на 48гб, никакого помщника вы там особо не запустите, 27b разогревают процессор даже через MLX. А на других способах запуска производительность -50% у моделей. Как автокомплит - там меньше модель пойдет, как собственный кодер, который тупее Haiku в пару раз - 20 токенов в секунду будет лучшей скоростью. Проверено.
Лучше сразу брать Mac Pro на 128гб M3 Max, вот это уже машина для реального кодинга.
Google: Gemma 4 31B
$0.14/M input tokens // $0.40/M output tokens
промпт: создай сортировку пузырьком на html визуально красивую как пример
Qwen3.5-27B-Opus.Q4_K_M.gguf.html (qwen code llama.cpp)
Qwen3.5-27B-Opus.Q4_K_M.gguf.html v2 (web chat llama.cpp)
Qwen3.5-27B-Q4_K_M.gguf.html (web chat llama.cpp)
gemma-4-31B-it-Q4_K_M.gguf.html (qwen code llama.cpp)
gemma-4-31B-it-Q4_K_M.gguf.html v2 (web chat llama.cpp)
если одно и тоже, почему такое большое различие?
-it - это же версия без размышлений, которая сразу ответ выплевывает?
А можно раскрыть - какой вывод из представленных результатов?
По мне так все варианты рабочие.
По бенчам она хуже квен 3.5 27b, нету смысла. Как максимум - на должность судьи.
3.5 27b плотная модель, ее не корректно сравнивать, тогда уж брать 35b a3b, она тоже с MoE.
По каким именно бенчам? В первые дни туда лучше не смотреть, поддержка в тулах допиливается, первые загруженные модели часто с ошибками в конфигах и не оптимальными настройками. Вот через недельку уже можно смотреть
Всего в семейство вошли четыре модели — E2B, E4B, 26B MoE и 31B Dense
Странно почему есть совсем маленькие и относительно большие, но нет средних моделей на 8B-16B, под распространенный размер видеопамяти у пользователей.
Наверное, именно потому и нет! :)
Большие MoE это по сути и есть средние модели, склеенные в одну, вполне неплохо работают на средних GPU. А если говорить исключительно про плотные, то моё предположение в том, что средние модели одновременно слишком ресурсоёмки для простых задач и слишком тупы для сложных. В итоге ни для того, ни для другого их использовать смысла особо нет на данном этапе развития.
Ждем GLM5-flash лучше 😑
GLM 5 поставили выше Qwen 3.5))
Кажется бенчмаркисты на практике сами ничего не проверяют)
Там кстати вышел Qwen 3.6
Очень хорошо. Как раз начал проектирование персонажа на основе геммы 3 12В. Думаю Гемма 4 26В не то что порвёт предыдущую модель, а выведет реализм на новый уровень. Ибо старая при контексте 10к бывает теряет нить повествования. Буду качать)

Вышла Google Gemma 4 — открытая модель с 31 млрд параметров обходит ИИ вдвое крупнее