Обновить

Комментарии 33

Можно ли из говнаgemini сделать не говно? Даже пробовать не буду.

Там еще обещанный долгожданный TurboQuant не добавили?

есть форки llama.cpp с турбоквантом

В целом интересно, PLE для мультимодальных и hybrid attention как уже стандарт в 2026 году. Будет интересно посравнивать с прямым конкурентом от qwen, надеюсь gemma окажется хоть в чем то лучше. А потом квен подтянется, и так весь год, эх мечты.

Qwen вроде уже все. Для 3.6 весов не опубликовано. И после разборок внутри команды, когда лидер и часть команды ушли (которые и были за открытость), есть мысли что это не совпадение.

уже спросили в твиттере, какие из моделей выложить. Ждем на неделе обновленные

Ура!
Я так ждал! Я использовал Gemma 3 12b когда отключали интернет. Вот не знаю, будет ли эта версия лучше, чем предыдущая. С одной стороны, она лучше обучена, а с другой, она сильно меньше.

по тестам модели google проигрывает Qwen3.5-9B

что-то 31b по бенчам в текстах не обходит, а даже чуть ниже qwen3.5 27b
для меня важно, т.к. планирую взять ПК с 48гб unified memory, как помощника в кодинге.

В кодинге все "маленькие" модели жутко сливают облачным. Вместо 48 лучше взять 24, а на сэкономленные 400 баксов обвайбкодиться с головой.

48 в любом случае не помешает, локальные модели не только для кодинга пригодятся. Но кодинг и 48гб оперативки - это ничто и звать это никак. Это чушь и бред. Из личного опыта.

У меня Macbook Pro M4 Pro на 48гб, никакого помщника вы там особо не запустите, 27b разогревают процессор даже через MLX. А на других способах запуска производительность -50% у моделей. Как автокомплит - там меньше модель пойдет, как собственный кодер, который тупее Haiku в пару раз - 20 токенов в секунду будет лучшей скоростью. Проверено.
Лучше сразу брать Mac Pro на 128гб M3 Max, вот это уже машина для реального кодинга.

Google: Gemma 4 31B
$0.14/M input tokens // $0.40/M output tokens

промпт: создай сортировку пузырьком на html визуально красивую как пример

Qwen3.5-27B-Opus.Q4_K_M.gguf.html (qwen code llama.cpp)
Qwen3.5-27B-Opus.Q4_K_M.gguf.html v2 (web chat llama.cpp)
Qwen3.5-27B-Q4_K_M.gguf.html (web chat llama.cpp)
gemma-4-31B-it-Q4_K_M.gguf.html (qwen code llama.cpp)
gemma-4-31B-it-Q4_K_M.gguf.html v2 (web chat llama.cpp)

если одно и тоже, почему такое большое различие?

Попросите 5 программистов сделать одно и тоже. Одинаково получится?

-it - это же версия без размышлений, которая сразу ответ выплевывает?

instruction tuned

мышление можно включить/отключить програмно во время запуска или запроса к модели, это не совсем от версии модели зависит

А можно раскрыть - какой вывод из представленных результатов?

По мне так все варианты рабочие.

вывод у каждого свой мне лично дизайн квена больше нравится

ползунок пробовал крутить или просто на яркие цвета посмотрел и остался доволен?

По бенчам она хуже квен 3.5 27b, нету смысла. Как максимум - на должность судьи.

3.5 27b плотная модель, ее не корректно сравнивать, тогда уж брать 35b a3b, она тоже с MoE.

31b плотная и 27b тоже плотная.

По каким именно бенчам? В первые дни туда лучше не смотреть, поддержка в тулах допиливается, первые загруженные модели часто с ошибками в конфигах и не оптимальными настройками. Вот через недельку уже можно смотреть

Всего в семейство вошли четыре модели — E2B, E4B, 26B MoE и 31B Dense

Странно почему есть совсем маленькие и относительно большие, но нет средних моделей на 8B-16B, под распространенный размер видеопамяти у пользователей.

Наверное, именно потому и нет! :)

Большие MoE это по сути и есть средние модели, склеенные в одну, вполне неплохо работают на средних GPU. А если говорить исключительно про плотные, то моё предположение в том, что средние модели одновременно слишком ресурсоёмки для простых задач и слишком тупы для сложных. В итоге ни для того, ни для другого их использовать смысла особо нет на данном этапе развития.

Ждем GLM5-flash лучше 😑

GLM 5 поставили выше Qwen 3.5))
Кажется бенчмаркисты на практике сами ничего не проверяют)
Там кстати вышел Qwen 3.6

Очень хорошо. Как раз начал проектирование персонажа на основе геммы 3 12В. Думаю Гемма 4 26В не то что порвёт предыдущую модель, а выведет реализм на новый уровень. Ибо старая при контексте 10к бывает теряет нить повествования. Буду качать)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости