runaway_llm Jan 19 at 20:00

GLM-4.7-Flash обходит модели вдвое крупнее — и запускается на ноутбуке

1 min

17K

Artificial IntelligenceMachine learning *

+13

Comments 32

Bardakan Jan 19 at 21:04

Только вчера запускал glm-4.6-flash - глупейшая модель. Может вы с обычной glm путаете?

pantsarny Jan 19 at 21:15

В статье 4.7-flash

Bardakan Jan 20 at 06:45

предполагал, что 4.6-flash от 4.7-flash отличается незначительно. А вот обычная 4.7 качеством порадовала

Theio Jan 20 at 11:29

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

SabMakc Jan 19 at 23:22

Квант тоже играет роль, как и сам процесс квантализации.

Встречал, что квант с русским совсем не работал, на уровне автоматического переводчика 20-летней давности текст был. Но при этом модель хвалили за хороший русский. Скачал оригинальную модель - и да, в кванте сломан русский.

И про обучение не стоит забывать. Бывает, что модель практически не говорит по русски - просто потому, что не обучали. И остается впечатление "ну тупая".

Bardakan Jan 20 at 07:18

я пробовал через OpenCode, провайдер ZenMux.
Русский там точно ни при чем - она начинает отвечать так, как будто вполне нормально меня понимает, но после пары предложений обрывает ответ на полуслове. Такого у меня даже с бесплатными auto моделями из Cursor не было.
Глюком OpenCode это тоже не может быть - обычная glm же работает нормально.
Из вариантов тогда остаются только особенности работы провайдера с конкретной моделью

SabMakc Jan 20 at 07:30

GLM-4.7-flash можно и локально запустить - 16GB RAM хватит по идее на какой-нибудь unsloth/GLM-4.7-Flash-UD-Q2_K_XL. На CPU работает достаточно быстро за счет размерности в 30b-a3b.

"обрывает ответ на полуслове" - выглядит как техническая проблема, а не проблема с выбранной LLM.

Spencer098765 Jan 19 at 22:05

Очередная MoE поделка. Там 3B активных параметров. А значит, системно и связно она будет рассуждать на уровне 3B модели. Просто там 10 таких "экспертов", обученных с разным уклоном. Чтобы пройти бенчмарки этого достаточно. Для реальных задач нужно связное и сложное мышление, понимание абстракций. А для этого нужны модели с 7-8B + активных параметров (или соразмерные плотные модели без экспертов). И чем больше +, тем лучше. Bardakan выше верно написал. Это 100% глупая модель. Заметьте, Mistral одно время эксперементировали с MoE моделями, но сейчас что-то вернулись к плотным моделям. И это не случайность.

fermentum Jan 20 at 06:31

Если что, он вообще про другую версию модель написал. Сейчас речь про GLM-4.7-Flash. Unsloth только выложили gguf ud, можно попробовать, но да, ожидать много не стоит, слишком мелкие эксперты.

Очень неплохая MoE - это qwen3-next 80b, но размер кратно больше сабжа.

Akr0n Jan 20 at 14:46

Лучше gpt-oss 120b?

ONESIDE Jan 21 at 05:34

Мышления и Связного понимая абстракций даже у 1.8T моделей нет.

В очень раннем зачатке, сейчас связное мышление есть только у: sora, wan, veo,

И то, это такие зачатки, которые без микроскопа не разглядеть. А текстовые модельки, любые без исключения, это шизовые трынделки без думалки.

Никакой ризонинг такие модели не спасает.

K0Jlya9 Jan 21 at 05:47

Последнее время даже небольшие модели уже не ошибаются и не путаются в количестве букв в словах и сёстрах брата алисы.

И заднюю дают моментально, не пытаясь доказать тебе что 1+2 не равно трем если попались на глупости.

Какое такое мышление еще нужно?

ONESIDE Jan 21 at 10:23

То что даже локальные модели лучше подбирают ответ под вопрос это всё конечно замечательно, но к мышлению отношения не имеет.

Процесс мышления это не статистическое предсказание следующего токена, а гибкий процесс управления методами предсказания для получения конкретного результата.

Текстовые модели не думают, а выдают последовательный статистический ответ на контекст. Да это впечатляет, но только в простых задачах, по обработке больших текстовых массивах.

Глубины в "осмыслении" нет, ии думает как пропитый алкоголик, одним путём, одним контекстом, максимально просто по пути предсказания следующего токена, как капля пиваса стекающая по самому короткому пути в низ.

K0Jlya9 Jan 22 at 02:28

В чем конкретно проблема?

Ллм вроде может решать задачи с которыми раньше не сталкивалась, и учиться в рамках контекста тоже. Задачи из программирования.

UFO landed and left these words here

KonstantinTokar Jan 20 at 03:45

Скорость генерации 4b действительно большая. Тараторит еле успеваю ответ читать. Но пишет дикую пургу в огромном количестве. С русским беда.

HyperWin Jan 20 at 03:51

В BF16 с русским плохо?

KonstantinTokar Jan 20 at 03:53

Q4_K_M

HyperWin Jan 20 at 03:56

А, тогда понятно. Говорили в соседнем треде что кванты все ломают. Unsloth не выпускали квантов, к слову, сам жду оф. поддержки llama.cpp и рабочих квантов

fermentum Jan 20 at 06:32

Кванты на любой вкус: https://huggingface.co/unsloth/GLM-4.7-Flash-GGUF/tree/main

HyperWin Jan 20 at 06:37

Ну вы комментарии то перечитайте, на unsloth и смотрю, наличие квантов не означает их работоспособность

fermentum Jan 20 at 07:23

Я ответил ровно на "Unsloth не выпускали квантов".

Независимо от квантования русский был плох и в предыдущей моделе GLM.

Скачал Q4UD, модель с рекомендуемыми настройками сваливается в цикл.

HyperWin Jan 20 at 07:26

Тогда интересно, обещали что будет хорошо работать

VnNort Jan 20 at 19:54

Надо просто брать не просто q4, а iq4 - там умная квантизация и качество страдает сильно меньше. А ещё лучше mxfp4

Politura Jan 20 at 03:57

Я бы подождал недельку-две gguf использовать, на новых моделях первые дни часто всплывают и фиксятся косяки.

SabMakc Jan 20 at 07:14

Попробовал unsloth/GLM-4.7-Flash-UD-Q2_K_XL - нормально работает с русским (на первый взгляд).

KonstantinTokar Jan 20 at 09:57

Я попробовал Q8 - даже она ненормально. Оказалось, очень зависит от окна контекста - при окне 4К размышляет бесконечно и бредово, при 50К решает задачу быстро, но неправильно и с русским проблем меньше но они есть.

SabMakc Jan 20 at 10:53

Звучит как техническая проблема (или с параметрами инференса что не так).

Использую llama.cpp и заведомо более слабый квант - к отдельным словам можно придраться (применяет не к месту или порядок путает), но в целом очень даже неплохо.
Даже местами лучше, чем Qwen3-30B-A3B (как минимум четче инструкции следует).

tukreb Jan 20 at 16:29

Очередная никому не нужна модель. В версии 4.7 они на столько подняли там цензуру, что все просто используют 4.6. Посмотрим совершат ли они такую же ошибку в 4.8

Politura Jan 20 at 22:11

Какую именно цензуру? Использую постоянно 4.7 (большую, не flash), правда для кодинга, не для чата, ни разу ничего не отказывалась делать.

Shomsic Jan 21 at 01:28

Ролиплеер похоже, письки всякие генерирует...

K0Jlya9 Jan 21 at 01:56