runaway_llm19 янв в 20:00

GLM-4.7-Flash обходит модели вдвое крупнее — и запускается на ноутбуке

1 мин

17K

Искусственный интеллектМашинное обучение *

+13

Комментарии 32

Bardakan 19 янв в 21:04

Только вчера запускал glm-4.6-flash - глупейшая модель. Может вы с обычной glm путаете?

pantsarny 19 янв в 21:15

В статье 4.7-flash

Bardakan 20 янв в 06:45

предполагал, что 4.6-flash от 4.7-flash отличается незначительно. А вот обычная 4.7 качеством порадовала

Theio 20 янв в 11:29

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

SabMakc 19 янв в 23:22

Квант тоже играет роль, как и сам процесс квантализации.

Встречал, что квант с русским совсем не работал, на уровне автоматического переводчика 20-летней давности текст был. Но при этом модель хвалили за хороший русский. Скачал оригинальную модель - и да, в кванте сломан русский.

И про обучение не стоит забывать. Бывает, что модель практически не говорит по русски - просто потому, что не обучали. И остается впечатление "ну тупая".

Bardakan 20 янв в 07:18

я пробовал через OpenCode, провайдер ZenMux.
Русский там точно ни при чем - она начинает отвечать так, как будто вполне нормально меня понимает, но после пары предложений обрывает ответ на полуслове. Такого у меня даже с бесплатными auto моделями из Cursor не было.
Глюком OpenCode это тоже не может быть - обычная glm же работает нормально.
Из вариантов тогда остаются только особенности работы провайдера с конкретной моделью

SabMakc 20 янв в 07:30

GLM-4.7-flash можно и локально запустить - 16GB RAM хватит по идее на какой-нибудь unsloth/GLM-4.7-Flash-UD-Q2_K_XL. На CPU работает достаточно быстро за счет размерности в 30b-a3b.

"обрывает ответ на полуслове" - выглядит как техническая проблема, а не проблема с выбранной LLM.

Spencer098765 19 янв в 22:05

Очередная MoE поделка. Там 3B активных параметров. А значит, системно и связно она будет рассуждать на уровне 3B модели. Просто там 10 таких "экспертов", обученных с разным уклоном. Чтобы пройти бенчмарки этого достаточно. Для реальных задач нужно связное и сложное мышление, понимание абстракций. А для этого нужны модели с 7-8B + активных параметров (или соразмерные плотные модели без экспертов). И чем больше +, тем лучше. Bardakan выше верно написал. Это 100% глупая модель. Заметьте, Mistral одно время эксперементировали с MoE моделями, но сейчас что-то вернулись к плотным моделям. И это не случайность.

fermentum 20 янв в 06:31

Если что, он вообще про другую версию модель написал. Сейчас речь про GLM-4.7-Flash. Unsloth только выложили gguf ud, можно попробовать, но да, ожидать много не стоит, слишком мелкие эксперты.

Очень неплохая MoE - это qwen3-next 80b, но размер кратно больше сабжа.

Akr0n 20 янв в 14:46

Лучше gpt-oss 120b?

ONESIDE 21 янв в 05:34

Мышления и Связного понимая абстракций даже у 1.8T моделей нет.

В очень раннем зачатке, сейчас связное мышление есть только у: sora, wan, veo,

И то, это такие зачатки, которые без микроскопа не разглядеть. А текстовые модельки, любые без исключения, это шизовые трынделки без думалки.

Никакой ризонинг такие модели не спасает.

K0Jlya9 21 янв в 05:47

Последнее время даже небольшие модели уже не ошибаются и не путаются в количестве букв в словах и сёстрах брата алисы.

И заднюю дают моментально, не пытаясь доказать тебе что 1+2 не равно трем если попались на глупости.

Какое такое мышление еще нужно?

ONESIDE 21 янв в 10:23

То что даже локальные модели лучше подбирают ответ под вопрос это всё конечно замечательно, но к мышлению отношения не имеет.

Процесс мышления это не статистическое предсказание следующего токена, а гибкий процесс управления методами предсказания для получения конкретного результата.

Текстовые модели не думают, а выдают последовательный статистический ответ на контекст. Да это впечатляет, но только в простых задачах, по обработке больших текстовых массивах.

Глубины в "осмыслении" нет, ии думает как пропитый алкоголик, одним путём, одним контекстом, максимально просто по пути предсказания следующего токена, как капля пиваса стекающая по самому короткому пути в низ.

K0Jlya9 22 янв в 02:28

В чем конкретно проблема?

Ллм вроде может решать задачи с которыми раньше не сталкивалась, и учиться в рамках контекста тоже. Задачи из программирования.

НЛО прилетело и опубликовало эту надпись здесь

KonstantinTokar 20 янв в 03:45

Скорость генерации 4b действительно большая. Тараторит еле успеваю ответ читать. Но пишет дикую пургу в огромном количестве. С русским беда.

HyperWin 20 янв в 03:51

В BF16 с русским плохо?

KonstantinTokar 20 янв в 03:53

Q4_K_M

HyperWin 20 янв в 03:56

А, тогда понятно. Говорили в соседнем треде что кванты все ломают. Unsloth не выпускали квантов, к слову, сам жду оф. поддержки llama.cpp и рабочих квантов

fermentum 20 янв в 06:32

Кванты на любой вкус: https://huggingface.co/unsloth/GLM-4.7-Flash-GGUF/tree/main

HyperWin 20 янв в 06:37

Ну вы комментарии то перечитайте, на unsloth и смотрю, наличие квантов не означает их работоспособность

fermentum 20 янв в 07:23

Я ответил ровно на "Unsloth не выпускали квантов".

Независимо от квантования русский был плох и в предыдущей моделе GLM.

Скачал Q4UD, модель с рекомендуемыми настройками сваливается в цикл.

HyperWin 20 янв в 07:26

Тогда интересно, обещали что будет хорошо работать

VnNort 20 янв в 19:54

Надо просто брать не просто q4, а iq4 - там умная квантизация и качество страдает сильно меньше. А ещё лучше mxfp4

Politura 20 янв в 03:57

Я бы подождал недельку-две gguf использовать, на новых моделях первые дни часто всплывают и фиксятся косяки.

SabMakc 20 янв в 07:14

Попробовал unsloth/GLM-4.7-Flash-UD-Q2_K_XL - нормально работает с русским (на первый взгляд).

KonstantinTokar 20 янв в 09:57

Я попробовал Q8 - даже она ненормально. Оказалось, очень зависит от окна контекста - при окне 4К размышляет бесконечно и бредово, при 50К решает задачу быстро, но неправильно и с русским проблем меньше но они есть.

SabMakc 20 янв в 10:53

Звучит как техническая проблема (или с параметрами инференса что не так).

Использую llama.cpp и заведомо более слабый квант - к отдельным словам можно придраться (применяет не к месту или порядок путает), но в целом очень даже неплохо.
Даже местами лучше, чем Qwen3-30B-A3B (как минимум четче инструкции следует).

tukreb 20 янв в 16:29

Очередная никому не нужна модель. В версии 4.7 они на столько подняли там цензуру, что все просто используют 4.6. Посмотрим совершат ли они такую же ошибку в 4.8

Politura 20 янв в 22:11

Какую именно цензуру? Использую постоянно 4.7 (большую, не flash), правда для кодинга, не для чата, ни разу ничего не отказывалась делать.

Shomsic 21 янв в 01:28

Ролиплеер похоже, письки всякие генерирует...

K0Jlya9 21 янв в 01:56

Зарегистрируйтесь на Хабре, чтобы оставить комментарий