Комментарии 32
Только вчера запускал glm-4.6-flash - глупейшая модель. Может вы с обычной glm путаете?
В статье 4.7-flash
Квант тоже играет роль, как и сам процесс квантализации.
Встречал, что квант с русским совсем не работал, на уровне автоматического переводчика 20-летней давности текст был. Но при этом модель хвалили за хороший русский. Скачал оригинальную модель - и да, в кванте сломан русский.
И про обучение не стоит забывать. Бывает, что модель практически не говорит по русски - просто потому, что не обучали. И остается впечатление "ну тупая".
я пробовал через OpenCode, провайдер ZenMux.
Русский там точно ни при чем - она начинает отвечать так, как будто вполне нормально меня понимает, но после пары предложений обрывает ответ на полуслове. Такого у меня даже с бесплатными auto моделями из Cursor не было.
Глюком OpenCode это тоже не может быть - обычная glm же работает нормально.
Из вариантов тогда остаются только особенности работы провайдера с конкретной моделью
Очередная MoE поделка. Там 3B активных параметров. А значит, системно и связно она будет рассуждать на уровне 3B модели. Просто там 10 таких "экспертов", обученных с разным уклоном. Чтобы пройти бенчмарки этого достаточно. Для реальных задач нужно связное и сложное мышление, понимание абстракций. А для этого нужны модели с 7-8B + активных параметров (или соразмерные плотные модели без экспертов). И чем больше +, тем лучше. Bardakan выше верно написал. Это 100% глупая модель. Заметьте, Mistral одно время эксперементировали с MoE моделями, но сейчас что-то вернулись к плотным моделям. И это не случайность.
Если что, он вообще про другую версию модель написал. Сейчас речь про GLM-4.7-Flash. Unsloth только выложили gguf ud, можно попробовать, но да, ожидать много не стоит, слишком мелкие эксперты.
Очень неплохая MoE - это qwen3-next 80b, но размер кратно больше сабжа.
Мышления и Связного понимая абстракций даже у 1.8T моделей нет.
В очень раннем зачатке, сейчас связное мышление есть только у: sora, wan, veo,
И то, это такие зачатки, которые без микроскопа не разглядеть. А текстовые модельки, любые без исключения, это шизовые трынделки без думалки.
Никакой ризонинг такие модели не спасает.
Последнее время даже небольшие модели уже не ошибаются и не путаются в количестве букв в словах и сёстрах брата алисы.
И заднюю дают моментально, не пытаясь доказать тебе что 1+2 не равно трем если попались на глупости.
Какое такое мышление еще нужно?
То что даже локальные модели лучше подбирают ответ под вопрос это всё конечно замечательно, но к мышлению отношения не имеет.
Процесс мышления это не статистическое предсказание следующего токена, а гибкий процесс управления методами предсказания для получения конкретного результата.
Текстовые модели не думают, а выдают последовательный статистический ответ на контекст. Да это впечатляет, но только в простых задачах, по обработке больших текстовых массивах.
Глубины в "осмыслении" нет, ии думает как пропитый алкоголик, одним путём, одним контекстом, максимально просто по пути предсказания следующего токена, как капля пиваса стекающая по самому короткому пути в низ.
Скорость генерации 4b действительно большая. Тараторит еле успеваю ответ читать. Но пишет дикую пургу в огромном количестве. С русским беда.
В BF16 с русским плохо?
Q4_K_M
А, тогда понятно. Говорили в соседнем треде что кванты все ломают. Unsloth не выпускали квантов, к слову, сам жду оф. поддержки llama.cpp и рабочих квантов
Кванты на любой вкус: https://huggingface.co/unsloth/GLM-4.7-Flash-GGUF/tree/main
Надо просто брать не просто q4, а iq4 - там умная квантизация и качество страдает сильно меньше. А ещё лучше mxfp4
Я бы подождал недельку-две gguf использовать, на новых моделях первые дни часто всплывают и фиксятся косяки.
Попробовал unsloth/GLM-4.7-Flash-UD-Q2_K_XL - нормально работает с русским (на первый взгляд).
Я попробовал Q8 - даже она ненормально. Оказалось, очень зависит от окна контекста - при окне 4К размышляет бесконечно и бредово, при 50К решает задачу быстро, но неправильно и с русским проблем меньше но они есть.
Звучит как техническая проблема (или с параметрами инференса что не так).
Использую llama.cpp и заведомо более слабый квант - к отдельным словам можно придраться (применяет не к месту или порядок путает), но в целом очень даже неплохо.
Даже местами лучше, чем Qwen3-30B-A3B (как минимум четче инструкции следует).
Очередная никому не нужна модель. В версии 4.7 они на столько подняли там цензуру, что все просто используют 4.6. Посмотрим совершат ли они такую же ошибку в 4.8


GLM-4.7-Flash обходит модели вдвое крупнее — и запускается на ноутбуке