Pull to refresh

Comments 32

Только вчера запускал glm-4.6-flash - глупейшая модель. Может вы с обычной glm путаете?

предполагал, что 4.6-flash от 4.7-flash отличается незначительно. А вот обычная 4.7 качеством порадовала

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

Квант тоже играет роль, как и сам процесс квантализации.

Встречал, что квант с русским совсем не работал, на уровне автоматического переводчика 20-летней давности текст был. Но при этом модель хвалили за хороший русский. Скачал оригинальную модель - и да, в кванте сломан русский.

И про обучение не стоит забывать. Бывает, что модель практически не говорит по русски - просто потому, что не обучали. И остается впечатление "ну тупая".

я пробовал через OpenCode, провайдер ZenMux.
Русский там точно ни при чем - она начинает отвечать так, как будто вполне нормально меня понимает, но после пары предложений обрывает ответ на полуслове. Такого у меня даже с бесплатными auto моделями из Cursor не было.
Глюком OpenCode это тоже не может быть - обычная glm же работает нормально.
Из вариантов тогда остаются только особенности работы провайдера с конкретной моделью

GLM-4.7-flash можно и локально запустить - 16GB RAM хватит по идее на какой-нибудь unsloth/GLM-4.7-Flash-UD-Q2_K_XL. На CPU работает достаточно быстро за счет размерности в 30b-a3b.

"обрывает ответ на полуслове" - выглядит как техническая проблема, а не проблема с выбранной LLM.

Очередная MoE поделка. Там 3B активных параметров. А значит, системно и связно она будет рассуждать на уровне 3B модели. Просто там 10 таких "экспертов", обученных с разным уклоном. Чтобы пройти бенчмарки этого достаточно. Для реальных задач нужно связное и сложное мышление, понимание абстракций. А для этого нужны модели с 7-8B + активных параметров (или соразмерные плотные модели без экспертов). И чем больше +, тем лучше. Bardakan выше верно написал. Это 100% глупая модель. Заметьте, Mistral одно время эксперементировали с MoE моделями, но сейчас что-то вернулись к плотным моделям. И это не случайность.

Если что, он вообще про другую версию модель написал. Сейчас речь про GLM-4.7-Flash. Unsloth только выложили gguf ud, можно попробовать, но да, ожидать много не стоит, слишком мелкие эксперты.

Очень неплохая MoE - это qwen3-next 80b, но размер кратно больше сабжа.

Лучше gpt-oss 120b?

Мышления и Связного понимая абстракций даже у 1.8T моделей нет.

В очень раннем зачатке, сейчас связное мышление есть только у: sora, wan, veo,

И то, это такие зачатки, которые без микроскопа не разглядеть. А текстовые модельки, любые без исключения, это шизовые трынделки без думалки.

Никакой ризонинг такие модели не спасает.

Последнее время даже небольшие модели уже не ошибаются и не путаются в количестве букв в словах и сёстрах брата алисы.

И заднюю дают моментально, не пытаясь доказать тебе что 1+2 не равно трем если попались на глупости.

Какое такое мышление еще нужно?

То что даже локальные модели лучше подбирают ответ под вопрос это всё конечно замечательно, но к мышлению отношения не имеет.

Процесс мышления это не статистическое предсказание следующего токена, а гибкий процесс управления методами предсказания для получения конкретного результата.

Текстовые модели не думают, а выдают последовательный статистический ответ на контекст. Да это впечатляет, но только в простых задачах, по обработке больших текстовых массивах.

Глубины в "осмыслении" нет, ии думает как пропитый алкоголик, одним путём, одним контекстом, максимально просто по пути предсказания следующего токена, как капля пиваса стекающая по самому короткому пути в низ.

В чем конкретно проблема?

Ллм вроде может решать задачи с которыми раньше не сталкивалась, и учиться в рамках контекста тоже. Задачи из программирования.

UFO landed and left these words here

Скорость генерации 4b действительно большая. Тараторит еле успеваю ответ читать. Но пишет дикую пургу в огромном количестве. С русским беда.

В BF16 с русским плохо?

А, тогда понятно. Говорили в соседнем треде что кванты все ломают. Unsloth не выпускали квантов, к слову, сам жду оф. поддержки llama.cpp и рабочих квантов

Ну вы комментарии то перечитайте, на unsloth и смотрю, наличие квантов не означает их работоспособность

Я ответил ровно на "Unsloth не выпускали квантов".

Независимо от квантования русский был плох и в предыдущей моделе GLM.

Скачал Q4UD, модель с рекомендуемыми настройками сваливается в цикл.

Тогда интересно, обещали что будет хорошо работать

Надо просто брать не просто q4, а iq4 - там умная квантизация и качество страдает сильно меньше. А ещё лучше mxfp4

Я бы подождал недельку-две gguf использовать, на новых моделях первые дни часто всплывают и фиксятся косяки.

Попробовал unsloth/GLM-4.7-Flash-UD-Q2_K_XL - нормально работает с русским (на первый взгляд).

Я попробовал Q8 - даже она ненормально. Оказалось, очень зависит от окна контекста - при окне 4К размышляет бесконечно и бредово, при 50К решает задачу быстро, но неправильно и с русским проблем меньше но они есть.

Звучит как техническая проблема (или с параметрами инференса что не так).

Использую llama.cpp и заведомо более слабый квант - к отдельным словам можно придраться (применяет не к месту или порядок путает), но в целом очень даже неплохо.
Даже местами лучше, чем Qwen3-30B-A3B (как минимум четче инструкции следует).

Очередная никому не нужна модель. В версии 4.7 они на столько подняли там цензуру, что все просто используют 4.6. Посмотрим совершат ли они такую же ошибку в 4.8

Какую именно цензуру? Использую постоянно 4.7 (большую, не flash), правда для кодинга, не для чата, ни разу ничего не отказывалась делать.

Ролиплеер похоже, письки всякие генерирует...

Sign up to leave a comment.

Other news