Обновить

Комментарии 32

В статье 4.7-flash

предполагал, что 4.6-flash от 4.7-flash отличается незначительно. А вот обычная 4.7 качеством порадовала

4.6v flash, вы забыли "v". Модель обучалась на vision задачах и поэтому недотягивает в остальных доменах.

Квант тоже играет роль, как и сам процесс квантализации.

Встречал, что квант с русским совсем не работал, на уровне автоматического переводчика 20-летней давности текст был. Но при этом модель хвалили за хороший русский. Скачал оригинальную модель - и да, в кванте сломан русский.

И про обучение не стоит забывать. Бывает, что модель практически не говорит по русски - просто потому, что не обучали. И остается впечатление "ну тупая".

я пробовал через OpenCode, провайдер ZenMux.
Русский там точно ни при чем - она начинает отвечать так, как будто вполне нормально меня понимает, но после пары предложений обрывает ответ на полуслове. Такого у меня даже с бесплатными auto моделями из Cursor не было.
Глюком OpenCode это тоже не может быть - обычная glm же работает нормально.
Из вариантов тогда остаются только особенности работы провайдера с конкретной моделью

GLM-4.7-flash можно и локально запустить - 16GB RAM хватит по идее на какой-нибудь unsloth/GLM-4.7-Flash-UD-Q2_K_XL. На CPU работает достаточно быстро за счет размерности в 30b-a3b.

"обрывает ответ на полуслове" - выглядит как техническая проблема, а не проблема с выбранной LLM.

Очередная MoE поделка. Там 3B активных параметров. А значит, системно и связно она будет рассуждать на уровне 3B модели. Просто там 10 таких "экспертов", обученных с разным уклоном. Чтобы пройти бенчмарки этого достаточно. Для реальных задач нужно связное и сложное мышление, понимание абстракций. А для этого нужны модели с 7-8B + активных параметров (или соразмерные плотные модели без экспертов). И чем больше +, тем лучше. Bardakan выше верно написал. Это 100% глупая модель. Заметьте, Mistral одно время эксперементировали с MoE моделями, но сейчас что-то вернулись к плотным моделям. И это не случайность.

Если что, он вообще про другую версию модель написал. Сейчас речь про GLM-4.7-Flash. Unsloth только выложили gguf ud, можно попробовать, но да, ожидать много не стоит, слишком мелкие эксперты.

Очень неплохая MoE - это qwen3-next 80b, но размер кратно больше сабжа.

Лучше gpt-oss 120b?

Мышления и Связного понимая абстракций даже у 1.8T моделей нет.

В очень раннем зачатке, сейчас связное мышление есть только у: sora, wan, veo,

И то, это такие зачатки, которые без микроскопа не разглядеть. А текстовые модельки, любые без исключения, это шизовые трынделки без думалки.

Никакой ризонинг такие модели не спасает.

Последнее время даже небольшие модели уже не ошибаются и не путаются в количестве букв в словах и сёстрах брата алисы.

И заднюю дают моментально, не пытаясь доказать тебе что 1+2 не равно трем если попались на глупости.

Какое такое мышление еще нужно?

То что даже локальные модели лучше подбирают ответ под вопрос это всё конечно замечательно, но к мышлению отношения не имеет.

Процесс мышления это не статистическое предсказание следующего токена, а гибкий процесс управления методами предсказания для получения конкретного результата.

Текстовые модели не думают, а выдают последовательный статистический ответ на контекст. Да это впечатляет, но только в простых задачах, по обработке больших текстовых массивах.

Глубины в "осмыслении" нет, ии думает как пропитый алкоголик, одним путём, одним контекстом, максимально просто по пути предсказания следующего токена, как капля пиваса стекающая по самому короткому пути в низ.

В чем конкретно проблема?

Ллм вроде может решать задачи с которыми раньше не сталкивалась, и учиться в рамках контекста тоже. Задачи из программирования.

НЛО прилетело и опубликовало эту надпись здесь

Скорость генерации 4b действительно большая. Тараторит еле успеваю ответ читать. Но пишет дикую пургу в огромном количестве. С русским беда.

В BF16 с русским плохо?

Q4_K_M

А, тогда понятно. Говорили в соседнем треде что кванты все ломают. Unsloth не выпускали квантов, к слову, сам жду оф. поддержки llama.cpp и рабочих квантов

Ну вы комментарии то перечитайте, на unsloth и смотрю, наличие квантов не означает их работоспособность

Я ответил ровно на "Unsloth не выпускали квантов".

Независимо от квантования русский был плох и в предыдущей моделе GLM.

Скачал Q4UD, модель с рекомендуемыми настройками сваливается в цикл.

Тогда интересно, обещали что будет хорошо работать

Надо просто брать не просто q4, а iq4 - там умная квантизация и качество страдает сильно меньше. А ещё лучше mxfp4

Я бы подождал недельку-две gguf использовать, на новых моделях первые дни часто всплывают и фиксятся косяки.

Попробовал unsloth/GLM-4.7-Flash-UD-Q2_K_XL - нормально работает с русским (на первый взгляд).

Я попробовал Q8 - даже она ненормально. Оказалось, очень зависит от окна контекста - при окне 4К размышляет бесконечно и бредово, при 50К решает задачу быстро, но неправильно и с русским проблем меньше но они есть.

Звучит как техническая проблема (или с параметрами инференса что не так).

Использую llama.cpp и заведомо более слабый квант - к отдельным словам можно придраться (применяет не к месту или порядок путает), но в целом очень даже неплохо.
Даже местами лучше, чем Qwen3-30B-A3B (как минимум четче инструкции следует).

Очередная никому не нужна модель. В версии 4.7 они на столько подняли там цензуру, что все просто используют 4.6. Посмотрим совершат ли они такую же ошибку в 4.8

Какую именно цензуру? Использую постоянно 4.7 (большую, не flash), правда для кодинга, не для чата, ни разу ничего не отказывалась делать.

Ролиплеер похоже, письки всякие генерирует...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости