Как стать автором
Обновить

Комментарии 19

Сразу видно что AIME score выше на 10% GPT-4o.

Если вы качали UD - динамические кванты, они сейчас сломаны, работают только Q6 и Q8.
Пока протестировал Qwen3-30B-A3B-Q6_K, он работает нормально.

наконец-то достойная визуализация снов при температуре под 40)

Забыл добавить в статью, что переключаться между режимом размышления и без размышления нужно тегами /think и /no_think в системном промпте, либо прямо в тексте.

Запрос без размышлений, в системной промпте указал /no_think, что делает этот тег по умолчанию для всего, блок размышлений создается, но он пустой:

После этого, несмотря на системный промпт, можно послать запрос на размышление через /think, и блок с размышлениями заполняется:

В их карточке модели или на их гитхабе, указаны только эти два, других видимо нет.

Есть принудительное отключение мышления через флаг, чтобы даже пустых размышляющих тегов не было, но это делается через шаблон чата jinja, а не через управляющие токены.

Там же рекомендуют отключить "rotating context management" через флаг --no-context-shift, чтобы размышляющие токены не вытеснялись во время генерации, пока размышление не будет завершено, и модель не уходила в бесконечный цикл размышлений или не снижалось качество размышлений.

Какие параметры сервак нужны для его запуска

Запустить можно хоть с nvme на домашнем ПК, для больших MoE это сейчас частое явление набирающее популярность. Всё упирается в скорость работы, и тут нет простого ответа. Если модель влезает в VRAM - всё будет очень быстро.

Цифра рядом с B это в среднем и есть количество памяти, то есть 32B будет требовать 32гб памяти в кванте не отличимом от оригинала (Q6 или Q8). Но если нужен размер точнее, то зайдя в карточку gguf версии модели, все размеры будут указаны:

Пример для Qwen3-32B-GGUF
Пример для Qwen3-32B-GGUF

В gguf файл спроектирован так, что он повторяет структуру памяти и просто мапятся в память как есть, поэтому размер файла будет равен размеру занимаемому памяти. Сверх этого места нужно сколько гб на контекст. Чем больше контекст, тем больше ГБ нужно. Для 128k может потребоваться в 2 раза больше размера самой модели. Контекст тоже можно квантовать и использовать flash attention и скользящее окно.

Q6 и Q8 это часто избыточные кванты для больших моделей, типичные кванты которые считаются близким к оригиналу это Q4_K_M или Q5_K_M, или если памяти впритык, то IQ4_XS.
I-кванты это квантование через матрицу важности imatrix, они обычно точнее, чем K-кванты, поэтому могут выдавать тоже качество с меньшим размером, но требуют в ~2 раза больше вычислительных мощностей при выполнении, весят меньше, поэтому они могут помочь засунуть модель в память, когда Q4_K_M никак не влезает.

На практике, чем больше модель, тем меньше шансов, что она влезет в железо, и тем легче она переносит квантование, поэтому появился вариант UD квантов, это динамическое квантование от Unsloth.
Такие кванты можно брать и UD-IQ3 и даже UD-IQ2 - они будут хуже, чем Q4_K_M, но за счет нового подхода они выступают на достойном уровне, даже 1.58 битные версии.

У меня Qwen3-30B-A3B-Q6_K под llama запустилась на домашнем компе с видюхой в гигабайт и оперативкой 32. Генерит быстрее чем я читаю! И вроде годноту генерит, ну по крайней мере не хуже gpt 3.5 на глаз

Qwen3-30B-A3B-Q4_K_M первая из моделей размера 15..30B, которая смогла написать мне консольный тетрис на C#. Пусть не такой красивый и не сходу, как Claude, а после нескольких итераций по исправлению ошибок, потому что сама себя запутала с многомерными массивами.

В рассуждениях, правда, периодически дичь несла, типа такой:

To fix this, we need to restructure the Shapes array correctly. One approach is to use a 4D array or a jagged array. However, given that C# doesn't support 4D arrays in the same way as 3D, perhaps using a jagged array (int[][][]) would be better.

Но в итоге у неё получилось)

Qwen3-32B-Q4_K_M ещё предстоит попробовать.

У меня qwen3:30b-a3b-q8_0 запустилось на старой рязани 5800X, вообще без использования gpu. Выдает примерно 10-11 t/s.

qwen3-0.6b исполняет зачётно!
qwen3-0.6b исполняет зачётно!

Не пойму зачем нужны эти генераторы информации. Если еще что посчитать - ладно, вместо калькулятора. Но на конкретные текстовые запросы выдают такой рандом, причем разный на разных устройствах, если сам не будешь знать настоящий ответ, то и будешь верить их выдумкам. Если другие ии еще признавались в своих ошибках, то qwen ни в какую, до последнего будет выкручиваться и врать что его информация верная.

Интересно. qwen3:30b-a3b-q4_K_M зацикливается на простом тесте "At what time between 5.30 and 6 will the hands of a clock be at right angles?", хотя правильный ответ там мелькает.

Зацикливание - это частая проблема шаблона чата или плохих квантов.
В данном случае была проблема с шаблоном чата в llama.cpp и следовательно во всех производных, вроде ollama и LM Studio, и все кванты испорчены. Меньше суток назад это исправили, нужно обновить софт и перекачать кванты.

Спустя 38к токенов размышления ответ дан правильный
Спустя 38к токенов размышления ответ дан правильный

https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/

Пощупал, 30b-a3b прям неплоха по качеству как для локальных, а учитывая скорость ее работы - вообще отлично. 8b только для переводов попробовал, тоже неплохо.

Сырой. Фейлит, после смены темы беседы на простой вопрос вместо ответа выдал рассуждение без ответа "...Подытоживая, я должен дать простой, понятный, дружелюбный и приглашающий ответ, который удовлетворит любознательность пользователя и заложит основу для дальнейшего взаимодействия."

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости