Как стать автором
Обновить

Комментарии 14

Сразу видно что AIME score выше на 10% GPT-4o.

Если вы качали UD - динамические кванты, они сейчас сломаны, работают только Q6 и Q8.
Пока протестировал Qwen3-30B-A3B-Q6_K, он работает нормально.

наконец-то достойная визуализация снов при температуре под 40)

Забыл добавить в статью, что переключаться между режимом размышления и без размышления нужно тегами /think и /no_think в системном промпте, либо прямо в тексте.

Запрос без размышлений, в системной промпте указал /no_think, что делает этот тег по умолчанию для всего, блок размышлений создается, но он пустой:

После этого, несмотря на системный промпт, можно послать запрос на размышление через /think, и блок с размышлениями заполняется:

Какие параметры сервак нужны для его запуска

Запустить можно хоть с nvme на домашнем ПК, для больших MoE это сейчас частое явление набирающее популярность. Всё упирается в скорость работы, и тут нет простого ответа. Если модель влезает в VRAM - всё будет очень быстро.

Цифра рядом с B это в среднем и есть количество памяти, то есть 32B будет требовать 32гб памяти в кванте не отличимом от оригинала (Q6 или Q8). Но если нужен размер точнее, то зайдя в карточку gguf версии модели, все размеры будут указаны:

Пример для Qwen3-32B-GGUF
Пример для Qwen3-32B-GGUF

В gguf файл спроектирован так, что он повторяет структуру памяти и просто мапятся в память как есть, поэтому размер файла будет равен размеру занимаемому памяти. Сверх этого места нужно сколько гб на контекст. Чем больше контекст, тем больше ГБ нужно. Для 128k может потребоваться в 2 раза больше размера самой модели. Контекст тоже можно квантовать и использовать flash attention и скользящее окно.

Q6 и Q8 это часто избыточные кванты для больших моделей, типичные кванты которые считаются близким к оригиналу это Q4_K_M или Q5_K_M, или если памяти впритык, то IQ4_XS.
I-кванты это квантование через матрицу важности imatrix, они обычно точнее, чем K-кванты, поэтому могут выдавать тоже качество с меньшим размером, но требуют в ~2 раза больше вычислительных мощностей при выполнении, весят меньше, поэтому они могут помочь засунуть модель в память, когда Q4_K_M никак не влезает.

На практике, чем больше модель, тем меньше шансов, что она влезет в железо, и тем легче она переносит квантование, поэтому появился вариант UD квантов, это динамическое квантование от Unsloth.
Такие кванты можно брать и UD-IQ3 и даже UD-IQ2 - они будут хуже, чем Q4_K_M, но за счет нового подхода они выступают на достойном уровне, даже 1.58 битные версии.

У меня Qwen3-30B-A3B-Q6_K под llama запустилась на домашнем компе с видюхой в гигабайт и оперативкой 32. Генерит быстрее чем я читаю! И вроде годноту генерит, ну по крайней мере не хуже gpt 3.5 на глаз

Qwen3-30B-A3B-Q4_K_M первая из моделей размера 15..30B, которая смогла написать мне консольный тетрис на C#. Пусть не такой красивый и не сходу, как Claude, а после нескольких итераций по исправлению ошибок, потому что сама себя запутала с многомерными массивами.

В рассуждениях, правда, периодически дичь несла, типа такой:

To fix this, we need to restructure the Shapes array correctly. One approach is to use a 4D array or a jagged array. However, given that C# doesn't support 4D arrays in the same way as 3D, perhaps using a jagged array (int[][][]) would be better.

Но в итоге у неё получилось)

Qwen3-32B-Q4_K_M ещё предстоит попробовать.

У меня qwen3:30b-a3b-q8_0 запустилось на старой рязани 5800X, вообще без использования gpu. Выдает примерно 10-11 t/s.

Не пойму зачем нужны эти генераторы информации. Если еще что посчитать - ладно, вместо калькулятора. Но на конкретные текстовые запросы выдают такой рандом, причем разный на разных устройствах, если сам не будешь знать настоящий ответ, то и будешь верить их выдумкам. Если другие ии еще признавались в своих ошибках, то qwen ни в какую, до последнего будет выкручиваться и врать что его информация верная.

Интересно. qwen3:30b-a3b-q4_K_M зацикливается на простом тесте "At what time between 5.30 and 6 will the hands of a clock be at right angles?", хотя правильный ответ там мелькает.

Пощупал, 30b-a3b прям неплоха по качеству как для локальных, а учитывая скорость ее работы - вообще отлично. 8b только для переводов попробовал, тоже неплохо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости