Комментарии 14
Немного подискутировал с Qwen3-235B-A22B.
Скрытый текст

Честно говоря, давно уже такого не встречал. Сделало мой вечер.
Забыл добавить в статью, что переключаться между режимом размышления и без размышления нужно тегами /think
и /no_think
в системном промпте, либо прямо в тексте.
Запрос без размышлений, в системной промпте указал /no_think
, что делает этот тег по умолчанию для всего, блок размышлений создается, но он пустой:

После этого, несмотря на системный промпт, можно послать запрос на размышление через /think
, и блок с размышлениями заполняется:

Какие параметры сервак нужны для его запуска
Запустить можно хоть с nvme на домашнем ПК, для больших MoE это сейчас частое явление набирающее популярность. Всё упирается в скорость работы, и тут нет простого ответа. Если модель влезает в VRAM - всё будет очень быстро.
Цифра рядом с B это в среднем и есть количество памяти, то есть 32B будет требовать 32гб памяти в кванте не отличимом от оригинала (Q6 или Q8). Но если нужен размер точнее, то зайдя в карточку gguf версии модели, все размеры будут указаны:

В gguf файл спроектирован так, что он повторяет структуру памяти и просто мапятся в память как есть, поэтому размер файла будет равен размеру занимаемому памяти. Сверх этого места нужно сколько гб на контекст. Чем больше контекст, тем больше ГБ нужно. Для 128k может потребоваться в 2 раза больше размера самой модели. Контекст тоже можно квантовать и использовать flash attention и скользящее окно.
Q6 и Q8 это часто избыточные кванты для больших моделей, типичные кванты которые считаются близким к оригиналу это Q4_K_M или Q5_K_M, или если памяти впритык, то IQ4_XS.
I-кванты это квантование через матрицу важности imatrix, они обычно точнее, чем K-кванты, поэтому могут выдавать тоже качество с меньшим размером, но требуют в ~2 раза больше вычислительных мощностей при выполнении, весят меньше, поэтому они могут помочь засунуть модель в память, когда Q4_K_M никак не влезает.
На практике, чем больше модель, тем меньше шансов, что она влезет в железо, и тем легче она переносит квантование, поэтому появился вариант UD квантов, это динамическое квантование от Unsloth.
Такие кванты можно брать и UD-IQ3 и даже UD-IQ2 - они будут хуже, чем Q4_K_M, но за счет нового подхода они выступают на достойном уровне, даже 1.58 битные версии.
У меня Qwen3-30B-A3B-Q6_K под llama запустилась на домашнем компе с видюхой в гигабайт и оперативкой 32. Генерит быстрее чем я читаю! И вроде годноту генерит, ну по крайней мере не хуже gpt 3.5 на глаз
Qwen3-30B-A3B-Q4_K_M первая из моделей размера 15..30B, которая смогла написать мне консольный тетрис на C#. Пусть не такой красивый и не сходу, как Claude, а после нескольких итераций по исправлению ошибок, потому что сама себя запутала с многомерными массивами.
В рассуждениях, правда, периодически дичь несла, типа такой:
To fix this, we need to restructure the Shapes array correctly. One approach is to use a 4D array or a jagged array. However, given that C# doesn't support 4D arrays in the same way as 3D, perhaps using a jagged array (int[][][]) would be better.
Но в итоге у неё получилось)
Qwen3-32B-Q4_K_M ещё предстоит попробовать.
У меня qwen3:30b-a3b-q8_0 запустилось на старой рязани 5800X, вообще без использования gpu. Выдает примерно 10-11 t/s.
Не пойму зачем нужны эти генераторы информации. Если еще что посчитать - ладно, вместо калькулятора. Но на конкретные текстовые запросы выдают такой рандом, причем разный на разных устройствах, если сам не будешь знать настоящий ответ, то и будешь верить их выдумкам. Если другие ии еще признавались в своих ошибках, то qwen ни в какую, до последнего будет выкручиваться и врать что его информация верная.
Интересно. qwen3:30b-a3b-q4_K_M зацикливается на простом тесте "At what time between 5.30 and 6 will the hands of a clock be at right angles?", хотя правильный ответ там мелькает.
Пощупал, 30b-a3b прям неплоха по качеству как для локальных, а учитывая скорость ее работы - вообще отлично. 8b только для переводов попробовал, тоже неплохо.
Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1