Shannon 29 апр в 02:58

Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1

2 мин

22K

Искусственный интеллект

+30

Комментарии 19

VirtualVoid 29 апр в 04:15

Немного подискутировал с Qwen3-235B-A22B.

Скрытый текст

Честно говоря, давно уже такого не встречал. Сделало мой вечер.

aydar_tech 29 апр в 04:24

Сразу видно что AIME score выше на 10% GPT-4o.

Shannon 29 апр в 04:37

Если вы качали UD - динамические кванты, они сейчас сломаны, работают только Q6 и Q8.
Пока протестировал Qwen3-30B-A3B-Q6_K, он работает нормально.

Steelycrack 29 апр в 07:38

наконец-то достойная визуализация снов при температуре под 40)

Shannon 29 апр в 04:40

Забыл добавить в статью, что переключаться между режимом размышления и без размышления нужно тегами /think и /no_think в системном промпте, либо прямо в тексте.

Запрос без размышлений, в системной промпте указал /no_think, что делает этот тег по умолчанию для всего, блок размышлений создается, но он пустой:

После этого, несмотря на системный промпт, можно послать запрос на размышление через /think, и блок с размышлениями заполняется:

skyramp 29 апр в 05:10

rPman 30 апр в 16:47

@Shannon, можно ссылку на инструкцию по формату промпта, какие еще управляющие токены тут есть

Shannon 1 мая в 04:56

В их карточке модели или на их гитхабе, указаны только эти два, других видимо нет.

Есть принудительное отключение мышления через флаг, чтобы даже пустых размышляющих тегов не было, но это делается через шаблон чата jinja, а не через управляющие токены.

Там же рекомендуют отключить "rotating context management" через флаг --no-context-shift, чтобы размышляющие токены не вытеснялись во время генерации, пока размышление не будет завершено, и модель не уходила в бесконечный цикл размышлений или не снижалось качество размышлений.

Solo2005 29 апр в 10:20

Какие параметры сервак нужны для его запуска

Shannon 29 апр в 10:56

Запустить можно хоть с nvme на домашнем ПК, для больших MoE это сейчас частое явление набирающее популярность. Всё упирается в скорость работы, и тут нет простого ответа. Если модель влезает в VRAM - всё будет очень быстро.

Цифра рядом с B это в среднем и есть количество памяти, то есть 32B будет требовать 32гб памяти в кванте не отличимом от оригинала (Q6 или Q8). Но если нужен размер точнее, то зайдя в карточку gguf версии модели, все размеры будут указаны:

В gguf файл спроектирован так, что он повторяет структуру памяти и просто мапятся в память как есть, поэтому размер файла будет равен размеру занимаемому памяти. Сверх этого места нужно сколько гб на контекст. Чем больше контекст, тем больше ГБ нужно. Для 128k может потребоваться в 2 раза больше размера самой модели. Контекст тоже можно квантовать и использовать flash attention и скользящее окно.

Q6 и Q8 это часто избыточные кванты для больших моделей, типичные кванты которые считаются близким к оригиналу это Q4_K_M или Q5_K_M, или если памяти впритык, то IQ4_XS.
I-кванты это квантование через матрицу важности imatrix, они обычно точнее, чем K-кванты, поэтому могут выдавать тоже качество с меньшим размером, но требуют в ~2 раза больше вычислительных мощностей при выполнении, весят меньше, поэтому они могут помочь засунуть модель в память, когда Q4_K_M никак не влезает.

На практике, чем больше модель, тем меньше шансов, что она влезет в железо, и тем легче она переносит квантование, поэтому появился вариант UD квантов, это динамическое квантование от Unsloth.
Такие кванты можно брать и UD-IQ3 и даже UD-IQ2 - они будут хуже, чем Q4_K_M, но за счет нового подхода они выступают на достойном уровне, даже 1.58 битные версии.

BelerafonL 29 апр в 11:12

У меня Qwen3-30B-A3B-Q6_K под llama запустилась на домашнем компе с видюхой в гигабайт и оперативкой 32. Генерит быстрее чем я читаю! И вроде годноту генерит, ну по крайней мере не хуже gpt 3.5 на глаз

alexzzzz 30 апр в 01:53

Qwen3-30B-A3B-Q4_K_M первая из моделей размера 15..30B, которая смогла написать мне консольный тетрис на C#. Пусть не такой красивый и не сходу, как Claude, а после нескольких итераций по исправлению ошибок, потому что сама себя запутала с многомерными массивами.

В рассуждениях, правда, периодически дичь несла, типа такой:

To fix this, we need to restructure the Shapes array correctly. One approach is to use a 4D array or a jagged array. However, given that C# doesn't support 4D arrays in the same way as 3D, perhaps using a jagged array (int[][][]) would be better.

Но в итоге у неё получилось)

Qwen3-32B-Q4_K_M ещё предстоит попробовать.

isden 30 апр в 02:06

У меня qwen3:30b-a3b-q8_0 запустилось на старой рязани 5800X, вообще без использования gpu. Выдает примерно 10-11 t/s.

BelerafonL 5 мая в 23:41

MoloE 29 апр в 19:58

Не пойму зачем нужны эти генераторы информации. Если еще что посчитать - ладно, вместо калькулятора. Но на конкретные текстовые запросы выдают такой рандом, причем разный на разных устройствах, если сам не будешь знать настоящий ответ, то и будешь верить их выдумкам. Если другие ии еще признавались в своих ошибках, то qwen ни в какую, до последнего будет выкручиваться и врать что его информация верная.

isden 29 апр в 20:44

Интересно. qwen3:30b-a3b-q4_K_M зацикливается на простом тесте "At what time between 5.30 and 6 will the hands of a clock be at right angles?", хотя правильный ответ там мелькает.

Shannon 30 апр в 16:53

Зацикливание - это частая проблема шаблона чата или плохих квантов.
В данном случае была проблема с шаблоном чата в llama.cpp и следовательно во всех производных, вроде ollama и LM Studio, и все кванты испорчены. Меньше суток назад это исправили, нужно обновить софт и перекачать кванты.

Спустя 38к токенов размышления ответ дан правильный

https://www.reddit.com/r/LocalLLaMA/comments/1kaodxu/qwen3_unsloth_dynamic_ggufs_128k_context_bug_fixes/

Neikist 30 апр в 11:42

Пощупал, 30b-a3b прям неплоха по качеству как для локальных, а учитывая скорость ее работы - вообще отлично. 8b только для переводов попробовал, тоже неплохо.

Rokstar 30 апр в 14:34

Сырой. Фейлит, после смены темы беседы на простой вопрос вместо ответа выдал рассуждение без ответа "...Подытоживая, я должен дать простой, понятный, дружелюбный и приглашающий ответ, который удовлетворит любознательность пользователя и заложит основу для дальнейшего взаимодействия."

Зарегистрируйтесь на Хабре, чтобы оставить комментарий