Shannon 21 июл в 19:17

Вышла обновленная Qwen3-235B-A22B-Instruct-2507, без режима мышления, но с улучшенным качеством

1 мин

5.9K

Искусственный интеллект

Комментарии 11

achekalin 21 июл в 21:45

А точно ли в их чате уже есть новая модель? С таким же именем там была модель и вчера, и позавчера...

Shannon 21 июл в 23:02

А точно ли в их чате уже есть новая модель? С таким же именем там была модель и вчера, и позавчера...

Имя модели осталось как и было Qwen3-235B-A22B, а 2507 это дата релиза, такое именование часто, если не было смены архитектуры, встречается у обновлений, а в официальных чатах оставляют базовое имя модели. Instruct - это тоже стандартное именование означающее пост-обучение модели на следование инструкциям, кто-то это указывает, кто-то нет, потому что бывает ещё Base модель.
Такая же путаница была с обновлением DeepSeek V3-0324 и R1-0528, когда не понятно обновили в чате или нет.

Официальный пост от Qwen указывает, что новая модель это теперь дефолтная модель в их чате:

vl12 22 июл в 15:48

Да, непонятно. На сайте chat.qwen.ai модель 2507, instruct или non-thing это не указано. Кнопка переключения в режим "Мышление" осталась как была, т.е. это гибридная модель.

Может речь только о появлении раздельных моделях в репозитории?

Shannon 22 июл в 21:00

Да не, там всё проще, но запутанно для тех, кто не заходил к ним раньше.
Раньше дефолтная модель была гибридная Qwen3-235B-A22B и по умолчанию выбрано "мышление", сейчас дефолтная это новая Qwen3-235B-A22B-2507 без мышления. Если нажать "мышление", то переключиться на старую размышляющую. И сейчас они как раз явно переименовали в 2507, а в первый день там было имя тоже самое Qwen3-235B-A22B как и раньше, но по качество ответов уже было видно, что это новая модель.

Для тех кому нужно API, на openrouter уже добавили бесплатную версию: https://openrouter.ai/qwen/qwen3-235b-a22b-07-25:free

И gguf версии тоже готовы, и для llama.cpp и для ik_llama. Подобрал и сравнил 2 кванта одинакового качества, но разного квантования. Создатель k- и i- квантов (те самые Q4_K_M) недавно сделал форк ik_llama, где сосредоточился на скорости работы своих предыдущих квантов и создания новых улучшенных квантов. Я решил их сравнить, и разница в пользу ik_llama, квантованная новыми квантами модель при чуть лучшем качестве не только весит меньше, но и работает быстрее.

Ещё можно увидеть, что они добавили в чат Qwen3-Coder 480B-A35B с контекстом 1 млн токенов, видимо это и есть тот сюрприз, который они обещали и который от них давно ждали, так как их модели для программирования достаточно высокого уровня.

Yozh-lyudoyed 21 июл в 21:48

по ссылке нет новой модели, там та же самая, которая мне каждый день код пишет

molnij 22 июл в 04:08

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 - обновленная модель выложенная накануне. https://huggingface.co/Qwen/Qwen3-235B-A22B - её предыдущая итерация. Они разные

Haladdin 22 июл в 05:08

"без режима мышления и улучшенным качеством". Чиво? Хоть заголовок-то можно было правильно написать?

Badsanta83 22 июл в 13:45

Qwen шикарен, gemini со своим враньём скатился на второе место, Клод со своими лимитами на третье, а чатжпт на последнее. Пришлешь скрипт, попросишь сделать правки - половину функций выкинет без проблем.

alexandr93 28 июл в 10:06

А сколько видеопамяти для этого нужно? 235B выглядлит как что-то не для простых смертных, но 22 миллиарда активных это уже веселее.

Shannon 28 июл в 16:12

А сколько видеопамяти для этого нужно? 235B выглядлит как что-то не для простых смертных, но 22 миллиарда активных это уже веселее.

Разгрузка на одну GPU через -ngl 99 -ot exps=CPU -fa
Подробнее как это работает:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Квант IQ4_K: 7гб VRAM + контекст + 134гб RAM.
Квант UD-Q2_K_XL: 5гб VRAM + контекст + 82гб RAM.

8к контекста требуют 0.7гб VRAM, 256к контекста требуют 25гб. Контекст работает через SWA, включается автоматически при использовании -fa.

Скорости выше уже были:

Сейчас вышли ещё 2 большие модели:
Qwen3-235B-A22B-Thinking-2507 на данный момент с лучшим удержанием контекста среди локальных моделей
Qwen3-Coder-480B-A35B, которую всё еще можно запустить локально
И скоро должна выйти маленькая Qwen3-30B-A3B-Instruct-2507.

Вышла от Qwen модель для видео Wan 2.2 5B и 14B, требует от 8гб VRAM, для 14B gguf уже есть.

Только что вышли GLM-4.5-355B-A32B и GLM-4.5-Air-106B-A12B от Zhipu AI:

alexandr93 вчера в 12:27

Спасибо за развёрнутый ответ)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий