Комментарии 11
А точно ли в их чате уже есть новая модель? С таким же именем там была модель и вчера, и позавчера...
А точно ли в их чате уже есть новая модель? С таким же именем там была модель и вчера, и позавчера...
Имя модели осталось как и было Qwen3-235B-A22B, а 2507 это дата релиза, такое именование часто, если не было смены архитектуры, встречается у обновлений, а в официальных чатах оставляют базовое имя модели. Instruct - это тоже стандартное именование означающее пост-обучение модели на следование инструкциям, кто-то это указывает, кто-то нет, потому что бывает ещё Base модель.
Такая же путаница была с обновлением DeepSeek V3-0324 и R1-0528, когда не понятно обновили в чате или нет.
Официальный пост от Qwen указывает, что новая модель это теперь дефолтная модель в их чате:

Да, непонятно. На сайте chat.qwen.ai модель 2507, instruct или non-thing это не указано. Кнопка переключения в режим "Мышление" осталась как была, т.е. это гибридная модель.
Может речь только о появлении раздельных моделях в репозитории?
Да не, там всё проще, но запутанно для тех, кто не заходил к ним раньше.
Раньше дефолтная модель была гибридная Qwen3-235B-A22B и по умолчанию выбрано "мышление", сейчас дефолтная это новая Qwen3-235B-A22B-2507 без мышления. Если нажать "мышление", то переключиться на старую размышляющую. И сейчас они как раз явно переименовали в 2507, а в первый день там было имя тоже самое Qwen3-235B-A22B как и раньше, но по качество ответов уже было видно, что это новая модель.
Для тех кому нужно API, на openrouter уже добавили бесплатную версию: https://openrouter.ai/qwen/qwen3-235b-a22b-07-25:free
И gguf версии тоже готовы, и для llama.cpp и для ik_llama. Подобрал и сравнил 2 кванта одинакового качества, но разного квантования. Создатель k- и i- квантов (те самые Q4_K_M) недавно сделал форк ik_llama, где сосредоточился на скорости работы своих предыдущих квантов и создания новых улучшенных квантов. Я решил их сравнить, и разница в пользу ik_llama, квантованная новыми квантами модель при чуть лучшем качестве не только весит меньше, но и работает быстрее.

Ещё можно увидеть, что они добавили в чат Qwen3-Coder 480B-A35B с контекстом 1 млн токенов, видимо это и есть тот сюрприз, который они обещали и который от них давно ждали, так как их модели для программирования достаточно высокого уровня.
по ссылке нет новой модели, там та же самая, которая мне каждый день код пишет
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 - обновленная модель выложенная накануне. https://huggingface.co/Qwen/Qwen3-235B-A22B - её предыдущая итерация. Они разные
"без режима мышления и улучшенным качеством". Чиво? Хоть заголовок-то можно было правильно написать?
Qwen шикарен, gemini со своим враньём скатился на второе место, Клод со своими лимитами на третье, а чатжпт на последнее. Пришлешь скрипт, попросишь сделать правки - половину функций выкинет без проблем.
А сколько видеопамяти для этого нужно? 235B выглядлит как что-то не для простых смертных, но 22 миллиарда активных это уже веселее.
А сколько видеопамяти для этого нужно? 235B выглядлит как что-то не для простых смертных, но 22 миллиарда активных это уже веселее.
Разгрузка на одну GPU через -ngl 99 -ot exps=CPU -fa
Подробнее как это работает:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)
Квант IQ4_K: 7гб VRAM + контекст + 134гб RAM.
Квант UD-Q2_K_XL: 5гб VRAM + контекст + 82гб RAM.
8к контекста требуют 0.7гб VRAM, 256к контекста требуют 25гб. Контекст работает через SWA, включается автоматически при использовании -fa
.
Скорости выше уже были:

Сейчас вышли ещё 2 большие модели:
Qwen3-235B-A22B-Thinking-2507 на данный момент с лучшим удержанием контекста среди локальных моделей
Qwen3-Coder-480B-A35B, которую всё еще можно запустить локально
И скоро должна выйти маленькая Qwen3-30B-A3B-Instruct-2507.
Вышла от Qwen модель для видео Wan 2.2 5B и 14B, требует от 8гб VRAM, для 14B gguf уже есть.
Только что вышли GLM-4.5-355B-A32B и GLM-4.5-Air-106B-A12B от Zhipu AI:

Вышла обновленная Qwen3-235B-A22B-Instruct-2507, без режима мышления, но с улучшенным качеством