Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 11

А точно ли в их чате уже есть новая модель? С таким же именем там была модель и вчера, и позавчера...

А точно ли в их чате уже есть новая модель? С таким же именем там была модель и вчера, и позавчера...

Имя модели осталось как и было Qwen3-235B-A22B, а 2507 это дата релиза, такое именование часто, если не было смены архитектуры, встречается у обновлений, а в официальных чатах оставляют базовое имя модели. Instruct - это тоже стандартное именование означающее пост-обучение модели на следование инструкциям, кто-то это указывает, кто-то нет, потому что бывает ещё Base модель.
Такая же путаница была с обновлением DeepSeek V3-0324 и R1-0528, когда не понятно обновили в чате или нет.

Официальный пост от Qwen указывает, что новая модель это теперь дефолтная модель в их чате:

Да, непонятно. На сайте chat.qwen.ai модель 2507, instruct или non-thing это не указано. Кнопка переключения в режим "Мышление" осталась как была, т.е. это гибридная модель.

Может речь только о появлении раздельных моделях в репозитории?

Да не, там всё проще, но запутанно для тех, кто не заходил к ним раньше.
Раньше дефолтная модель была гибридная Qwen3-235B-A22B и по умолчанию выбрано "мышление", сейчас дефолтная это новая Qwen3-235B-A22B-2507 без мышления. Если нажать "мышление", то переключиться на старую размышляющую. И сейчас они как раз явно переименовали в 2507, а в первый день там было имя тоже самое Qwen3-235B-A22B как и раньше, но по качество ответов уже было видно, что это новая модель.

Для тех кому нужно API, на openrouter уже добавили бесплатную версию: https://openrouter.ai/qwen/qwen3-235b-a22b-07-25:free

И gguf версии тоже готовы, и для llama.cpp и для ik_llama. Подобрал и сравнил 2 кванта одинакового качества, но разного квантования. Создатель k- и i- квантов (те самые Q4_K_M) недавно сделал форк ik_llama, где сосредоточился на скорости работы своих предыдущих квантов и создания новых улучшенных квантов. Я решил их сравнить, и разница в пользу ik_llama, квантованная новыми квантами модель при чуть лучшем качестве не только весит меньше, но и работает быстрее.

чем ниже ppl тем лучше
чем ниже ppl тем лучше

Ещё можно увидеть, что они добавили в чат Qwen3-Coder 480B-A35B с контекстом 1 млн токенов, видимо это и есть тот сюрприз, который они обещали и который от них давно ждали, так как их модели для программирования достаточно высокого уровня.

по ссылке нет новой модели, там та же самая, которая мне каждый день код пишет

"без режима мышления и улучшенным качеством". Чиво? Хоть заголовок-то можно было правильно написать?

Qwen шикарен, gemini со своим враньём скатился на второе место, Клод со своими лимитами на третье, а чатжпт на последнее. Пришлешь скрипт, попросишь сделать правки - половину функций выкинет без проблем.

А сколько видеопамяти для этого нужно? 235B выглядлит как что-то не для простых смертных, но 22 миллиарда активных это уже веселее.

А сколько видеопамяти для этого нужно? 235B выглядлит как что-то не для простых смертных, но 22 миллиарда активных это уже веселее.

Разгрузка на одну GPU через -ngl 99 -ot exps=CPU -fa
Подробнее как это работает:
Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Квант IQ4_K: 7гб VRAM + контекст + 134гб RAM.
Квант UD-Q2_K_XL: 5гб VRAM + контекст + 82гб RAM.

8к контекста требуют 0.7гб VRAM, 256к контекста требуют 25гб. Контекст работает через SWA, включается автоматически при использовании -fa.

Скорости выше уже были:

Сейчас вышли ещё 2 большие модели:
Qwen3-235B-A22B-Thinking-2507 на данный момент с лучшим удержанием контекста среди локальных моделей
Qwen3-Coder-480B-A35B, которую всё еще можно запустить локально
И скоро должна выйти маленькая Qwen3-30B-A3B-Instruct-2507.

Вышла от Qwen модель для видео Wan 2.2 5B и 14B, требует от 8гб VRAM, для 14B gguf уже есть.

Только что вышли GLM-4.5-355B-A32B и GLM-4.5-Air-106B-A12B от Zhipu AI:

Спасибо за развёрнутый ответ)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости