Pull to refresh

Вышла Qwen QwQ 32B — размышляющая модель, сопоставимая с DeepSeek R1 и o1-mini

Reading time1 min
Views9.5K

Китайская команда Qwen выпустила размышляющую модель QwQ-32B с открытой лицензией Apache 2.0.

Несмотря на небольшой размер в 32B, модель по метрикам сопоставима с гигантской DeepSeek R1 671B. Также модель значительно обгоняет так называемые дистилляты: DeepSeek-R1-LLama-70B (обученная на размышлениях Llama 70B) и DeepSeek-R1-Qwen-32B (обученная на размышлениях Qwen 32B)

Согласно проведенным экспериментам, модель неплохо отвечает на русском языке. Также она корректно решила вопросы "с подвохом", на которые обычно некорректно отвечают нейросетевые модели без рассуждений, и которые часто используются в тестах:

  • Что больше - 3.11 или 3.9?

  • У Оли есть два брата и три сестры. Сколько сестер у брата Оли?

Пример ответа, требующего размышлений
Пример ответа, требующего размышлений

В целом, модель выглядит очень интересно - 32B модель в принципе можно запустить на домашней машине с приличной скоростью, в отличие от сильной, но гигантской DeepSeek R1 671B.

Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
Total votes 5: ↑5 and ↓0+7
Comments23

Other news