janvarev 6 мар в 13:29

Вышла Qwen QwQ 32B — размышляющая модель, сопоставимая с DeepSeek R1 и o1-mini

1 мин

9.5K

Искусственный интеллект

Комментарии 23

Alex-Freeman 6 мар в 14:08

Модель возможно и хорошая, но общаться придется или на английском или китайском. С русским у нее не очень хорошо

janvarev 6 мар в 14:18

Температуру для китайских моделей я рекомендую ставить в районе 0.3-0.7, как на скрине в новости. Тогда работает с русским без иероглифов.

Rezzet 6 мар в 14:25

Это в целом рекомендация для всех сетей когда нужно работать с кодом или математическими задачами. Больше 0.7 - это сказки писать(в прямом смысле слова когда это нужно).

fermentum 6 мар в 15:06

У кого возникает ошибка парсера QWQ в LM-Studio, то вот лекарство https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/479#issuecomment-2701947624

rogoz 6 мар в 15:17

расскажи что-нибудь смешное

Хм, смешное... Ну, знаете, иногда жизнь сама преподносит такие ситуации, что просто не знаешь, смеяться или плакать. Например, вспомнил один случай из моей юности. Было это на дне рождения у нашего общего друга. Все были в сборе, музыка играла, пиво холодное стояло, короче,典型的派对场景。
Так вот, в какой-то момент decides to play a prank on his friend, let's call him Alex. He tells Alex that he saw a ghost in the basement and that Alex should go check it out. Now, Alex is not really the bravest person in the world, but he doesn't want to look like a coward in front of his friends, so he agrees to go down to the basement to see what's there. .......

Это в Qwen/QwQ-32B-preview, надеюсь то, что нужно, а то их дофига.

janvarev 6 мар в 15:52

Preview более старая и хуже.

Shannon 7 мар в 09:09

Это в Qwen/QwQ-32B-preview, надеюсь то, что нужно

Не то, что нужно. Вам нужно вот это, онлайн без регистрации: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

Preview была проверкой концепции размышлений и вышла 3 месяца назад, в ноябре 2024. Она умела работать только в режиме 1 вопрос - 1 ответ и сразу же ресет, она постоянно переключала языки и её качество вы можете видеть сами.
До этого, в сентябре вышла размышляющая chatgpt o1, все гадали как реализовано размышление, это система моделей или как, и qwq preview была попыткой показать, что то, как o1 умеет рассуждать, можно реализовать в рамках монолитной модели и позже подтвердилось, что o1 это одна модель, а не система агентов.

Финальная версия QwQ-32B уже обучена намного лучше, учтены многие факторы и поэтому у неё сильно лучше качество, модель теперь полноценно настроена через apply_chat_template чтобы автоматически убирать предыдущие размышления из истории и добавлять тег <think> вначале нового ответа, поэтому модель пригодна для диалогов.

В llama.cpp реализовано apply_chat_template, поэтому и gguf квантованные версии тоже будут работать нормально, если учесть рекомендации от создателей модели:
Use Temperature=0.6 and TopP=0.95. Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.

С юмором у всех моделей сложно:

Но то, что модели могут переключать языки, сейчас это в целом типично, даже o3-mini так делает:

AscendingRay 10 мар в 08:43

Use Temperature=0.6 and TopP=0.95. Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.

Где ознакомиться где это писать и что это значит?

Theta-Lev 10 мар в 21:06

В большинстве интерфейсов для локального инференса моделей (то есть для локальной работы) это делается в настройках. В разнообразных веб-вариантах надо разбираться на месте

S_gray 6 мар в 15:51

Вообще-то, в примере ответа с рассуждением есть ошибка: вопрос задан "сколько сестёр?" не у Оли, а у её брата. Нейросеть-же, судя по ответу, думает, что есть какой-то брат Оля, который почему-то при этом ещё и брат Оли, и отвечает "у Оли четыре сестры", что, во-первых, противоречит условию ("у Оли ... три сестры), а, во-вторых, показывает, что нейросеть не понимает контекста...

freeExec 7 мар в 07:59

Все там кооректно, никакого брата с именем Оля не придумавала сеть. Кажется ии понимает русский лучше нативов.

HellQwer 7 мар в 17:52

Хехе 3.11 с 3.9 тоже не все хуманы проходят.

entze 8 мар в 20:57

Те, кто помнят что NT 3.5 вышла позже windows 3.11 проходят лучше.

Byker 6 мар в 18:11

В статье не хватает ссылки: https://huggingface.co/Qwen/QwQ-32B/tree/main

TitovVN1974 6 мар в 23:51

Промпт: "Create modern Fortran code solving a viscous Burgers equation with Lax-Wendroff method of FDTD. Make optimized code for Intel Fortran. Call GnuPlot from the program to plot results at different times." - долго сомневается, но не выдает код.

С этой тестовой задачей лучше всего {из того что я проверял} справляется Grok3, полноразмерная DeepSeek-r1 - достаточно корректно.

ash_lm 7 мар в 09:31

Похоже задача с сёстрами весьма сложна для нейросетей:

Скрытый текст

Скрытый текст

Скрытый текст

ash_lm 7 мар в 09:40

Хотя ChatGPT после беседы всё же пришёл к правильному выводу.

Скрытый текст

Скрытый текст

Скрытый текст

Скрытый текст

Скрытый текст

DOLARiON 7 мар в 11:20

Тоже провел несколько тестов:

ChatGPT o3-mini-high

ChatGPT 4.5

chemtech 8 мар в 07:35

Подскажите какую модель выбрать для локального использования (ollama) на ноутбуке с 32 Гб ОЗУ паралельно с работающими chrome и IDEA для DevOps вопросов?

Theta-Lev 10 мар в 21:12

Попробуйте qwen 2.5 coder 7-14B: https://github.com/QwenLM/Qwen2.5-Coder, возможно квантованную в Q8 или Q5_K_L, у меня на похожем железе и на похожих нагрузках модели работают и выдают по 7.5-8 токенов в секунду (это может отличаться в зависимости от процессора или видеокарты, если на ней будете часть слоёв хранить)

itischenkoru 10 мар в 08:35

Сколько требуется для нее оперативной памяти и моя карточка 1060 справится с этой LLM? На оф сайте есть данные только по qwen по qwq не нашел требовний

Neikist 10 мар в 18:29

1060 тут точно мимо. Чтобы полностью в видеопамять поместилась даже q4 модель - это нужно от 20 гигов. Т.е. что то уровня 4090. Либо macbook с m1/2/3/4 (лучше max версии) и оперативкой 32 гига (но лучше больше, 32 совсем впритык, ибо система под видеопамять выделяет 2/3 где то.

З.Ы. Можно конечно и на cpu запустить, только часть слоев в видеопамять сгрузить, но там скорость вывода падает очень сильно. Прям на порядок. Может даже раз в 15-20.

З.З.Ы. В ollama на m1 max вот такая производительность у меня.

Скрытый текст

Neikist 10 мар в 19:33

Еще для сравнения.

Модель на 22b параметров на 4080 super, полностью вмещается в 16гб vram

qwq:32b 4q, на той же машине, примерно треть не влезла в vram

Зарегистрируйтесь на Хабре, чтобы оставить комментарий