Комментарии 23
Модель возможно и хорошая, но общаться придется или на английском или китайском. С русским у нее не очень хорошо

Температуру для китайских моделей я рекомендую ставить в районе 0.3-0.7, как на скрине в новости. Тогда работает с русским без иероглифов.
У кого возникает ошибка парсера QWQ в LM-Studio, то вот лекарство https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/479#issuecomment-2701947624
расскажи что-нибудь смешное
Хм, смешное... Ну, знаете, иногда жизнь сама преподносит такие ситуации, что просто не знаешь, смеяться или плакать. Например, вспомнил один случай из моей юности. Было это на дне рождения у нашего общего друга. Все были в сборе, музыка играла, пиво холодное стояло, короче,典型的派对场景。
Так вот, в какой-то момент decides to play a prank on his friend, let's call him Alex. He tells Alex that he saw a ghost in the basement and that Alex should go check it out. Now, Alex is not really the bravest person in the world, but he doesn't want to look like a coward in front of his friends, so he agrees to go down to the basement to see what's there. .......
Это в Qwen/QwQ-32B-preview, надеюсь то, что нужно, а то их дофига.
Preview более старая и хуже.
Температуру для китайских моделей я рекомендую ставить в районе 0.3-0.7, как на скрине в новости. Тогда работает с русским без иероглифов.
Это в Qwen/QwQ-32B-preview, надеюсь то, что нужно
Не то, что нужно. Вам нужно вот это, онлайн без регистрации: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
Preview была проверкой концепции размышлений и вышла 3 месяца назад, в ноябре 2024. Она умела работать только в режиме 1 вопрос - 1 ответ и сразу же ресет, она постоянно переключала языки и её качество вы можете видеть сами.
До этого, в сентябре вышла размышляющая chatgpt o1, все гадали как реализовано размышление, это система моделей или как, и qwq preview была попыткой показать, что то, как o1 умеет рассуждать, можно реализовать в рамках монолитной модели и позже подтвердилось, что o1 это одна модель, а не система агентов.
Финальная версия QwQ-32B уже обучена намного лучше, учтены многие факторы и поэтому у неё сильно лучше качество, модель теперь полноценно настроена через apply_chat_template чтобы автоматически убирать предыдущие размышления из истории и добавлять тег <think>
вначале нового ответа, поэтому модель пригодна для диалогов.

В llama.cpp реализовано apply_chat_template, поэтому и gguf квантованные версии тоже будут работать нормально, если учесть рекомендации от создателей модели:
Use Temperature=0.6 and TopP=0.95. Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.
С юмором у всех моделей сложно:

Но то, что модели могут переключать языки, сейчас это в целом типично, даже o3-mini так делает:

Use Temperature=0.6 and TopP=0.95. Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.
Где ознакомиться где это писать и что это значит?
Вообще-то, в примере ответа с рассуждением есть ошибка: вопрос задан "сколько сестёр?" не у Оли, а у её брата. Нейросеть-же, судя по ответу, думает, что есть какой-то брат Оля, который почему-то при этом ещё и брат Оли, и отвечает "у Оли четыре сестры", что, во-первых, противоречит условию ("у Оли ... три сестры), а, во-вторых, показывает, что нейросеть не понимает контекста...
В статье не хватает ссылки: https://huggingface.co/Qwen/QwQ-32B/tree/main
Промпт: "Create modern Fortran code solving a viscous Burgers equation with Lax-Wendroff method of FDTD. Make optimized code for Intel Fortran. Call GnuPlot from the program to plot results at different times." - долго сомневается, но не выдает код.
С этой тестовой задачей лучше всего {из того что я проверял} справляется Grok3, полноразмерная DeepSeek-r1 - достаточно корректно.
Похоже задача с сёстрами весьма сложна для нейросетей:
Скрытый текст

Скрытый текст

Скрытый текст

Подскажите какую модель выбрать для локального использования (ollama) на ноутбуке с 32 Гб ОЗУ паралельно с работающими chrome и IDEA для DevOps вопросов?
Попробуйте qwen 2.5 coder 7-14B: https://github.com/QwenLM/Qwen2.5-Coder, возможно квантованную в Q8 или Q5_K_L, у меня на похожем железе и на похожих нагрузках модели работают и выдают по 7.5-8 токенов в секунду (это может отличаться в зависимости от процессора или видеокарты, если на ней будете часть слоёв хранить)
Сколько требуется для нее оперативной памяти и моя карточка 1060 справится с этой LLM? На оф сайте есть данные только по qwen по qwq не нашел требовний
1060 тут точно мимо. Чтобы полностью в видеопамять поместилась даже q4 модель - это нужно от 20 гигов. Т.е. что то уровня 4090. Либо macbook с m1/2/3/4 (лучше max версии) и оперативкой 32 гига (но лучше больше, 32 совсем впритык, ибо система под видеопамять выделяет 2/3 где то.
З.Ы. Можно конечно и на cpu запустить, только часть слоев в видеопамять сгрузить, но там скорость вывода падает очень сильно. Прям на порядок. Может даже раз в 15-20.
З.З.Ы. В ollama на m1 max вот такая производительность у меня.
Скрытый текст

Вышла Qwen QwQ 32B — размышляющая модель, сопоставимая с DeepSeek R1 и o1-mini