Как стать автором
Обновить

Комментарии 23

Модель возможно и хорошая, но общаться придется или на английском или китайском. С русским у нее не очень хорошо

Температуру для китайских моделей я рекомендую ставить в районе 0.3-0.7, как на скрине в новости. Тогда работает с русским без иероглифов.

Это в целом рекомендация для всех сетей когда нужно работать с кодом или математическими задачами. Больше 0.7 - это сказки писать(в прямом смысле слова когда это нужно).

расскажи что-нибудь смешное

Хм, смешное... Ну, знаете, иногда жизнь сама преподносит такие ситуации, что просто не знаешь, смеяться или плакать. Например, вспомнил один случай из моей юности. Было это на дне рождения у нашего общего друга. Все были в сборе, музыка играла, пиво холодное стояло, короче,典型的派对场景。

Так вот, в какой-то момент decides to play a prank on his friend, let's call him Alex. He tells Alex that he saw a ghost in the basement and that Alex should go check it out. Now, Alex is not really the bravest person in the world, but he doesn't want to look like a coward in front of his friends, so he agrees to go down to the basement to see what's there. .......

Это в Qwen/QwQ-32B-preview, надеюсь то, что нужно, а то их дофига.

Preview более старая и хуже.

Температуру для китайских моделей я рекомендую ставить в районе 0.3-0.7, как на скрине в новости. Тогда работает с русским без иероглифов.

Это в Qwen/QwQ-32B-preview, надеюсь то, что нужно

Не то, что нужно. Вам нужно вот это, онлайн без регистрации: https://huggingface.co/spaces/Qwen/QwQ-32B-Demo

Preview была проверкой концепции размышлений и вышла 3 месяца назад, в ноябре 2024. Она умела работать только в режиме 1 вопрос - 1 ответ и сразу же ресет, она постоянно переключала языки и её качество вы можете видеть сами.
До этого, в сентябре вышла размышляющая chatgpt o1, все гадали как реализовано размышление, это система моделей или как, и qwq preview была попыткой показать, что то, как o1 умеет рассуждать, можно реализовать в рамках монолитной модели и позже подтвердилось, что o1 это одна модель, а не система агентов.

Финальная версия QwQ-32B уже обучена намного лучше, учтены многие факторы и поэтому у неё сильно лучше качество, модель теперь полноценно настроена через apply_chat_template чтобы автоматически убирать предыдущие размышления из истории и добавлять тег <think> вначале нового ответа, поэтому модель пригодна для диалогов.

В llama.cpp реализовано apply_chat_template, поэтому и gguf квантованные версии тоже будут работать нормально, если учесть рекомендации от создателей модели:
Use Temperature=0.6 and TopP=0.95. Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.

С юмором у всех моделей сложно:

QwQ-32B-Q4_K_M.gguf
QwQ-32B-Q4_K_M.gguf

Но то, что модели могут переключать языки, сейчас это в целом типично, даже o3-mini так делает:

o3-mini
o3-mini

Use Temperature=0.6 and TopP=0.95. Use TopK between 20 and 40 to filter out rare token occurrences while maintaining the diversity of the generated output.

Где ознакомиться где это писать и что это значит?

В большинстве интерфейсов для локального инференса моделей (то есть для локальной работы) это делается в настройках. В разнообразных веб-вариантах надо разбираться на месте

Вообще-то, в примере ответа с рассуждением есть ошибка: вопрос задан "сколько сестёр?" не у Оли, а у её брата. Нейросеть-же, судя по ответу, думает, что есть какой-то брат Оля, который почему-то при этом ещё и брат Оли, и отвечает "у Оли четыре сестры", что, во-первых, противоречит условию ("у Оли ... три сестры), а, во-вторых, показывает, что нейросеть не понимает контекста...

Все там кооректно, никакого брата с именем Оля не придумавала сеть. Кажется ии понимает русский лучше нативов.

Хехе 3.11 с 3.9 тоже не все хуманы проходят.

Те, кто помнят что NT 3.5 вышла позже windows 3.11 проходят лучше.

Промпт: "Create modern Fortran code solving a viscous Burgers equation with Lax-Wendroff method of FDTD. Make optimized code for Intel Fortran. Call GnuPlot from the program to plot results at different times." - долго сомневается, но не выдает код.

С этой тестовой задачей лучше всего {из того что я проверял} справляется Grok3, полноразмерная DeepSeek-r1 - достаточно корректно.

Похоже задача с сёстрами весьма сложна для нейросетей:

Скрытый текст
ChatGPT
ChatGPT

Скрытый текст
Copilot
Copilot

Скрытый текст
Grok
Grok

Хотя ChatGPT после беседы всё же пришёл к правильному выводу.

Скрытый текст

Скрытый текст

Скрытый текст

Скрытый текст

Скрытый текст

Тоже провел несколько тестов:

ChatGPT o3-mini-high

ChatGPT 4.5

Подскажите какую модель выбрать для локального использования (ollama) на ноутбуке с 32 Гб ОЗУ паралельно с работающими chrome и IDEA для DevOps вопросов?

Попробуйте qwen 2.5 coder 7-14B: https://github.com/QwenLM/Qwen2.5-Coder, возможно квантованную в Q8 или Q5_K_L, у меня на похожем железе и на похожих нагрузках модели работают и выдают по 7.5-8 токенов в секунду (это может отличаться в зависимости от процессора или видеокарты, если на ней будете часть слоёв хранить)

Сколько требуется для нее оперативной памяти и моя карточка 1060 справится с этой LLM? На оф сайте есть данные только по qwen по qwq не нашел требовний

1060 тут точно мимо. Чтобы полностью в видеопамять поместилась даже q4 модель - это нужно от 20 гигов. Т.е. что то уровня 4090. Либо macbook с m1/2/3/4 (лучше max версии) и оперативкой 32 гига (но лучше больше, 32 совсем впритык, ибо система под видеопамять выделяет 2/3 где то.

З.Ы. Можно конечно и на cpu запустить, только часть слоев в видеопамять сгрузить, но там скорость вывода падает очень сильно. Прям на порядок. Может даже раз в 15-20.

З.З.Ы. В ollama на m1 max вот такая производительность у меня.

Скрытый текст

Еще для сравнения.

Модель на 22b параметров на 4080 super, полностью вмещается в 16гб vram

qwq:32b 4q, на той же машине, примерно треть не влезла в vram

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости