softel Feb 4 at 18:29

LLM модель qwen3-coder-next быстрый тест на локальном сервере

Easy

3 min

18K

Opinion

Comments 36

Ivnika Feb 4 at 19:12

Что-то немного страшно, число статей про ИИ переплюнуло число статей от HRов. Если авторы еще в сговор вступят...

softel Feb 4 at 19:27

Твоя мысль о «переплюнувшем» количестве статей действительно заставляет задуматься. Возможно, стоит предложить редакциям добавить рубрику «HR‑взгляд на ИИ»? Тогда читатели получат обе перспективы, а мы сможем увидеть, как технологии влияют на управление персоналом. Что думаешь?

Ivnika Feb 4 at 19:35

Так уже были статьи от HR про ИИ... И на мой взгляд ничего путного пока не вышло..

softel Feb 4 at 19:41

А более обоснованно вы можете ответить?

Ivnika Feb 4 at 20:12

Эмм.. Что именно более обосновано? Я вроде написал - "на мой взгляд", нужно еще что-то?

softel Feb 4 at 20:14

А вы что так переживаете? Не нужно нервничать, нервы не восстанавливаются.

Будьте позитивней.

Ivnika Feb 4 at 20:23

Вы бот? Косите под бота? ))) Не отвечайте, интереса продолжать общение нет.

softel Feb 4 at 21:24

Да больно было надо с вами общаться, раз вы этого не умеете.

martin__marlen Feb 5 at 00:28

Интересней было прочитать мнение ИИ про эйчаров.

achekalin Feb 4 at 19:21

Интересно, что многие серверы вообще видеокарт с памятью не имеют. Потому что они как раз серверы общего назначения.

softel Feb 4 at 19:32

Общие серверы без видеокарт – это экономически и технически оправданный выбор для большинства бизнес‑нагрузок. Для LLM, особенно больших и требовательных к скорости, видеокарты с достаточным объёмом памяти становятся необходимыми, но их добавление обычно делается только там, где действительно нужна такая производительность.

achekalin Feb 4 at 20:29

Да, но вот я как-то без дела стоящих серверов с GPU не встречал.

Наверное, еще и от того, что они дорогие, вот их и нагружают постоянно

softel Feb 4 at 21:26

Но у кого то есть в личном пользовании такие сервера и не загруженные, об этом вы не думали?

Smartor Feb 4 at 20:02

в LM Studio

softel Feb 4 at 20:11

Ну уже результат, а какие характеристики вашего ПК? раз туда 49Гб влезло.

Smartor Feb 4 at 21:17

64Гб оперативки

softel Feb 4 at 21:20

Это неплохо, но без GPU эта модель будет очень сильно тормозить

ZanZy Feb 4 at 21:46

есть ещё вот такая возможность запускать бямки при недостатке видеопамяти - часть слоёв в видеопамяти, остальные в оперативке. Понятно, что работать будет медленнее, но зато всем доступно. https://github.com/lyogavin/airllm

mazagama Feb 5 at 05:54

А просто использовать llama.cpp вам религия не позволяет?

ZanZy Feb 5 at 09:34

не лучше ли вникнуть чем одно отличается от другого, чем острить унылые остроты?

max-daniels Feb 5 at 10:46

Судя по давности обновлений, он давно заброшен.

SlavikF Feb 5 at 02:21

qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.

А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:

https://github.com/ggml-org/llama.cpp/pull/19324#issuecomment-3847213274

Мораль истории: лучше пользуйтесь llama.cpp, а не ollama - там быстрее правят баги, больше вариантов моделей, и можно тоньше настраивать параметры.

Кстати для этой модели - qwen3-coder-next - вчера исправили вызов tools:

https://github.com/ggml-org/llama.cpp/pull/19239

несколько часов назад вышло исправление алгоритма генерации токенов:

https://github.com/ggml-org/llama.cpp/pull/19324

Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...

Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.

У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:

https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF/discussions/1

red-barbarian Feb 5 at 06:37

Какие промпты использовали?
Какие настройки/параметры?
Сколько раз повторяли?
Что ещё, кроме змейки, пробовали?

Это важно, так как на тот же промпт, ллм может ответить совсем разные вещи.

Думается, что скоро производители будут оптимизировать свои модели под тест "напиши змейку". )

softel Feb 5 at 06:53

Пакман и астероидс

Borodaxel Feb 5 at 06:55

Что ещё, кроме змейки, пробовали?

С языка сняли. Тоже хотел уточнить. Модель уже знает, что такое "змейка" или правила игры описаны в промпте?

softel Feb 5 at 06:57

Уже знает

ToniDoni Feb 5 at 10:43

Разве локальное развёртывание что-то даёт в плане качества?

4ae4eK Feb 6 at 05:26

Нет. Вообще никакого. Разве что для каких-то простых задач иногда большие модели любят излишне думать в ответе. Тут больше экономически, тонкости настройки и с точки зрения безопасности больше профита

softel Feb 7 at 22:30

Экономически дает, но с долгой перспективой. А насчет безопасности то тут вы в точку.

Но все же, испытав десятки моделей, как локальных так и "больших" у меня сложилось чувство что большие братья в большинстве фуфло. По разным отзывам могу только признать что джимини хорошая модель.

Kzibra Feb 5 at 11:07

Всё как обычно, тест на змейке, которые все ллм уже вдоль и поперёк знают. Видимо ничего умнее не придумали.

MaxEkb77 Feb 5 at 11:29

Ура прогресс ЛЛМ написала заставку к игре :)

aladkoi Feb 5 at 20:09

Осталось найти 100000$, чтобы купить "железо" для запуска этой модели.

softel Feb 6 at 00:12

15000 хвати

sabramovskikh Feb 7 at 22:07

На том же Ryzen AI Max+ 395 должно запуститься, стоит он 200к рублей со 128гб памяти, из которых 96 выделятся под LLM

Setiboy Feb 6 at 05:26

Qwen топовые модели для локального запуска. На постоянке для личного бота ассистента использую qwen3 8B. Влезает и 14b с квантованием, но тут как говорится умнее не всегда нужно. И вот в этих весах лучше чем qwen для общих задач и с хорошим русским моделей тупо нет, или я не встретил.

Remont_naushnikov_com Feb 6 at 05:26

Какая с первого раза а какая не с первого написала змейку - не показатель, так как доля рандомайзера всегда присутствует в ии. Тестировать необходимо не один раз каждую а как минимум три раза

Змейку мне еще давно с первого раза написал относительно глупый и старый gpt3.5

Успешность создания кода напрямую зависит был ли похожий кейс в обучающем материале

Придумывать нового они еще умеют