Comments 36
Что-то немного страшно, число статей про ИИ переплюнуло число статей от HRов. Если авторы еще в сговор вступят...
Твоя мысль о «переплюнувшем» количестве статей действительно заставляет задуматься. Возможно, стоит предложить редакциям добавить рубрику «HR‑взгляд на ИИ»? Тогда читатели получат обе перспективы, а мы сможем увидеть, как технологии влияют на управление персоналом. Что думаешь?
Интересно, что многие серверы вообще видеокарт с памятью не имеют. Потому что они как раз серверы общего назначения.
Общие серверы без видеокарт – это экономически и технически оправданный выбор для большинства бизнес‑нагрузок. Для LLM, особенно больших и требовательных к скорости, видеокарты с достаточным объёмом памяти становятся необходимыми, но их добавление обычно делается только там, где действительно нужна такая производительность.
в LM Studio

есть ещё вот такая возможность запускать бямки при недостатке видеопамяти - часть слоёв в видеопамяти, остальные в оперативке. Понятно, что работать будет медленнее, но зато всем доступно. https://github.com/lyogavin/airllm
qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.
А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:
https://github.com/ggml-org/llama.cpp/pull/19324#issuecomment-3847213274
Мораль истории: лучше пользуйтесь llama.cpp, а не ollama - там быстрее правят баги, больше вариантов моделей, и можно тоньше настраивать параметры.
Кстати для этой модели - qwen3-coder-next - вчера исправили вызов tools:
https://github.com/ggml-org/llama.cpp/pull/19239
несколько часов назад вышло исправление алгоритма генерации токенов:
https://github.com/ggml-org/llama.cpp/pull/19324
Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...
Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.
У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:
https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF/discussions/1
Какие промпты использовали?
Какие настройки/параметры?
Сколько раз повторяли?
Что ещё, кроме змейки, пробовали?
Это важно, так как на тот же промпт, ллм может ответить совсем разные вещи.
Думается, что скоро производители будут оптимизировать свои модели под тест "напиши змейку". )
Разве локальное развёртывание что-то даёт в плане качества?
Нет. Вообще никакого. Разве что для каких-то простых задач иногда большие модели любят излишне думать в ответе. Тут больше экономически, тонкости настройки и с точки зрения безопасности больше профита
Всё как обычно, тест на змейке, которые все ллм уже вдоль и поперёк знают. Видимо ничего умнее не придумали.
Ура прогресс ЛЛМ написала заставку к игре :)
Осталось найти 100000$, чтобы купить "железо" для запуска этой модели.
Qwen топовые модели для локального запуска. На постоянке для личного бота ассистента использую qwen3 8B. Влезает и 14b с квантованием, но тут как говорится умнее не всегда нужно. И вот в этих весах лучше чем qwen для общих задач и с хорошим русским моделей тупо нет, или я не встретил.
Какая с первого раза а какая не с первого написала змейку - не показатель, так как доля рандомайзера всегда присутствует в ии. Тестировать необходимо не один раз каждую а как минимум три раза
Змейку мне еще давно с первого раза написал относительно глупый и старый gpt3.5
Успешность создания кода напрямую зависит был ли похожий кейс в обучающем материале
Придумывать нового они еще умеют
LLM модель qwen3-coder-next быстрый тест на локальном сервере