Pull to refresh

Comments 36

Что-то немного страшно, число статей про ИИ переплюнуло число статей от HRов. Если авторы еще в сговор вступят...

Твоя мысль о «переплюнувшем» количестве статей действительно заставляет задуматься. Возможно, стоит предложить редакциям добавить рубрику «HR‑взгляд на ИИ»? Тогда читатели получат обе перспективы, а мы сможем увидеть, как технологии влияют на управление персоналом. Что думаешь?

Так уже были статьи от HR про ИИ... И на мой взгляд ничего путного пока не вышло..

А более обоснованно вы можете ответить?

Эмм.. Что именно более обосновано? Я вроде написал - "на мой взгляд", нужно еще что-то?

А вы что так переживаете? Не нужно нервничать, нервы не восстанавливаются.

Будьте позитивней.

Вы бот? Косите под бота? ))) Не отвечайте, интереса продолжать общение нет.

Да больно было надо с вами общаться, раз вы этого не умеете.

Интересней было прочитать мнение ИИ про эйчаров.

Интересно, что многие серверы вообще видеокарт с памятью не имеют. Потому что они как раз серверы общего назначения.

Общие серверы без видеокарт – это экономически и технически оправданный выбор для большинства бизнес‑нагрузок. Для LLM, особенно больших и требовательных к скорости, видеокарты с достаточным объёмом памяти становятся необходимыми, но их добавление обычно делается только там, где действительно нужна такая производительность.

Да, но вот я как-то без дела стоящих серверов с GPU не встречал.

Наверное, еще и от того, что они дорогие, вот их и нагружают постоянно

Но у кого то есть в личном пользовании такие сервера и не загруженные, об этом вы не думали?

Ну уже результат, а какие характеристики вашего ПК? раз туда 49Гб влезло.

64Гб оперативки

Это неплохо, но без GPU эта модель будет очень сильно тормозить

есть ещё вот такая возможность запускать бямки при недостатке видеопамяти - часть слоёв в видеопамяти, остальные в оперативке. Понятно, что работать будет медленнее, но зато всем доступно. https://github.com/lyogavin/airllm

А просто использовать llama.cpp вам религия не позволяет?

не лучше ли вникнуть чем одно отличается от другого, чем острить унылые остроты?

Судя по давности обновлений, он давно заброшен.

qwen3-coder-next - это новая модель, и её поддержку только недавно добавили в llama.cpp. И как часто бывает - сразу не всё гладко, не всё работает как надо... Сейчас исправляют.

А заодно ржут над разработчиками ollama, которые делают вид, что усердно пишут код, а как это часто оказывается - просто копируют из llama.cpp, в том числе и баги:

https://github.com/ggml-org/llama.cpp/pull/19324#issuecomment-3847213274

Мораль истории: лучше пользуйтесь llama.cpp, а не ollama - там быстрее правят баги, больше вариантов моделей, и можно тоньше настраивать параметры.

Кстати для этой модели - qwen3-coder-next - вчера исправили вызов tools:

https://github.com/ggml-org/llama.cpp/pull/19239

несколько часов назад вышло исправление алгоритма генерации токенов:

https://github.com/ggml-org/llama.cpp/pull/19324

Через пару часов Docker образ llama.cpp будет выложен с этими исправлениями, а вот пользователям ollama придётся ещё подождать...

Кстати, из-за последнего исправления unsloth пришлось перезаливать модель (кванты) заново. Так что если вы загрузили их модель вчера или раньше - то может быть вам надо её скачать заново.

У меня 72GB VRAM, с полным контекстом помещается квант Q5, и работает со скоростью 85 т/с:

https://huggingface.co/Qwen/Qwen3-Coder-Next-GGUF/discussions/1

  1. Какие промпты использовали?

  2. Какие настройки/параметры?

  3. Сколько раз повторяли?

  4. Что ещё, кроме змейки, пробовали?

Это важно, так как на тот же промпт, ллм может ответить совсем разные вещи.

Думается, что скоро производители будут оптимизировать свои модели под тест "напиши змейку". )

  1. Что ещё, кроме змейки, пробовали?

С языка сняли. Тоже хотел уточнить. Модель уже знает, что такое "змейка" или правила игры описаны в промпте?

Уже знает

Нет. Вообще никакого. Разве что для каких-то простых задач иногда большие модели любят излишне думать в ответе. Тут больше экономически, тонкости настройки и с точки зрения безопасности больше профита

Экономически дает, но с долгой перспективой. А насчет безопасности то тут вы в точку.

Но все же, испытав десятки моделей, как локальных так и "больших" у меня сложилось чувство что большие братья в большинстве фуфло. По разным отзывам могу только признать что джимини хорошая модель.

Всё как обычно, тест на змейке, которые все ллм уже вдоль и поперёк знают. Видимо ничего умнее не придумали.

Ура прогресс ЛЛМ написала заставку к игре :)

Осталось найти 100000$, чтобы купить "железо" для запуска этой модели.

15000 хвати

На том же Ryzen AI Max+ 395 должно запуститься, стоит он 200к рублей со 128гб памяти, из которых 96 выделятся под LLM

Qwen топовые модели для локального запуска. На постоянке для личного бота ассистента использую qwen3 8B. Влезает и 14b с квантованием, но тут как говорится умнее не всегда нужно. И вот в этих весах лучше чем qwen для общих задач и с хорошим русским моделей тупо нет, или я не встретил.

Какая с первого раза а какая не с первого написала змейку - не показатель, так как доля рандомайзера всегда присутствует в ии. Тестировать необходимо не один раз каждую а как минимум три раза

Змейку мне еще давно с первого раза написал относительно глупый и старый gpt3.5

Успешность создания кода напрямую зависит был ли похожий кейс в обучающем материале

Придумывать нового они еще умеют

Sign up to leave a comment.

Articles