Комментарии / Профиль korwin86 / Хабр

Семенов Александр@korwin86

Пользователь

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

А на сколько велика разница в выполнении задач между Qwen3.5-122B-A10B и более мелкой допустим Qwen3.5-35B-A3B, вы не проверяли?
У меня друг на 15 т\с сидит и радуется. :)

Я проверил разницу(свои тесты, плюс нейронку попросил сделать тесты агентские и общие) между Qwen3.5-35B-A3B и Qwen3.5-9B, разница очень большая для меня. Хотя видел на реддите что чувак сидит в openclaw с Qwen3.5-4B и ему норм.

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

korwin86 24 апр в 05:36

А когда пользовались не тупило? Я это пытался выпытать из дипсика. Нейронка пишет что загрузиться всё ок, но при использовании будет гонять туда сюда слои между картами и оперативкой и за счет медленного Pciex4 будет даже хуже чем с просто оперативной памятью.

Хочется попробовать что то типа qwen3.5 122b a10b на openclaw(и других) как будет. У меня сейчас 4070 и 32vram. Можно докупить 5070ti + RAM и получить место под Qwen3.5-122B-A10B-UD-IQ4_NL. Не понимаю стоит ли затрат.

Вы не пробовали на своём железе сети размером Qwen3.5-122B-A10B?

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

korwin86 24 апр в 04:28

Супер крутая статья! Спасибо.

У меня к вам вопрос.

Можно ли использовать 2 видеокарты под плотные и мое модели с llama.cpp? Конкретны кейс - две видюхи в PCIe x16\PCIe x4 дадут эффект или x4 убьет производительность и смысла нет? Тут надо именно практическую сторону) Теория говорит что смысла почти нет. Но теория говорит что 35-а3б на 4070 дает 5 т\с, а практика говорит что 30-50.

Qwen выпустила 27B-модель, которая обгоняет флагман на 397B

korwin86 24 апр в 03:50

Народ, кто ни будь пробовал использовать 2 видеокарты под плотные и мое модели сам? Конкретны кейс - две видюхи в PCIe x16\PCIe x4 дадут эффект или x4 убьет производительность и смысла нет?

Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты

korwin86 16 апр в 06:43

А чем

отличается от

Они просто скопировали roo code и всё? Форк от форка?) Там есть какие то свои фишки? Системный промт менять можно?