Комментарии 15
Ожидал увидеть особенности Arch решения, но (мое почтение автору, я, кстати, сам юзаю Арч), он здесь потому что I use Arch btw :)
ожидал увидеть как с 50т\к увеличить до 1000, а тут пшик какой то
Тут и железо народное, а не очередное "как я ускорял четыре теслы на 256-ядерном эпике".
Мне кажется, что то, что автор пошел дальше установки из коробки и показал возможности оптимизации – уже хороший труд.
Очень хочу Qwen 3.6 Moe на 8 гигабайтах видеопамяти с 20 токенами, попробую, отпишу в подкоммент. Считаю это одной из ключевых пунктов делающих обзор полезным.
ik_llama еще попробуйте, я довел где-то вроде до 29 токен/сек (8 GB VRAM)
Писал в комменте здесь: https://habr.com/ru/articles/1024932/comments/#comment_29849464
Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться
TLDR: "моя моделька не влезла в VRAM, я сделал чтобы влезла"
Какая то откровенно несерьёзная статья, такое может быть интересно только тем, кто пока ни разу не запускал локальные LLM


Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз