Comments 20
Ожидал увидеть особенности Arch решения, но (мое почтение автору, я, кстати, сам юзаю Арч), он здесь потому что I use Arch btw :)
ожидал увидеть как с 50т\к увеличить до 1000, а тут пшик какой то
Тут и железо народное, а не очередное "как я ускорял четыре теслы на 256-ядерном эпике".
Мне кажется, что то, что автор пошел дальше установки из коробки и показал возможности оптимизации – уже хороший труд.
Очень хочу Qwen 3.6 Moe на 8 гигабайтах видеопамяти с 20 токенами, попробую, отпишу в подкоммент. Считаю это одной из ключевых пунктов делающих обзор полезным.
ik_llama еще попробуйте, я довел где-то вроде до 29 токен/сек (8 GB VRAM)
Писал в комменте здесь: https://habr.com/ru/articles/1024932/comments/#comment_29849464
Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться
TLDR: "моя моделька не влезла в VRAM, я сделал чтобы влезла"
Какая то откровенно несерьёзная статья, такое может быть интересно только тем, кто пока ни разу не запускал локальные LLM
размер словаря (vocab size) ещё уменьши, удивишься как скорость генерации взлетит.
Больше не делайте такие посты - это мусор, в нем нет ничего полезного.
Нормальная статья. Автор делится своим опытом. Тоже подумывал подобное написать:
Как выжать 40+ t/s из nvidia 4070 на Qwen3.6 35b.
Рецепт то подобных статей простой - взять команду запуска, характеристики железа и добавить воды
И всё равно кому то с аналогичным железом статья будет полезной
В том то и дело, что в ней нет никакого лайфхака или чего то еще. Она сводится к громкому заголовку, а внутри просто, что бы запустить локалку - надо ее запустить. Вы что то новое узнали из нее?
P.s. у меня железо рядом 5500u и да я сначала такой, о, может мне про что то расскажут, про новый ROCm или что то еще, настройку видео памяти секретную. Шиш
Таким образом, скорость генерации увеличилась до 20 tokens/s
На попсовой убунте с oobabooga/text-generation-webui через llama.cpp без каких-либо ухищрений такая же скорость. Автор сравнивает с убогой инфрой LM Studio и ollama.

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз