Обновить

Локальные LLM на Arch Linux и как увеличить скорость генерации в 20 раз

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели5.7K
Всего голосов 6: ↑6 и ↓0+6
Комментарии15

Комментарии 15

Ожидал увидеть особенности Arch решения, но (мое почтение автору, я, кстати, сам юзаю Арч), он здесь потому что I use Arch btw :)

ожидал увидеть как с 50т\к увеличить до 1000, а тут пшик какой то

Тут и железо народное, а не очередное "как я ускорял четыре теслы на 256-ядерном эпике".

"как я ускорял четыре теслы на 256-ядерном эпике"

Чего-то взоржал с формулировки и отправил в нейросетку это визуализировать.

Скрытый текст

Мне хочется плакать когда я вижу подобное. Скажи хотя-бы, где генерируешь

С чего плакать-то?

Сетка OpenAI GPT Image 2 low quality.

Мне кажется, что то, что автор пошел дальше установки из коробки и показал возможности оптимизации – уже хороший труд.

Очень хочу Qwen 3.6 Moe на 8 гигабайтах видеопамяти с 20 токенами, попробую, отпишу в подкоммент. Считаю это одной из ключевых пунктов делающих обзор полезным.

у меня на 3090 24gb vram, при контексте 64000 удалось выжать 120 т/с на qwen 3.6 35b (q4km + турбоквант) на 128к контекста около 100 ток/с

Интересно. А какую оперативку используете и сколько ее?

64 Гб DDR4 Kingston.

Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться

TLDR: "моя моделька не влезла в VRAM, я сделал чтобы влезла"

Какая то откровенно несерьёзная статья, такое может быть интересно только тем, кто пока ни разу не запускал локальные LLM

Модель не влезла в vram, поэтому я оставил в видеопамяти attention, kv-кэш, эмбеддинг, FFN принудительно выгрузил в озу. Модель примерно наполовину влезла, но работать стала быстрее

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации