MPfromLINUX10 июн в 10:28

Локальные LLM на Arch Linux и как увеличить скорость генерации в разы

Простой

6 мин

12K

Linux * Искусственный интеллектOpen source * Компьютерное железо

Кейс

Из песочницы

+12

Комментарии 22

wii 10 июн в 10:33

Ожидал увидеть особенности Arch решения, но (мое почтение автору, я, кстати, сам юзаю Арч), он здесь потому что I use Arch btw :)

Scank 10 июн в 10:35

ожидал увидеть как с 50т\к увеличить до 1000, а тут пшик какой то

V1tol 10 июн в 10:41

Тут и железо народное, а не очередное "как я ускорял четыре теслы на 256-ядерном эпике".

janvarev 10 июн в 10:52

"как я ускорял четыре теслы на 256-ядерном эпике"

Чего-то взоржал с формулировки и отправил в нейросетку это визуализировать.

Скрытый текст

supinepandora43 10 июн в 13:58

Мне хочется плакать когда я вижу подобное. Скажи хотя-бы, где генерируешь

janvarev 10 июн в 14:43

С чего плакать-то?

Сетка OpenAI GPT Image 2 low quality.

wii 10 июн в 10:44

Мне кажется, что то, что автор пошел дальше установки из коробки и показал возможности оптимизации – уже хороший труд.

Annsky 10 июн в 10:56

Очень хочу Qwen 3.6 Moe на 8 гигабайтах видеопамяти с 20 токенами, попробую, отпишу в подкоммент. Считаю это одной из ключевых пунктов делающих обзор полезным.

janvarev 10 июн в 11:03

ik_llama еще попробуйте, я довел где-то вроде до 29 токен/сек (8 GB VRAM)

Писал в комменте здесь: https://habr.com/ru/articles/1024932/comments/#comment_29849464

jarkevithwlad 10 июн в 11:52

у меня на 3090 24gb vram, при контексте 64000 удалось выжать 120 т/с на qwen 3.6 35b (q4km + турбоквант) на 128к контекста около 100 ток/с

MPfromLINUX 10 июн в 12:52

Интересно. А какую оперативку используете и сколько ее?

janvarev 10 июн в 13:16

64 Гб DDR4 Kingston.

MPfromLINUX 10 июн в 10:59

Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться

benito03 10 июн в 12:21

TLDR: "моя моделька не влезла в VRAM, я сделал чтобы влезла"

Какая то откровенно несерьёзная статья, такое может быть интересно только тем, кто пока ни разу не запускал локальные LLM

MPfromLINUX 10 июн в 12:25

Модель не влезла в vram, поэтому я оставил в видеопамяти attention, kv-кэш, эмбеддинг, FFN принудительно выгрузил в озу. Модель примерно наполовину влезла, но работать стала быстрее

Druzd 10 июн в 18:26

размер словаря (vocab size) ещё уменьши, удивишься как скорость генерации взлетит.

spiteman 10 июн в 18:54

Больше не делайте такие посты - это мусор, в нем нет ничего полезного.

pon007 11 июн в 04:50

Нормальная статья. Автор делится своим опытом. Тоже подумывал подобное написать:

Как выжать 40+ t/s из nvidia 4070 на Qwen3.6 35b.

Рецепт то подобных статей простой - взять команду запуска, характеристики железа и добавить воды

И всё равно кому то с аналогичным железом статья будет полезной

spiteman 11 июн в 07:23

В том то и дело, что в ней нет никакого лайфхака или чего то еще. Она сводится к громкому заголовку, а внутри просто, что бы запустить локалку - надо ее запустить. Вы что то новое узнали из нее?

P.s. у меня железо рядом 5500u и да я сначала такой, о, может мне про что то расскажут, про новый ROCm или что то еще, настройку видео памяти секретную. Шиш

HomoLuden 11 июн в 01:27

Таким образом, скорость генерации увеличилась до 20 tokens/s

На попсовой убунте с oobabooga/text-generation-webui через llama.cpp без каких-либо ухищрений такая же скорость. Автор сравнивает с убогой инфрой LM Studio и ollama.

rumtex 12 июн в 18:08

Спасибо за статью! Я обязательно попробую --cpu-moe

Arch Linux - "the only way" с поддержкой оборудования linux и сахарной помощью комьюнити. А Google красавчик и предлагает в новостной ленте свежие статьи с habr.

С автора комментарий на счёт последнего материала, на тему LLM, в моей группе ВК: vk.com/engine_expert

У этой группы пока что "стадия разработки бизнес-плана", если можно так назвать:)

MPfromLINUX 15 июн в 07:05

Спасибо за комментарий. Я чуть подправил статью, т.к. нашел --no-mmap, в вк отпишусь обязательно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий