Pull to refresh

Comments 20

Ожидал увидеть особенности Arch решения, но (мое почтение автору, я, кстати, сам юзаю Арч), он здесь потому что I use Arch btw :)

ожидал увидеть как с 50т\к увеличить до 1000, а тут пшик какой то

Тут и железо народное, а не очередное "как я ускорял четыре теслы на 256-ядерном эпике".

"как я ускорял четыре теслы на 256-ядерном эпике"

Чего-то взоржал с формулировки и отправил в нейросетку это визуализировать.

Скрытый текст

Мне хочется плакать когда я вижу подобное. Скажи хотя-бы, где генерируешь

С чего плакать-то?

Сетка OpenAI GPT Image 2 low quality.

Мне кажется, что то, что автор пошел дальше установки из коробки и показал возможности оптимизации – уже хороший труд.

Очень хочу Qwen 3.6 Moe на 8 гигабайтах видеопамяти с 20 токенами, попробую, отпишу в подкоммент. Считаю это одной из ключевых пунктов делающих обзор полезным.

у меня на 3090 24gb vram, при контексте 64000 удалось выжать 120 т/с на qwen 3.6 35b (q4km + турбоквант) на 128к контекста около 100 ток/с

Интересно. А какую оперативку используете и сколько ее?

Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться

TLDR: "моя моделька не влезла в VRAM, я сделал чтобы влезла"

Какая то откровенно несерьёзная статья, такое может быть интересно только тем, кто пока ни разу не запускал локальные LLM

Модель не влезла в vram, поэтому я оставил в видеопамяти attention, kv-кэш, эмбеддинг, FFN принудительно выгрузил в озу. Модель примерно наполовину влезла, но работать стала быстрее

размер словаря (vocab size) ещё уменьши, удивишься как скорость генерации взлетит.

Больше не делайте такие посты - это мусор, в нем нет ничего полезного.

Нормальная статья. Автор делится своим опытом. Тоже подумывал подобное написать:

Как выжать 40+ t/s из nvidia 4070 на Qwen3.6 35b.

Рецепт то подобных статей простой - взять команду запуска, характеристики железа и добавить воды

И всё равно кому то с аналогичным железом статья будет полезной

В том то и дело, что в ней нет никакого лайфхака или чего то еще. Она сводится к громкому заголовку, а внутри просто, что бы запустить локалку - надо ее запустить. Вы что то новое узнали из нее?

P.s. у меня железо рядом 5500u и да я сначала такой, о, может мне про что то расскажут, про новый ROCm или что то еще, настройку видео памяти секретную. Шиш

Таким образом, скорость генерации увеличилась до 20 tokens/s

На попсовой убунте с oobabooga/text-generation-webui через llama.cpp без каких-либо ухищрений такая же скорость. Автор сравнивает с убогой инфрой LM Studio и ollama.

Sign up to leave a comment.

Articles