nlaik May 16 at 09:04

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Medium

9 min

18K

Machine learning * Open source * Video cards

Analytics

+18

Comments 18

WondeRu May 16 at 09:14

А есть ли где-то выложенные бенчмарки на реальном железе? Можно обучить простую нейронку, которая будет давать точнее результаты «без математики».

nlaik May 16 at 09:32

Можно попробовать, как будет результат дам обратную связь в виде новой статьи

TomskDiver May 16 at 16:02

Жалко что похоже считается только квантование Q4_K_M и Q8_0. Поэтому калькулятор считает что я не могу у себя на 5060 Ti 16Gb запустить Qwen3.6 или Gemma 4. Но нет, они прекрасно работают. Хотя кто-то скажет что они отупели... Для себя больше ориентируюсь на калькулятор Hugging Face.

nlaik May 16 at 16:10

Подумаю как поправить чтобы можно было исправить этот баг

Weron2 May 17 at 03:05

Я согласен. В 2026 считать влезет ли llama 3.1 ну такое. Тут последнее время чуть не раз в неделю новое появляется. Вот недавно mtp модель qwen - у меня что-то не стабильная скорость, быстрее не стало как будто... Может что-то не так делаю. Буду пробовать. Но вот допустим 35b модель работает отлично. 27т/с для этого качества неплохо для моих 8+32озу

Ernesto May 18 at 02:47

Земляк привет.
Какую модель юзаешь Qwen3.6 ? У меня похожая конфа 32/506016gb. Хочу попробовать отдать все ресурсы под LLM, а кодить на ноуте.

TomskDiver May 18 at 03:07

Если чтобы всё влезало в GPU:
llama-server --host 0.0.0.0 -m Qwen3.6-27B-UD-IQ3_XXS.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
и
llama-server --host 0.0.0.0 -m Qwen3.6-35B-A3B-UD-IQ2_M.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
Если не надо чтобы было быстро, то квант лучше брать больше (часть слоёв будет в CPU/RAM). Ну и возможно стоит попробовать MTP (еще не пробовал).
Но 16Gb VRAM конечно мало:(

yellow79 May 16 at 18:32

Выбрал M3 Max 36Gb, говорят Qwen3.5 397B A17B запустится, да ещё и скорость ~152 ток/с. Странная математика 397b в Q4_K_M это 244Gb как предполагается вместить это в 36Gb?

Mersavets May 17 at 03:21

Что такое мое архитектура почитай, и лучше запусти qwen3.6:27b с хорошей скоростью, эта модель новее и лучше, весит меньше

yellow79 May 17 at 04:35

Что такое MOE я в курсе. Даже если предположить, что неактивные слои будут лежать на диске(потому что в RAM они все точно не влезут), то их копирование на каждый токен в VRAM будет занимать как минимум вечность и никакими 152 ток/с тут не пахнет. Но даже если представить, что весь инференс потребует только те 17B что были изначально загружены в память, то для 17B активных мой девайс не в состоянии выдать 152 ток/с.

Qwen3.6 конечно же прекрасен, хоть в 27b хоть в 35b, комент был про математику сервиса

Andcheshire May 20 at 13:12

Кто говорит?) Вы верно задаетесь вопросом и ответ в данном случае - никак

zartdinov May 16 at 19:07

Если правильно помню, то ollama больше не использует llama.cpp, там длинная история почему. И поэтому проседает по некоторым параметрам.

Mersavets May 17 at 03:22

Длинная история это сказать "автор оллама не хотел показывать что всё сделано на ллама.cpp, поэтому скрывал это, из за чего получил претензии и быстро заменил самописной фигнёй"?

zartdinov May 17 at 16:01

Да, точно сказано. Тут хотел сказать, что эти калькуляторы для всего подряд вряд ли будут правильно скорость считать.

Там еще надо уточнить, что автор llama.cpp сказал, что фигня

past May 16 at 19:40

Есть ещё вот такой проект

https://github.com/AlexsJones/llmfit

Запускаешь на железе и lllmfit выдает длинный список моделей с оценкой. Но по факту это всё сферическая модель в вакууме. Надо писать реальный бенчмарк

DamirMur May 17 at 10:50

Сегодня делал инструмент который у трёх провайдеров nvidia, openrouter, google, ищет условно бесплатные модели, получилось 74 штуки. Зачем тебе локальная модель?

diderevyagin May 19 at 07:28

Очень хороший материал, спасибо !

Andcheshire May 20 at 14:18

Потыкал в калькулятор, сравнил со значениями для 3080 10gb/64gb и разброс между калькулятором и реальными значениями вышел еще больше, прогноз по запуску так же не везде корректный, вот для примера (запуск через lms):

Рассчет: Qwen3.6 27B 23тс, Gemma 4 26B A4B 121тс, Qwen3 Next 80B-A3B не влезет, Qwen3.5 122B A10B не влезет, Qwen3.5 9B 121тс

Тест: Qwen3.6 27B 3тс, Gemma 4 26B A4B 18тс, Qwen3 Next 80B-A3B 10тс, Qwen3.5 122B A10B 4тс, Qwen3.5 9B 37тс