nlaik16 мая в 09:04

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Средний

9 мин

18K

Машинное обучение * Open source * Видеокарты

Аналитика

+18

Комментарии 18

WondeRu 16 мая в 09:14

А есть ли где-то выложенные бенчмарки на реальном железе? Можно обучить простую нейронку, которая будет давать точнее результаты «без математики».

nlaik 16 мая в 09:32

Можно попробовать, как будет результат дам обратную связь в виде новой статьи

TomskDiver 16 мая в 16:02

Жалко что похоже считается только квантование Q4_K_M и Q8_0. Поэтому калькулятор считает что я не могу у себя на 5060 Ti 16Gb запустить Qwen3.6 или Gemma 4. Но нет, они прекрасно работают. Хотя кто-то скажет что они отупели... Для себя больше ориентируюсь на калькулятор Hugging Face.

nlaik 16 мая в 16:10

Подумаю как поправить чтобы можно было исправить этот баг

Weron2 17 мая в 03:05

Я согласен. В 2026 считать влезет ли llama 3.1 ну такое. Тут последнее время чуть не раз в неделю новое появляется. Вот недавно mtp модель qwen - у меня что-то не стабильная скорость, быстрее не стало как будто... Может что-то не так делаю. Буду пробовать. Но вот допустим 35b модель работает отлично. 27т/с для этого качества неплохо для моих 8+32озу

Ernesto 18 мая в 02:47

Земляк привет.
Какую модель юзаешь Qwen3.6 ? У меня похожая конфа 32/506016gb. Хочу попробовать отдать все ресурсы под LLM, а кодить на ноуте.

TomskDiver 18 мая в 03:07

Если чтобы всё влезало в GPU:
llama-server --host 0.0.0.0 -m Qwen3.6-27B-UD-IQ3_XXS.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
и
llama-server --host 0.0.0.0 -m Qwen3.6-35B-A3B-UD-IQ2_M.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
Если не надо чтобы было быстро, то квант лучше брать больше (часть слоёв будет в CPU/RAM). Ну и возможно стоит попробовать MTP (еще не пробовал).
Но 16Gb VRAM конечно мало:(

yellow79 16 мая в 18:32

Выбрал M3 Max 36Gb, говорят Qwen3.5 397B A17B запустится, да ещё и скорость ~152 ток/с. Странная математика 397b в Q4_K_M это 244Gb как предполагается вместить это в 36Gb?

Mersavets 17 мая в 03:21

Что такое мое архитектура почитай, и лучше запусти qwen3.6:27b с хорошей скоростью, эта модель новее и лучше, весит меньше

yellow79 17 мая в 04:35

Что такое MOE я в курсе. Даже если предположить, что неактивные слои будут лежать на диске(потому что в RAM они все точно не влезут), то их копирование на каждый токен в VRAM будет занимать как минимум вечность и никакими 152 ток/с тут не пахнет. Но даже если представить, что весь инференс потребует только те 17B что были изначально загружены в память, то для 17B активных мой девайс не в состоянии выдать 152 ток/с.

Qwen3.6 конечно же прекрасен, хоть в 27b хоть в 35b, комент был про математику сервиса

Andcheshire 20 мая в 13:12

Кто говорит?) Вы верно задаетесь вопросом и ответ в данном случае - никак

zartdinov 16 мая в 19:07

Если правильно помню, то ollama больше не использует llama.cpp, там длинная история почему. И поэтому проседает по некоторым параметрам.

Mersavets 17 мая в 03:22

Длинная история это сказать "автор оллама не хотел показывать что всё сделано на ллама.cpp, поэтому скрывал это, из за чего получил претензии и быстро заменил самописной фигнёй"?

zartdinov 17 мая в 16:01

Да, точно сказано. Тут хотел сказать, что эти калькуляторы для всего подряд вряд ли будут правильно скорость считать.

Там еще надо уточнить, что автор llama.cpp сказал, что фигня

past 16 мая в 19:40

Есть ещё вот такой проект

https://github.com/AlexsJones/llmfit

Запускаешь на железе и lllmfit выдает длинный список моделей с оценкой. Но по факту это всё сферическая модель в вакууме. Надо писать реальный бенчмарк

DamirMur 17 мая в 10:50

Сегодня делал инструмент который у трёх провайдеров nvidia, openrouter, google, ищет условно бесплатные модели, получилось 74 штуки. Зачем тебе локальная модель?

diderevyagin 19 мая в 07:28

Очень хороший материал, спасибо !

Andcheshire 20 мая в 14:18

Потыкал в калькулятор, сравнил со значениями для 3080 10gb/64gb и разброс между калькулятором и реальными значениями вышел еще больше, прогноз по запуску так же не везде корректный, вот для примера (запуск через lms):

Рассчет: Qwen3.6 27B 23тс, Gemma 4 26B A4B 121тс, Qwen3 Next 80B-A3B не влезет, Qwen3.5 122B A10B не влезет, Qwen3.5 9B 121тс

Тест: Qwen3.6 27B 3тс, Gemma 4 26B A4B 18тс, Qwen3 Next 80B-A3B 10тс, Qwen3.5 122B A10B 4тс, Qwen3.5 9B 37тс

Зарегистрируйтесь на Хабре, чтобы оставить комментарий