Обновить

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели16K
Всего голосов 22: ↑18 и ↓4+18
Комментарии18

Комментарии 18

А есть ли где-то выложенные бенчмарки на реальном железе? Можно обучить простую нейронку, которая будет давать точнее результаты «без математики».

Можно попробовать, как будет результат дам обратную связь в виде новой статьи

Жалко что похоже считается только квантование Q4_K_M и Q8_0. Поэтому калькулятор считает что я не могу у себя на 5060 Ti 16Gb запустить Qwen3.6 или Gemma 4. Но нет, они прекрасно работают. Хотя кто-то скажет что они отупели... Для себя больше ориентируюсь на калькулятор Hugging Face.

Подумаю как поправить чтобы можно было исправить этот баг

Я согласен. В 2026 считать влезет ли llama 3.1 ну такое. Тут последнее время чуть не раз в неделю новое появляется. Вот недавно mtp модель qwen - у меня что-то не стабильная скорость, быстрее не стало как будто... Может что-то не так делаю. Буду пробовать. Но вот допустим 35b модель работает отлично. 27т/с для этого качества неплохо для моих 8+32озу

Земляк привет.
Какую модель юзаешь Qwen3.6 ? У меня похожая конфа 32/506016gb. Хочу попробовать отдать все ресурсы под LLM, а кодить на ноуте.

Если чтобы всё влезало в GPU:
llama-server --host 0.0.0.0 -m Qwen3.6-27B-UD-IQ3_XXS.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
и
llama-server --host 0.0.0.0 -m Qwen3.6-35B-A3B-UD-IQ2_M.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
Если не надо чтобы было быстро, то квант лучше брать больше (часть слоёв будет в CPU/RAM). Ну и возможно стоит попробовать MTP (еще не пробовал).
Но 16Gb VRAM конечно мало:(

Выбрал M3 Max 36Gb, говорят Qwen3.5 397B A17B запустится, да ещё и скорость ~152 ток/с. Странная математика 397b в Q4_K_M это 244Gb как предполагается вместить это в 36Gb?

Что такое мое архитектура почитай, и лучше запусти qwen3.6:27b с хорошей скоростью, эта модель новее и лучше, весит меньше

Что такое MOE я в курсе. Даже если предположить, что неактивные слои будут лежать на диске(потому что в RAM они все точно не влезут), то их копирование на каждый токен в VRAM будет занимать как минимум вечность и никакими 152 ток/с тут не пахнет. Но даже если представить, что весь инференс потребует только те 17B что были изначально загружены в память, то для 17B активных мой девайс не в состоянии выдать 152 ток/с.

Qwen3.6 конечно же прекрасен, хоть в 27b хоть в 35b, комент был про математику сервиса

Кто говорит?) Вы верно задаетесь вопросом и ответ в данном случае - никак

Если правильно помню, то ollama больше не использует llama.cpp, там длинная история почему. И поэтому проседает по некоторым параметрам.

Длинная история это сказать "автор оллама не хотел показывать что всё сделано на ллама.cpp, поэтому скрывал это, из за чего получил претензии и быстро заменил самописной фигнёй"?

Да, точно сказано. Тут хотел сказать, что эти калькуляторы для всего подряд вряд ли будут правильно скорость считать.

Там еще надо уточнить, что автор llama.cpp сказал, что фигня

Есть ещё вот такой проект

https://github.com/AlexsJones/llmfit

Запускаешь на железе и lllmfit выдает длинный список моделей с оценкой. Но по факту это всё сферическая модель в вакууме. Надо писать реальный бенчмарк

Сегодня делал инструмент который у трёх провайдеров nvidia, openrouter, google, ищет условно бесплатные модели, получилось 74 штуки. Зачем тебе локальная модель?

Очень хороший материал, спасибо !

Потыкал в калькулятор, сравнил со значениями для 3080 10gb/64gb и разброс между калькулятором и реальными значениями вышел еще больше, прогноз по запуску так же не везде корректный, вот для примера (запуск через lms):

Рассчет: Qwen3.6 27B 23тс, Gemma 4 26B A4B 121тс, Qwen3 Next 80B-A3B не влезет, Qwen3.5 122B A10B не влезет, Qwen3.5 9B 121тс

Тест: Qwen3.6 27B 3тс, Gemma 4 26B A4B 18тс, Qwen3 Next 80B-A3B 10тс, Qwen3.5 122B A10B 4тс, Qwen3.5 9B 37тс

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации