Comments 18
А есть ли где-то выложенные бенчмарки на реальном железе? Можно обучить простую нейронку, которая будет давать точнее результаты «без математики».
Жалко что похоже считается только квантование Q4_K_M и Q8_0. Поэтому калькулятор считает что я не могу у себя на 5060 Ti 16Gb запустить Qwen3.6 или Gemma 4. Но нет, они прекрасно работают. Хотя кто-то скажет что они отупели... Для себя больше ориентируюсь на калькулятор Hugging Face.
Подумаю как поправить чтобы можно было исправить этот баг
Я согласен. В 2026 считать влезет ли llama 3.1 ну такое. Тут последнее время чуть не раз в неделю новое появляется. Вот недавно mtp модель qwen - у меня что-то не стабильная скорость, быстрее не стало как будто... Может что-то не так делаю. Буду пробовать. Но вот допустим 35b модель работает отлично. 27т/с для этого качества неплохо для моих 8+32озу
Земляк привет.
Какую модель юзаешь Qwen3.6 ? У меня похожая конфа 32/506016gb. Хочу попробовать отдать все ресурсы под LLM, а кодить на ноуте.
Если чтобы всё влезало в GPU:llama-server --host 0.0.0.0 -m Qwen3.6-27B-UD-IQ3_XXS.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
иllama-server --host 0.0.0.0 -m Qwen3.6-35B-A3B-UD-IQ2_M.gguf -ngl 99 -t 7 -c 131072 --prio 2 --temp 0.6 --min-p 0.0 --top-k 20 --top-p 0.95
Если не надо чтобы было быстро, то квант лучше брать больше (часть слоёв будет в CPU/RAM). Ну и возможно стоит попробовать MTP (еще не пробовал).
Но 16Gb VRAM конечно мало:(
Выбрал M3 Max 36Gb, говорят Qwen3.5 397B A17B запустится, да ещё и скорость ~152 ток/с. Странная математика 397b в Q4_K_M это 244Gb как предполагается вместить это в 36Gb?
Что такое мое архитектура почитай, и лучше запусти qwen3.6:27b с хорошей скоростью, эта модель новее и лучше, весит меньше
Что такое MOE я в курсе. Даже если предположить, что неактивные слои будут лежать на диске(потому что в RAM они все точно не влезут), то их копирование на каждый токен в VRAM будет занимать как минимум вечность и никакими 152 ток/с тут не пахнет. Но даже если представить, что весь инференс потребует только те 17B что были изначально загружены в память, то для 17B активных мой девайс не в состоянии выдать 152 ток/с.
Qwen3.6 конечно же прекрасен, хоть в 27b хоть в 35b, комент был про математику сервиса
Кто говорит?) Вы верно задаетесь вопросом и ответ в данном случае - никак
Если правильно помню, то ollama больше не использует llama.cpp, там длинная история почему. И поэтому проседает по некоторым параметрам.
Длинная история это сказать "автор оллама не хотел показывать что всё сделано на ллама.cpp, поэтому скрывал это, из за чего получил претензии и быстро заменил самописной фигнёй"?
Есть ещё вот такой проект
https://github.com/AlexsJones/llmfit
Запускаешь на железе и lllmfit выдает длинный список моделей с оценкой. Но по факту это всё сферическая модель в вакууме. Надо писать реальный бенчмарк
Сегодня делал инструмент который у трёх провайдеров nvidia, openrouter, google, ищет условно бесплатные модели, получилось 74 штуки. Зачем тебе локальная модель?
Очень хороший материал, спасибо !
Потыкал в калькулятор, сравнил со значениями для 3080 10gb/64gb и разброс между калькулятором и реальными значениями вышел еще больше, прогноз по запуску так же не везде корректный, вот для примера (запуск через lms):
Рассчет: Qwen3.6 27B 23тс, Gemma 4 26B A4B 121тс, Qwen3 Next 80B-A3B не влезет, Qwen3.5 122B A10B не влезет, Qwen3.5 9B 121тс
Тест: Qwen3.6 27B 3тс, Gemma 4 26B A4B 18тс, Qwen3 Next 80B-A3B 10тс, Qwen3.5 122B A10B 4тс, Qwen3.5 9B 37тс
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?