Pull to refresh

Comments 7

Этот график показывает эффективность энергопотребления за полученные TPS относительно GPU

Здесь расчет несколько мухлежный, поскольку карты типа A100 дают радикально более высокие показатели при больших батчах и производительность на ватт у них на голову выше чем у того же мака. Просто потому, что шина памяти в разы быстрее. Понятно что здесь рассматривается не параллельное применение модели, но тем не менее.

Отличное замечание, спасибо!
Я думаю было бы действительно интересно посмотреть на реализацию через батчи, поэтому предлагаю вам сделать Pull Request с этой фичей.

Предполагаю, что вы хотите сделать более низкоуровневую реализацию через PyTorch и Transformers. Также будет полезно увидеть вариант на MLX-LM — это покажет перформанс на более нативной для Apple Silicon библиотеке.

Понимаю, что такой тип запуска повысит требования к VRAM и ограничит доступность бенчмарка по сравнению с квантизованными моделями. Но так как клиенты для LLM и VLM уже реализованы, это не станет проблемой — просто будет ориентировано на более нагруженные сценарии.

Для старта можно опереться на текущие абстракции для вызова модели и проведения бенчей:
https://github.com/bogdanminko/laperf/tree/main/src/tasks
Сохранение структуры и стиля кода позволит легко встроить новую функциональность в общий пайплайн.

Предлагаю поместить эти реализации в отдельные директории, например:

llm_batch_torch / llm_batch_mlx и т.п.


Инструкции по тому, как оформить PR, доступны здесь:
https://bogdanminko.github.io/laperf/contributing.html

Если по ходу работы возникнут сложности — можете добавить комментарий в PR, я помогу с интеграцией.

Ollama и LM Studio по дефолту поднимут вашу модель на GPU в столько слоев, насколько смогут, но я рекомендую использовать FULL GPU OFFLOAD или же скипнуть эту часть бенчмарка, если вы не готовы ждать результатов несколько часов.
Так например мой ноутбук с 4060 гонял весь бенчмарк 2 часа, так как VRAM не хватило на полную загрузку всех слоев LLM и VLM на GPU.

Выгрузить столько слоев, сколько могут - это параметр -ngl N в llama.cpp, на котором построены ollama и LM Studio. Для MoE моделей, вроде GPT-OSS, не самая оптимальная стратегия.

И если MoE модель не влезает целиком в GPU, то вместо попытки выгрузить 13гб модель в 8гб VRAM можно воспользоваться новым подходом через -cmoe и -ncmoe N, который и ускорит модель, и снизить потребление VRAM, что позволит вместить куда больше контекста. И можно даже заменить Qwen3-VL-8B на более интересную Qwen3-VL-30B-A3B.

Подробнее: Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Я полагаю, что ваш комментарий будет полезен тем, кто запускает La Perf через llama.cpp.

Однако отмечу, что в рамках бенчмарка Ollama и LM Studio рассматриваются как black box-клиенты: настройка их внутренних параметров остаётся на стороне пользователя, и он сам выбирает нужные флаги и стратегию offload.

La Perf же предоставляет единый OpenAI-совместимый клиент, который может работать с Ollama, LM Studio (протестированы), а также vLLM, llama.cpp, sglang и другими инференс-сервисами.

Методология бенчмарка построена таким образом, чтобы вы могли сконфигурировать La Perf под любой интересующий вас OpenAI-совместимый сервис, сохраняя при этом сопоставимость результатов между разными системами.

в качестве продолжения можно было бы сравнить модели, заточенные под кодинг.

И что насчет "мифических" видеокарт intel arc pro b60, которые по обзорам уделывают аналоги по основным параметрам?

На самом деле можно уже запустить условный qwen3 coder, поменяв параметры в .env

Если вы это сделаете будет отлично, а я подготовлю и обновлю структуру документации и результатов

По поводу intel arc, amd ai max и других было бы интересно увидеть их владельцев в результатах бенчмарка

у меня нет железа запустить это, но intel arc есть обзоры на ютубе.
ai max - насколько я понял, там всего лишь много оперативной памяти + ее можно "перегонять" в видеопамять. Т.е. оперативной памяти много, следовательно можно запускать более тяжелые модели, но скорость работы будет посредственная.

Sign up to leave a comment.

Articles