Comments 7
Этот график показывает эффективность энергопотребления за полученные TPS относительно GPU
Здесь расчет несколько мухлежный, поскольку карты типа A100 дают радикально более высокие показатели при больших батчах и производительность на ватт у них на голову выше чем у того же мака. Просто потому, что шина памяти в разы быстрее. Понятно что здесь рассматривается не параллельное применение модели, но тем не менее.
Отличное замечание, спасибо!
Я думаю было бы действительно интересно посмотреть на реализацию через батчи, поэтому предлагаю вам сделать Pull Request с этой фичей.
Предполагаю, что вы хотите сделать более низкоуровневую реализацию через PyTorch и Transformers. Также будет полезно увидеть вариант на MLX-LM — это покажет перформанс на более нативной для Apple Silicon библиотеке.
Понимаю, что такой тип запуска повысит требования к VRAM и ограничит доступность бенчмарка по сравнению с квантизованными моделями. Но так как клиенты для LLM и VLM уже реализованы, это не станет проблемой — просто будет ориентировано на более нагруженные сценарии.
Для старта можно опереться на текущие абстракции для вызова модели и проведения бенчей:
https://github.com/bogdanminko/laperf/tree/main/src/tasks
Сохранение структуры и стиля кода позволит легко встроить новую функциональность в общий пайплайн.
Предлагаю поместить эти реализации в отдельные директории, например:
llm_batch_torch / llm_batch_mlx и т.п.
Инструкции по тому, как оформить PR, доступны здесь:
https://bogdanminko.github.io/laperf/contributing.html
Если по ходу работы возникнут сложности — можете добавить комментарий в PR, я помогу с интеграцией.
Ollama и LM Studio по дефолту поднимут вашу модель на GPU в столько слоев, насколько смогут, но я рекомендую использовать FULL GPU OFFLOAD или же скипнуть эту часть бенчмарка, если вы не готовы ждать результатов несколько часов.
Так например мой ноутбук с 4060 гонял весь бенчмарк 2 часа, так как VRAM не хватило на полную загрузку всех слоев LLM и VLM на GPU.
Выгрузить столько слоев, сколько могут - это параметр -ngl N в llama.cpp, на котором построены ollama и LM Studio. Для MoE моделей, вроде GPT-OSS, не самая оптимальная стратегия.
И если MoE модель не влезает целиком в GPU, то вместо попытки выгрузить 13гб модель в 8гб VRAM можно воспользоваться новым подходом через -cmoe и -ncmoe N, который и ускорит модель, и снизить потребление VRAM, что позволит вместить куда больше контекста. И можно даже заменить Qwen3-VL-8B на более интересную Qwen3-VL-30B-A3B.

Я полагаю, что ваш комментарий будет полезен тем, кто запускает La Perf через llama.cpp.
Однако отмечу, что в рамках бенчмарка Ollama и LM Studio рассматриваются как black box-клиенты: настройка их внутренних параметров остаётся на стороне пользователя, и он сам выбирает нужные флаги и стратегию offload.
La Perf же предоставляет единый OpenAI-совместимый клиент, который может работать с Ollama, LM Studio (протестированы), а также vLLM, llama.cpp, sglang и другими инференс-сервисами.
Методология бенчмарка построена таким образом, чтобы вы могли сконфигурировать La Perf под любой интересующий вас OpenAI-совместимый сервис, сохраняя при этом сопоставимость результатов между разными системами.
в качестве продолжения можно было бы сравнить модели, заточенные под кодинг.
И что насчет "мифических" видеокарт intel arc pro b60, которые по обзорам уделывают аналоги по основным параметрам?
На самом деле можно уже запустить условный qwen3 coder, поменяв параметры в .env
Если вы это сделаете будет отлично, а я подготовлю и обновлю структуру документации и результатов
По поводу intel arc, amd ai max и других было бы интересно увидеть их владельцев в результатах бенчмарка
La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар