Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

Вам не кажется, что весь смысл статьи - в пересказывании справки? "Есть llama-bench и можно им пользоваться"
Кому интересны результаты производительности на различных устройствах, существуют отдельные ветки в Llama.cpp для различных бэкендов:
Необходимо подбирать его так, чтобы общая память видеокарты не использовалась, так как это ведет к снижению производительности.
С точностью до наборот - подбирать значение контекстного окна нужно так, чтобы KV cache полностью поместился в память видеокарты.
Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp