Комментарии 2
хорошо адаптировали «roofline»-главу: получилось редкое сочетание корректной математики, интуитивных объяснений и приземления на H100, так что даже не‑HPC‑инженеру понятно, откуда берётся заветное «батч > ~300».
А вы сами уже пробовали применять такой roofline‑анализ к конкретным продовым пайплайнам (обучение / инференс LLM на кластере) — удавалось ли по его результатам реально изменить шардирование или batching так, чтобы увидеть заметный прирост утилизации GPU?
Спасибо за комментарий! Применял, но на базовом уровне. Нужно было файнтюнить небольшую LLM на нескольких видеокартах. Там все обошлось обычным Data Parallelism, потому что все влезало с запасом на один GPU и даже приблизительный анализ показывал что там все будет Compute Bound даже при небольшом размере батча.

Масштабирование LLM: от одного чипа до ЦОДа. Глава 1. Теоретические основы