beatwad13 мар в 07:09

Масштабирование LLM: от одного чипа до ЦОДа. Глава 1. Теоретические основы

Средний

9 мин

5.1K

Искусственный интеллектВидеокартыМашинное обучение * Анализ и проектирование систем *

Перевод

Комментарии 2

annagle 13 мар в 21:55

хорошо адаптировали «roofline»-главу: получилось редкое сочетание корректной математики, интуитивных объяснений и приземления на H100, так что даже не‑HPC‑инженеру понятно, откуда берётся заветное «батч > ~300».

А вы сами уже пробовали применять такой roofline‑анализ к конкретным продовым пайплайнам (обучение / инференс LLM на кластере) — удавалось ли по его результатам реально изменить шардирование или batching так, чтобы увидеть заметный прирост утилизации GPU?

beatwad вчера в 09:09

Спасибо за комментарий! Применял, но на базовом уровне. Нужно было файнтюнить небольшую LLM на нескольких видеокартах. Там все обошлось обычным Data Parallelism, потому что все влезало с запасом на один GPU и даже приблизительный анализ показывал что там все будет Compute Bound даже при небольшом размере батча.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий