Обновить

DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры

Уровень сложностиСложный
Время на прочтение15 мин
Охват и читатели6.4K
Всего голосов 14: ↑14 и ↓0+15
Комментарии2

Комментарии 2

Хоть у меня нет пачки Nvidia A100, и я не DevOps статья интересная спасибо.

Интересная потому что сам столкнулся с вопросом как утилизировать Nvidia RTX 3090 в домашнем кубернетес, и узнал о DRA и MPS.

MPS позволяет разделить ресурсы GPU, но жестко, не динамически. Это уже лучше чем ничего, можно одновременно использовать несколькими подами, например vllm, whisper, stable diffusion.

Для домашнего использования, и если хочется использовать GPU по максимуму, как я понял, мне нужна своя очередь задач и сервис который будет жонглировать GPU подами с разными запросами, например vllm под использующий всю память, для определённых типов задач из очереди, или несколько whisper подов для пачки задач ASR, или пару Stable Diffusion подов для какартинок.

И MPS должен здорово упростить такой паттерн, как я понял, в самом простом варианте я могу тупо закидывать задачи в kubernetes Jobs, и благодаря MPS они будут вставать в очередь за GPU. А еще есть Kueue контроллер который добавит FIFO и приоритеты, так что писать свои костыль даже и не придется чему я очень рад )

Спасибо за статью, круто видеть, что появляется больше материала по теме ML-инфры

Хотел бы отметить, что динамическая нарезка профилей MIG реализуется DRA, а не только через HAMi (как минимум я интерпретировал слова статьи будто это именно их бенефит).

Говоря про Volcano тоже хотел бы прокомментировать, что HAMi и Volcano - два разных проекта, хотя у них и есть нативная интеграция. Мне вообще кажется, что если использовать NVIDIA DRA-driver для динамической и гибкой выдаче ресурсов и Volcano для сложной логики щедулинга подов (как уже сказано в другом комментарии для простой достаточно воспользоваться Kueue, чтобы избегать оврехеда), то HAMi не так уж востребован. Кажется, что он нужен только в тех кейсах, где DRA не возможен физически. Встречались ли какие-то кейсы, которые без HAMi не получалось решить? Было бы интересно о них узнать

Также было бы интересно увидеть статью по переходу с Device Plugin на DRA, тк этот процесс кажется не таким уже простым. Из-за того, что они будут конкурировать за управление GPU делать это видимо необходимо с поочерёдным дрейном ноды.

Буду ждать следующей части!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
flant.ru
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия
Представитель
Александр Лукьянов