Комментарии 2
Хоть у меня нет пачки Nvidia A100, и я не DevOps статья интересная спасибо.
Интересная потому что сам столкнулся с вопросом как утилизировать Nvidia RTX 3090 в домашнем кубернетес, и узнал о DRA и MPS.
MPS позволяет разделить ресурсы GPU, но жестко, не динамически. Это уже лучше чем ничего, можно одновременно использовать несколькими подами, например vllm, whisper, stable diffusion.
Для домашнего использования, и если хочется использовать GPU по максимуму, как я понял, мне нужна своя очередь задач и сервис который будет жонглировать GPU подами с разными запросами, например vllm под использующий всю память, для определённых типов задач из очереди, или несколько whisper подов для пачки задач ASR, или пару Stable Diffusion подов для какартинок.
И MPS должен здорово упростить такой паттерн, как я понял, в самом простом варианте я могу тупо закидывать задачи в kubernetes Jobs, и благодаря MPS они будут вставать в очередь за GPU. А еще есть Kueue контроллер который добавит FIFO и приоритеты, так что писать свои костыль даже и не придется чему я очень рад )
Спасибо за статью, круто видеть, что появляется больше материала по теме ML-инфры
Хотел бы отметить, что динамическая нарезка профилей MIG реализуется DRA, а не только через HAMi (как минимум я интерпретировал слова статьи будто это именно их бенефит).
Говоря про Volcano тоже хотел бы прокомментировать, что HAMi и Volcano - два разных проекта, хотя у них и есть нативная интеграция. Мне вообще кажется, что если использовать NVIDIA DRA-driver для динамической и гибкой выдаче ресурсов и Volcano для сложной логики щедулинга подов (как уже сказано в другом комментарии для простой достаточно воспользоваться Kueue, чтобы избегать оврехеда), то HAMi не так уж востребован. Кажется, что он нужен только в тех кейсах, где DRA не возможен физически. Встречались ли какие-то кейсы, которые без HAMi не получалось решить? Было бы интересно о них узнать
Также было бы интересно увидеть статью по переходу с Device Plugin на DRA, тк этот процесс кажется не таким уже простым. Из-за того, что они будут конкурировать за управление GPU делать это видимо необходимо с поочерёдным дрейном ноды.
Буду ждать следующей части!
Информация
- Сайт
- flant.ru
- Дата регистрации
- Дата основания
- Численность
- 201–500 человек
- Местоположение
- Россия
- Представитель
- Александр Лукьянов
DRAматургия GPU в Kubernetes: зачем нужен DRA, если Device Plugin работает? Разбираем грабли AI-инфраструктуры