antonaleks605 24 ноя 2023 в 15:28

Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing

Сложный

31 мин

4.6K

Блог компании SelectelKubernetes*ВидеокартыВысокая производительность*Машинное обучение*

Туториал

+39

Комментарии 8

red5 24 ноя 2023 в 23:44

Поделитесь обратной связью, насколько вам бы хотелось узнать об особенностях этого инференс-сервера в контексте утилизации GPU, и тогда мы напишем новую статью.

Да, очень интересно.

antonaleks605 26 ноя 2023 в 11:49

Спасибо за обратную связь! Уже насобирали пару интересных особенностей этого инференс сервера, поэтому ждите обновлений)

Nikkon-dev 25 ноя 2023 в 12:24

Пара замечаний:
- Приведенные ссылки на код лишь указывают на использование стандартного NVML API - того же самого, который используется nvidia-smi. Реальная логика находится здесь https://github.com/nebuly-ai/nos/blob/d5cc1d72b8ee52b79b8751c0b49122366e026ce1/internal/controllers/migagent/actuator.go#L152C25-L152C25. Здесь же видно, как именно происходит попытка создания-удаления и что при каждом чихе перезапускается nvidia-device-plugin на ноде.
- Ограничение не реконфигурацию MIG улучшилось в новых поколениях - H100 может изменить конфигурацию MIG при наличии активных CUDA контекстов. Естественно поменять/удалить партицию, на которой запущен CUDA контекст все еще нельзя.

antonaleks605 26 ноя 2023 в 11:54

Спасибо за ценный комментарий.
По поводу ссылок - действительно интересная находка, добавим ее с ссылкой на вас)
По поводу H100 - на данный момент нет возможности потестировать, но надеемся в скором времени появится и также отпишемся о результатах!

Negash 25 ноя 2023 в 20:18

node-autoscaler работает с nos?

antonaleks605 26 ноя 2023 в 11:52

В целом nos можно также использовать с hpa и prometheus адаптер, как я приводил пример с gpu-оператором в предыдущей статье. С node-autoscaler кейс мы не проверяли, но звучит интересно. Обязательно попробуем и отпишемся о результатах!

kernelplv 28 ноя 2023 в 09:08

А что происходит с енкодерами при разном делении gpu?

antonaleks605 29 ноя 2023 в 12:22

Добрый день!
Данный кейс мы не тестировали. Мы пробовали только на ML задачах.
Вы можете арендовать у нас карту и сами попробовать) И будет супер если поделитесь результатами)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий