Комментарии 8
Поделитесь обратной связью, насколько вам бы хотелось узнать об особенностях этого инференс-сервера в контексте утилизации GPU, и тогда мы напишем новую статью.
Да, очень интересно.
Пара замечаний:
- Приведенные ссылки на код лишь указывают на использование стандартного NVML API - того же самого, который используется nvidia-smi. Реальная логика находится здесь https://github.com/nebuly-ai/nos/blob/d5cc1d72b8ee52b79b8751c0b49122366e026ce1/internal/controllers/migagent/actuator.go#L152C25-L152C25. Здесь же видно, как именно происходит попытка создания-удаления и что при каждом чихе перезапускается nvidia-device-plugin на ноде.
- Ограничение не реконфигурацию MIG улучшилось в новых поколениях - H100 может изменить конфигурацию MIG при наличии активных CUDA контекстов. Естественно поменять/удалить партицию, на которой запущен CUDA контекст все еще нельзя.
node-autoscaler работает с nos?
В целом nos можно также использовать с hpa и prometheus адаптер, как я приводил пример с gpu-оператором в предыдущей статье. С node-autoscaler кейс мы не проверяли, но звучит интересно. Обязательно попробуем и отпишемся о результатах!
А что происходит с енкодерами при разном делении gpu?
Как разбить видеокарту и поделиться с коллегами? Динамический шеринг GPU в Kubernetes с помощью MIG, MPS и TimeSlicing