Обновить
4K+
2

Пользователь

13
Рейтинг
Отправить сообщение

Как мы внедряли QoS InfiniBand для приоритизации ML-обучений с точки зрения сети

Время на прочтение13 мин
Охват и читатели4.2K

В статье расскажем, как мы командой Yandex Infrastructure внедрили QoS в сетях InfiniBand при ограниченной вендорской поддержке и скудной практической документации. Обсудим мотивацию: рост смешанных нагрузок во внутреннем облаке и необходимость предсказуемых SLO для различных обучений. Отдельно рассмотрим как могут быть связаны QoS и топология сети DragonFly+.

Читать далее

Информация

В рейтинге
611-й
Зарегистрирован
Активность