Обучение с подкреплением и эвристический анализ на коммутаторах ЦОД: предпосылки и преимущества / Хабр

Перед конференцией AI Journey, которую Huawei поддерживает как титульный партнёр и на которой выступит несколько наших спикеров, мы решили поделиться предварительной информацией о наших наработках, и в частности о том, как используем искусственный интеллект в умных сетях ЦОД. И заодно пояснить, почему устоявшихся технологий недостаточно для построения современных сетей ЦОД и нам нужна «дружеская помощь» от ИИ.

Что происходит в сфере условных lossless-сетей

За годы, когда среды передачи данных переживали бурное развитие, инженеры успели столкнуться со множеством явлений, препятствующих успешной реализации сетей хранения данных и высокопроизводительных кластеров вычислений на Ethernet: потерями, негарантированной доставкой информации, deadlock, microburst и другими малоприятными вещами.

Как следствие, считалось правильным строить референсную выделенную сеть под определённый сценарий:

IB для кластеров высоконагруженных вычислений;
FC для классической сети хранения;
Ethernet для сервисной задачи.

Попытки добиться универсальности выглядели приблизительно как на иллюстрации.

По каким-то задачам векторы могли совпадать (примерно как у лебедя и рака), и ситуативно универсальность достигалась, хоть и с меньшим КПД, чем при выборе узкоспециализированного сценария.

Сегодня Huawei видит будущее в многозадачных конвергентных фабриках и предлагает своим заказчикам решение AI Fabric, рассчитанное, с одной стороны, на сценарии повышения производительности сети без потерь (до 200 Гбит/с на порт сервера в 2020 году), с другой — на увеличение производительности самих приложений (переход к RoCEv2).

О технической составляющей AI Fabric у нас, кстати, был отдельный подробный пост.

Что нуждается в оптимизации

Прежде чем рассуждать об алгоритмах, имеет смысл уточнить, что конкретно они призваны улучшить.

Static ECN приводит к тому, что с увеличением числа серверов-отправителей при едином получателе вырисовывается, мягко говоря, неоптимальная картина трафика (мы имеем дело с так называемой many-to-one incast моделью).

В традиционном Ethernet нам придётся вручную добиваться баланса между коэффициентами вероятности потерь на сети и низкой производительностью самой сети.

Те же предпосылки мы увидим также при использования связки PFC/ECN в случае реализации без постоянного тюнинга (см. рис. ниже).

Для решения описанных проблем мы задействуем алгоритм AI ECN, суть работы которого заключается в своевременном изменении порогов ECN. Как это выглядит, показано на схеме ниже.

Раньше, когда мы использовали связку «чипсет Broadcom + ИИ-процессор Ascend 310», у нас было ограниченное количество возможностей по тюнингу таких параметров.

Такой вариант мы можем условно назвать Software AI ECN, так как логика делается на отдельном чипе и уже «проливается» в коммерческий чипсет.

У моделей, которые снабжены чипсетом P5 производства Huawei, «ИИ-возможности» существенно шире (особенно на свежем релизе), благодаря тому, что на нём реализована значительная часть необходимой для этого функциональности.

Как используем алгоритмы

Используя Ascend 310 (или встроенный в P-карты модуль), мы начинаем анализировать трафик и сравнивать его с эталонной базой известных приложений.

В случае с известными приложениями показатели трафика оптимизируются «на лету», в случае с неизвестными происходит переход к следующему шагу.

Ключевые моменты:

Производится обучение с подкреплением DDQN, исследование, накопление большого количества конфигураций базовых линий и исследование лучшей стратегии соответствия ECN.
Классификатор CNN идентифицирует сценарии и определяет, является ли рекомендуемый порог DDQN надёжным.
Если рекомендуемый порог DDQN ненадёжен, для его коррекции используется эвристический метод, с тем чтобы убедиться, что решение является обобщённым.

Такой подход позволяет скорректировать механизмы работы с неизвестными приложениями, а при большом желании можно и задать модель для своего приложения, используя Northbound API к системе управления коммутаторами.

Ключевые моменты:

DDQN накапливает большое количество образцов памяти для конфигурации базовой линии и глубоко исследует логику согласования состояния сети и конфигурации базовой линии для изучения политик.
Классификатор нейронных сетей CNN идентифицирует сценарии, чтобы избежать рисков, которые могут возникнуть, когда ненадёжные конфигурации ECN рекомендуются в неизвестных сценариях.

Что получаем

После такого цикла адаптации и изменения дополнительных сетевых порогов и настроек становится возможным избавиться от проблем сразу нескольких типов.

Проблемы производительности: низкая пропускная способность, длительная задержка, потеря пакетов, джиттер.
Проблемы с PFC: PFC-тупик, HOL, штормы и т. д. PFC-технология вызывает множество проблем системного уровня.
Проблемы приложений RDMA: ИИ / высокопроизводительные вычисления, распределённое хранение и их сочетания. RDMA-приложения чувствительны к производительности сети.

Резюме

В конечном счёте дополнительные алгоритмы машинного обучения помогают нам решить классические проблемы «неотзывчивой» сетевой среды Ethernet. Таким образом, мы ещё на шаг приближаемся к экосистеме прозрачных и удобных сквозных сетевых сервисов — в противовес набору разрозненных технологий и продуктов.

***

Материалы по решениям Huawei продолжают появляться в нашей онлайн-библиотеке. В том числе по темам, затронутым в этом посте (например, до построении полноразмерных ИИ-решений под различные сценарии «умных» ЦОДов). А список наших вебинаров на ближайшие недели вы найдёте по ссылке.

Обучение с подкреплением и эвристический анализ на коммутаторах ЦОД: предпосылки и преимущества

Что происходит в сфере условных lossless-сетей

Что нуждается в оптимизации

Как используем алгоритмы

Что получаем

Резюме

***

Публикации

Информация