Sber Dec 10 2021 at 13:48

Интеллектуальные сервисы для управления облачной инфраструктурой

5 min

1.3K

Comments 5

allexx Dec 10 2021 at 15:09

Когда все смешали в кучу и ни о чем в итоге получилось. Почему статья читается хуже чем переводился от очередного Викрама на медиум.

пожалуйста расскажите как catboost работает в вам случае для оценки и масштабирования? Про HPA все понятно и просто.

PronichevAV Dec 13 2021 at 14:08

Добрый день!
Мы решили для начала сделать в некотором роде overview по нашим сервисам чтобы в дальнейшем была возможность раскрывать каждый сервис более подробно.
Касательно оценки и масштабирования - модель на основе CatBoostRegressor сначала обучается на ретроспективных данных определенной метрики, например cpu, а затем предсказывает ее значение. На основе предсказанного значения и желаемого процента утилизации по cpu и определяется требуемое количество реплик приложения.

serebryakovsergey Dec 12 2021 at 07:00

А еще было бы интересно узнать, есть ли у вас проблема дрифта данных или самих предсказывающих моделей (concept drift), и если есть, то как это дело мониторите и какие алгоритмы используете. И в целом, были ли какие-нибудь интересные и неочевидные трудности, с которыми пришлось бороться при разработке и развёртывании этих сервисов?

rostislavkorst Dec 13 2021 at 14:08

Добрый день!

Для борьбы с изменяющимся паттерном данных существует пайплайн дообучения моделей. Он запускается с некоторой периодичностью. Качество новой модели валидируется на актуальной отложенной выборке, и в случае удовлетворительной предсказательной способности, новая модель заменяет старую.

Из интересного по сервису аномалий, процент аномальных метрик очень мал по сравнению с нормальными паттернами, поэтому для исследований нужно было учиться инжектить аномалии в сервисы самостоятельно, что было не очень просто. Инструменты стресс-тестирования помогли.

serebryakovsergey Dec 13 2021 at 19:38

Спасибо! Мы в одном из проектов похоже дигались в этом же направлении, и да, мы тоже написали наш Anomaly Injector (для временных рядов) который мы используем для валидации моделей.