Как стать автором
Обновить

5 млн долларов за строчку кода: подробный разбор сбоя сервисов Datadog

Уровень сложностиСредний
Время на прочтение24 мин
Количество просмотров13K
Всего голосов 46: ↑46 и ↓0+46
Комментарии11

Комментарии 11

Предпринятые меры
...
2. Отключила автоматические обновления.

Серьезно? Такая большая компания использует свой родительский образ для k8s и включает автоматические обновления ? Без присмотра ?
Из серии - не ставьте в подах образ с тегом latest, ну это же все знают, да ?)
Это должно было случиться рано или поздно. ИМХО крайне детская ошибка.

4. Почему не помогла работа в 5 регионах у 3 разных облачных провайдеров?

Кажется они сами не следовали своим же правилам из раздела выше.

Ошибка детская и глупая, но это не значит, что у них дилетанты работают. Ошибаются и косячат все. Не подумали, недосмотрели - люди есть люди. Чтобы система была надёжной надо не допустить ошибок в тысячах мест, а это практически недостижимо.

Я бы даже сказал наоборот - если ломается что-то запупыристо сложное из-за очень хитровыкопанного бага на границе пяти разных систем, это как раз признак плохого инжиниринга - система сложнее, чем способности людей держать ее под контролем. А когда система сделана очень простой (а по постмортему вроде похоже на то, что разработчики думали от правильных вещах), остаются только такие - глупые ошибки.

Показалось странным, да, что используют убунту, да ещё и с включённым лайвом. Опять же, вкатывать обновления везде и одновременно...

Более того, логично было бы хотя б на серверах маршрутизации использовать не один и тот же дистриб, который у них вообще везде, а два или три разных (хотя бы разные из ветки debian, в идеале debian + bsd + на вкус). Дороже и поле атаки расширяется – да, но устойчивость от таких "непредусмотренных неожиданностей" растёт. Впрочем, может, делают, просто ещё не успели похвастаться.

нет никакой разницы сколько у вас регионов, если деплой идёт практически одновременно на все...

Спасибо, что так глубоко копаете) Будем знать!

Классный материал, спасибо !

Я правильно понял, и они прозевали включенный unattenden-upgrades в своём образе? И за всё время, пока он крутился, мониторинг не засёк странные перезапуски сервисов по всем датацентрам в одно и то же время?

Из контекста сложилось впечатление, что они просто эти показания системы мониторинга прозевали как неважные

На виртуальных машинах работает Ubuntu Linux

TL;DR

Дальше можно не читать

8 марта, 07:00 CEST (01:00 EST): На десятках тысяч виртуальных машин (ВМ) обновляется операционная система. Эти машины начинают таинственным образом исчезать из сети.

хехе прикол, не оттестированую йню сразу на десятках тысяч виртуалок запускать, мен как одмину локаллхоста даже не поседе от таких маштабов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий