![](https://habrastorage.org/r/w1560/getpro/habr/upload_files/ddc/cc4/769/ddccc4769345ab4b6e4d6aeff17bb820.png)
В марте сервисы Datadog не работали более суток. Что пошло не так, как отреагировала команда инженеров, и что можно извлечь из этого инцидента? Это перевод эксклюзивного исследования, которое провел Гергели Орош (Gergely Orosz), консультант mobile.dev, автор нескольких книг по работе с инфраструктурой, в прошлом — инженер в Uber, Skype, Microsoft.