Комментарии 4
Я бы добавил ещё один пункт в заключение:
- Грамотно заводи постмортем, отрабатывай его и храни историю произошедших аварий, чтобы легко можно было найти то, что уже устранялось, кем и как.
Это существенно ускоряет время тушения.
Повторные инциденты - не такое уж и редкое явление в нашей области.
А как происходит "наказание невиновных и награждение непричастных" по результатам разбора полетов? Или скажете что у вас такого нету.
А смысл кого-то наказывать? Обычно инцидент — это вина сразу нескольких человек\отделов: где-то плохо код написали, где-то плохо его проревьюили, где-то плохо протестировали.
Поэтому обычно пытаются подумать над тем, что привело к проблеме и как ее не допустить в будущем.
Например изменением регламентов или вводом новых инструментов.
Поэтому обычно пытаются подумать над тем, что привело к проблеме и как ее не допустить в будущем.
Например изменением регламентов или вводом новых инструментов.
Классная статья, жизненная. "Опыт не бывает отрицательным", такое резюме.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Как упавший продакшен делает нас лучше