Error Budget: сколько ошибок может позволить себе ваш сервис
Есть разговор, который рано или поздно случается в каждой команде. Бизнес приходит и говорит: «Нам нужна стопроцентная надёжность». И вот тут у хорошего инженера должен включиться внутренний голос, который вежливо, но твёрдо отвечает: «Нет».
Вместе с Кириллом Борисовым, TeamLead Incident Management из VK, разобрались, почему 100% uptime — это не цель, а симптом. Симптом того, что команда ещё не договорилась, сколько ошибок она на самом деле может себе позволить — и зачем вообще это считать.
Что на повестке
Error Budget — это не про то, сколько раз вам разрешили упасть. Это про то, как инженеры и бизнес наконец начинают говорить на одном языке: релизы, риски и стабильность в одной системе координат. В выпуске разбираем, как объяснить бюджет ошибок продакту, который слышит «бюджет» и думает о деньгах, почему идеально надёжная система — это не достижение, а тревожный сигнал, и как понять, что бюджет уже горит — до того, как это почувствуют пользователи.
Отдельно досталось теме «девяток»: сколько стоит каждая из них и в какой момент гнаться за следующей перестаёт иметь смысл.
Если вы хоть раз объясняли стейкхолдеру почему нельзя катить фичи и при этом держать SLA 99.99% — этот выпуск про вас.
Слушайте и смотрите на площадках
И подписывайтесь на телеграм-канал Avito SREда
Ещё больше экспертизы собрали для вас на сайте: смотрите наши лонгриды, новости, плейлисты видео. А узнать, как стать частью команды AvitoTech, можно вот здесь.
