Обсуждение
Обсуждение

В инфраструктурных проектах цена ошибки может измеряться миллионами и репутацией компании. Но практика показывает: поиск виноватых редко помогает избежать повторения проблем, гораздо эффективнее работает культура постмортем-разборов — честный анализ инцидентов без наказаний, который превращает ошибки в системные улучшения.

В инфраструктурных проектах цена ошибки редко бывает символической. Это может быть простой систем, финансовые потери, штрафы, иногда репутационные риски для клиента и подрядчика. В такой среде логично ожидать жесткой культуры поиска виноватых. Но практика показывает обратное: чем сложнее технологическая среда, тем бесполезнее модель «найти виновного и наказать». Она не снижает количество ошибок. Иногда она даже увеличивает их. За годы работы в инфраструктурных проектах я убедился, что единственный способ реально повышать качество, это культура разбора ошибок без наказаний. В инженерной среде это часто называют постмортем.

Почему поиск виноватых не работает

В ИТ есть старая поговорка: «Быстро поднятое не считается упавшим». Почти каждый инженер слышал её ещё в начале карьеры. В этой фразе есть важный инженерный принцип: в момент инцидента главная задача — не выяснять, кто виноват, а максимально быстро восстановить систему.

Когда что-то падает, инфраструктура, сервис или интеграция, время становится главным фактором. Клиенту не важно, кто допустил ошибку, ему важно, чтобы система снова работала. Поэтому в инженерных командах почти инстинктивно действует правило: сначала поднимаем систему, потом разбираемся.

В моей практике был показательный случай, в одном из проектов мы ошиблись в проектировании при выборе типа лицензий, архитектура предполагала высокую доступность, но выбранная редакция лицензии ее не поддерживала, ошибка была обнаружена уже в момент развёртывания. Технически можно было долго обсуждать, кто допустил просчёт. Но у проекта был заказчик, техническое задание и сроки. В итоге решение было принято быстро — расширение лицензии было закуплено фактически за наш счет, чтобы система соответствовала требованиям. С точки зрения управления это была простая логика. Если инженер ошибся, это не только его ошибка, это и ошибка руководителя, который не обеспечил достаточную проверку или обучение. Для клиента же важно одно — решение должно работать.

Обсуждение
Обсуждение

Что происходит после инцидента

То, что поиск виноватых не работает в моменте, не означает, что ошибки игнорируются. Напротив, в инженерной культуре разборы проводятся очень регулярно. В нашей практике это называется постмортем-анализом. Разбор проводится не только после аварий. Иногда его поводом становится любой проект, в котором возникли сложности: нестандартная технология, отклонения от сроков, неожиданные архитектурные ограничения.

Иногда мы разбираем даже успешные проекты. Причина проста: успех тоже нужно анализировать. Разбор обычно проводится довольно быстро — пока детали не стерлись из памяти. В обсуждении участвуют руководитель проекта, архитектор, инженеры, а иногда и команда продаж. Это важно, потому что техническая проблема может оказаться следствием организационного решения или неверных ожиданий заказчика.

Вопрос, с которого начинается почти любой разбор, звучит очень просто: «что произошло?» Это тот же принцип, который инженеры используют в повседневной работе. Если где-то возникает сбой или странное поведение системы, первое действие — разобраться, почему.

Как понять, где ошибка человека, а где проблема системы

В инфраструктурных проектах различить человеческую ошибку и системный дефект часто помогает повторяемость. Если инженер пять раз выполняет одну и ту же операцию успешно, а на шестой происходит отклонение, скорее всего, это человеческий фактор. Если же одна и та же операция приводит к проблемам регулярно, то вопрос уже не к человеку, а к архитектуре решения, продукту или процессу.

Это особенно актуально в условиях внедрения новых технологий или работы с различным программным обеспечением. Один и тот же продукт может вести себя по-разному в разных инфраструктурах. Иногда заказчик сам не знает всех особенностей своей среды. Бывает, что в инфраструктуре годами существуют настройки, о которых помнил только один инженер, давно покинувший компанию. В таких случаях задача команды — не искать виновного, а найти корневую причину.

Иногда источник проблемы лежит не в технологии и не в действиях инженеров. Иногда это управленческое решение. Например, команда может предупреждать о рисках, но проект всё равно запускается из-за сроков или внешних факторов. Если впоследствии эти риски реализуются, разбор проводится точно так же. В инженерной культуре нет исключений для управленческих ошибок. Они анализируются наравне с техническими. Единственная цель такого анализа — понять, какие сигналы были пропущены и как в будущем их не игнорировать.

Что меняется после серьёзного разбора

Хороший постмортем редко заканчивается просто обсуждением. Иногда после разбора меняются процессы, иногда корректируются регламенты, иногда появляется дополнительный этап проверки архитектуры или документации. В одном из случаев мы обнаружили, что внутренний расчет сроков проекта занимает слишком много времени. Из-за этого компания иногда просто не успевала участвовать в конкурсах. После разбора процесс был пересобран — расчёты стали выполняться в несколько раз быстрее. Это потянуло за собой изменения в работе нескольких команд.

Такие изменения часто выглядят радикально, но именно они позволяют избежать повторения ошибок. Инженерная культура любит разбирать не только сбои, но и победы. Причина проста: важно понимать, почему проект получился успешным. Иногда это связано с техническим решением, иногда — с правильной коммуникацией с заказчиком, иногда, с тем, что ключевые обсуждения велись не с ИТ-директором, а с финансовым директором или главным инженером. Такие наблюдения превращаются в практики, которые потом используют другие команды.

Обсуждение
Обсуждение

Когда культура разбора ошибок становится зрелой

Самый простой индикатор зрелости такой культуры — уменьшение количества одинаковых ошибок. Второй признак — когда команды начинают разбирать проблемы самостоятельно, без участия руководителей более высокого уровня. И, пожалуй, самый важный сигнал — когда инженеры на разборах не пытаются оправдываться, а спокойно фиксируют факты и обсуждают решения. Это означает, что культура постмортема действительно работает.

Парадоксально, но именно среда, в которой ошибки можно открыто обсуждать, делает их значительно реже. А для сложных инфраструктурных проектов это, пожалуй, самый надёжный способ повышать качество.

Виталий Попов

Директор департамента реализации инфраструктурных проектов «Софтлайн Решения»