
Независимая проверка показала, что сбой в работе австралийского оператора Optus, в результате которого экстренные службы были недоступны 14 часов, был вызван десятью ошибками в ходе обновления брандмауэра. Инцидент произошёл 18 сентября и привёл к двум смертельным случаям: 455 звонков в службы экстренной помощи не дошли до адресатов.
Согласно отчёту, инженеры Optus и подрядчика Nokia допустили десять ошибок при выполнении шестнадцатого по счёту обновления брандмауэра. Предыдущие пятнадцать обновлений прошли без инцидентов. Основной причиной сбоя стали неверные инструкции, переданные Nokia: компания классифицировала обновление как не влияющее на сетевой трафик, и Optus не провела стандартные проверки и оценку рисков.
Отчёт указывает, что инженеры Optus не участвовали во всех совещаниях по подготовке обновления, а при выполнении работ не следовали необходимым инструкциям. После внедрения изменений начались проблемы с маршрутизацией трафика, но и Optus, и Nokia проигнорировали предупреждения системы.
Дополнительной ошибкой стала аналитика на основе агрегированных данных по всей сети. Из-за отсутствия детальных региональных показателей локальную проблему с маршрутизацией звонков на номер 000 обнаружили слишком поздно. В результате Optus узнала о неполадках не от мониторинга сети, а из жалоб клиентов в кол‑центр.
Автор независимого отчёта Керри Шотт отмечает, что основной причиной инцидента стали слабое управление и отсутствие контроля за процессами. По её словам, инженеры уделяли больше внимания скорости выполнения задач, чем правильности, и не обращались за советом к более опытным коллегам.
Кроме того, отчёт обращает внимание на технические сложности перенаправления вызовов в экстренные службы во время сбоев. Разные модели смартфонов реагируют на такие ситуации по‑разному, а устройства, купленные за границей или онлайн, могут не поддерживать корректную работу с австралийским номером 000. Optus ведёт список протестированных устройств, однако эта система не охватывает все возможные модели.
Проверка завершилась рекомендацией компании отказаться от изолированной структуры подразделений, улучшить внутреннее взаимодействие и разработать более эффективные механизмы реагирования на кризисные ситуации. Документ также резко критикует технические команды, участвовавшие в обновлении, назвав случившееся «провалом стандартной процедуры, который обернулся катастрофическими последствиями».
