Исследовательская группа Microsoft по искусственному интеллекту опубликовала набор обучающих данных с открытым исходным кодом на платформе GitHub с токеном SAS и случайно раскрыла 38 ТБ конфиденциальных и личных данных, включая резервную копию диска рабочих станций двух разработчиков компании. Полный технический разбор этого инцидента выполнили эксперты ИБ-платформы Wiz.
Расследование показало, что разработчики Microsoft при работе с GitHub выложили в общий доступ в репозитории GitHub в открытом виде токен подписи общего доступа (shared-access-signature, SAS), а также неправильно настроили параметры доступа к рабочему облачному хранилищу внутренних данных на платформе Azure, предоставив через этот токен расширенные возможности доступа (overly permissive). Это позволило любому пользователю, кто получил доступ к токену и знал внешний сетевой адрес внутреннего облачного хранилища, получить полный контроль над всеми данными в определённой области хранилища Azure, принадлежащей двум учётным записям сотрудников Microsoft.
Эксперты по ИБ смогли получить доступ архивы объёмом 38 ТБ, включая личные резервные копии данных двух сотрудников Microsoft, содержащие файлы с рабочем документацией, паролями, секретными ключами и более 30 тыс. внутренних сообщений из Microsoft Teams.
Оказалось, что эти данные были доступны с 2020 года. Специалисты из Wiz уведомили Microsoft о проблеме 22 июня 2023 года, а через два дня компания отозвала токен SAS.
Расследование инцидента показало, что данные клиентов Microsoft в утечке отсутствуют. Однако инцидент мог позволить злоумышленникам удалять, изменять или внедрять файлы в системы и внутренние службы Microsoft в течение длительного времени в рамках определённой области хранилища Azure.
Microsoft пояснила, что усовершенствовала систему проверки при работе с GitHub, а также начала отслеживать все общедоступные изменения на платформе с открытым исходным кодом на предмет случаев, когда учётные данные или другие секреты там выложены сотрудниками компании в виде обычного текста.
Основатель Wiz Ами Латтвак пояснил СМИ, что уже несколько лет многим командам разработчиков приходится манипулировать огромными объёмами данных, делиться ими со своими коллегами или сотрудничать в общедоступных проектах по ИИ с открытым исходным кодом, а такие случаи, как с Microsoft, становится всё труднее отслеживать и избегать. По его мнению, ИИ открывает огромный потенциал для технологических компаний. Однако по мере того, как специалисты по данным и инженеры стремятся внедрить в производство новые решения искусственного интеллекта, терабайты данных, с которыми они работают, требуют дополнительных проверок и мер безопасности при выкладывании такой информации в общий доступ.