
В публичных репозиториях GitLab оказалось более 17 000 секретов — ключей API, токенов, паролей и другой личной информации. Инженер по безопасности Люк Маршалл просканировал все 5,6 млн публичных репозиториев GitLab Cloud с помощью опенсорс-утилиты TruffleHog и выявил 17 430 секретов в более чем 2800 доменах.
Маршалл использовал публичный API GitLab, собственный Python-скрипт для постраничного просмотра и AWS-сервисы — Simple Queue Service (SQS) и Lambda. При помощи TruffleHog он проверил код в репозиториях на наличие конфиденциальных учётных данных, таких как ключи API, пароли и токены.
Плотность секретов в GitLab оказалась на 35% выше, чем в Bitbucket, который Маршалл исследовал ранее (6212 секретов в 2,6 миллиона репозиториев). Большинство утечек новее 2018 года, но есть и старые — с 2009 года. Лидерами стали учётные данные Google Cloud Platform (более 5200), за ними следуют ключи MongoDB, токены Telegram-ботов и OpenAI.
В рамках ответственного раскрытия Мар��алл автоматизировал уведомления владельцам доменов с помощью Claude Sonnet 3.7 и Python-скриптов. Поиск секретов принёс ему $900 вознаграждения. Отмечается, что многие организации отозвали конфиденциальные данные, но часть по-прежнему доступна.
Помимо GitLab и Bitbucket, Маршалл анализировал набор данных Common Crawl, который используется для обучения моделей искусственного интеллекта. Проверка выявила 12 000 единиц конфиденциальной информации.
