Pull to refresh

Исследование: доступ к тысячам приватных GitHub-репозиториев можно получить с помощью Copilot

Reading time1 min
Views8.4K

Нейросетевой помощник Copilot может генерировать код на основе приватных GitHub-репозиториев, которые ранее были публичными и попали в датасет. Об этом рассказали исследователи израильской компании Lasso по кибербезопасности.

Сотрудники компании Lasso обнаружили в сгенерированном коде от Copilot фрагмент собственного закрытого репозитория. После этого исследователи начали расследование, чтобы выяснить, как данные попали в обучающий набор данных. Оказалось, что по ошибке компания на короткое время открыла репозиторий, этого времени было достаточно, чтобы система проиндексировала код и внесла его в датасет.

Исследователи отмечают, что если правильно сформировать запрос к языковой модели, то можно получить любые данные из некогда публичного проекта. В качестве эксперимента компания Lasso решила проверить другие репозитории. Для этого исследователи собрали список репозиториев, которые были публичными в 2024 году, и проанализировали их с помощью системы кэширования Bing. Выяснилось, что данные из более 20 тыс. уже приватных или удалённых репозиториев всё ещё можно получить с помощью Copilot.

Проблема затрагивает более 16 тыс. организаций, включая Amazon Web Services, Google, IBM, PayPal, Tencent и саму Microsoft. Lasso рассказала о проблеме разработчикам Microsoft. Инженеры присвоили угрозе низкий статус опасности и просто убрали ссылки на кэш Bing из поисковой выдачи. При этом, как утверждают исследователи, данные всё равно можно получить с помощью Copilot.

Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
Total votes 7: ↑5 and ↓2+5
Comments13

Other news