Нейросетевой помощник Copilot может генерировать код на основе приватных GitHub-репозиториев, которые ранее были публичными и попали в датасет. Об этом рассказали исследователи израильской компании Lasso по кибербезопасности.
Сотрудники компании Lasso обнаружили в сгенерированном коде от Copilot фрагмент собственного закрытого репозитория. После этого исследователи начали расследование, чтобы выяснить, как данные попали в обучающий набор данных. Оказалось, что по ошибке компания на короткое время открыла репозиторий, этого времени было достаточно, чтобы система проиндексировала код и внесла его в датасет.
Исследователи отмечают, что если правильно сформировать запрос к языковой модели, то можно получить любые данные из некогда публичного проекта. В качестве эксперимента компания Lasso решила проверить другие репозитории. Для этого исследователи собрали список репозиториев, которые были публичными в 2024 году, и проанализировали их с помощью системы кэширования Bing. Выяснилось, что данные из более 20 тыс. уже приватных или удалённых репозиториев всё ещё можно получить с помощью Copilot.
Проблема затрагивает более 16 тыс. организаций, включая Amazon Web Services, Google, IBM, PayPal, Tencent и саму Microsoft. Lasso рассказала о проблеме разработчикам Microsoft. Инженеры присвоили угрозе низкий статус опасности и просто убрали ссылки на кэш Bing из поисковой выдачи. При этом, как утверждают исследователи, данные всё равно можно получить с помощью Copilot.