Извлечение обучающих данных из ChatGPT
Группа исследователей из Google DeepMind, University of Washington, Cornell, CMU, UC Berkeley и ETH Zurich разработала методику атаки, позволяющую извлекать обучающие данные из модели ChatGPT. Это открытие, описанное в их недавней статье, поднимает важные вопросы о защите конфиденциальности и безопасности данных, используемых для обучения моделей, таких как GPT.
Авторы смогли извлечь несколько мегабайт обучающих данных за примерно двести долларов и дают оценку, что примерно гигабайт обучающего набора данных ChatGPT может быть извлечен если потратить больше.
Метод атаки довольно "глуп" — промт, который инструктирует модель бесконечно повторять слово, что приводит к тому, что модель начинает воспроизводить точные копии своих обучающих данных, включая конфиденциальную информацию, такую как адреса электронной почты и номера телефонов.

Уникальность этой атаки заключается в том, что в ней использовалась модель в производственной среде, настроенная таким образом, чтобы не выдавать большое количество обучающих данных. Однако, исследователи обнаружили уязвимость, которая позволила им обойти процедуру выравнивания модели, предназначенную для защиты конфиденциальности. Это показывает, что даже продвинутые системы искусственного интеллекта, которые претерпели сложные процессы настройки и оптимизации, все еще могут содержать скрытые уязвимости, доступные для эксплуатации.