Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей / Хабр

Theguardian.com опубликовал выводы из исследования, сделанного двумя именитыми вузами: Бельгийским университетом UCLouvain и Imperial College London: ученые подтверждают, что существует множество способов связать любые анонимные данные с реальными людьми.
К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

«Анонимизированные» данные лежат в основе множества процессов: от современных медицинских исследований до персональных рекомендаций и ИИ-технологий. К сожалению, согласно проведённому исследованию, в любых сложных датасетах практически невозможно успешно анонимизировать данные.

Из анонимизированного датасета должна быть полностью удалена вся идентифицируемая персональная информация, чтобы остались только основные полезные данные, которыми исследователи могут оперировать, не опасаясь нарушить приватность. Например, больница может удалить имена, адреса и даты рождения пациентов из массива историй болезней в надежде, что исследователи смогут использовать остальные данные для обнаружения скрытых связей между состояниями.

Но, на практике, данные можно разными способами деанонимизировать. В 2008-м анонимный датасет рейтинга фильмов от Netflix был деанонимизирован с помощью сравнения рейтингов с данными на сайте IMDb. Адреса проживания нью-йоркских таксистов были раскрыты на основе анонимного датасета отдельных поездок по городу. А предложенные австралийским Минздравом анонимные данные о медицинских счетах могут быть идентифицированы с помощью перекрёстного сопоставления с «прозаичными фактами», такими как годы рождения матери и ребёнка, или матери и нескольких детей.

Исследователи из бельгийского Лувенского католического университета (UCLouvain) и Имперского лондонского колледжа построили модель для оценки лёгкости деанонимизации любого произвольного датасета. К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

Несмотря на это, брокеры данных вроде Experian продают «деидентифицированные» датасеты, содержащие о каждом человеке гораздо больше информации. Исследователи указали на данные, проданные компании-разработчику ПО Alteryx — в нём содержится по 248 атрибутов для 120 млн американских домохозяйств.

Исследователи утверждают, что их результаты доказывают недостаточность усилий по анонимизации для соответствия требованиям законодательства, например, GDPR (general data protection regulation).

«Наши результаты опровергают утверждения о том, что восстановление идентификационной информации невозможно…».

«Дальше они ставят под сомнение соответствие текущих методик деидентификации стандартам анонимизации из современных законов о защите данных, таких как GDPR и CCPA (Калифорнийский закон о неприкосновенности частной жизни потребителей), и подчеркивают необходимость выхода, с правовой и нормативной точек зрения, за рамки модели деидентификации «выпустил-и-забыл»».

Другие подходы к обработке массивных датасетов могут больше соответствовать современным критериям защиты информации. Дифференцированная приватность, практикуемая компаниями вроде Apple и Uber, намеренно размывает каждую единицу информации усреднённо по всему датасету, тем самым мешая деанонимизации с помощью предоставления технически некорректной информации о каждом человеке.

Гомоморфное шифрование не позволяет считывать данные, но ими всё ещё можно манипулировать. Результаты тоже будут зашифрованы, но их может расшифровать контролёр данных. И в конечном итоге, мы придём к синтетическим датасетам, что подразумевает обучение ИИ на реальной, идентифицируемой информации, на основе которой будут генерироваться новые, фальшивые единицы данных, которые статистически будут идентичны, но при этом никак не связаны с конкретными людьми.