Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей

Автор оригинала: Alex Hern
  • Перевод


Theguardian.com опубликовал выводы из исследования, сделанного двумя именитыми вузами: Бельгийским университетом UCLouvain и Imperial College London: ученые подтверждают, что существует множество способов связать любые анонимные данные с реальными людьми.
К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

«Анонимизированные» данные лежат в основе множества процессов: от современных медицинских исследований до персональных рекомендаций и ИИ-технологий. К сожалению, согласно проведённому исследованию, в любых сложных датасетах практически невозможно успешно анонимизировать данные.

Из анонимизированного датасета должна быть полностью удалена вся идентифицируемая персональная информация, чтобы остались только основные полезные данные, которыми исследователи могут оперировать, не опасаясь нарушить приватность. Например, больница может удалить имена, адреса и даты рождения пациентов из массива историй болезней в надежде, что исследователи смогут использовать остальные данные для обнаружения скрытых связей между состояниями.

Но, на практике, данные можно разными способами деанонимизировать. В 2008-м анонимный датасет рейтинга фильмов от Netflix был деанонимизирован с помощью сравнения рейтингов с данными на сайте IMDb. Адреса проживания нью-йоркских таксистов были раскрыты на основе анонимного датасета отдельных поездок по городу. А предложенные австралийским Минздравом анонимные данные о медицинских счетах могут быть идентифицированы с помощью перекрёстного сопоставления с «прозаичными фактами», такими как годы рождения матери и ребёнка, или матери и нескольких детей.

Исследователи из бельгийского Лувенского католического университета (UCLouvain) и Имперского лондонского колледжа построили модель для оценки лёгкости деанонимизации любого произвольного датасета. К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».

Несмотря на это, брокеры данных вроде Experian продают «деидентифицированные» датасеты, содержащие о каждом человеке гораздо больше информации. Исследователи указали на данные, проданные компании-разработчику ПО Alteryx — в нём содержится по 248 атрибутов для 120 млн американских домохозяйств.

Исследователи утверждают, что их результаты доказывают недостаточность усилий по анонимизации для соответствия требованиям законодательства, например, GDPR (general data protection regulation).
«Наши результаты опровергают утверждения о том, что восстановление идентификационной информации невозможно…».

«Дальше они ставят под сомнение соответствие текущих методик деидентификации стандартам анонимизации из современных законов о защите данных, таких как GDPR и CCPA (Калифорнийский закон о неприкосновенности частной жизни потребителей), и подчеркивают необходимость выхода, с правовой и нормативной точек зрения, за рамки модели деидентификации «выпустил-и-забыл»».

Другие подходы к обработке массивных датасетов могут больше соответствовать современным критериям защиты информации. Дифференцированная приватность, практикуемая компаниями вроде Apple и Uber, намеренно размывает каждую единицу информации усреднённо по всему датасету, тем самым мешая деанонимизации с помощью предоставления технически некорректной информации о каждом человеке.

Гомоморфное шифрование не позволяет считывать данные, но ими всё ещё можно манипулировать. Результаты тоже будут зашифрованы, но их может расшифровать контролёр данных. И в конечном итоге, мы придём к синтетическим датасетам, что подразумевает обучение ИИ на реальной, идентифицируемой информации, на основе которой будут генерироваться новые, фальшивые единицы данных, которые статистически будут идентичны, но при этом никак не связаны с конкретными людьми.
Поделиться публикацией
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама

Комментарии 25

    0
    В некоторых компаниях аналитикам просто запрещено делать в такой базе запросы, которые содержат количество записей меньше определенного порогового значения. Таким образом, анонимность более-менее сохраняется.
      +11
      1. Что значит "более-менее"?
      2. В "некоторых" компаниях, "некоторым" сотрудникам, кое-что запрещено, Вы это всерьёз? А как насчёт государства, хакеров?
        –1
        Интересно. А как это технически реализовано? Если у аналитика есть доступ к SQL или к написанию кода для MapReduce, то даже поставив прокси сервер, парсящий дерево запроса и дропающий «опасные» запросы (например, делая предзапрос на count(*) на необходимые таблицы с необходимыми условиями, и сравнивая его с порогом), перед СУБД, можно составить запрос, аггрегирующий миллион записей, при этом умножающий значения 999999 из них на 0.
        Если же такого доступа нет, а есть что-то вроде уродских блок-схем и программирования мышкой, то да, верю, что, потеряв в перфомансе и возможностях, можно добиться сохранения анонимности, но тем, кто в таких условиях платит аналитикам ЗП, и ждет от них адекватного результата, можно только посочувствовать…
          0
          Все запросы логируются
          У ИБ будет куча вопросов по каждому запущенному вручную
            –1
            Иногда и нейро сеть подключают для анализа логов, обученную на поиск определенных запросов.
        +20
        Сдаётся мне что фраза:
        анонимность более-менее сохраняется

        полнейший эквивалент: «немножко беременна».-)
          +1
          Не совсем так. Могут определить какую-то группу людей. Скажем, жителей определенного микрорайона или пользователей провайдера. Вроде и сильно сужается круг по сравнению со всеми жителями Земли (или кто там может быть в датасете) но это далеко не идентификация каждого конкретного человека.
            0
            А кому это вообще нужно? С большим успехом можно взломать почту/базу данных/что-то ещё. Конечно, по сравнению с населением Земли, микрорайон будет очень даже конкретным, но дальше процесс если и пойдёт, то довольно туго… Кому это надо?
          +2
          Кто владеет информацией, тот правит миром. На земле чуть больше 7 миллиардов человек, а значит для идентификации достаточно всего 33 бит.

          Если бы кто-то действительно ставил целью дать возможность гражданам обращаться с ПД как со своей собственностью, то для этого бы не требовалось городить весь этот правовой огород. Для регулирования было бы достаточно существующих норм в области авторского права и интеллектуальной собственности.

          Очевидно, что данные с возможностью идентификации ценнее, нежели без нее. Задача «защиты» ПД не в ограничении сбора таких данных. Напротив, многие принимаемые законы направлены на упрощение идентификации пользователей. Цель состоит в создании условий при которых массивы данных будут аккумулироваться только на подконтрольных властям территориях и снижении утечек наружу. Вопросы анонимности больше касаются последнего — что, в какой мере и на каких условиях должно раскрываться. Граждане, понятное дело, здесь мимо кассы.
            +1
            > чуть больше 7 миллиардов человек, а значит для идентификации достаточно всего 33 бит.

            Ну это верно только если у каждого человека уникальный сет (set) демографических атрибутов (битов). Что конечно же не так.
              +3
              Ну, в статье вон пишут, что оперируют базами с 248 атрибутами, причем ещё неизвестно, сколько значений у каждого атрибута. И только для одной страны. С такой избыточностью вычислить можно даже кота и его коврик.
                +1

                Это только при стабильности атрибутов и уникальности значений, если атрибутов 100500, но уникальных комбинаций 500, то вы неотличимы от коврика (да и для большинства задач не нужно — ну покажут коврику рекламу и ничего страшного, всё равно за неё уже заплатили). Если у вас значения плавают, то сопоставит сильно сложнее (скоращает количество параметров).

              0
              Ну или так: чтобы свободными данными не пользовался любой желающий бесплатно. нужна инфа — плати сюда.
                +10
                Вообще не понимаю, какой смысл защищать ПД от «утечек».
                Если ПД утекли (а они утекли, я еще в 2000г. находил свои ПД(паспорт, ОМС и т.п.) в различных «базах» на CD, и я в тех базах был не один) то обратно их не вернешь.
                И поменять скомпроментированные данные, мягко говоря, проблематично:
                • Заменить ФИО, адрес и т.п.
                • Поменять все удостоверения личности и т.п.
                • Изменить все документы на «частную собственность».
                • Обновить все заключенные договора.
                • и т.д. и т.п.

                Более практичнее ( с точки зрения простого гражданина конечно же), было бы разработать и начать внедрять «систему», которая сделает использование ПД во вред их владельцам невозможным, или хотя бы сильно затруднит.

                Ну а так как всем рулят «рыночные отношения», пока будет спрос(на ПД) — будет предложение.
                Ужесточение наказания за «кражу» ПД просто увеличит доходы одних и немного уменьшит доходы других участников преступления.
                И никуда мы не денемся, с подводной лодки-)
                  +1
                  Более практичнее ( с точки зрения простого гражданина конечно же), было бы разработать и начать внедрять «систему», которая сделает использование ПД во вред их владельцам невозможным, или хотя бы сильно затруднит.

                  Я тоже о таком думал. Например что бы не надо было бояться оставить где-то паспортные данные. Но тут, кажется, немного другая проблема. Связь ваших идентификационных данных и некоторых данных которые бы вы не хотели, что-бы связали с вами. Например, медицинские данные или данные покупок — в том плане что например связать записи из условного датасета о венерических заболеваниях с реальным человеком.

                    0
                    А каким образом можно сделать использование ПД во вред их владельцам невозможным с учётом «рыночных отношений»? У вас прям есть идеи?
                      –1
                      Идеи?
                      У меня есть кое-что получше — алгоритм!-)

                      1.Надо собрать статистику случаев «неправомерного» использования ПД.
                      2.Разбить эти «случаи» на категории по признакам «похожести» случаев.
                      3.Оценить каждую категорию по критерию наибольшего вреда.
                      4.Взять самую вредную категорию и собрать по ней больше информации по способам «эксплуатации уязвимости» ПД.

                      Думаю, этих данных должно хватить на первое время, чтобы генерировать идеи-)
                        +1
                        Ну не знаю, может быть я пессимист, но по степени реализуемости ваш алгоритм напоминает известный мем:
                        Step 1. Collect underpants.
                        Step 2.?
                        Step 3. PROFIT
                      +2
                      Во многом соглашусь с вами, что с подводной лодки деться куда-то сложно. Большинству и не нужно.
                      Но необходимо иметь инструменты, которые обеспечат возможность быть анонимным тогда и когда захочешь. То есть, «окей, место жительства вы мое выяснили, но съездить и купить себе новую книжку (предположим), а также заплатить за нее полностью приватно, я могу достаточно просто.
                      Полной анонимности нет, не было и не будет (да и не надо). Даже в нетехнологическом обществе существует человеческая память, которая будет кого-то идентифицировать.
                      Просто надо дать инструменты для осуществления анонимного взаимодействия между людьми и привить культуру их использования: от темных стекол в такси и ношения масок до использования TOR для входа в сеть и Stegos для платежей и приватного общения.
                      +2
                      С какого это ПД должны быть собственностью? ПД это индентификатор. Как название фильма (и уточняющие данные, типа года выпуска). Если названия нельзя будет упоминать в суе без благословления правообладателя, то сильно упростило бы работу с негативными отзывами, конечно. Но обществу такое не нужно.
                        +1
                        Если исходить из такой точки зрения и принять, что ПД это публичный идентификатор, тогда зачем весь этот цирк с ограничениями по их хранению и обработке?
                      0
                      Неуловимый Джо неуловим только потому, что он нафиг никому не сдался. Все упирается в цену вопроса! Следы всегда остаются будь они реальные или цифровые. Даже пресловутый ТОР и тот не дает гарантии анонимности. Если кто-то человек/организация/страна очень захотят выяснить личность и найти это будет вопросом времени. (может быть это будет несколько отвлеченным примером, но в 1977 году после теракта в метро буквально из осколков нашли всех причастных)
                        +1
                        Тогда уж надо понимать, что и шифрование рано или поздно «хакнут».
                          +2
                          совершенно верно. У любой информации есть время жизни и относительно этого надо выбирать шифрование. КАк у военных есть оперативная информация которая устаревает уже через 4..8 часов и для нее нет смысла использовать супер стойкие шифры, достаточно и простого, который хоть и взламывается то происходит это после потери актуальности передаваемого зашифрованным сообщения
                        0
                        Вопрос, какой вред от такого не на 100% подтверждённого деанона. Самая весомая опасность — что медицинские (и не только) страховые компании получат возможность назначать более индивидуальные страховые премии в зависимости от состояния здоровья застраховываемого. Типа везде ругаемого китайского персонального рейтинга, но только в частном порядке и, вроде как, без обязательности применения.

                        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                        Самое читаемое