Идентификация личности на основе данных о перемещениях (трекинга)

    Идентификация личности на основе данных о перемещениях


    Не так давно в сети наткнулся на занимательную статью — аналитический отчет о том, как можно практически с 95 % гарантией идентифицировать личность пользователя мобильного устройства, зная только лишь 4 точки (по сути — базовые станции), через которые он выходил на связь через определенные промежутки времени (1,5-2 часа). В чем там оказалась суть…

    Среди научных исследований в области управления доступом на основе данных о местоположении особо стоит отметить работу группы американских и английских исследователей [1], которые провели детальный анализ данных о перемещениях примерно 1,5 млн. абонентов сотовой сети связи в течении более чем полутора лет. Задачей анализа было выявить насколько уникальными являются маршруты передвижения абонентов и возможно ли, обладая лишь только данными о пребывании абонента в определенных точках в течении некоторого времени, достаточно точно идентифицировать его личность. Результатом исследования стал вывод, что, зная всего 4 пространственно-временных точки, можно с вероятностью в 95 % идентифицировать человека.

    Как отмечают исследователи, данными о перемещениях абонентов уже давно пристально интересуются всевозможные коммерческие организации [1] и стараются заполучить их всеми возможными способами [2]. В таблице 4 представлен обзор способов определения местоположения и их точность.

    Таблица 4
    Способы определения местоположения и их точность



    Как уже было отмечено, в исследовании использовалась выборка из данных о наблюдении перемещений 1,5 млн. абонентов в течение 15 месяцев [1], что гарантировало наличие репрезентативной выборки. В среднем, как отмечено, данные от каждого абонента передавались в среднем через 6500 антенн, телефон использовался абонентами в среднем 114 раз в месяц (звонки и передача SMS-сообщений). Точность измерения местоположения варьировалась от 0,15 км2 в городах до 15 км2 в сельской местности.

    На рисунке 1 представлены основные результаты исследования в виде графика зависимости уникальности маршрута от количества пространственно-временных точек. Как видно из графика, при двух пространственно временных точках, уникальность маршрута (столбцы диаграммы зеленого цвета, где ) находится на уровне примерно 50 %, т.е. идентифицировать по двум точках абонента практически невозможно. При выборе 4 и более точек, уникальность маршрутов составляет уже более 95 %.



    Рисунок 1 – Зависимость уникальности маршрута от количества
    пространственно-временных точек

    Кроме зависимости уникальности маршрутов от количества пространственно-временных точек исследовалась также зависимость от точности измерений по времени и по данным о местоположении. Результаты исследований представлены на рисунке 2. В частности, на диаграммах А (для 4 пространственно-временных точек) и D (для 10 пространственно-временных точек) рисунка 2 показаны зависимости уникальности маршрута от промежутков времени измерений данных о местоположении и количества сот базовых станций мобильной сети связи.



    Рисунок 2 – Зависимость уникальности маршрута от временного (диаграмма B) и
    пространственного (диаграмма C) разрешения (точности измерений)

    Общим выводом данной работы является то, что маршруты передвижения абонентов являются в высокой степени уникальными и с их помощью возможно идентифицировать личность. Таким образом, передвижения абонентов в некоторой степени являются персональными данными, соответственно, из данного вывода следуют определенные следствия, касающиеся конфиденциальности персональных данных и, в частности, вопросов защиты данных о местоположении пользователей.

    Источники:

    1. Jakob, E. B. Context-Aware User Authentication – Supporting Proximity-Based Login in Pervasive Computing / Jakob E. Bardram, Rasmus E. Kjaer, Michael F. Pedersen, – Berlin: UbiComp, LNCS2864. – № 2003. – P. 107-123.
    2. Ильин С. Навигация без GPS. Как определить свои координаты по IP, GSM/UMTS и Wi-Fi / Степен Ильин, – Хакер, 2009. – № 4. – С. 124.
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 7

      –3
      6й пункт таблицы неверен. Сижу сейчас на YOTA (Казань), по IP временами Самара определяется (IP динамический). 361 км по дороге, но даже напрямую считать >100 км вообще без разговоров
      Первый попавшийся в гугле сервис:
      www.avtodispetcher.ru/distance/?from=%D0%9A%D0%B0%D0%B7%D0%B0%D0%BD%D1%8C&to=%D0%A1%D0%B0%D0%BC%D0%B0%D1%80%D0%B0
        +1
        Если рассматривать динамические IP и добавить к этому нестабильность привязки местоположения к идентификаторам вышек сотовой связи и точек доступа WiFi, то и 4-5й пункты тоже будет не верными. Проводилось еще одно исследование и было выявлено, что идентификаторы вышек и точек доступа WiFi очень нестабильны, причем до такой степени, что один и тот же идентификатор может «гулять» по всей стране. С другой стороны, приведенные данные показывают сведения, не учитывающее подобное «гуляние» и «динамические IP».
        +1
        Какую практическую пользу можно извлечь из данного наблюдения?
          +1
          найти человека (кому и зачем это надо — вопрос второстепенный)
          +7
          У меня стойкое ощущение, что это или подобное исследование уже было на хабре где-то год назад.
            +6
            habrahabr.ru/post/157619/ — теория

            habrahabr.ru/post/174221/ — упомянутое исследование
              +2
              Странно, кстати, что несмотря на такое качественное совпадение, хабр не отображает упомянутые статьи во врезке «Похожие посты».

              Only users with full accounts can post comments. Log in, please.