Насколько важны метаданные при использовании телефона? Обсуждения этого вопроса вспыхнули с новой силой после прошлогодних разоблачений Эдварда Сноудена. Правительство рассматривает введение разнообразных запретов на доступ к подобной информации; о неприкосновенности частной жизни задумались и в американской Федеральной комиссии по связи (FCC).
Президент Обама особенно подчеркивал, что АНБ «не вникало в содержание разговоров». «Использовались только метаданные», — сообщил репортерам Сенатор Файнстейн (Feinstein). Отклоняя иск Американского союза гражданских свобод (ACLU) судья Поли (Pauley) описала возможные правовые последствия иного решения как «парад ужасов».
С другой стороны, многие ученые и ИТ-специалисты выражали свою озабоченность тем риском, который представляет разглашение метаданных. Эд Фелтен (Ed Felten) в своем заявлении для ACLU дал исчерпывающее объяснение этого: «Телефонные метаданные могут помочь полностью раскрыть личность пользователя. Как на уровне индивидуальных звонков, так и (особенно!) в агрегированном состоянии». Судья Леон, признавая, что программа слежки АНБ скорее всего является антиконституционной, согласился с точкой зрения Фелтена и отметил, что «метаданные из телефона конкреного человека могут дать информацию о его семейном положении, политических и религиозных взглядах, сексуальных предпочтениях».
Соответственно, налицо некоторый разрыв и две противоположные точки зрения. Легко ли с помощью метаданных получить важную информацию о личности? Часто ли люди доверяют своему телефону крайне личную информацию, которую затем можно получить с помощью метаданных?
Мы использовали данные, полученные из разных источников, чтобы найти эмпирические ответы на данные вопросы. С ноября прошлого года мы проводили исследование, посвященное безопасности телефонных метаданных. Участники эксперимента запускали на своих Android-смартфонах приложение MetaPhone. Оно собирает логи устройства и другую социальную информацию, которая затем перенаправляется для последующего анализа. С помощью полученных через MetaPhone данных нам удавалось верно определять статус отношений человека, понимать взаимосвязи графов вызовов при осуществлении звонков и оценивать идентифицируемость телефонных номеров.
В начале этого исследования мы разделяли точку зрения коллег из ИТ-сферы — телефонные метаданные могут раскрывать очень важную и чувствительную информацию о личности. Однако, мы особенно не надеялись найти какие-то неопровержимые доказательства в пользу той или иной версии, поскольку число пользователей MetaPhone было не так уж и велико, а мониторинг телефонной активности планировалось проводить лишь на протяжении нескольких месяцев.
Мы очень сильно ошибались. Мы выяснили, что метаданные, хранящиеся в телефоне, содержат крайне чувствительную информацию, и получить ее можно даже отслеживая телефон на протяжении небольшого промежутка времени. Нам удалось получить данные о состоянии здоровья пользователей телефонов и о наличии у них в собственности огнестрельного оружия — и все благодаря одним лишь только метаданным.
Методология
Первым шагом было определение контактов пользователей MetaPhone. Здесь мы использовали подход, при котором телефонные номера сопоставляются с публичными данными из Google и Yelp. В общей сложности 546 участников нашего эксперимента контактировали с 33 688 телефонными номерами. Нам удалось определить личности владельцев 6 107 номеров (18%).
Затем мы отметили контакты, которые с большей долей вероятности относились какой-то важной информации. В большинстве случаев нам удавалось узнать, к примеру, название компании, с которой связывался человек, из чего обычно становилось понятно, чем эта компания занимается. В том случае, если по одному названию род деятельности компании выяснить не удавалось, на помощь приходил Google.
В конечном итоге нам удалось собрать две группы результатов. Во-первых, мы провели анализ индивидуальных звонков на важные номера. Во-вторых, мы сопоставляли различные паттерны звонков, чтобы получить информацию о личной жизни звонящего, доступную из метаданных.
Результаты анализа индивидуальных звонков
Многие организации выполняют какой-то узко очерченный круг задач, поэтому звонок на номера этих компаний сразу несет в себе довольно чувствительную информацию. Если человек, к примеру, звонит в предвыборный штаб кандидата, то с большой вероятностью можно утверждать о том, что он его поддерживает. Точно так же, если человек часто разговаривает с кем-то, кто пользуется номером, закрепленным за какой-то религиозной организацией, становится ясно его вероисповедание. Можно даже выяснить, в какую конкретно церковь он ходит.
Мы смогли собрать информацию о большом количестве звонков, из которых можно сделать как раз такие выводы. В таблице ниже представлены данные о пропорциональном числе участников эксперимента, которые сделали хотя бы один телефонный звонок на номера «чувствительных» организаций:
Информация о религиозных организациях дала нам возможность проверить точность своих предположений. MetaPhone берет информацию о религии пользователя прямо из его профиля в Facebook, что позволяет (в случае, если религия указана в профиле) напрямую сопоставлять предположения, сделанные на основе полученных метаданных телефона, с точными данными с Facebook. У нас было 15 человек с четкой информацией о религии в профиле (включая атеизм), и телефонные контакты с религиозными организациями. Предположив, что та религиозная организация, куда человек чаще всего звонит, и отражает его вероисповедание, мы смогли точно определить религиозный статус 11 из 15 наших добровольцев (точность 73%).
Многие телефонные номера можно было связать со специализированными продуктами и услугами, и даже выяснить конкретное направление бизнеса. В медицине, к примеру, нам удалось разбить телефонные номера по категориям, соответствующим болезням, от которых лечат в конкретном учреждении.
Степень важности данных, которые можно получить исходя контактов пользователя, застала нас врасплох. Наши испытуемые звонили в организацию анонимных алкоголиков, магазины оружия, организации, поддерживающие право на аборт, профсоюзы, звонили адковатам по разводам, в клиники по лечению заболеваний, передающихся половым путем, стрип-клубы и это еще не полный список. Это не гипотетический «парад ужасов», а лишь простая информация о владельцах телефонов, которую можно легко и просто добывать в промышленных масштабах.
Результаты сопоставления паттернов звонков
Паттерны звонков часто выдают информацию, которая куда шире, чем просто список номеров, по которым звонил человек. В ходе нашего исследования нам удалось выявить паттерны звонков, которые позволяют делать высокоточные предположения о чувствительном характере подобных контактов. Представленные ниже примеры были получены из нашего набора данных с помощью идентификации телефонных номеров с применением публичных средств [идентификации]. Несмотря на то, что большинство пользователей MetaPhone дали разрешение на разглашение их личности, мы все же воспользуемся псевдонимами.
- Участник А звонил в различные неврологические клиники, специализированные аптеки и горячую линию, посвященную вопросам лечения рассеянного склероза.
- Участник Б несколько раз общался с кардиологами в крупном медицинском центре, имел непродолжительные беседы с сотрудниками медицинской лаборатории, получал звонки из аптеки и также звонил на горячую линию по вопросам мониторинга сердечной аритмии.
- Участник В несколько раз звонил в магазин по продаже оружия, который специализируется на изделиях на платформе полуавтоматической винтовки AR. Кроме того, удалось отследить звонок на линию техподдержки производителя этого оружия.
- В течение трех недель участник Д контактировал с магазином оборудования и материалов для ремонта, компанией-производителем слесарных изделий, дилером гидропоники и магазином табачных изделий и курительных смесей.
- У участницы Е ранним утром случился долгий разговор с сестрой. Два дня спустя она несколько раз звонила в организацию по вопросам планирования семьи. Еще две недели спустя она также несколько раз звонила туда, последний звонок случился спустя месяц.
Нам удалось подтвердить диагноз участника Б и факт владения оружием участником В, используя информацию из публичных источников. Из-за деликатности полученной информации мы не стали обращаться за подтверждением к участникам А, Д и Е.
Выводы
Набор данных, который мы проанализировали в этом отчете, охватывал сотни пользователей на протяжении нескольких месяцев. У АНБ и телеком-операторов есть информация о миллионах людей за многие годы. Можно рассуждать о необходимости введения ограничений на доступ к подобной информации. Одно ясно навернка — с помощью метаданных можно получить очень важную и чувствительную информацию о человеке.