Как стать автором
Обновить

Исследование: 72% анонимного трафика можно связать с реальными пользователями

Время на прочтение4 мин
Количество просмотров15K
image

Рекламодатели отдали бы все на свете, чтобы иметь возможность подсматривать через плечо, какие страницы пользователи просматривают в сети. Они хотят знать, какие сайты человек посещает, как он попал на них, как долго он на них остается, куда отправляется дальше. А заодно собрать максимально возможное количество личной информации о нем.

Конечно, для этого им необязательно находиться с пользователем в одном помещении: десятки встроенных трекеров почти на каждом сайте собирают информацию о действиях пользователя, а куки, хранящиеся в браузере, подсказывают рекламодателям, как часто он посещает сайт. Но главная мечта любого рекламодателя заключается в объединении всей этой рассеянной информации в единый профиль, который соответствует каждому отдельному пользователю, то есть, создать полноценный портрет каждого человека в Интернете.

Компании, которые составляют профили пользователей, обычно делают это под псевдонимом: так они могут получить много демографических данных, но как правило, они не объединяют поведенческие данные с индивидуальной идентичностью. Группа исследователей из Стэнфордского и Принстонского университетов разработала систему, которая может собрать эти данные воедино, просто исследуя историю просмотров.

Когда команда протестировала технологию на 374 реальных людях, которые предоставили свою историю просмотра, и деанонимизатор определил профили добровольцев в Твиттере почти за три четверти часа.

Исследователи исходили от предположения, что человек скорее перейдет по той ссылке, которой поделились друзья в социальных сетях, чем по случайной ссылке. Учитывая эту информацию, а также историю браузера анонимного источника, исследователи могут вычислить вероятность того, что какой-либо пользователь Твиттера создал эту историю просмотра. Такая привычка переходить по ссылкам демаскирует пользователя, и этот процесс занимает меньше минуты.

Для тестирования алгоритма исследователи собрали добровольцев, которые загрузили расширение для Google Chrome, извлекающее историю просмотра. Так как Твиттер использует собственное сокращение URL – t.co, программа легко могла обнаружить, на какие сайты пользователь перешел через эту социальную сеть. Программа извлекла по 100 ссылок с каждого пользователя и пропустила их через систему деанонимизации. В течение нескольких секунд алгоритм выдает 15 наиболее удачных результатов из всех возможных пользователей Твиттера, в порядке максимального соответствия. Затем добровольцев спросили, есть ли у них аккаунты в Твиттере и просили войти, чтобы подтвердить свою личность. Алгоритм выбрал правильный профиль в 72% случаев, а в 81% профиль оказывался в ТОП-15.

Чтобы такой метод сработал в реальном мире, где люди неохотно делятся своими данными пусть даже для научных целей, доступ к «цифровому следу» нужно добывать каким-то другим путем. Владельцами по крайней мере части истории просмотра зачастую становятся рекламодатели, интернет-провайдеры и, конечно же, спецслужбы.

С помощью трекеров рекламодатель может составить представление о пользователе, однако простейшие блокировщики рекламы могут им помешать. Провайдеры имеют возможность получить много данных о том, какие сайты посещает их клиент, кроме тех случаев, когда страницы защищены протоколом HTTPS, шифрующим трафик. Тем не менее, людей все еще можно идентифицировать с помощью незашифрованных сайтов: исследователи смогли «разоблачить» почти треть добровольцев, используя только HTTP-трафик. VPN-сервисы могут ограничить прямые попытки деанонимизации, но при этом не помешают сбору куки и другим методам отслеживания, которые могут обеспечивать добытчика информации непрерывной историей просмотра.

Исследователи уверены: если вы хотите использовать микроблог под своим собственным именем, то ничего не сможете сделать, чтобы избежать техники деанонимизации — даже если человек не публикует твиты, а просто просматривает чужие профили, он не останется незамеченным. Они также отмечают, что программа не использует какую-либо уязвимость сервиса. Пользователи обычно сами дают ту информацию, которую нужно только собрать. Исследование подразумевает, что открытые социальные сети и подробные отчеты в них о своей деятельности расходятся с конфиденциальностью. По мнению создателей деанонимизатора, сохранить конфиденциальность в Твиттере невозможно без отказа от основной функции социальной сети – ее общедоступности.

Не спасут от деанонимизации такие функции браузеров, как приватный режим просмотра в Safari или режим инкогнито Chrome. После того, как окна в одном из таких режимов закрыты, браузер удаляет историю посещения, но не мешает работать трекерам или, например, спецслужбам отслеживать трафик.

Не все так категорично, как кажется. С помощью Tor – программы, которая обеспечивает анонимность в интернете за счет маршрутизации трафика случайным образом через сеть серверов, – можно укрыться ото всех, кроме, пожалуй, самых упрямых «шпионов». Но для среднестатистического пользователя, не знакомого с современными технологиями сохранения конфиденциальности, завеса анонимности очень тонкая. Как и для тех, кто больше заинтересован в том, чтобы профили оставались открытыми и их «фолловили» как можно больше интересных людей, чем в сокрытии данных от маркетологов или интернет-провайдеров.
Теги:
Хабы:
Всего голосов 18: ↑16 и ↓2+14
Комментарии24

Публикации

Истории

Ближайшие события

2 – 18 декабря
Yandex DataLens Festival 2024
МоскваОнлайн
11 – 13 декабря
Международная конференция по AI/ML «AI Journey»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань