Опасность «Больших данных». Или как Bid Data ведет к полной деанонимизации пользователя и составлению его профайла / Песочница / Хабр

С развитием новых технологий миллиарды людей получили практически постоянную возможность выхода в Интернет, а карманный смартфон заменяет им некогда пользовавшийся популярностью громоздкий ЭВМ. В сети постоянно появляется огромная масса новой информации, вследствие чего человек попросту не успевает должным образом проанализировать ее, а то и вовсе пропускает, продолжая дальше листать ленту новостей. В этих условиях ценность для крупных компаний обретает именно внимание современного пользователя.

Стоит обывателю произвести поиск какого-либо предмета, например автомобиля, и рекламные блоки по интересующей тематике еще долго будут появляться на большинстве посещаемых им сайтов. Те, кто не обладает достаточными знаниями в подобной области, могут воспринять это в качестве случайности или вовсе как знак судьбы. Однако на самом деле всё обстоит гораздо сложнее: именно таким образом действует контекстная реклама, функционал которой строится на сборе и обработке большого количества данных посредством отслеживания активности людей в Интернете.

Именно такие разнообразные данные огромных объемов, обрабатываемые с помощью специальных программных инструментов, стали обозначаться термином “большие пользовательские данные” или Big Data.

Несмотря на то что, по общему правилу, информация о конкретном человеке в массиве Больших данных анонимизирована, т.е. зашифрована или скрыта каким-либо иным образом, эксперты Бельгийского университета Лувен и Имперского колледжа Лондона выяснили, что практически любой поток данных можно деанонимизировать. Вследствие этого институт больших пользовательских данных всё же тесно взаимосвязан с персональными данными отдельных субъектов. Несмотря на то, что граждане в процессе поиска в Интернете не оставляют свои идентифицирующие сведения, например серию и номер паспорта, сама активность фиксируется в памяти посещенных страниц и передается сторонним организациям для последующей обработки. При объединении агрегированных данных с иными источниками, содержащими информацию о конкретных индивидуальных субъектах, появляется возможность идентифицировать личность определенного физического лица. В этой ситуации обезличенный, на первый взгляд, массив сведений превращается в хранилище личных данных многих граждан. И таким образом, на основе больших данных создаются достаточно детальные портреты пользователей без необходимости раскрытия их реальной личности.

Так, к примеру, известный интернет-сервис Netflix опубликовал сведения о прокате определенного количества фильмов от 500 тыс. пользователей, персональные данные которых были тщательно завуалированы. Сравнив данные с иных источников и проведя их анализ, исследователи пришли к выводу, что на основе всего шести оценок фильмов, которые были оставлены на различных сайтах в Интернете, таких как IMDb, можно с большой вероятностью установить личность пользователя практически в 84% случаев.

Рассматриваемый анализ больших данных начинается с их накопления. Информацию собирают с разных источников: смартфонов, мобильных приложений, банковских карт, истории просмотров и отметок, проставляемых в социальных сетях. Такой цифровой след, который оставляет человек, позволяет сказать многое о его образе жизни, идеалах и мировоззрении, а также о более интимных вещах, например, сексуальных предпочтениях или ориентации. Кооперация и объединение полученных данных образуют еще большее хранилище, сведения в котором могут быть использованы для разделения пользователей на определенные социальные группы. Причем такое разделение может сопровождаться дискриминацией отдельных лиц по различным мотивам, начиная с имущественного статуса и заканчивая политическими предпочтениями или национальной принадлежностью.

Именно поэтому наибольшее количество вопросов возникает в связи с регулированием оборота Больших пользовательских данных, возможность обработки которых способна оказать влияние на права и свободы человека в области неприкосновенности частной жизни. На данный момент рынок Big Data составляет примерно 40 млрд. рублей, причем его объем с каждым годом только увеличивается. А к 2024 г., по прогнозу специалистов, он достигнет отметки уже в 300 млрд. рублей.

Информация превращается в своеобразную новую нефть - ресурс, при правильном использовании способный превратиться в эффективный инструмент влияния. Вследствие подверженности к расшифровке даже самым лучшим образом анонимизированных сведений, свободно обращающихся и продающихся на рынке, будущее конфиденциальности отдельного гражданина может быть справедливо поставлено под сомнение. Понятия Больших данных и персональных данных здесь уже неизбежно пересекаются и не имеют четкого отграничения, что также продолжает затруднять воздействие государства в этой сфере посредством создания отдельных норм закона.

Источники:
- https://www.vedomosti.ru/opinion/articles/2020/11/02/845569-bolshie-dannie
-https://www.kaspersky.ru/blog/big-brotherhood-web-trackers/6853/
-https://incrussia.ru/news/issledovanie-dannye-nevozmozhno-sdelat-polnostyu-anonimizirovannymi/
-https://www.vedomosti.ru/opinion/articles/2020/11/02/845569-bolshie-dannie
-https://mcs.mail.ru/blog/ehffekt-bolshih-dannyh-v-rossii-cherez-5-let-300-mlrd-rublej
-https://trends.rbc.ru/trends/innovation/5d6c020b9a7947a740fea65c
-https://www.forbes.ru/obshchestvo/377129-personalnye-no-bolshie-kak-novyy-zakon-izmenit-torgovlyu-dannymi