Разобраться в политиках конфиденциальности приложений и сервисов — помогут нейросети
Политики конфиденциальности сайтов и приложений, в которых описаны условия обработки персональных данных пользователей, обычно пишут юристы и… для юристов. Простому смертному понять суть может быть сложно. Решением проблемы занялся резидент Hacker News — он разработал алгоритм машинного обучения, который помогает с чтением privacy policy.
Рассказываем о нем и других проектах для «переваривания» политик конфиденциальности.
Фото — Ashley Batz — Unsplash
В чем проблема
В этом году NYTimes изучили политики конфиденциальности 150 сайтов и приложений. Редакторы проанализировали их с помощью фреймворка Lexile. Он определяет сложность текста с учетом длины предложений и лексики. Анализ документов показал, что большая их часть написана языком, который трудно воспринимать даже специалистам и студентам, не говоря уже о школьниках. Расплывчатые формулировки мешают понять, что компании делают с персональными данными: какую информацию собирают, для каких целей, как обрабатывают и кому передают.
В среднем, политики конфиденциальности состоят из 2,5 тыс. слов, но в некоторых случаях эта цифра может превышать 8 тыс. Сложно представить, сколько времени займет внимательное и вдумчивое чтение такого документа. По некоторым данным — до 30 минут.
Еще в 2008 году специалисты из Университета Карнеги — Меллона подсчитали, что в среднем интернет-пользователю нужно от 181 до 304 часов (таблица 7), чтобы изучить privacy policy сайтов, посещаемых за год. При этом они не учитывали время на анализ соглашений об использовании продуктов и сервисов, в которых политики конфиденциальности составляют лишь малую часть. Есть основания полагать, что с тех пор ситуация только усугубилась.
Так, в конце 90-х Google в 600 словах объясняли, как они собирают и используют персональные данные. За прошедшие 20 лет объем документа вырос в семь раз. Но не все политики сложные и запутанные. Редакторы NYTimes в своем исследовании заметили, что документ BBC оформлен просто и лаконично, без нагромождения терминов. Существуют проекты, цель которых — распространить эту практику на всю ИТ-индустрию и если не унифицировать политики конфиденциальности, то упростить их понимание для пользователей.
Нейросеть прочтет за вас
Резидент Hacker News разработал утилиту Guard, которая разбирает политики конфиденциальности приложений с помощью алгоритмов машинного обучения. Они ищут в тексте соглашения «серые формулировки», оставляющие пространство для интерпретаций. По словам разработчика, инструмент даст пользователям понять, на что конкретно они соглашаются.
Утилита также показывает число инцидентов, связанных с утечками персональных данных, в той или иной компании. Сервис довольно молодой и его библиотека приложений пока небольшая. В неё входят: Twitter, Instagram, Netflix, Telegram, Waze, Spotify, Reddit и несколько других.
У Guard есть и аналоги — Terms of Service; Didn’t Read (ToS;DR) и TLDRLegal. Они также оценивают политики конфиденциальности отдельных сайтов, но работают по модели «краудсорсинга». Вместо нейросети, текст оценивают добровольцы и энтузиасты. В перспективе распространение таких инструментов положительно повлияет на безопасность персональных данных в сети.
Privacy Commons все стандартизирует
Это — аналог Creative Commons, но для политик конфиденциальности. Идея — сформировать четкую и простую для понимания структуру с описанием: какие персональные данные собирает компания, как она их защищает и кому передает. Над похожим проектом работали в Mozilla еще в 2011 году. Специалисты компании предложили внедрить специальные иконки для сайтов. Они обозначали политики и подходы компаний к работе с ПД. Но проект до сих пор не вышел из «беты».
«Условная стандартизация сделает политики конфиденциальности прозрачными и исключит серые зоны, — комментирует Сергей Белкин, директор по маркетингу ИТ-ГРАД и 1cloud.ru. — Но о внедрении Privacy Commons говорят как минимум десять лет, и процесс так и не сдвинулся с мертвой точки. Хотя с вводом европейских GDPR и ePrivacy Regulation, есть шанс, что компании все же дойдут до стандартизации на практике».
Браузер предупредит о нарушениях
Существуют протоколы, позволяющие сайтам информировать браузер о предполагаемом получении персональных данных пользователя. Например, консорциум W3C одно время работал над Платформой для предпочтений конфиденциальности (Platform for Privacy Preferences, P3P). Пользователи сообщали браузеру, какими персональными данными готовы поделиться. Он сверял список предпочтений с privacy policy на сайтах, поддерживающих P3P. Если появлялись расхождения, браузер выдавал пользователю предупреждение.
Фото — Kai Brame — Unsplash
Но спустя какое-то время разработку P3P свернули, так как большинство сайтов его просто игнорировало. Однако в каком-то смысле его функции сегодня выполняют cookie-баннеры, пришедшие с новым регулированием. Ресурсы предлагают пользователю выбрать, какими персональными данными он готов поделиться. Сейчас в W3C разрабатывают другой стандарт — Do Not Track (DNT). Он добавляет в браузеры функцию, которая сообщает сайтам о том, разрешил пользователь установку cookies или нет. Есть мнение, что DNT будет более успешным, чем P3P — его уже поддерживают такие компании, как Mozilla, Google и Microsoft.