Персональные данные — рейтинг чистоплотности крупнейших сервисов Рунета / Habr

“Ваши данные надежно защищены, мы применяем самые современные технологии для обеспечения сохранности данных” – подобные формулировки часто фигурируют в пользовательских соглашениях, но каждый год мы узнаем о новых случаях массового слива персональных данных. И вина в этом в том числе лежит на самих пользователях, особенно в части безоговорочного принятия условий пользовательского соглашения. А ведь вряд ли кто-то знает, что именно в них содержится. Убедить пользователей читать соглашения нелегко, поэтому мы решили прочитать их за вас и составили рейтинг чистоплотности крупнейших сервисов Рунета.

Disclaimer от автора

Автор не преследует целей рекламы или анти-рекламы рассматриваемых в рейтинге компаний, все материалы собраны на основе объективного (насколько это возможно) анализа открытых источников с официальных сайтов компаний и предоставляются исключительно с целью информирования пользователей о применяемых подходах в обработке их персональных данных.

Для начала рассмотрим концептуальные факторы, влияющие на безопасность пользовательских данных (далее ПД) – в первую очередь это согласие пользователя на обработку ПД (добровольное предоставление доступа к данным), техническая возможность утечки и коммерческая значимость данных как основной побуждающий мотив для кражи. Наличие или отсутствие данных факторов формирует 4 уровня риска.

Из данного подхода видно, что развитие цифровых онлайн-сервисов в совокупности с применением технологий массовой аналитики и обработки больших данных существенно повышает значимость ПД в больших массивах и как следствие вероятность новых утечек. Безусловным фактором в данной модели тем не менее остается принятие пользователем соглашения об обработке персональных данных (далее - соглашение). Давайте посмотрим, что подразумевает такое соглашение на конкретных примерах.

Методика рейтинга

Для полноты сравнения мы выбрали топ 5-7 компаний из различных отраслей – банки, сотовые операторы, маркетплейсы, перевозчики, такси и пр. и изучили их подходы к обработке персональных данных на основании следующих критериев:

Критерий 1 - Транспарентность соглашения об обработке ПД

Под транспарентностью соглашения мы подразумеваем степень детализации объема и целей обработки данных.

Объем собираемых персональных данных

Объем собираемых персональных данных	Уровень	Оценка (чем выше, тем лучше)
	Нулевой (данные не собираются)	4
	Минимально необходимый (только те данные, которые необходимы для оказания услуги)	3
	Расширенный (собирается геолокация, история звонков, фотографии и пр.)	2
	Критический (собирается биометрия и специальные категории персональных данных)	1
	Явно не указан или указан в расплывчатых формулировках	0

Цели сбора данных

Цели сбора данных	Уровень	Оценка (чем выше, тем лучше)
	Минимально необходимый (только непосредственное оказание услуг)	2
	Расширенный (присутствует аналитика, реклама и пр.)	1
	Явно не описаны или описаны расплывчатых формулировках	0

Возможность передачи данных третьим лицам

Возможность передачи данных третьим лицам (в том числе с согласия пользователя)	Уровень	Оценка (чем выше, тем лучше)
	Запрещена	3
	Ограниченному кругу лиц (список приводится в соглашении)	2
	Неограниченному кругу лиц (перечень третьих лиц не приводится или указан в открытой форме)	1
	Не упоминается	0

Возможность трансграничной передачи данных

Возможность трансграничной передачи данных	Уровень	Оценка (чем выше, тем лучше)
	Запрещена	2
	Разрешена (в том числе с согласия пользователя)	1
	Не упоминается	0

Сбор биометрии

Сбор биометрии	Уровень	Оценка (чем выше, тем лучше)
	Запрещен	2
	Разрешен (в том числе с письменного согласия пользователя)	1
	Не упоминается	0

Вспомогательные показатели

Вспомогательные численные метрики

(чем меньше, тем лучше)

Количество обязательных разрешений (в мобильном приложении

Количество агрессивных cookie (на сайте)

Обратите внимание, что оценка за явное указание факта сбора биометрии или возможности осуществления трансграничной передачи данных выставляется более высокая, чем за не упоминание данных аспектов в принципе. Это связано с тем, что практически все сервисы имеют техническую возможность неумышленного сбора биометрических данных (например, путем записи телефонного разговора или анализа характерных признаков лица с фотографии пользователя) и трансграничной передачи (при обработке электронной почты или сбора аналитических данных cookies с помощью сервисов Google Analytics), поэтому не упоминание явной позиции по данным аспектам трактовалось в худшую для пользователя сторону.

Критерий 2 - Количество публично известных утечек ПД за последние 10 лет

Помимо транспарентности соглашения не менее важна степень соблюдения оговоренных в нем условий. И лучшим показателем в данном плане является история утечек конкретной компании. Данные сведения собирались путем анализа лент новостей из открытых источников, ссылки на список выявленных новостных событий об утечках прилагается. Поясним, что подсчитывались только уникальные факты утечек, т.е. несколько новостей об одной и той же утечке засчитывались как одно событие.

Рейтинг

Для ранжирования компаний мы отсортировали их в порядке убывания наиболее значимого критерия - числа зафиксированных утечек ПД за последние 10 лет. Если несколько компаний имеют одинаковый показатель по первому критерию, то ранжирование происходило по следующему критерию в порядке значимости (факт сбора биометрии) и так далее.

Краткие результаты ниже, а по данной ссылке можно изучить сырые данные (включая ссылки на пункты соглашений с цитатами и перечень новостных событий об утечках).

Банки

Сотовые операторы

Перевозчики

Маркетплейсы

Каршеринг

Соцсети

Гос. порталы

Сервисы электронной почты

Службы такси

Анализ результатов

Лидеры и "антилидеры"

Безусловным лидером нашего рейтинга оказался сервис записи в поликлиники ЕМИАС, который вообще не хранит никаких персональных данных, не требует регистрации и не собирает аналитических сведений. Ни один другой сервис не смог похвастаться столь кратким и лаконичным соглашением об обработке ПД.

Явного анти-лидера назвать уже труднее, поскольку довольно многие сервисы не предоставили подробных сведений в своих соглашениях или привели "битые" (нерабочие) ссылки. Практически у всех компаний прописана или по крайней мере явно не запрещена трансграничная передача данных, очень часто упоминается возможность передачи данных в страны, "не обеспечивающие должного уровня безопасности данных". Выбрать самого отъявленного “двоечника” из такого списка довольно трудно, поэтому оставим это занятие для особо любопытных читателей.

Биометрия

Мы выделили факт сбора биометрии как один из определяющих критериев при ранжировании компаний, поскольку сбор такого рода данных кратно повышает ценность хранимых на серверах сведений, тем самым подвергая такие компании повышенному вниманию со стороны злоумышленников, и как следствие создавая повышенный риск для данных самих пользователей.

На основании изученных нами соглашений мы выделили три основные группы компаний:

Компании явно заявляющие о целях сбора биометрических и/или специальных категорий данных в своих соглашениях (или упоминающие такую категорию данных в соглашении);
Компании, заявляющие об отсутствии целей сбора биометрических данных (включая компании, допускающие неумышленный сбор, например когда пользователь сам загрузил такие данные, не уточнив их специфику);
Компании, не упоминающие биометрию и специальные категории данных в своем соглашении.

Статистика компаний по отношению к сбору биометрии

Количество компаний из числа попавших в рейтинг (каждая категория составляет примерно треть от общего числа)

Курьезы и оригинальные моменты

Большинство соглашений написано сухим и однотонным текстом. Но некоторые пункты соглашений все-таки привлекли наше внимание своей оригинальностью. Рассмотрим их на конкретных примерах:

Wildberries против маленьких галочек (п. 2.8.1. "При отсутствии согласия Покупателя, заключение соглашения не происходит, ввиду того, что ни при каких обстоятельствах ООО «Вайлдберриз» не использует технологию заранее проставленных галочек в своих формах.")
Mail.ru заботится о детях (в пользовательском соглашении отдельной строчкой прописаны дополнительные ограничения на сбор персональных данных в “детском” режиме)
Тинькофф банк несет ответственность в случае передачи данных третьим лицам (цитата “Пункт 4.4 В случае, если Банк поручает обработку персональных данных другому лицу, ответственность перед субъектом персональных данных за действия указанного лица несет Банк”).
Яндекс.маркет честно и открыто обещает рассылать рекламу (цитата - пользуясь сервисом пользователь дает согласие на получение рекламы "Пользователь в соответствии с ч. 1 ст. 18 «О рекламе» дает свое согласие на получение сообщений рекламного характера"). Отметим что другие сервисы прячут данную формулировку в более размытых фразах типа “оказание информационных услуг” или что-то подобное.
Авиакомпания S7 не интересуется подробностями вашей интимной жизни (цитата “п. 3.4. НЕ ДОПУСКАЕТСЯ обработка ПДн, касающихся Расовой принадлежности. Политических взглядов. Религиозных и философских убеждений. Интимной жизни.”), но может собирать биометрию (по крайней мере не отказывается от такой возможности в явном виде)
Мобильное приложение МТС не хранит список контактов на своих серверах, а запрашивает их каждый раз отдельно (цитата “п. 5.2. "Оператор обязуется не хранить полученные сведения на своем сервере, а запрашивать их у устройства Абонента каждый раз при наступлении случаев, указанных в пункту 5.3”)
ЕМИАС не занимается сбором аналитики ("Сервис записи не использует статистические данные, полученные в ходе работы Сервиса записи, в целях создания рейтингов врачей, не передает данные системам контекстной рекламы для размещения рекламы на интернет-страницах Сервиса записи, не передает полученные статистические данные третьим лицам для аналитических исследований."), в отличие от всех остальных сервисов
Avito подтверждает защищенность своих сервисов (каким-никаким, но) сертификатом (сертификат соответствия PCI DSS https://www.avito.ru/legal/rules/certificate/), ни в одном другом соглашении не упоминаются какие-либо сертификаты
С сервисом озон все в ваших руках ("Вы сами выбираете подписываться или нет на маркетинговые и информационные рассылки, смс оповещения и другие. Вносить изменения или отписаться, вы можете в личном кабинете, в разделе “Управление подписками” и “Смс-оповещения”)
Каршеринг Belkacar за максимальную транспарентность, они прописали в своем соглашении все детали вплоть до названия поставщика облачных услуг, у которого они хранят пользовательские данные (максимальная степень детализации из всех рассмотренных компаний)

Пассивное согласие пользователя и "галочная" система

Любопытно, что во многих соглашениях перед каким-либо важным пунктом (например, возможность трансграничной передачи данных в страны, не обеспечивающие должный уровень безопасности) стоит обязательное условие получение дополнительного согласия пользователя (иногда даже в письменной форме). Мы не учитывали наличие данных “приписок” в выставлении оценок ни в меньшую, ни в большую сторону, поскольку получение таких согласий давно превратилось в рутинную операцию и не вызывает никаких сложностей (см. маленькие галочки при обновлении приложений, мелкий шрифт в договорах и другие способы).

Cookie-аналитика и “квазиперсональные” данные

Отдельное внимание заслуживают т.н. анонимизированные данные, такие как cookie, сведения об устройстве, User ID и пр. Они не привязаны к личности пользователя, имени и адресу, но в совокупности отражают подробнейший портрет поведения в сети интернет. Иными словами, каждый сайт присваивает пользователю некий порядковый номер (User ID), с которым могут быть связаны предпочтения, интересы, история поиска, а также функциональные характеристики устройства пользователя.

Используя современные алгоритмы обработки больших данных можно уникальным образом отличить конкретного пользователя на основе таких данных. Более того, сопоставляя профили поведения пользователей на разных сайтах имеется техническая возможность связывания отдельных профилей, что может еще более расширить возможности трекинга пользователя.

Мы относим такие данные к категории “квазиперсональных”, поскольку единственный барьер на пути полной деанонимизации таких данных это программный запрет внутри браузеров на передачу cookie-токенов между сайтами, расположенными на разных доменах и негласный запрет на привязку токена к личности. Но если мы обратимся к описанной выше концептуальной модели рисков, то в данном случае мы находимся на третьем (максимальном) уровне, поскольку согласие пользователя уже получено (помните назойливые всплывающие окошки про обязательные и аналитические Cookie?), техническая возможность привязки ваших токенов также имеется, равно как и имеется коммерческая значимость вашего профиля для маркетинговых и аналитических компаний.

Особую настороженность вызывает бурное развитие технологий аналитики (fingerprinting, пиксель-теги и пр.) и размытость нормативных регламентов, ведь даже в раскрученном европейском стандарте GDPR (которому мы должны быть благодарны за эти назойливые cookie-предупреждения) нет четкого ответа на вопрос что такое fingerprinting, к какой категории аналитики он относится и в каких случаях он допустим. А некоторые западные сервисы (в частности shopify и facebook, см. раздел Maximum) уже явно разрешают возможность ассоциации токенов между различными сервисами, конечно же при условии уведомления пользователя об этом (иными словами, с пассивного согласия пользователя).

Browser fingerprinting (справка)

Browser fingerprinting – технология сбора “квазиперсональных” данных на основе сведений о производительности вашего компьютера/мобильного устройства, наличии определенных шрифтов, плагинов и пр.

Добавим несколько цитат из изученных нами соглашений:

Ситимобил упоминает использование пиксельных тегов на сайте (хотя почти все компании и так используют аналогичные технологии, но без явного перечисления в соглашении)
Тинькофф мобайл андроид может привязать идентификатор вашего устройства к вашей учетной записи ("Кроме того, идентификатор устройства и номер мобильного телефона могут быть привязаны к учетной записи Пользователя"), т.е. иными словами допускается де-анонимизация токена (здесь мы допускаем разночтения в трактовке термина “идентификатор устройства”)
Тем временем Яндекс пытается установить границы допустимого объема сбора данных (“Яндекс не собирает данные с целью составления «портрета» пользователя в той степени, при которой это может существенно повлиять на Ваши права и свободы в соответствии с применимым законодательством.”). Интересно, как имплементируется данное требование на практике.

Цифровой след граждан как важнейший информационный актив

В сухом остатке мы имеем формирование принципиально нового класса информации, основанного на анализе и обработке цифровой деятельности граждан. Такая информация представляет широкий интерес как в контексте каждого отдельного гражданина, так и в массовом виде после агрегации сведений большого числа граждан с использованием алгоритмов аналитики. Используя обобщенные сведения пользователей можно прогнозировать потребительские тренды, изучать взгляды пользователей и многое другое.

Недостаточная степень защищенности такого важнейшего цифрового актива делает уязвимыми компании, занимающиеся хранением и обработкой таких данных, а также государство в целом. Напомним, что в результате анализа соглашений мы обнаружили разрешительный пункт относительно трансграничной передачи анонимизированных данных пользователей в большинстве соглашений, причем во многих оставшихся соглашениях такой пункт просто не упоминался, что не подразумевает запрета в данном отношении.

Как повысить цифровую защищенность данных граждан

К сожалению, в отличие от других видов материальных активов в плане цифрового суверенитета в мире на сегодняшний день нет идеальных примеров для подражания. Мы находимся на развилке между западным коммерческо-ориентированным подходам в обработке данных (по принципу, хотите больше комфорта, отдайте нам свои данные и мы сами придумаем что с ними делать) и восточно-китайской моделью (по принципу полного государственного контроля).

В общественных дискуссиях и форумах начинают обсуждаться различные способы повышения безопасности данных. Начиная с самого простого решения - наложить оборотные штрафы за утечку данных, запретить трансграничную передачу данных и сбор биометрии. Также, рассматриваются более сложные подходы, в виде разработки единой централизованной системы хранения данных и подключения всех компаний к ней как единому хранилищу при оказании цифровых услуг (требование об интеграции к единой государственной системе биометрических данных упоминается в некоторых соглашениях).

Возможным компромиссным подходом к изучению вопроса было бы формирование открытой общественной группы для изучения проблемы цифровых персональных данных, изучения мировых практик, формирования предложений по развитию цифрового будущего страны на базе общественного диалога.

Заключение

В конце прошлой статьи мы обратились к читателям с просьбой прочитать одно любое пользовательское соглашение и выслать нам его краткое содержание. Хотим поблагодарить всех откликнувшихся за свои мысли и комментарии, они были очень полезны при подготовке нашего рейтинга. Несмотря на то, что мы старались быть максимально объективными, у читателей могут быть комментарии и замечания. В связи с этим, если среди неравнодушных читателей есть желающие расширить рейтинг (напр., добавить в него новые компании) или дополнить методику оценки, мы с удовольствием готовы поделиться сырыми данными (ссылка на Google.Docs) и выложить документ в открытый репозитарий для совместного редактирования.

Всем хороших выходных и безопасного интернета!