Детские приложения массово собирают персональные данные и передают их третьим лицам / Хабр

К детской продукции всегда выдвигались особые требования. Тут и безопасность, надежность, простота, возможность удаленного управления, если мы говорим о детских устройствах и сервисах, и много чего еще. Функция «родительских контроль» почти так же стара, как и весь цифровой мир, кроме этого вопрос защиты персональных данных детей стоит остро уже достаточно давно.

Но даже если ваш ребенок обладает достаточной технической грамотностью и знаком с правилами поведения в сети (не разглашать свои персональные данные, реальное место жительства, график, маршруты и так далее по вполне понятным нам всем причинам), от утечки этой информации он не защищен. В последнем исследовании говорится, что огромная масса детских приложений с пометкой «до 13 лет» следят за своими юными пользователями так же, как за нами, взрослыми, следят приложения Facebook или Google.

Простенькие игры, цель которых — развитие или развлечение чада, вполне себе собирают всевозможную информацию от устройства и датчиков, в том числе и данные геолокации и акселерометра. Кстати говоря, за детьми в нарушение закона следят и крупные технологические компании и социальные сети. И это серьезная проблема, особенно, если брать в расчет современное машинное обучение и нейросети.

На бумаге дети защищены. Но только на бумаге

В США существует целый ряд законов, которые направлены на защиту подрастающего поколения, в том числе и в интернет-пространстве. Основной акт на эту тему носит название "Children Privacy Act" и регулирует поведение американских компаний в плане сбора, обработки и использования персональных данных детей. Если кратко: документ запрещает какой-либо сбор или обработку информации, полученной на детских сайтах или через детские приложения без явного разрешения опекунов. То есть публичная оферта в подвале сайта или EULA игры работать не должны. Принят акт был для того, чтобы производители и рекламщики не могли напрямую манипулировать неокрепшими умами в плане, например, рекламы и маркетинга.

Однако «Children Privacy Act» активно нарушается минимум половиной разработчиков игр (в том числе и из топ-10 Google Play и appStore), а также такими компаниями как Google и Facebook. При этом специальные детские разделы позиционируются компаниями как «безопасными», что далеко не так. То есть приватность детей нарушается по всему интернету.

Для использования собираемых данных существует несколько паттернов обработки и последующего использования. Первый и самый популярный: формирование поведенческой карты пользователя (с привязкой к ID устройства) для последующего анализа и корректировки рекламной выдачи. Особенно актуально это в свете того, что данные собираются не только крупными корпорациями, но и разработчиками всевозможных приложений (с последующей передачей рекламным компаниям), которые прямо заинтересованны в повышении эффективности рекламы в своим приложениях и, как следствие, росту стоимости показа или клика. Так как подавляющее большинство приложений для детей распространяется бесплатно (монетизация через рекламу) по вполне очевидной причине отсутствия у детей денег, подобная модель распространена более чем широко.

На резонный вопрос «Как вообще детские приложения из маркета собирают информацию?» достаточно подробно отвечают в публикации New York Times. Если кратко: все дело в неправильных метках. Так, приложения, которые ведут слежку и сбор данных пользователей, позиционируются не как «чисто детские», а «смешанные», что позволяет девелоперам обойти положения «Children Privacy Act» и собирать всю интересующую их информацию. Стоит отметить, что в этой ситуации та же Google умывает руки и говорит, что со стороны технологического гиганта тоже нарушений нет. Получается классическая картина, когда нарушение есть, но никто ни в чем, вроде как, и не виноват.

Конкретные меры против нарушителей предпринимаются точечно и крайне неохотно со стороны Google. Первым «под раздачу» обеспокоенной общественности и NYTimes попал разработчик детских игр Tiny Lab, который активно следил за своими юными пользователями и сливал их данные рекламным компаниям. После многочисленных обращений к Google, гиганту пришлось отреагировать на запросы пользователей и деактивировать учетную запись Tiny Lab, а также удалить все игры этого разработчика из Google Play. Но, фактически, как в маркете appStore, так и в Google Play, размещены еще тысячи детских приложений, которые собирают персональные данные, так что бан Tiny Lab больше похож на показательную порку, чем на реальные шаги к исправлению ситуации.

Нейросети и машинное обучение

Но если бы разработчики собирали только виртуальную информацию о пользователе, то с этим можно было бы еще частично мириться. Но современный слоган «информация — это все», как и повальное доминирование Big Data с машинным обучением вносит свои коррективы. Поэтому собирается вся информация, до которой можно дотянуться.

Наиболее неочевидный, но при этом и физически (а не информационно) опасный вектор — это сбор информации с датчиков устройства, таких как датчик освещенности, акселерометр и геолокация.

К слову, исследования в этой области велись еще в 2013 году. Тогда в рамках научной работы группа исследователей создала 30 эталонных записей поведения пользователей в условиях повседневной активности. Для обработки сопутствующих видеозаписей использовалась технология SVM. В итоге это исследование создало своеобразный «фреймворк» и открыло дверь для машинного обучения и созданию сверточных нейросетей другими специалистами в области, которые хотят полностью моделировать поведение пользователя по данным датчика его устройства.

С момента отчета на 21-м международном европейском симпозиуме по машинному обучению, где и была презентована эта работа, прошло пять лет. С тех пор датчики и акселерометры в устройствах стали более чувствительными и точными, а машинное обучение, нейросети и работа с Big Data вышли на принципиально иной уровень.

И вот сегодня (17 сентября 2018 года), спустя пять лет с момента публикации, благодаря специалисту по машинному обучению Джейсону Браули в сети под заголовком "Как моделировать активность человека по данным смартфона" появляется подробный разбор этой работы с примерами кода и ссылками на все необходимые инструменты и репозитории. В своей публикации Браули рассказывает, как с помощью коктейля из данных геолокации, акселерометра и прочих датчиков можно не только полностью восстановить маршрут пользователя, но и полностью моделировать все его поведение и движение в означенный промежуток времени на примере данных из исследования 2013 года.

При этом Браули отмечает, что правильно обученная нейросеть сможет не только построить графики активности пользователя или группы лиц, но также строить прогнозы, что выводит нас уже на иной уровень «киберпанка, который мы заслужили». В оправдание всей ситуации стоит сказать, что для полноценной модуляции активности конкретного пользователя требуются немалые технические знания и опыт в машинном обучении.

Если брать самый мрачный из возможных сценариев, «благодаря» тотальной слежке и невоздержанности разработчиков приложений и игр любой желающий специалист, при наличии данных, может определить, в каком именно дворе, через который ваш ребенок срезает пусть с уроков или тренировки, не работают фонари, насколько там шумно и ходят ли там другие люди. И с этим ничего нельзя сделать.

Вы опытный девелопер, архитектор или руководитель в IT-компании и думаете сменить место работы? Ознакомьтесь с нашими вакансиями SA, CA, SEM и позициями на Моем Круге.
Возможно, они вас заинтересуют.

Детские приложения массово собирают персональные данные и передают их третьим лицам

На бумаге дети защищены. Но только на бумаге

Нейросети и машинное обучение

Публикации

Информация