ua-hosting 9 ноя 2019 в 11:59

Большое интервью про Big Data: зачем за нами следят в соцсетях и кто продает наши данные?

24 мин

38K

Блог компании ua-hosting.companyИнформационная безопасность*Big Data*Социальные сети и сообществаБудущее здесь

^{Disclaimer. Специалист по Big Data, Артур Хачуян, рассказал, как соцсети могут читать наши сообщения, как наш телефон нас подслушивает, и кому все это нужно. Эта статья — расшифровка большого интервью. Есть люди, которые экономят время и любят текст, есть те, кто не может на работе или в дороге смотреть видео, но с радостью читает Хабр, есть слабослышащие, для которых звуковая дорожка недоступна или сложна для восприятия. Мы решили для всех них и вас расшифровать отличный контент. Кто всё же предпочитает видео — ссылка в конце.}

Каждый день мы что-то пишем, разыскиваем и выкладываем в интернете, и каждый день кто-то следит за нами по ту сторону экрана. Специальные программы сканируют фото, лайки и тексты, чтобы продать наши данные рекламным компаниям или полиции. Можно назвать это паранойей или научной фантастикой, но телефон, круг общения, переписка или ориентация — больше не секрет.

Зачем приложение Facebook запрашивает доступ к нашей камере, микрофону и контактам

Интервьюер: – Приведу небольшой пример. На что мы соглашаемся, когда ставим на смартфон приложение «Фейсбук». Итак, оно имеет доступ к данным: о контактах, о запущенных приложениях, о файлах на usb-накопителях, имеет неограниченный доступ к интернету, может запускаться при включении смартфона, менять обои, скачивать файлы, по запросу просматривать смс, снимать видео, звонить, записывать звук. Зачем всё это нужно?

Артур Хачуян: – Ну, на самом деле под каждой этой функцией есть реальная функция «Фейсбука», под каждым из этих запросов. И «Фейсбук» скажет, что, конечно же, всё это нужно для улучшения взаимодействия с приложением. Но мы-то с вами понимаем, что это делается для сбора данных.

Записывают ли приложения наши разговоры

На самом деле здесь тоже есть такая тонкая грань – сейчас вам приведу пример: есть люди, которые сильно очень сильно «паранойят» из-за того, что «Я что-то сказал, «Яндекс»-навигатор это услышал, я начал получать рекламу» или, условный «Фейсбук» (неважно) – «Я где-то говорил, у меня приложение лежало на столе»…

Здесь есть три пути развития, так сказать… вот этой параноидальной истории. Первый – людям просто показалось, они забыли, что какой-то контент потребляли где-то когда-то, либо они просто попали в статистическую выборку, что люди их возраста, интересов и их паттерна поведения вот в этот момент должны заинтересовать курсами английского языка. Они что-то там говорили и им кажется, что кто-то за ними следит.

Читаются ли наши сообщения в соцсетях

Но есть на самом деле вторая история, я много раз проводил такие эксперименты: делаются два чистых аккаунта в соцсетях, с одного в другой пишется сообщение, типа «друг поехали в Сыктывкар» (я всё это в шутку рассказываю, я в жизни не знаю, где Сыктывкар), но через два-три дня начинаешь получать рекламу о турах туда. То есть соцсеть сканирует личные сообщения, что вроде как и нарушает соглашение с ней, но ты это никак не докажешь. А запущенные мобильные приложения очень часто собираются, чтобы понять на самом деле доход этого человека. Очень много делали таких исследований ребята: знаете, вызываете такси с одного и того же места с «Айфона» и «Андроида», и разный ценник даёт таксопарк, потому что они определяют платформу, определяют запущенные приложения… Окей, сначала определяют платформу и понимают, кому нужно какую стоимость для платформы.

Как приложения могут рассказать все о человеке

А запущенные приложения – это вообще такая фишка, которая позволяет о человеке много чего сказать. Как понимаем, кто он? По контенту, который он потребляет. Мы можем по установленным приложениям понять всё, вплоть до сексуальной ориентации. Какие приложения установлены – это, соответственно, реальные интересы этого человека. То есть если у него установлена какая-нибудь «приложуха» для фрахтования самолётов частных – окей. Если установлен «Букинг» какой-нибудь, «Авиты», прочие приложения для продажи или есть очень много приложений для каких-то дешёвых покупок и скидок, кэшбеков – в общем, сами понимаете. Если вы сами сейчас посмотрите свои приложения…

Как не выкладывать ничего в интернет и все равно там оказаться

И.: – Или он игроман, предположим…
А. Х.: – Да, конечно, можно сразу же понять. Элементарно, в каком банке у него счёт.
И.: – Слушай, для начала давай откроем секрет для всех о том, что когда человек что-то пишет в своей социальной сети или публикует фотографию, это видят не только его подписчики.
А. Х.: – Да, это верно. Я всегда показываю такую, большую картинку, где есть портрет среднестатистического российского пользователя социальных сетей. Там он, его друзья, друзья друзей, друзья друзей до третьего колена. Это огромный объём аудитории, порядка восьмисот тысяч пользователей, которые видят иногда случайным образом контент этого человека (из-за современных интегральных лент в социальных сетях), но самая здесь большая ошибка новичка в том, что у человека может вообще не быть аккаунта в социальных сетях, но он куда-то пришёл на какое-то мероприятие, его «сфоткали», он там что-то сделал, потом это выложили, и, соответственно, некие знания попали в эту огромную базу открытых источников.
И.: – То есть он может сидеть в ресторане или быть на митинге, будучи на заднем плане какой-то фотографии – его опознает система…
А. Х.: – Спереди какая-нибудь молодая девушка сделает селфи на свою 6-мегапиксельную фронтальную камеру и, собственно, всё…

Какие данные собираются по моим фото в соцсетях

То есть мы, опять же, в данном случае с фотографией извлекаем знания об этом человеке, а потом эти знания будем сравнивать с другими полученными фотографиями, то есть «машина эта – ваша или не ваша», то есть если вы её года за полтора публиковали минимум раз пять, был один и тот же номер, марка, цвет… Она при этом не была ни на «Авто.ру», «Дром.ру», нет её среди ваших друзей – тогда мы этот автомобиль присвоим к вам.

И.: – И поймёте мой примерный достаток?
А. Х.: – Да. Или потом, когда вы поедете по МКАДу и вас встретит такой большой «диджитал-суперсайд» (большой телевизор), на которых почти на всех стоит распознавание номеров автомобилей. Они за триста метров распознают номер вашего автомобиля, передадут нам, а мы скажем, какую рекламу вам показывать.
И.: – Вы получаете данные с каждого билборда, в котором встроена камера?
А. Х.: – Нет, у нас есть партнёр, один из крупнейших поставщиков наружной рекламы, у нас есть API, они передают нам номер автомобиля – мы говорим, каким контентом этот человек интересовался. То есть здесь с точки зрения бизнеса – решение двух задач: чтобы не показывать рекламу чего-то, с чем человек уже столкнулся; ну и, соответственно, в потоке выбрать процентов 80–90 людей со схожими интересами и показать им какой-то определённый контент.

Как и зачем компании вычисляют мое местоположение

Сейчас самая живая история (не наша) – она связана с анализом «вай-фая». Во всех торговых центрах, когда человек приходит, подключается к «вай-фаю», соответственно, его mac-адрес отслеживается – мы можем понять, как человек перемещался. Это очень специфическая такая тёмная материя, потому что вроде поставщики оборудования ввели новые протоколы, которые мешают такому отслеживанию, а вроде как Apple не очень-то хорошо реализовал этот протокол, и всё равно можно эти mac-адреса реально получать – соответственно, отслеживать, как человек перемещался.

Как по моему местоположению можно вычислить мою зарплату

А потом, условно, этот торговый центр «Метрополис», в котором стоит эта система, делится данными с условным «инпо-аналитикс» (условно, оператор всех этих данных в метро). И мы можем понимать, на какой станции вы сели, на какой вышли. Соответственно, собирая о вас данные несколько дней, можно понять, где вы живёте, где вы работаете – практически для всех: то, что ближе – работа, то, что дальше – это дома. Соответственно, можно понять, живёте вы рядом с «Метрополисом» или нет, как часто перемещаетесь. Вообще, по времени захода и выхода человека в метро можно понять его стиль поведения – рабочего, студента, приезжих, мам с детьми… Ну, реально есть статистические зависимости. И, соответственно, уточняя эту выборку, мы можем понять, где какой человек работает. Плюс, ещё добавить туда его фотки с соцсетей. Потом, как только мы поймём, где он работает, можно понять примерно его должность по каким-то там параметрам; соответственно, потом сравнить это с «Хедхантером», «Суперджобом», понять среднюю зарплату для этого места, для этой должности. Таким образом, соответственно, набираются знания.

И.: – Предложить ему кредит на определённых условиях.
А. Х.: – Да-да. Потом он поедет в какую-то страну, зачекинится там где-то, сфотографируется в том же «Фейсбуке» – «Я из Шереметьево лечу в Панаму». Можно посмотреть по «Скайсканер», сколько стоят билеты в эту дату по количеству запросов людей в место назначения, сколько стоит отель – ну и, соответственно, понять, сколько люди тратят на отпуск, как часто они путешествуют, какие у них есть свободные средства и, собственно, на основании этого делать прогнозы и так далее.
И.: – Продавать коммерческие продукты, банковские продукты.
А. Х.: – Да. Либо банковский продукт, либо управление финансами, либо в налоговую его сдать, потому что у индивидуального предпринимателя карточка привязана к юрлицу, и он налоги сдаёт, скажем, на 100 тысяч, а тут новую тачку себе купил. Вот. Такое тоже есть.

Как искусственный интеллект «читает» наши фото в соцсетях и какие делает выводы

И.: – Я выкладываю в «Инстаграм» фотографию. На ней я, скажем, изображён на фоне автомобиля, около какого-то дома, я одет в определённую одежду. Как эти искусственные алгоритмы начинают смотреть на меня и что они начинают понимать?
А. Х.: – Окей, мы зашли на страницу, собрали эту фотографию. Первое, что делается – это выделяется ваше лицо, для того чтобы понять – вы это или не вы, ваш ли это аккаунт. Может, это кто-то другой сделал фотографию или вы кого-то сфотографировали. Следующий шаг – собственно, «свёрточные» сети для распознавания образов (компьютерное зрение). Наша задача понять, что есть на фотографии? Большого количества вещей понять нельзя. Нам нужно понять автомобиль, цвет, марку, ну и, соответственно, распознать номер. Можно понять цвет верхней, нижней одежды; возможно, фасон; возможно, с точностью 70–80% стиль причёски. Как-то так. Если это селфи сделал человек, то можно цвет глаз определить.
И.: – А причёску как мы можем использовать?
А. Х.: – Ну, длину волос… Ой, вы знаете, «бьюти»-бренды с ума сходят по этому. Шампуни какие-то продают определённым женщинам, с определённым цветом волос.
И.: – Название бренда шампанского на столе можно определить?
А. Х.: – Да. Можно не только бренд шампанского определить. Можно определить, что это за алкоголь. То есть бокал вина можно определить. Если бутылки нет – марку не определить. Но для большинства алкоголя бутылки специфические – там, «Джек Дэниелс» с определённой формой… и так далее. По образам можно понять, что это такое было и составить выборку о том, что люди пьют. Есть очень много коммерческих клиентов, которые просят найти людей, которые любят устраивать вечеринке дома с «Кока-Колой» и «Джеком Дэниелсом», например; а потом что-то с ними делают. Как-то так.

То есть человеку бренд дарит какой-то подарок. Он думает: «О, как круто! Меня случайно выбрали»! А на самом деле всё это было не случайно. Был оценен его потенциал привлечь новую аудиторию, связи, скорость распространения контента, 50 разных метрик.

Что искусственный интеллект думает о достатке Тимати, глядя на его фото с Lada Priora

И.: – Слушай, я предлагаю тебе небольшую игру. Я тебе покажу популярных, или типичных для «Инстаграма» фотографии, а ты расскажешь, что может увидеть искусственный интеллект на них и какие выводы сделать. Начнём: первая.

А. Х.: – Я думаю, стиль одежды, марку автомобиля, место можно понять. Тут, я вижу, есть огнетушитель. Можно понять 100 %, что это парковка. Парковка супермаркета, судя по фотографии, судя по пакету. Я бы на месте искусственного интеллекта 100% его записал бы в таксисты. Но, «смэтчив», скажем так, его внешний вид (имеется в виду одежда), марку автомобиля и синие пакетики, он бы попал в определённый класс населения с доходами 50–80 тысяч…
И.: – Микрокредиты, автомобиль недорогой…
А. Х.: – Да-да-да.

Как можно собирать данные о человеке, который еще не родился

И.: – Одна из самых популярных в «Инстаграме» фотографий – она была первой до прошлого года, когда появилось ещё что-то более популярное.

А. Х.: – Ну, здесь всё понятно. Здесь главный вывод, который будет сделан – это беременность. Алгоритм оценит месяц этой девушки либо по фотографии, либо скорее всего по… Беременные хоть раз делают текст типа «Ребята, мы на третьем месяце» или «Ждём чуда». Но то же самое можно сделать по фотографии.
И.: – По тексту или объёму живота можно определить месяц?
А. Х.: – Да-да. Да. Есть очень небольшая выборка медицинская, сделанная… Для чего это делается: мы определяем дату предполагаемых родов. Соответственно, мы будем знать, когда ребёнку будет полгода, восемь месяцев, год, два, три, пять…
И.: – И двадцать пять!
А. Х.: – Да-да. И в каждый из этих моментов маме будет предлагаться определённый материал: детская одежда, памперсы для двухлетних, для двухмесячных и так далее, и тому подобное. Но что самое главное, некий задел на будущее, мы уже будем знать дату рождения ребёнка. Сначала плюс-минус, но затем, если сделают уточняющую дополнительную публикацию – мы уже начали собирать данные об этом ребёнке. Он ещё не родился, а у нас уже появились на него некие знания. Это на самом деле, конечно, ужасающая история с точки зрения, не знаю… чёрного зеркала.

Какие данные собираются с фото Рамзана Кадырова

И.: – Что можно понять по этой фотографии?

А. Х.: – На самом деле здесь люди сразу же наберут свой «вес экстремизма» за счёт оружия. Распознавание оружия на фотографии, мгновенное распознавание оружия на фотографии очень часто используется в «сториз», во всём-всём-всём. То есть у них сразу галочка появится, что они «сфоткались» с оружием. И если этот человек наберёт некий уровень опасности, то эти сигналы сразу будут отправлены в органы, контролирующие оборот оружия, потому что… Это же «Калашников», правильно я понимаю? Вроде-то как огнестрельное оружие у нас запрещено. Ну, тем не менее. Да, несколько людей. Я не знаю, есть тут аватарка у пользователя, нет?
И.: – Пользователь – собственно сам Рамзан Кадыров, но он удалил свой профиль.
А. Х.: – Ага, окей. Ну, это в истории, соответственно, всё останется. Вот этот автомат распознать нельзя, а этот «Калашников» точно можно.
И.: – А если это игрушка будет?
А. Х.: – Ну, есть всё равно специфические вещи. У игрушек, как правило, ремень не такой зелёный… Я не специалист в этом. Знаю, что у нас достаточно хорошо заточено распознавание оружия. Здесь, мне кажется, какой-то рожок модифицированный, то есть там порядка десяти тысяч параметров есть различных по распознаванию оружия… Надрезанного, модифицированного – как-то там ещё… Я не спец в этой области.

Почему фотографироваться с чужими машинами – это плохо

И.: – Девушка с дорогим классическим автомобилем.

А. Х.: – С дорогим классическим автомобилем, у которого нет номера. Скорее всего, модель автомобиля можно будет распознать. Но здесь явно видно – есть алгоритмы, которые распознают горизонт по полу. То есть здесь явно видно, что автомобиль находится явно выше пола, то есть он попадёт в экспонируемые, плюс здесь нет номера, плюс это скорее всего единственная фотография с этой машиной и скорее всего эта же машина есть на других фотографиях в этой геолокации, поэтому она не будет распознана как её. Вижу, что здесь по заднему фону можно понять, что это за страна, потому что это специфический язык. Я понимаю, что это – какая-то Чехия, нет? Плаца де Скопице… Ну, это что-то такое. По тексту, по лингвистике можно понять, что это за страна, если там геометки нет. Всё, больше о человеке сказать нельзя, кроме как об одежде и так далее. Но это, опять же, отдых такого, условно городского типа, туриста, который любит путешествовать. Как-то так. На самом деле люди, которые фотографируются подобным образом с дорогими подарками, с дорогими машинами, им всегда занижается уровень достатка. Не знаю почему, но статистически, как правило, вот так происходит.
И.: – Следующий. «Инстаграм».

Что нам говорит Инстаграм Медведева

А. Х.: – Двое мужчин. Первое, что мы должны будем определить – чей это аккаунт. Это обычные люди. Отсюда какое знание будет получено? Что эти люди отдыхают на природе – это очень частая категория для людей, которые любят отдыхать на природе. Соответственно, они могут попасть в весьма странные сегменты – например, дачники. У них сезон дач – им, не знаю там, видеонаблюдение продают, юридические услуги. Ну, в общем, у дачников есть некий свой паттерн поведения.
И.: – Ты сказал: определить владельца аккаунта. У Владимира Путина нет «Инстаграма» и нет общедоступных данных.
А. Х.: – И вот он бы тоже попал в дачники. Ну, если бы это был не Владимир Путин, а какой-то другой человек, которого, скажем, его друг сфотографировал, то о нём его знания тоже появились бы.

Что мы можем узнать о Путине через соцсети

И.: – Если мы проанализируем информацию о нём, известную в сети, с помощью всех возможных алгоритмов, что бы мы могли получить, что бы мы узнали о Владимире Путине по итогам этого исследования?
А. Х.: – Мне кажется, мы узнали бы слишком много на самом деле. Стоимость (имеется в виду в машино-часах) обработки всей информации, которая есть о Владимире Путине, превысила бы коммерческую эффективность данного запроса.
И.: – Но если мы возьмём и проанализируем людей, которые на его фотографиях присутствуют, какие-то предметы и так далее, мы сможем сопоставить эти данные и получить какой-то интересный результат, как ты думаешь?
А. Х.: – Вряд ли интересно именно по Владимиру Владимировичу, но мы проводили такие исследования много раз по разным чиновникам (я потом могу вам показать пример исследования) следующим образом: мы брали десять тысяч самых крупных государственных закупок «Нашей России», людей, которые эти закупки размещают, производят; и вот там по фотографиям, по связям пытались построить карту (у меня есть такой проект – «Интерактивная карта») из тех десяти тысяч госзакупок – там очень интересно (я вам потом покажу). Там все люди сгруппированы в такие кучки, кластеры, и вот они торгуют только между собой. Почему-то вот совпало их наличие на всех возможных фотографиях, яхтах, связях и так далее с тем, как они размещают государственные закупки. Уж почему так получилось, мы не знаем.

Куда продают наши данные и для чего

И.: – Мы выяснили, что эту информацию можно взять из сети. Как её можно использовать?
А. Х.: – Есть множество разных кейсов – хороших, плохих и так далее. Большинство людей на первом уровне пытаются собрать некие контактные данные, собрать условную спам-базу, продать её кому-то там, куда-то там и так далее. Чуть более честные ребята второго уровня – они собирают какую-то информацию, делают аналитику, продают эту аналитику. Мы перешли на условный третий уровень – мы продаём знания. То есть мы не продаём какие-то выгрузки каких-то там комментариев публикаций, мы не продаём контактные данные конкретных людей, мы собираем всё вокруг какого-то события, мероприятия, географической точки и извлекаем оттуда знания. Кто были эти люди, как часто они путешествовали, какое порно они смотрели, есть ли у них собаки, квартиры, машины, жёны, дети и так далее. И вот эти знания уже продаём без привязки к конкретным людям.

Можно ли установить ориентацию человека по данным из соцсетей

И.: Или делаете из них какие-то определённые выводы. Если практически к этому подойти, можно ли, например, установить, условно говоря, сексуальную ориентацию человека, который её не афиширует, и узнать соотношение в обществе? В процентном соотношении.

А. Х.: – Можно, да. На самом деле это очень легко делается, потому что люди (я просто очень много проводил таких экспериментов по «Тиндеру» и по прочим социальным сетям для знакомств)… Люди, как правило, группируются в кластеры, и даже если они внешне скрываются, можно понять, кто с кем как коммуницирует внутри этих кластеров. Это одна из запретных метрик, которую мы не передаём клиентам.
И.: – Но какие алгоритмы для этого могут быть использованы? Какие данные для этого могут быть использованы?

Как по лайкам человека понять о нем все

А. Х.: – Самая основная, наверное, история – это контент, который человек потребляет. Это лайки. Все сейчас считают, что их никто не видит. А это действительно так, и нельзя никаким техническим методом получить лайки какого-то конкретного пользователя, не собрав весь контент, который находится в социальной сети. Для решения конкретно этой задачи достаточно какого-то узкоспециализированного контента – например, вы возьмёте и соберёте всё порно во «Вконтакте», крупнейшем порно-трекере и, соответственно, посмотрите, кто его лайкал (а для «Вк» это примерно каждый восьмой пользователь лайкает порно – до сих пор мы не понимаем почему). Соответственно, потом на основании этого можно всех людей условно сегментировать, скажем так, по интересам.

Мы два или три года назад с «Лайфом» проводили такое исследование, когда был «праймериз» «Единой России», и они обязали всех ребят, которые собираются пойти в «Единую Россию» (4400 кандидатов)… Где-то на 600 из них подали свои аккаунты в социальных сетях – мы посмотрели, какое порно они лайкают. Там было очень смешно: где-то 70–75 человек засветились в такой, нелицеприятной активности – кто-то Навального лайкал, кто-то – «Роспил», кто-то – детскую порнографию. В общем, это было смешно.

Всё это ведёт к тому, что мы пытаемся пользователям объяснить: что бы вы ни делали, всё это попадёт в открытый доступ. Потому что сейчас люди не понимают, что то, что говорится в открытом доступе – оно действительно в открытом доступе, и ты это никак не сотрёшь оттуда, никак не избавишься.

И.: – То есть люди думают, что они рассказывают о себе в профиле в своей социальной сети, а больше можно узнать по тому, как они лайкают? Если раньше гадалка гадала по руке, то теперь вы берёте, анализируете лайки и получаете анализ предпочтений.

А. Х.: – Да, по употреблённому контенту можно понять всё, что угодно. Кто этот человек: домохозяйка, мама с ребёнком, какие у неё интересы вообще? И самое главное, что с точки зрения бизнеса на основании этого можно сделать прогноз: какой продукт человек купит через неделю, месяц, полгода, год. Вот, у нас есть мужчина, у него только что родился ребёнок, мы знаем, что у него есть машина – мы ему сразу предлагаем детское кресло. Да, или это, например, молодая девушка, которая зашла, скажем, на сайт интернет-магазина, её идентифицировали, мы знаем все её фотографии за последние пять лет в «Инстаграме», какого цвета верхнюю и нижнюю одежду она одевала, в какую погоду, в каком эмоциональном окрасе и так далее – и. собственно, предлагаем ей идеальный вариант.

Как узнать телефон человека

И.: – Я понимаю, что вы не используете эту информацию в открытую, не передаёте, но можно ли узнать более, скажем так, интимные данные о человеке – узнать номер телефона, хотя он нигде его не выкладывает у себя в профиле, узнать, как он передвигается по городу, где он находится в данный момент.

А. Х.: – Можно. Первая история, связанная с номером телефона: все всегда попадаются на каких-то досках объявлений – это реально бич всех. Я вам такую историю приведу: мы когда-то давно делали исследование под надзором компетентных органов: значит, дали «скрипту» денег, чтобы он закупил наркотики у разных ребят – в «Торе» там, в «Телеграме» и так далее. Но только у тех, у кого из них был известен номер телефона, и этот номер телефона можно было как-то деанонимизировать.
И.: – «Скрипт» – это автоматический робот?
А. Х.: – Да, конечно. Соответственно, большинство вот этих вот начинающих наркобарыг погорели на следующем: у них номер телефона реально чистый, не привязанный ни к чему, ни к соцсетям. Но они на «Авито» что-то продавали! Поэтому можно понять, где они территориально находятся, потому что все рядом со своим местом жительства продают. Ну и, соответственно, кто они. Потому что по тем товарам, которые человек продаёт, тоже можно сделать некие предположения о том, кто этот человек. Ну и, соответственно, мы потом сопоставляли места, где они живут, и места, куда они ездят оставлять «подарочки».

Как помогать родителям контролировать детей в соцсетях

Мы однажды запускали проект по анализу действий несовершеннолетних (родительская опека). Тогда он ещё назывался «Родительский контроль. Мы себе выбрали тогда такой смешной слоган: «Лучше мы, чем ФСБ». На самом деле была абсолютно благая идея: мы собирались предупреждать родителей несовершеннолетних о том, что ребёнок какую-то непотребщину производит. У нас сейчас около семисот тысяч несовершеннолетних ежедневно пишут какую-то хрень, за которую к ним могут прийти и по головке их не погладить: хачей сжигать, стёкла бить и так далее. Мы подумали (как разработчики госалгоритмов зная, какой уровень некой «экстремистости» должен набрать человек до того, как государство проведёт с ним некое целевое действие), что правильнее предупреждать родителей. Ну, в общем, сторонники Навального, в частности Алексей Булков, не очень правильно восприняли эту новость – в «Фейсбуке» написали кучу всякого гнева. Было смешно, но когда ты получаешь 5-тысячный комментарий «Когда Навальный станет президентом – такие, как ты, будут сидеть в тюрьме», как-то не очень комфортно…

Но на самом деле мы к этому спокойно относимся, потому что люди просто не понимают, что происходит. То есть они – вот, сволочи, из Сколково будут собирать личную переписку, геоперемещения… Ну, там по каждому пункту… Мы к Сколково вообще никакого отношения не имеем. Какие геоперемещения, какие «чекины»? Ну, в общем, какие личные сообщения? В общем, как-то так.

И.: – Типа, взрослых кошмарят на митингах, и вот, за детей взялись… Какие-то были интересные результаты «Родительского контроля»?
А. Х.: – Да, на самом деле вся эта история «стартанула» сначала из исследования: мы решили взять 30 тысяч случайных несовершеннолетних, которые совершают какую-то непотребщину, найти их родителей и написать ботами их родителям: смотри, твой ребёнок написал, что завтра пойдёт сжигать хачей (и там какая-то цитата и так далее). Ну, в общем, где-то 99,8% родителей нас послали в жопу и сказали: вы вообще кто такие, что вы делаете? А мы абсолютно мирные, честные посылы написали: обратите внимание, данный материал в реестре запрещён и так далее, и тому подобное. В общем, нас все послали в жопу. Мы поняли, что у нас люди очень любят истерить по поводу паранойи – государство лезет в трусы, но на самом деле они настолько халатно относятся к своим данным, что очень сложно им что-то объяснить. Просветительская работа – она самая мерзкая, самая неблагодарная.

Как производители фитнес браслетов и смартфонов зарабатывают на данных о своих клиентах

И.: – А правильно ли я понимаю, что некоторые компании, как «Джабон», которая делает браслеты для активности…
А. Х.: – Финтес-трекеры.
И.: – «Хуавей», которая делает смартфоны… Помимо продажи гаджетов, они очень хорошо зарабатывают на том, что знают о своих клиентов очень много и продают их?
А. Х.: – Да, продают, как правило, знания об этих людях среднестатистические, начиная от американского Минздрава, заканчивая «мэтчингом» этих данных с «Фейсбуком» по привязанным аккаунтом и продаже этих историй рекламным площадкам. Это тоже вроде как не очень этичная история, но с другой стороны, как бы проблема здесь в людях, которые не читают соглашение. В соглашении написано, когда и кому будут передаваться данные, в каком объёме.

Как невинный гаджет раскрыл расположение американских военных баз

Но ещё был такой интересный кейс (не знаю, сталкивались ли вы). Есть такое приложение «Страва» – это фтинес-трекер. Они в начале этого года сделали очень крутой проект. Они сделали карту: весь мир — гигантская тепловая карта того, как люди бегают, катаются – в общем, треки, их фитнес-треки. И на самом деле компания даже не подумала о том, скольких людей они засветили. Все военные базы секретные США в Сирии, Ливии были подсвечены.

И.: – То есть по карте это официально просто пустыня, в которой…
А. Х.: – Да. В какой-нибудь сирийской или ливийской пустыне, где как бы ничего нет, там есть такие треки людей, которые каждый день там бегают очень и очень активно. Получается, что они «спалили» кучу военных баз в Америке и так далее. Это всё очень быстро подчистили, но тем не менее вот такой интересный прецедент был.

Приложения для знакомств – самый надежный источник приватных данных

И.: – Тот же самый «Тиндер» – один из самых любимых источников информации для вас.
А. Х.: – Мой, да. Потому что там есть реальные интересы людей – можно по фотке «смэтчить» «Фейсбук» собственно с «Тиндером», и там вообще есть информация, что этому человеку реально интересно, что он делает и так далее: люблю охоту, рыбалку и… как-то так. Есть очень много систем, которые прогнозируют явку на выборы, политические предпочтения, кто за какую партию проголосует. Здесь, единственное, есть момент о том, что у нас большое количество электората – оно не очень цифровое. Как-то так. Но даже о них можно некие знания понять. Там… Кто где в ЖКХ ругался, судился с кем.
И.: – По каким данным?
А. Х.: – Открытый Госреестр и Госправосудие, Суд РФ. У нас судебная практика почти полностью открыта. Там не очень качественные данные, но они открыты. Есть там… служба судебных приставов, жёлтые страницы, сайты ЖКХ региональных. Отовсюду можно собрать кусочки информации.

Как данные из соцсетей могут повлиять на российскую политику

И.: – Но самое простое – это сбор информации про людей с оппозиционными взглядами, насколько я понимаю? Они молоды и активны.
А. Х.: – Да, конечно, есть такое.
И.: – Как ты думаешь, как это в будущем может изменить общероссийскую политику – использование Big data?
А. Х.: – Думаю, что вряд ли особо сильно как-то. Поясню почему: потому что в данной ситуации всем понятно, кто у нас выборы выигрывает – не потому, что они нечестные, а просто потому, что вот так большинство голосует. Поэтому здесь единственное, для чего могут быть использованы Большие данные – думаю, для повышения явки и как-то правильной работе с лидерами мнений, сегментация, агитация. Сейчас очень много приходит запросов на предвыборные кампании мэра в Москве. Ну, всем понятно, кто мэром станет – не потому, что куплено, коррупция – все проголосуют за Сергея Семёныча, с этим ничего не сделать. И у остальных кандидатов задача набрать минимум какой-то или, как в Госдуму, они процент какой-то должны набрать. Вот, как-то так.

Значение сбора данных из соцсетей в победе Трампа

Но такого успеха, конечно, как у президента США, вряд ли здесь удастся добиться: во-первых, потому что у нас вот такая вот выборная система; а во-вторых, я не очень-то верю в успех президента США. Я думаю, 30-40% ему реально микротаргетинг принёс, но не космическую победу.

И.: – Расскажи, что там за алгоритмы могли быть использованы?
А. Х.: – Там всё было на самом деле очень просто. Все сейчас пинают «Кембридж-аналитику» за то, что они якобы что-то где-то нарушили, но по сути дела никто не сидит в тюрьме по очень простой причине: потому что законы нарушены не были. Была куча тестов в «Фейсбуке», какой-то «пирожок»… Ну знаете, их полно. Люди проходят эти тесты и никогда не читают лицензионные соглашения. А там всё чётко: данные их используются для продажи на рекламную платформу. Люди проходят абстрактные тесты, какой-то пирожок или какой-то хлебушек, красный или синий, – на основании этого они делают психометрические выводы, за кого человек будет голосовать. Но там важно, не за кого человек будет голосовать – важно понять, какая у него проблема: мексиканец, который боится не получить работу или американец, который боится её потерять из-за мексиканцев – эти люди группируются в маленькие группки, и потом условный президент в виде таргетированной рекламы этим людям говорит: мы вам поднимем зарплату, а вам отменим обамовское здравоохранение, вам запретим (мексиканцам) работать, вам – разрешим (мексиканцам) работать.

То есть это такой условный микротаргетинг, который показывает каждому человеку не двухчасовую прямую линию с президентом, а какие-то определённые моменты, то есть реальные проблемы, которые президент собирается решить.

Можно ли предсказывать преступления и искать преступников через соцсети

И.: – Скажи, пожалуйста, как вы ищите антисоциальные какие-нибудь элементы – педофилов, маньяков, убийц? Можно ли вообще предугадать, что это случится, что человек совершит преступление, или как его эффективно предотвратить?

А. Х.: – Тема предотвращения преступлений сейчас – одна из самых активных в мире. Мы очень активно вкладываемся в эту историю, пытаемся её трансформировать. Основной из кейсов, который у нас есть – это система для расстановки ППС. Это алгоритм, который с утра «генерит» информацию, куда нужно поставить патрульно-постовую службу в зависимости от задачи. Фанатов ли мы хотим оприходовать, либо мы хотим снизить уровень криминогенной активности (кражи, насилие), или хотим наркобарыг поймать. То есть мы собираем определённый набор данных, делаем из этого выводы, смотрим на нашу какую-то статистику историческую и говорим: сюда, сюда, сюда, в такое-то время, ехать они должны таким-то образом; и наш некий целевой показатель снижаем.

Наш максимум в Подмосковье… Сколько мы делали? Ну, где-то 7–8% — мы снижали криминогенную активность где-то – это кражи домашние, это уличные грабежи. Это максимальный показатель, которого нам пока удалось добиться.

Что касается маньяков и всех прочих ребят, когда мы встраиваемся в процесс добора каких-то дополнительных улик – здесь стандартный кейс такой: вот есть среднестатистический следователь, на него пришло какое-то убийство; всё, что он может потребовать с мобильного оператора, когда пройдёт суд и полтора года после суда – это он получит, не знаю… 300 тысяч номеров мобильных телефонов вокруг какой-то конкретной геоточки. Сделать с ними он ничего не может. Он загружает эти номера к нам, мы, соответственно, можем оставить из них 5–7 людей, которые были как-то связаны, находились рядом с ними, можно поговорить с ними и так далее. А все остальные, может, мимо просто на машинах проезжали.

Есть ещё история, связанная с фанатами, тоже очень популярная история. Вот сейчас, перед чемпионатом у нас стадионы покупают системы удалённой идентификации, для того чтобы: когда отбитый фанат заходит на сайт – и ему говорят – билетов нет, или он приходит потом на стадион, его там распознают – и его не пускают, потому что он написал у себя в «Инстаграме», что «завтра идём мочить русских», там, на «Локомотиве»… Вот как-то так.

Что касается педофилов, мы достаточно давно, к сожалению, в этой теме, и там есть одна очень большая проблема. Мы где-то четыре года назад начали этим заниматься: сделали ботов, которые путешествуют по интернету, общаются со взрослыми мужиками на форумах определённых и пытаются как-то с ними пообщаться и какие-то факторы выделить их поведения, запросы и так далее. Это работало слишком хорошо: слишком много людей было найдено – столько людей наша правоохранительная система через себя пропустить не может. А главное, что по текущему законодательству человека нельзя посадить за лайки в соцсетях, и это хорошо, подчёркиваю – хорошо. И как бы нельзя человека посадить за намерение совершить какой-то акт. То есть в данном случае мы можем только сгенерировать рекомендацию, и дальше участковый должен как бы пойти и кого-то за руку поймать. А это, сами понимаете, работает в 100 тысяч раз медленнее, чем работает алгоритм.

Можно ли навсегда удалить свои данные из интернета?

И.: – Могу ли я вообще удалить что-то из интернета или это абсолютно?..
А. Х.: – Это практически невозможно, потому что необходимо будет общаться с каждым владельцем каждого ресурса. Есть так называемый закон о забвении, который вроде обязывает всех это делать, но юридически он распространяется только на поисковые системы. У нас лично есть форма на сайте для удаления данных о себе, но нельзя нам в дальнейшем запретить эти данные о людях собирать, потому что законодательство текущее не очень хорошо работает.

Как соцсети могут помочь утечке моего пароля?

Такая есть ещё интересная статистика: в начале этого года Международная ассоциация банков делала очередной обзор о информационной безопасности – у них был такой интересный показатель: возросли в шесть раз кражи с денежных счетов, когда был взломан секретный пароль. То есть: вы сейчас подумайте о своём секретном пароле… Что у вас там стоит – кличка животного девичья фамилия матери и подумайте о том, могу ли я узнать эти данные из открытых источников? Могу ли я узнать кличку домашнего животного, любимое блюдо или девичью фамилию матери из открытых источников. Соответственно, я могу зайти в банк, восстановить пароль и взломать ваш банк. Вот, Европейская ассоциация – у них в 6 раз увеличились кражи именно по этой статье, потому что люди ставят ответ «кличка домашнего животного», а потом пишут в «Фейсбуке» кличку домашнего животного. Собственно, вот как-то так. Мне кажется, через пять лет кошмар совсем будет происходить, потому что текущее поколение – они не понимают, что соцсети – это навсегда, что это открыто, что если сейчас какая-то девушка станцует пьяная на столе, а через 20 лет она станет классным руководителем, то все дети смогут найти это видео из архивов и потом начать шантажировать.

И.: – Ты себя не чувствуешь таким… злым гением немножко, потому что ты обрабатываешь данные людей всё-таки не в интересах их самих, а такого условного «большого брата»?

А. Х.: – Есть такое на самом деле, да, но у меня есть такая отмазка, которой я собственную совесть успокаиваю: возьмём, например, кейс – человек уволен за то, что он набухался (это реальная абсолютно история), человека уволили (ну там, пьяный в сториз выложил и его спалили и уволили). Моя концепция следующая: если работодатель захочет за ним следить – он за ним будет следить, по открытым источникам или по закрытым источникам; если государство хочет следить за человеком, оно может это сделать любым образом – оно может прослушку ему поставить, а может посмотреть его публичные фотографии. Я в этом случае бренд «Калашников» – можно тысячу людей убить карандашом, а можно расстрелять их из автомата; плохо, печально, но я, как инженер, придерживаюсь концепции, что не оружие убивает людей, а люди. Вопрос в том, кто эти данные получит и как он ими будет распоряжаться.

Но, конечно, все с моей концепцией не согласны. Они считают (цитирую с комментариев в «Фейсбуке»): «Так же и Гитлер оправдывался»! или «Так же, типа, эссесовцы оправдывались!» Те данные, которыми мы оперируем – люди сами их отправили в открытый доступ; мы просто научились из этого извлекать факты.

Как приложения для знакомств станут более эффективны

И.: – Мне кажется, вы можете заработать ещё больше денег, если просто будете искать пару для людей идеальную на более крутом уровне, чем это делает «Тиндер» или кто угодно.
А. Х.: – Да, ждите конца года – мы сейчас работаем над приложением для знакомств.
И.: – То есть люди всё-таки будут счастливее, счастливы?..
А. Х.: – Моё идеальное приложение для знакомств – это не «Тиндер», не «магазин мяса», мой идеальное приложение – это когда ты зашёл, авторизовался соцсеточкой (мы получили минимум информации) и тебе сразу же предложили идеальных кандидатов. Наша главная в этом случае проблема – определить текущую эмоциональную, психическую стадию человека, чтобы понять, кого ему конкретно подбирать. Что ему сейчас нужно: секс на один раз, любовь всей жизни, ну и так далее. Мы уже достаточно долго работаем над этим вопросом.

Неожиданные результаты исследований проституток

И.: – Слушай, как можно опознать человека, которому нужен секс на один раз по его социальным сетям, по фотографиям?
А. Х.: – Фотки… Ну, сложно сказать. Есть такое среднестатистическое, может, у кого-то представление: фотки алкоголя – одинокий холостяк, просмотр порно… Давно мы делали исследование: мы брали 20–30 тысяч проституток со всяких разных сайтов, по фоткам их «мэтчили» в соцсетях и делали исследование, какие ВУЗы они заканчивали. Ну, соответственно, смотрели, как они с людьми коммуницируют.
И.: – То есть вы искали зависимость между образованием и их положением?
А. Х. – Да. Нет никакой зависимости на самом деле. Вообще. Как в МГИМО есть такие девушки и мальчики так и в каком-нибудь урюпинском ВУЗе. Нет никакой зависимости.
И.: – Это народная профессия?
А. Х.: – Да. Древнейшая народная профессия.

Сериал в тему

После прочтения интервью невольно вспоминается сериал — Person of Interest. Рекомендуем всем его к просмотру.

Быть может будущее уже наступило и мы все в поле зрения, подозреваемые.

Немного рекламы :)

Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, 30% скидка для пользователей Хабра на уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2650 v4 (6 Cores) 10GB DDR4 240GB SSD 1Gbps от $20 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?

Теги:

Хабы: