Добро пожаловать в эпоху нигилизма приватности / Хабр

На Google и Facebook легко свалить вину, но на самом деле компании собирали, продавали и повторно использовали наши личные данные в течение десятилетий, а теперь, когда общественность наконец заметила, уже слишком поздно. Война за приватность давно закончилась, и мы проиграли.

Месторождение природного газа в Дервезе (Туркменистан) провалилось в подземную пещеру, создав непрерывно горящий кратер диаметром 69 м. Его называют «Врата в ад». Фото: Giles Clarke / Getty

Бариста обжигается на работе, покупает крем для ожогов в магазине Target, а позже в тот день видит рекламу этого продукта в Facebook. В другом Target кто-то кричит товарищу взять Red Bull; по дороге домой Instagram выводит спонсорское сообщение с этим напитком. Женщина занимается выпечкой и вслух восклицает, что хорошо бы купить миксер KitchenAid — и через несколько мгновений видит рекламу на телефоне. Два друга говорят о недавних поездках в Японию, а вскоре одному из них предлагают билеты со скидкой. Охрана аэропорта конфисковала у девушки флакон духов, а по приезду она видит рекламу местных парфюмерных магазинов в Facebook. Это лишь некоторые из многих странных совпадений, которые вызывают у современных пользователей неприятное чувство слежки и потери приватности. Причины иногда безобидны, а иногда и нет. По мере того как эти технологии выходят на свет, некоторые из них требуют нормативного или правового регулирования.

Но ничто из этого не ново и не уникально для современных IT-компаний. Онлайновые службы лишь ускоряют и усиливают воздействие методов сбора данных, которые существуют в течение десятилетий. Компании давно собирали ваши личные данные, с вашего разрешения или без него: от работодателей, из государственных архивов, от покупок, банковской деятельности, из системы образования и из сотен других источников. Они сочетали, рекомбинировали, покупали и продавали эти данные. Собранные и обработанные данные полезнее, чем разбросанные по тысячам баз данных. Все ваши действия были записаны, пережёваны и выплюнуты на вас, чтобы принести пользу продавцам, рекламодателям и брокерам, которые их обслуживают. Это происходило в течение долгого времени, и система не собирается останавливаться. Наступила эпоха нигилизма приватности, и пришло время столкнуться с тёмным кратером её всепроникающей пустоты.

Многие люди всё ещё уверены, что их смартфоны прослушивают — записывают разговоры в фоновом режиме, а затем тайно загружают в Facebook или Google. Компанию Facebook обвиняют чаще других: вероятно, потому что её сервис (в том числе Instagram) очень популярен, а объявления так легко заметить. Компания каждый раз это отрицает, а исследования доказали, что такое технически невозможно. Но идея живёт.

Она сохраняется, потому что выглядит правдоподобной и потому что она правдива по духу, а не буквально. Facebook и Google, возможно, не буквально слушают наши разговоры, но они прослушивают нашу жизнь. У этих компаний так много данных о стольких людях, и они могут анализировать их таким большим количеством способов, что вполне могли бы контролировать и наши разговоры. Путешествие в другой город, поиск ресторана? Дело не только в том, что Facebook или Google знают, где вы находитесь и что вы ищете. Они также знают, вы гурман или скупой, «понравилось» вам корейское мясо или польский вареник и что ваша демография говорит о ваших доходах, и, следовательно, вашем бюджете.

Технологические компании собирают данные неожиданными, а иногда и обманными путями. Один из примеров — катастрофа Cambridge Analytica и Facebook. Совсем недавно отчёт, основанный на исследовании Университета Вандербильта, предположил, что Google собирает или анализирует огромное кол��чество информации о своих пользователях на основе просмотров веб-страниц, чтения медиа, местоположения, покупок и т. д. — иногда слежка осуществляется даже без взаимодействия с пользователем. Особенно интенсивно собираются данные о местоположении: с Android-смартфонов координаты пользователя передаются более 300 раз в течение 24-часового периода, даже если пользователь отключил историю местоположений в настройках устройства. Исследование также показывает, что режим «инкогнито» в браузере Google Chrome, который обещает скрыть информацию пользователя от веб-сайтов во время просмотра, по-прежнему позволяет Google подключать эти якобы скрытые посещения к своему собственному внутреннему профилю пользователя.

Подобные разоблачения породили коллективный иск против компании. Хотелось бы верить, что надзор, регулирование или юридические последствия в конечном итоге помешают или даже изменят то, как технологические компании собирают и управляют данными. Эта надежда оживает благодаря общественному давлению на техногигантов в течение последнего года или больше. Но она игнорирует тот факт, что жажда к слежке за пользователями у Google и Facebook развилась в контексте широко распространённой, многолетней практики анализа данных.

В течение многих лет компании собирали, покупали и продавали эти данные, оттачивая свои навыки маркетинга и сбыта. Но с ростом крупных IT-компаний, ставки выросли. Секретный сбор данных теперь осуществляется централизованно в глобальном масштабе. Сейчас группа компьютерных гиков знает всё, что вы говорите, делаете, мечтаете и желаете — даже то, в чём вам стыдно себе признаться. Манипуляции с данными раньше были позорным, теневым бизнесом. Сейчас это мейнстрим. Технологические компании не стыдятся империй, которые они построили, и денег, которые заработали таким способом. Наоборот, они смакуют прибыли, которые выжимают из ваших приватных данных — и они делают это в открытую. Хуже бандита, который действует из злобы, может быть только тот, кто крадёт ваши секреты и ничего не чувствует при этом.

Поскольку можно сохранять все записи, компании давно начали использовать и извлекать выгоду из имеющейся информации. Термин «бизнес-аналитика» ввели ещё в 1865 году, в книге Ричарда Миллера Девенса «Энциклопедия коммерческих и деловых историй» (Cyclopaedia of Commercial and Business Anecdotes). Начиная с 17 века Девенс изучал, как купцам и банкирам извлекать выгоду из доступа к информации (о войне, конкурентах, погоде и так далее).

Почти столетие спустя, в 1958 году, инженер IBM Ханс Петер Лун приспособил эту концепцию для информационной эпохи. К тому времени машины IBM облегчили бизнес-аналитику, но Лун определил наиболее трудноразрешимые проблемы: получение и хранение данных — только начало, их необходимо извлечь и проанализировать. Для решения этих проблем потребуется ещё несколько десятилетий.

Наиболее существенный прогресс был достигнут в 1969 году, когда учёный-компьютерщик Эдгар Ф. Кодд, тоже из IBM, разработал новую парадигму хранения и обработки данных. «Реляционная модель» Кодда вскоре воплотилась в программных продуктах, известных как реляционные базы данных, которые с 1978 года продавались компанией IBM и другими. Реляционные БД позволяют легко выполнять запросы к большим и разнообразным наборам данных. Продажи можно проанализировать по регионам и поставщикам. Оценить конверсию для потенциальных клиентов. Отдельные действия конкретных клиентов можно объединить в шаблоны. И всё это делается быстро, с подключением самой свежей информации.

После этого почти все существенные корпоративные программы следующего десятилетия — о большинстве из которых простые люди никогда не задумывались и не видели — были построены на идее реляционных баз данных. Oracle продаёт своё популярное ПО с 1979 года. Она и другие компании, включая IBM, Microsoft, SAP, PeopleSoft и Google, создали новые корпоративные продукты, которые используют реляционную БД как платформу. Эти продукты до сих пор актуальны. Софт для планирования ресурсов предприятия отслеживает и управляет бизнес-операциями. Софт для управления отношениями с клиентами отслеживает продажи и маркетинговую деятельность. Системы управления цепочками поставок помогают управлять потоком компонентов и сырья для производства и дистрибуции. По сей день обычная жизнь людей основана на этих системах. Если вы получаете зарплату, заказываете товары на Amazon или владеете смартфоном, собранным из отдельных деталей, то являетесь бенефициаром промышленного комплекса реляционных баз данных. И жертвой тоже: с 1980-х годов компании используют эти системы для хранения информации, кто вы такой и чем занимаетесь.

Но долгое время эта информация была разбросана по разным хранилищам. Ваш банк или производитель вашего автомобиля могут знать, сколько у вас денег или какой автомобиль вы водите, но данные изолированы в отдельных системах в отдельных организациях. Сеть супермаркетов может знать, насколько хорошо конкретная линейка продуктов продаётся в конкретном регионе, но она мало знает о том, кто их покупает и почему.

Но затем организации нашли способы сбора и рекомбинации информации всех видов. Национальные кредитные бюро Equifax, Experian и Transunion стали одним из источников данных, продавая доступ к своей информации практически для любых целей, включая маркетинг (хотя юридические и операционные изменения со временем запретили некоторые из этих практик). Рост популярности кредитных карт, дебетовых карт и электронных платёжных систем облегчил сбор информации о продажах и связывание разных покупок с конкретными клиентами. Дисконтные карты вроде тех, которые вы используете в супермаркете или аптеке, предлагают «скидки» в обмен на постоянную слежку с привязкой к адресу и номеру телефона. Под видом программ лояльности эти усилия направлены только и исключительно на сбор информации.

Брокеры данных начали собирать и продавать данные определённого типа, такие как списки перспектив продаж определённых категорий товаров. Компании приобретали эти списки, устанавливали в своих корпоративных системах, а затем сопоставляли новые внешние данные с уже имеющейся информацией. Все вместе эти факторы потрясли фундамент приватности задолго до появления Google и Facebook.

В 2012 году Чарльз Духигг опубликовал переломную статью «Как компании узнают ваши тайны» о том, как команда статистиков Target разработала алгоритмы для предсказания поведения клиентов.

Из статьи NY Times 2012 года:

Однажды в магазин Target зашёл мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.

«Моя дочь получила это по почте! — прокричал он. — Она ещё в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»

Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель — действительно, они были адресованы дочери рассерженного мужчины. Менеджер принёс свои извинения.

Через несколько дней он позвонил мужчине, чтобы ещё раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьёзно поговорил с дочерью, и выяснилось, что в моём доме происходило то, о чём я совершенно не догадывался. Она рожает в августе. Примите мои извинения».

Как Target узнал, что дочь беременна до того, как об этом стало известно её отцу? Ответ прост — благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом.

«Если мы хотим выяснить, беременна ли наша покупательница, даже если она хоч��т это скрыть, как это сделать?», — таким вопросом задалась маркетинговая команда Target в 2002 году, до того, как Google вышел на биржу и до того, как Facebook вообще появился. Компания стала связывать все взаимодействия с клиентом — покупки, электронные письма, опросы, использование купонов — с уникальном ID каждого клиента (Guest ID). «Target также купил данные у брокеров, включая потребительские привычки, политические пристрастия, финансовые тенденции и многое другое — и прикрепил их к Guest ID. Результат позволил компании делать прогнозы относительно будущих потребительских привычек и соответствующим образом их обрабатывать. Target был не одинок в этой практике.

Результат казался таким же жутким, как сегодняшняя слежка Facebook. Более пяти лет назад мой коллега по журналу Atlantic Алексис Мадригал пытался выяснить, почему он начал получать детские каталоги по почте ещё до того, как они с женой кому-либо сказали, что у них будет ребёнок. Он отследил каталог до брокера данных, который объяснил, что предыдущие покупки подарков для племянниц и племянников пометили его семью как потребителей детской одежды, товаров и игрушек. Вот почему пришли каталоги; факт беременности оказался совпадением: «Не было никакой злой машины, которая на шаг впереди наших собственных желаний», — писал Мадригал.

Это верно для большинства сегодняшних сверхъестественных совпадений, которые люди пытаются объяснить заговором тотальной слежки. Тот, кто кричал в магазине взять Red Bull, вероятно, и раньше покупал Red Bull. Покупка международных авиабилетов уже помечает человека как путешественника, который, вероятно, снова совершит такую покупку. Если кто-то замешивает тесто собственными руками, то наверняка совершал другие покупки (или посещал веб-сайты), которые делают миксер KitchenAid очевидным совпадением.

Реклама KitchenAid или детский каталог выглядят иначе и по-новому, потому что кое-что изменилось в мире приватности. Во-первых, в последние несколько десятилетий торговля данными непрерывно расширялась. В 2014 году ProPublica опубликовала обширное исследование различной информации об отдельных гражданах, которую компании покупают и продают. Торговля приватными данными настолько продвинутая, что истории кажутся почти вымышленными. Продаются списки читателей любовных романов. Списки тех, кто пожертвовал международным благотворительным организациям. Разведённых. Кредитное бюро Equifax получает данные о зарплате от многих компаний в обмен на услуги по проверке занятости. И так далее. Если ваш мозг способен придумать какой-то список — почти наверняка для этого есть источник данных, который кто-то продаёт и покупает.

Но что более важно, скорость получения и корреляции информации резко возросла. Веб-браузеры и смартфоны вносят свой вклад по объёму и стоимости обработки данных. Точность информации о местоположении, которую потихоньку собирает Google, позволяет компании устанавливать связь с конкретными местами, где пользователи ходят по магазинам, обращаются за медицинской помощью или гуляют. Эти места соотносятся с другими действиями, проводимыми до или после, такими как веб-поиск перед отъездом или просмотр видео на YouTube. Вся бизнес-модель Facebook основана на такой информации и позволяет маркетологам сопоставлять её с собственными данными. Нынешняя критика заставила компанию пересмотреть некоторые из этих практик, включая дискриминационному таргетингу рекламы, но это лишь небольшое препятствие для общего тренда.

Корреляции тоже стали более сложными. Венчурный инвестор Бенедикт Эванс недавно убедительно доказал, что машинное обучение может в будущем так же сильно повлиять на человеческую жизнь, как и реляционные БД в начале 1970-х годов. На первый взгляд странные связи на самом деле являются «выбросами», потому что именно их мы замечаем. Как насчёт всего остального, что остаётся незамеченным и связывает поведение способами, которые люди даже не представляют? Это связи, которые обещает найти машинное обучение.

Централизация информации тоже возросла. С миллиардами пользователей по всему миру, организации вроде Facebook и Google могут предложить гораздо больше данных и извлечь из них выгоду. Корпоративные сервисы также децентрализовались, и больше данных переместилось в облако, что зачастую просто означает в руки крупных технологических фирм, таких как Microsoft, Google и Amazon. Экстернализация этих данных создаёт угрозу приватности. Но эта угроза есть и при локальном хранении, где компании подвержены взломам, как произошло с Equifax в прошлом году.

Реальная разница между старым маркетингом с вторжением в частную жизнь и новым маркетингом заключается не в сборе данных (сбор данных использовался давно), а в том, что многие люди, наконец, осознали происходящее. Скандал с Cambridge Analytica, недавние статьи о Google и связанные с ними события способствовали просвещению публики, но не так сильно, как шквал мгновенно скоррелированной рекламы в приложениях и на веб-страницах. Бумажная почта приходит раз в день, но в то же время люди видят в интернете сотни или тысячи новых версий их собственной личной информации. Легко и обоснованно попадают под подозрение крупные, сомнительные IT-компании, но истинная причина — более полувека развития техник бизнес-разведки, которые оттачивались, опробовались и совершенствовались втайне от всех. Google и Facebook — лишь верхушка старого, закалённого айсберга.

Это означает, что простые советы, вроде ограничения информации, которую вы предоставляете Facebook и Google, помогут лишь в некоторой степени. Конечно, кажется, что использование iPhone вместо Android поможет лучше скрыть ваше физическое местоположение. Регулирование или юридические действия тоже способны обратить вспять некоторые злоупотребления в экономике данных. Но в конечном счёте это проигранная битва. Вы действительно собираетесь прекратить использовать Google? Или уйти из Facebook? Или прекратить просмотр веб-страниц? Или отказаться от смартфона? Или отключить службы определения местоположения в настройках? Может быть, некоторые люди сейчас на некоторое время способны на это, но реальность современной жизни загонит их обратно в эти службы. В конце концов такое станет невозможным. Если вы не являетесь независимым и богатым человеком, то не сможете отказаться от кредитов. Даже если вы никогда не используете кредитную карту, ваш работодатель может предоставлять ваши данные кредитным агентствам. Вы не можете отказаться от супермаркета, который хранит информацию о каждой покупке, связывая их друг с другом. Невозможно отказаться от благ цивилизации в реальной жизни, независимо от того, сколько бровей нахмурилось и сколько твитов опубликовано об этом.

Очень легко и комфортно обвинять Google в нынешнем положении дел. Мы создаём пугало и боремся со «злодеем», который кажется достойным врагом. Но истинный противник в нарушениях приватности — это не конкретный злодей из комиксов, которого можно загнать в угол, разоблачить и победить. На самом деле истинный враг — это туманная муть, леденящий душу лавкрафтовский шёпот, его невозможно увидеть, не говоря уже о прикосновении, не говоря уже о победе. Даже «облако» — неправильная метафора, потому что откачка газообразного яда только вызывает новый холодный сквозняк из невидимых источников. Если не сайты, то фармацевтика. Если не данные о местоположении, то домашние товары. Если не лайки, то банковские счета и демография районов. Ваши данные везде, и нигде, и невозможно изменить ситуацию и избежать того, что они ещё см��гут сделать для вас.