Как Cambridge Analytica превратила клики в голоса / Хабр

Информатор Кристофер Уайли объясняет науку, стоящую за миссией компании Cambridge Analytica по превращению опросов и данных с Facebook в политическое оружие

Как 87 миллионов записей, собранных с Facebook, превратились в рекламную кампанию, способную поменять результат выборов? Что входит в процедуру сбора такого количества данных? Что эти данные говорят нам о нас самих?

Скандал с компанией Cambridge Analytica поднял множество вопросов, но для многих уникальное торговое предложение компании, которая на прошлой неделе объявила о своём закрытии, остаётся тайной.

Специально для тех 87 миллионов человек, которым интересно, что именно произошло с их данными, я отправился за разъяснениями к Кристоферу Уайли, бывшему сотруднику компании, рассказавшему всем в издании Observer про её проблемные действия. Согласно Уайли, для подобной работы нужно совсем немного информации о науке обработки данных, скучающих богатых женщинах и человеческой психологии.

Первый шаг, объяснял он по телефону, пытаясь успеть на поезд: «Создавая алгоритм, сначала нужно собрать тестовый набор данных». То есть, неважно, насколько навороченные технологии будут использоваться для сбора данных – сначала придётся собрать их старым, добрым способом. Перед тем, как начать использовать лайки в Facebook для предсказания психологического профиля человека, необходимо заставить несколько сотен тысяч человек пройти психологический опрос из 120 вопросов.

Тестовым набором будут все данные сразу: лайки Facebook, психологические тесты, и всё остальное, на основании чего вы хотите обучаться. Самое главное, в нём должен содержаться «набор характерных признаков»: «Базовые данные, на основании которых вы хотите делать предсказания, — говорит Уайли. – В нашем случае это данные Facebook, но это могут быть тексты на естественном языке, или данные по кликам», — полная запись вашей активности в сети. «Всё это данные, которые можно будет использовать для предсказаний».

С другой стороны, вам потребуются ваши «целевые переменные», — как говорит Уайли, «то, что вы пытаетесь предсказать. В данном случае, личные особенности, политическая ориентация, и всё такое».

Если вы используете что-то одно, чтобы предсказать что-то другое, то вам может помочь одновременный обзор двух этих вещей. «Если вам нужно узнать взаимосвязь между лайками Facebook в вашем наборе характерных признаков и личными качествами в качестве целевых переменных, нужно видеть их одновременно», — говорит Уайли.

Данные с Facebook, лежащие в основе истории с компанией Cambridge Analytica, это достаточно обильный ресурс с точки зрения науки об обработке данных – и уж тем более они были такими в 2014 году, когда Уайли впервые начал работу в этой области. Собрать личные качества гораздо сложнее: несмотря на выводы, которые можно сделать из популярности опросников на BuzzFeed, довольно сложно заставить человека заполнить тест на 120 вопросов (это длина краткой версии одного из стандартных психологических опросов, IPIP-NEO).

Но «довольно сложно» – понятие относительное. «Для некоторых людей мотивация на прохождение опроса была финансовой. Если вы студент или ищете работу, или просто хотите заработать $5, то это мотивация». Реально за опрос, по словам Уайли, раздавали от $2 до $4. Повышенная стоимость полагалась для «групп, до которых сложнее достучаться». Наименьшая вероятность прохождения опроса, и поэтому, наибольшее вознаграждение полагалось чернокожим американцам. «Другие люди проходят опросы потому, что им это интересно, или от скуки. Поэтому у нас был перебор данных по обеспеченным белым женщинам. Если вы живёте в Хэмптонс [район элитарного жилья на Лонг-Айленде / прим. перев.] и вам нечем заняться днём, вы заполняете опросы потребительских исследований».

Личностные опросники используют 120 вопросов для построения профиля личности по пяти разным осям – это модель «пяти факторов», которую на жаргоне называют «OCEAN» – аббревиатура из «открытость к новому опыту, сознательность, экстраверсия, желание понравиться и невротизм» [openness to experience, conscientiousness, extraversion, agreeableness, neuroticism].

Модель разбивает личные качества на группы, которые, по-видимому, сохраняются в разных культурах и в разное время. Так что, к примеру, те люди, что описывают себя, как «громкие», скорее всего, опишут себя и как «коммуникабельные». Если они согласятся с таким описанием сегодня, то согласятся с ним и через год. Эти группы с большой вероятностью проявятся в любом языке. А если один человек реагирует на что-то отрицательно, то у него будут явные и заметные отличия от людей, реагирующих положительно.

Эти свойства модели делают её полезной для построения профиля людей, говорит Уайли – в отличие от других популярных психологических профилей, таких, как типология Майерса — Бриггса. В проверочной фазе исследования Facebook практически не затрагивался. Опросы предлагались на коммерческих сайтах по исследованию данных – сначала на платформе Amazon Mechanical Turk, затем через оператора Qualtrics (оператора, по словам Уайли, поменяли потому, что у Amazon есть проблема с пользователями, которые очень сильно навострились заполнять опросники – в итоге результаты опросов искажаются).

«Не просто право – ответственность / защищайте вторую поправку»
Реклама избирательной компании, которую проверяли на работоспособность в Cambridge Analytica

Facebook подключили только в самом конце. Пользователям, чтобы получить оплату за заполнение опросника, необходимо было залогиниться на сайте и разрешить доступ к данным приложению для опроса, созданному Александром Коганом, учёным из Кембриджского университета. Его исследования в области построения профилей личности при помощи лайков в Facebook дал компании Cambridge Analytica, спонсируемой Робертом Мерсером, идеальный шанс быстро выйти на рынок. Коган утверждает, что Cambridge Analytica уверила его в надлежащем использовании полученных данных, и говорит, что его использовали «в качестве козла отпущения как Facebook, так и Cambridge Analytica ».

Для пользователя, чьи данные собирались, процесс был быстрым: «Кликнуть на приложение, получить денежный код». Но за эти несколько секунд происходило много важного. Во-первых, приложение собирало все возможные данные о пользователе. Психологический профиль – это целевые переменные, а данные с Facebook – это «набор характерных признаков»: информация, собранная специалистом по обработке данных о всех пользователях, которую он будет использовать для точного предсказания интересующих его особенностей.

Также приложение собирало персонализированную информацию вроде настоящего имени, местоположения, контактов – то, чего нельзя было обнаружить на сайтах с опросами. «Это значит, что информацию можно было сопоставить с реальным человеком, а его – с регистром избирателей».

Во-вторых, приложение сделало то же самое у всех френдов установившего его пользователя. И внезапно сотни тысяч людей, которым вы заплатили по паре долларов за заполнение анкеты, и чья личность является загадкой, превратились в миллионы людей, чьи профили на Facebook – это открытая книга.

Именно в этот момент и происходит последнее превращение. Как превратить несколько сотен тысяч личных профилей в несколько миллионов? Задействовав большие компьютерные мощности и массивную таблицу возможностей. «Хотя ваша выборка включает 300 000 людей, ваш набор характерных признаков составляет уже 100 млн», — говорит Уайли. Каждый лайк в Facebook из набора данных становится отдельным столбцом в этой огромной матрице. «Даже если на весь набор встретится одно вхождение, это уже будет особенность».

«Затем все данные собираются в комплексную модель, — говорит Уайли. – В этот момент вы используете различные семейства, или подходы к машинному обучению, поскольку у каждого из них есть свои сильные и слабые стороны. А затем они как бы голосуют, а вы смешиваете результаты и выдаёте вывод». В этот момент наука об обработке данных становится искусством: точный набор входных данных в каждом из подходов не высечен в граните, и не существует одного, «правильного» способа его собрать. В академическом мире это иногда называется «тренировкой по методу аспиранта» – моментом, после которого только и остаётся делать, что двигаться дальше методом проб и ошибок. И всё же это достаточно неплохо сработало, и в итоге, по словам Уайли, «мы создали 253 алгоритма, то есть, на каждую запись профиля существовало по 253 предсказания». Цель была достигнута: модель, способная, по сути, взять лайки с Facebook и, работая в обратную сторону, заполнить все столбцы в таблице, догадываясь о личных качествах человека, его политических пристрастиях и т.п.

К концу августа 2014 Уайли получил первые успешные результаты: 2,1 млн записей с воссозданным профилем для 11 целевых штатов США. План состоял в том, чтобы использовать полученные данные для создания и улучшения рекламных сообщений в кампании республиканцев, которую спонсировали Мерсер и Стивен Бэннон, и дойти до праймериз 2016 года (Уайли ушёл из компании ещё до них). «Это число обозначает не только всех людей, по которым мы собрали данные с Facebook, данные по голосованиям и потребительские данные, но и построили по 253 предсказания, добавленные к ним в профиль».

Эти 253 предсказания были «секретным ингредиентом», который Cambridge Analytica представляла как уникальное предложение для потребителей. Используя одни только данные с Facebook, рекламщики сталкиваются со слишком широкими демографическими выборками, и несколькими более узкими категориями, определенными алгоритмически – нравится ли вам, допустим, джаз, или ваша любимая футбольная команда. Но с 253-мя предсказаниями Cambridge Analytica могла, по словам Уайли, подстраивать рекламу так, как никто другой: невротический легко соглашающийся экстраверт, голосующий за демократов, будет восприимчив совсем не к такой рекламе, как эмоционально стабильный интеллектуальный интроверт, даже если те же самые сообщения, если бы их поменять местами, возымели бы противоположный эффект.

Уайли упоминает такое успокаивающее политическое заявление кандидата, как стремление повысить количество рабочих мест. «Вакансии в экономике – хороший пример бессмысленного заявления. В экономике все стоят за наличие вакансий. Поэтому использование простого заявления „Я стою за наличие вакансий в экономике“, или „У меня есть план, как исправить ситуацию с вакансиями в экономике“, не позволяет вам чем-то отличаться от вашего оппонента».

«Но мы обнаружили, что если разобрать, что означает понятие вакансий для каждого конкретного человека, то окажется, что на разных людей действуют разные конструкции с разной мотивацией и набором ценностей».

На практике это означает, что ту же самую болтовню можно по-разному выразить для разных людей, создавая впечатление кандидата, влияющего на избирателей на эмоциональном уровне. «Если вы говорите с сознательным человеком – с высокими оценками по параметру C в модели OCEAN [честность, добросовестность] – вы говорите о возможностях достичь успеха и той ответственности, которую несёт с собой рабочее место. Если это открытый человек, вы говорите о возможности вырасти, как личность. С невротиком вы упираете на безопасность, которую рабочее место даст семье».

Благодаря сетевому характеру современных кампаний, теоретически все эти послания можно одновременно доставлять разной аудитории. К концу кампании, когда послания уже прижились, их можно даже автоматизировать, при помощи алгоритма, прочёсывающего словарь в поисках идеального сочетания слов для каждой из подгрупп.

«Посмотрите, что значит „брак“, и возвращайтесь ко мне / Потому что традиции не устарели»
Реклама избирательной компании, которую проверяли на работоспособность в Cambridge Analytica

Конечно, это не на 100% болтовня. Одно послание использовалось правыми, атаковавшими однополые браки. «Забавно, что послание получилось таким оскорбительным и гомофобным, при том, что его создала команда гомосексуалистов, — говорит Уайли. – Оно было направлено на сознательных людей. Там было изображение словаря и надпись „Посмотрите, что значит “брак», и возвращайтесь ко мне". Для сознательного человека послание выглядит убедительным: словарь – источник порядка, а подобный человек уважает структурированность".

В какой-то момент психометрическое нацеливание переходит в область политики собачьего свистка. К примеру, изображения стен доказали эффективность в кампаниях, касающихся иммиграции. «Сознательные люди любят структурированность, поэтому с их точки зрения, решение проблемы иммиграции должно быть упорядоченным, иллюстрацией чему служила стена. Можно создать послание, которое для каких-то людей не имеет смысла, но для других наполнено смыслом. При демонстрации этого изображения некоторые люди не поймут, что речь идёт об иммиграции, а другие сразу же опознают его». С точки зрения Уайли, реальной проблемой был политический «бутерброд без ничего», ждущий, когда на него что-нибудь положат. «Никому не нравится бутерброд без ничего». Он говорит, что данные должны «выяснить определённый вкус или приправу», которая сделает бутерброд привлекательным.

И хотя это, безусловно, была очень сложная машина для нацеливания, остаются вопросы по поводу психометрической модели Cambridge Analytica – на которые, вероятно, лучше ответит не Уайли. Когда Коган в апреле предоставил парламенту свидетельства, он утверждал, что результат вряд ли получился лучше просто случайного назначения оценок системы OCEAN. Может быть, конечно, этой небольшой разницы и достаточно, или же, может быть, Cambridge Analytica просто торговала очередным "змеиным маслом". И даже если отдельных личностей правильно промаркировали этими пятью факторами, действительно ли подбор специализированной рекламы для них был настолько простым делом, как апелляция к любви к порядку, к страху или к чему-то ещё?

Но, учитывая всё это, всё же в этом что-то есть. Обратите внимание на патент 2012 года по «определению персональных характеристик пользователя на основе обмена сообщениями в социальных сетях». «Хранение характеристик личности можно использовать как целевые критерии рекламы, для увеличения вероятности положительного взаимодействия пользователя с рекламой», как указано в патенте. Автор патента – сама компания Facebook.