ЦРУ — большие задачи и большие данные. На пути к созданию глобального информационного колпака / Habr

Айра Гас Хант (Ira Gus Hunt), действующий Директор по технологиям ЦРУ, рассказывает о своем видении Big Data на службе ЦРУ, а также возникающие при этом задачи и методы их решения. Выступление состоялось на конференции GigaOM Structure:Data 2013, проходившей 20 марта в Нью-Йорке. Как говорят очевидцы это было одно из самых интересных и запоминающихся выступлений.

ВЕДУЩИЙ 00:00

Если вы не поаплодируете нашему следующему докладчику, то он обязательно поднимет ваше личное дело и сделает там отметку. М-р Гас Хант — Директор по технологиям Центрального Разведывательного Управления. Он собирается поговорить о тех больших вызовах, связанных с обработкой Big Data для ЦРУ. Добро пожаловать на сцену, мистер Хант.

[аплодисменты]

АЙРА ГАС ХАНТ 00:22

Поскольку между вами и обедом остался только я один, то я не очень уверен, что мне хотелось бы тут находиться, но мы посмотрим, получится ли у меня удержать ваше внимание. Меня зовут Гас Хант и я являюсь Директором по Технологиям в ЦРУ (Chief Technology Officer), и хотел бы поговорить с вами о тех вещах, о которых вы тут уже слушали весь день. Я попытаюсь рассказать вам о том, как выглядит с нашей точки зрения всё, что происходит в мире, почему это для нас важно, а затем, что, по нашему мнению, следует изменить, чтобы мы, и, я полагаю – весь частный сектор тоже, сумели получить преимущество от использования Больших Данных.

Если вы подумаете о том мире, который когда-то был, то в нём были Облака. Так было три года назад. Сейчас мы находимся в точке, где находятся Большие Данные, так что весь последний год мы читаем все эти статьи, от которых перехватывает дыхание. И еще — глянцевые обложки. Я уже ожидаю, что Большие Данные станут Человеком Года в Time. В этом году, мы всерьез говорим о том, каким образом мы сумеем получить ценность из существующих материалов, и я слышал здесь уже много разговоров и мнений по этому поводу…

На тот случай если вы не знаете, как мы зарабатываем себе на хлеб, то у ЦРУ есть три основных направления «бизнеса».

Мы собираем информацию о планах и намерениях наших противников. Мы делаем всесторонний анализ источников, где мы объединяем свежесобранную информацию с той, что у нас уже находится у на руках, после чего мы можем сказать Президенту, Секретарю Госбезопасности, тем, кто делает политику, а также всем прочим, что всё это значит. И третье, чем мы занимаемся — и мы единственное агентство, которому это разрешено законом, с ведома Президента Соединенных Штатов – тайные операции. Вот те три направления, за которые мы отвечаем.

Примерно четыре года назад, когда я был назначен на пост директора по технологиям, мы как-то сидели и разговаривали: «Что у нас должно быть, чтобы быть уверенными в нашем будущем» и мы пришли к тому, что я называю четырьмя нашими большими задачами.

Большая задача под номером один, возникшая еще четыре года назад, касалась Больших Данных и наших способностей получить преимущество из больших информационных потоков, возникающих на планете. Это нужно, чтобы мы могли понимать, что в них происходит и защищать национальную безопасность. Как раз этим мы и занимаемся.

Номер два – и это было еще до разговора о секвестре и прочих вещах – тот факт, что у нас есть определенная ответственность перед вами – налогоплательщиками, и вы должны быть уверены в том, что мы потратили каждый доллар настолько эффективно, насколько это возможно. Но когда мы думаем о эффективности — это не вопрос низшей стоимости. Это предложение наилучшей ценности, и для нас «ценность» определяется как результаты, поделенные на стоимость и время. Лучшие результаты за меньшее время и меньшие деньги дают большую ценность.

Третье – и иногда на этом мы умышленно делаем акцент – то, что мы должны взаимодействовать вместе как сообщество, несмотря на то, что вам приходится читать, что все работает неправильно, что мы не делимся информацией, и всё такое. На самом деле это не так. Мы делаем нашу работу хорошо. И как любая организация, похожая на те, что существуют в частном бизнесе, мы рассматриваем проблемы с разных точек зрения и углов, и иногда это дает почву для небольших дискуссий о самом правильном пути решения вопросов, с которыми нам приходится сталкиваться.

Номер четыре – персонал. Если у нас не будет талантов — людей с нужными нам способностями, мы не сможем выполнять те задачи, которые мы перед собой ставим.

Затем мы озвучили, что для достижения этих целей, нам надо будет иметь надежную основу, в которую мы собираемся сделать инвестиции. Мы собрали вместе шесть ключевых технологий, позволяющие решать наши задачи, и в эти технологии мы собираемся вкладываться в течение длительного времени.

Это всё нужно, чтобы у нас была уверенность в том, что мы жизнеспособная и конкурентная организация, устремлённая в будущее.

Это достаточно простые вещи и они вам хорошо известны, но безопасная мобильность для нас – это тема огромной важности. Мобильные технологии не безопасны. Повторите за мной: Мобильные технологии не безопасны. И это действительно так. Каким образом мы собираемся сделать их безопасными в нашем окружении, так чтобы мы могли получить из них пользу? Это серьезная задача.

Вторая вещь, приведенная здесь – то, что мы называем продвинутой аналитикой. На самом деле мы рассматриваем аналитику как сервис. Под этим мы понимаем всё, что нам потребуется делать с Большими Данными – выполнять работу, необходимую для поддержания безопасности нашей нации.

Третье, что у нас есть – виджеты и сервисы. Мы подошли к этому, используя такую вещь как Ozone Framework. Ozone – это фреймворк, который разведывательное сообщество разработало на базе фреймворка Google. Основная причина, по которой мы им пользуемся, совпадает с причинами по которым вы пользуетесь своими смартфонами, iPad-ами и прочими штуковинами. Вы можете их персонализовать и поместить на них всякие разные штучки, необходимые для вашей деловой или личной жизни. Нам необходимо создать окружение, где наши аналитики и операторы и прочие сотрудники могут разместить необходимый для них функционал и персонализовать свой мир. Мы можем назвать её WebTop, или девайс-топ или как-то ещё, как пожелаете.

Четвертое – что, кстати, на слайде идёт под номером три, и я не очень хочу объяснять странности такой системы исчисления – это длинная история. Так вот, четвёртое; безопасность – это сервис. Мы не хотим, чтобы вам приходилось отстраивать систему безопасности сверху вниз каждый раз, когда вы поставляете нам или создаете для нас новую систему. Нам понадобиться иметь набор сервисов, и лучшие практики из мира архитектуры старых сервисов. Все помнят тот мир? Готов поспорить, что я помню. Это сервисы безопасности, над которыми на верхнем уровне есть виджеты и аналитика, они общаются с сервисами безопасности в середине, которые взаимодействуют с инфраструктурой для вычислений и прочими низкоуровневыми вещами. Так вот — сервисы безопасности и прочее имеют много общего между собой, и мы хотим быть в них уверены, что они постоянны на всем своем протяжении для любого лица, имеющего доступ к любому элементу данных, доступного через любую аналитическую систему. И эти меры также должны обеспечиваться через один из сервисов безопасности.

Пятое – данные. Я собираюсь поговорить об этом подробнее. Сразу же вспоминается — «это данные, дурачок». У нас есть концепция использования данных как сервиса и такое понятие, которые мы назвали ‘бухта данных’. Бухта данных не совсем четко очерченное место, но мы планируем там собрать мощные расчетные движки, подобные тем, которые вы видели в выставочном зале. Мы обнаружили (или, по крайней мере, считаем что это так), что вся аналитика выше некоторого уровня, часто пользуется общими наборами больших, высокопроизводительных расчетных инфраструктур, скрываемых внутри.

Мы хотим создать окружение, в котором будут присутствовать все наши данные и массивные вычислительные инфраструктуры, так чтобы для нас было легко отрабатывать новые идеи или наши новые навыки на верхнем уровне, приводя в движение то, что у нас есть внизу. Чтобы делать все эти вещи, необходимы большие мощности для вычислений и эта маленькая забавная штучка называется Облако.

Спрашивали ли вы себя, как много значит ‘много’? Мы это делаем постоянно. Я хочу быстренько пробежаться по тому насколько велико понятие ‘большой’ в Больших Данных. Вы, все знаете Google. Google большой провайдер всяких интересных вещей. Google прекратил сообщать о своих размерах, по крайней мере, как мы смогли выяснить, около четырех лет назад в их документах 2009 или 2010 SEC.

В то время, они говорили что у них около 100 петабайт данных, более чем триллиона индексов URL. Это достаточно много.

Facebook. Как вы знаете, Facebook, где-то в августе прошлого года превысил миллиард пользователей, так что их сейчас уже больше чем миллиард. Я обнаружил одну интересную вещь – последние цифры показывают, что приблизительно 35% всех мировых фотографий размешены именно в Facebook.

Youtube. Мы считаем, что Youtube единственное хранилище экзабайтного размера или больше, которое можно встретить на планете, по крайней мере, в публичном её секторе. По последним документам, которые к нам попадали, размер Youtube составлял около 768 петабайт. Если примерно посчитать какой объем данных добавляется к Youtube, то вы обнаружите что три или четыре года назад, Youtube был в размерах больше экзабайта.

Мировое население. Если вернуться примерно, в апрель месяц, то обнаружится, что население потихоньку перевалило через семимиллиардную отметку.

Все говорят о Twitter и о том, насколько велик Twitter. В twitter проходит около 124 миллиардов твитов год, 4500 в секунду.

Но Twitter просто жмот по сравнению с глобальной системой коротких сообщений SMS, где передается около 193,000 штук в секунду. Из которых 190,000 набирает моя дочь [смех в зале]. У меня есть счета от оператора, я могу это подтвердить.

Но даже это немного по сравнению с количеством звонков по сотовым телефонам в США. Только в США проходит 2.2 триллиона минут переговоров в год – 19 минут на человека в день – что я нахожу невероятно малым, если конечно, опять использовать в качестве средней оценки мою дочь. Примерно на два порядка меньше, чем должно быть, но если всё это переложить на привычные оценки данных, то это еще один Youtube в год.

Благодаря чему всё это происходит? Я думаю, что вы это всё знаете. Есть три фундаментальные движущие причины последних нескольких лет, а также одна маленькая любопытная штука — Социальное Мобильное Облако. Именно она принесла нам большую часть Больших Данных. В социальном мире, вещи очень быстро распространяются как вирусы и поэтому им необходимо информационное пространство, эластично масштабируемое, в существенно больших пределах, чем оно было задумано изначально, когда Облако еще только начало существовать. Все хотят быть в социуме и обмениваться информацией. Всё это, рассматриваемое в целом, и создаёт то, о чем мы и говорим – Большие Данные.

Есть существенный рост скорости инноваций. Можно спросить любого из вас, у которого есть стартапы: вы посещали когда-нибудь ваши инвестиционные компании, кроме как в некоторых особых случаях, и говорили им, что вы собираетесь купить кучу железа, нанять к нему толпу админов и после этого вы начнете работу? Кто-нибудь так делал? Вряд ли… А что вы обычно делаете? Вы идёте, достаете вашу кредитную карточку, покупаете услуги у Amazon или Rackspace, или типа того – и получаете мощности, и начинаете заниматься своей работой. Вы начинаете проект быстро, очень дешево и вы можете сконцентрироваться на вашей задаче и не думать о нижележащей инфраструктуре.

Для нашего мира это значит, что Социальные Мобильные Облака существенно ускорили социальное общение способами, которых мы не ожидали, и я полагаю, что они вообще не существовали до появления этих технологий в реальной жизни. Классический пример – арабская весна. Способность групп граждан, участвовавших в арабской весне, продолжать оставаться на связи, несмотря на тоталитарные правительства, всячески пытавшихся им препятствовать, дала возможность процессам и протестам арабской весны развиваться, и как бы то ни было, но прийти к своему осуществлению, что мы и собираемся увидеть через какое-то время. Но мы всё еще пытаемся понять, что всё это значит.

Что важнее всего, в нашем мире, что такая вещь как Социальное Мобильное Облако полностью изменила поток информации на целой планете. Когда я начинал работать в ЦРУ много лет назад аналитиком, мир был устроен достаточно просто. Если говорить в терминах информационных потоков, то это было движение от нескольких-ко-многим. Были NBC и CNN, еще советский ТАСС и американский Times, а еще Washington Post. То, чем вы занимались было классический моделью, когда несколько генераторов информации говорили остальным, что и как им надо думать, и вещи распространялись именно таким образом. Социальное Мобильное Облако перевернуло эту модель с ног на голову, и перешло к сложной модели ‘многие-ко-многим’, и я, конечно, должен сказать, что нам, на самом деле, больше нравится модель ‘несколько-ко-многим’ [смех]. Получить преимущество в этой модели было достаточно просто. Ведь что интересно, когда все говорят и обмениваются информацией, то, несмотря на большой уровень шума, здесь присутствует полезный сигнал, который нам необходимо найти. И это, я полагаю, одна из больших проблем Больших Данных в мире: как найти сигнал в постоянно увеличивающихся океанах шума.

Если вы думаете, что это сложно и вы думаете что знаете это – здесь об этом говорили; парень, который занимается здравоохранением в компании Aetna и другие, говорившие об этом чуть ранее — есть еще три возникающих силы: Нано, Био и Сенсоры.

Вы уже являетесь ходячей платформой для сенсоров, и я надеюсь, что вы это знаете. Ваши мобильные устройства – ваш смартфон, ваш iPad, чтобы там еще не было – у всех есть множество этих штуковин. Я думаю, что есть закрытый список того, что установлено внутри этих устройств и того что возникает внутри этих пространств. По мере того, как вы прогуливаетесь по округе, как мобильная сенсорная платформа – и помните, я говорил вам, что ваши устройства не безопасны – вы должны быть в курсе, что кое-кто может знать, где вы находились все время, потому что у вас есть мобильное устройство. Даже если ваше мобильное устройство отключено. Надеюсь, что вы это знаете. Да? Нет? Если нет, то вам следует это знать [смех]. Потому что это действительно важно.

Допустим, вы когда-то были фанатом Star Trek — как я, когда я был ребенком, и вот теперь представьте, что ваша мобильная платформа, ваши смартфоны, превратятся в ваши Коммуникаторы, станут вашими Трикордерами и, наконец, станут вашими Транспортерами. Как вы попадаете на самолет сегодня? Хотите ли вы пройти с куском бумаги, как это делаю я, потому что в том месте, где я работаю не очень поощряются мобильные устройства? Или же вы пройдёте посредством небольшого символа, перед которым вы сделаете движение рукой, и эта магическая штуковина вас перенесёт, куда бы вы ни захотели.

Также он может стать вашей мобильной платформой, следящей за вашим здоровьем. Прямо сейчас вы можете купить дополнительные устройства для вашего кардиостимулятора, которые будут заниматься мониторингом вашего сахара в крови, контролировать инсулин и прочие полезные для здоровья штуки. Сама индустрия здравоохранения очень упорно ищет способы, которыми бы она могла делать удаленный мониторинг вашего здоровья, так что они могут всегда позаниматься тем, что происходит с вами и вашим телом, и затем смогут делать удалённую подстройку ваших проблем. Вы думаете: Гас говорит очень быстро – так вот, я очень обеспокоен о том, что кто-то собирается удалённо хакнуть мои удалённые настройки и ускорить мой маленький кардиостимулятор, чтобы я говорил с вами еще быстрее. И это как раз то, о чем нам приходится беспокоиться, если вы думаете, что кибер-атаки по мере того как они возникают, направлены не только против вашего бизнеса. В конце концов, они могут быть направлены против вас и вашего здоровья. И если вы не будете предпринимать мер предосторожности, у вас возникнут серьезные риски.

На самом деле, если вы думаете о вашей сенсорной платформе, существует маленькая классная программка – Activity Tracker. Это небольшая программа для Android. Знакомы с ней? Для сбора данных программой, как правило, используется ваш трехосный акселерометр на вашем телефоне. Хотя, у меня на самом деле — Fitbit. Вы ведь знаете о Fitbit, правильно? Это обычный простой трёхосный акселерометр. Мы любим эти штуковины, потому что у них нет…. Впрочем, я не буду тут сильно углубляться в специфику [смех]. Что обычно происходит: они собирают информацию, и по просматриваемым данным, которые могут собираться с высокой точностью, можно установить ваш пол, узнать ваш рост — высокий вы или низкий, большой у вас вес или нет, но что более удивительно — всё это может быть установлено по вашей манере ходьбы — по тому, как вы двигаетесь, когда ходите.

Но вообще-то это может быть реально хорошей вещью. Представьте, что это программа безопасности. Если вы куда-то идёте и вам нужен доступ к вашему банковскому коду, может быть будет немного проще, потому что в банке будут знать с абсолютной точностью что вы – это вы, установив это по вашей походке и после этого разрешат вам провести операции в банке. С другой стороны, если вы не хотите себя обнаруживать или вы хотите себя защитить, вы не захотите, чтобы кто-то знал, как выглядит ваша походка, так чтобы никто не мог понять, где вы были всё это время.
Что любопытно, по мере того как вы начинаете сводить все эти вещи воедино, то неодушевленное становится разумным. Мы уже видим, что это происходит. IBM говорит об их проекте Smarter Planet. У Google есть машина, которая ездит сама по себе. У вас уже есть техника, которая знает, что вам надо – вы могли ее видеть на последнем CES. Вы разве не читали статью про холодильник, считывающий продукты? Он это делает по мере того, как вы их ставите или вынимаете, а потом присылает вам почту на ваш смартфон: «Купите молока». Я рисую себе несколько мрачную картину будущего: вечер пятницы, я очень устал, я работал допоздна, я сажусь в мою самоуправляющуюся машину, говорю «отвези меня домой» и куда она меня везёт? Безопасным образом, объезжая все препятствия она везет меня за чертовым молоком [смех]. Почему? Потому что она лучше знает, что вам, в конце концов, будет нужно молоко! [смех]. Так что, конечно, тут есть ряд хороших вещей, но некоторые вещи могут оказаться не такими замечательными.

Но всё-таки, когда вы всё объединяете вместе, это обычно работает хорошо, потому что если подумать, то потенциал этих вещей невероятен. И вы знаете это тоже. Радикальные улучшения в управлении движением – способность динамически изменять маршрут, так что вы можете оптимизировать ваше время и сэкономить бензин или что-нибудь еще такое – это отлично. Мы уже говорили о вовлечении общества, это же помогает нам быть зелеными(автоматическое управление транспортом), и мы уже говорили о том, как это всё здорово.

Предотвращение преступности. Наверное, каждый видел последнюю статью, в которой англичане провели исследование – в Лондоне, который считается городом с самым большим количеством камер на планете – и аргумент в пользу размещения камер, такой как борьба с преступностью. Знаете ли вы, сколько преступлений они сумели предотвратить исключительно благодаря камерам? Есть здесь кто-нибудь, кто знает точный ответ?

Одно!

Так что некоторые такие вещи вызывают вопросы.

Проблема, с которой мы сталкиваемся; помните, я говорил о большом мире данных из Социального Мобильного Облака, в котором вы размещаете мир сенсоров и конечно, это становится местом реально интересных проблем, особенно для нас, потому что сенсоры ничем не ограничены. Это просто небольшие кусочки кремния, которые мы бы хотели разместить везде, они могут перемещаться куда угодно, и их достаточно просто сделать. Сенсоры прозрачны, они никогда не будут обрабатывать непредназначенный для них сигнал. И они не делают никакой разницы: они обрабатывают любой принимаемый сигнал.

И когда мы это применяем к интернету, полному сущностей, о которых мы говорили ранее, все становится подсоединено, все оснащено сенсорами, так что всё обменивается информацией и разговаривает друг с другом, и громкость этого разговора только растет. Возможности людей выглядят бледно в сравнении с тем, что может возникать в мире, подсоединенном к сенсорам. И это очень большой вызов для нашего будущего.

Вы можете себя спросить — почему мы должны об этом думать? Мы об этом заботимся, потому что во всей этой информации есть важные для нас сигналы, помогающие обеспечивать национальную безопасность. Нас это волнует, потому что мы должны понимать что происходит или собирается произойти в окружающем мире, так чтобы мы могли ставить в известность людей, отвечающих за нашу политику, еще до того как оформятся тренды и до того как возникнут проблемные ситуации.

Нам это нужно, потому что мы хотим остановить очередного террориста, собирающегося пронести в своих трусах бомбу на самолёт, до того как его штаны займутся огнём.

Мы этим занимаемся – и я должен быть осторожен, говоря это здесь — потому что может быть лучше для вас и ваших друзей знать, где вы постоянно находитесь; что для моего конкретного случая, может оказаться не такой хорошей вещью. Но главное, мы беспокоимся о том, в каком направлении развивается этот мир.

И еще нас это заботит потому, что существующая сейчас информация существенно отличается о той, которая была в мире, где разведывательная деятельность была полностью подконтрольна человеку. Внизу есть хорошая таблица. Зеленоватый пузырь и фиолетовый пузырь. Зеленый – это мир в соответствии с универсальной библиотечной десятичной системой классификации, которую когда я учился в школе называли десятичной системой Дьюи (DDC — Dewey Decimal Classification), если я правильно помню. Другая, красная – это мир информации в соответствии с Википедией. Какому из них я должен доверять? Какому порядку организации информации доверяете вы? Я знаю, какому миру я доверяю – я доверяю Википедии.

Какое влияние Большие Данные оказывают на нас? В основном, это помогает нам понимать, что происходит в мире и знать то, что мы знаем; понимать, где у нас есть белые пятна, так чтобы мы могли делать нашу работу лучше. Это отнимает у нас много времени и требует использования некоторых очень дорогих активов, с помощью которых нам удается понять, как и чем мы можем заполнить пробелы, и нам не очень-то нужно собирать информацию, которая нам не требуется, которую мы можем найти и собрать через другие механизмы, такие как социальные медиа и прочие подобные вещи. Это приводит к некоторым важным следствиям, и я собираюсь в течение следующих шести минут поговорить о настоящем и о том, что я называю четырьмя большими правилами Больших Данных.

Номер один. «Это данные, дурачок!». Помните, как у Джеймса Карвилла: «Это экономика, тупица!». Два – это может быть силой для людей. Три — мы поговорим о задержке, порождающей неуважение. И четыре — в мире будущего всё находится в определенном контексте и всё находится в вашем контексте.

Номер один, «это данные, дурачок». Маленький урок истории из нашего мира – что, может, и прозвучит несколько обыденно для вас, но это досталось нам с боем и заработано тяжелым трудом – какие бы изощренные и сложные инструменты у вас не были, если они не будут работать с моими данными, то они будут полностью бесполезны. Наши пользователи, как правило, склонны выбирать для работы с данными достаточно посредственный инструмент, вместо того, чтобы выбрать лучшее доступное средство и показать мне какой прекрасный и замечательный объект можно создать с его помощью.

А это нужно, чтобы понимать, что происходит в мире информации – мы должны всё сводить воедино, мы должны понимать планы наших оппонентов, нам нужно соединять между собой все ключевые точки.

Проблема больших данных заключена в следующем – база данных бесполезной информации составляет 500 миллионов гигабайт, в том время как база полезной информации составляет всего 5К.

Наша проблема заключается в определении того, что входит в эти 5000? На протяжении всей нашей длинной истории, мы уже уяснили, что информация имеет ценность во времени, подобно тому, как деньги имеют ценность во времени, и ценность любой информации становится известной, когда вы её можете соединить с чем-то ещё, что встанет на своё место в будущем. Если в нашем мире, какая-то информация будет неосмотрительно выброшена, потому что вы посчитали, что у неё нет никакой ценности, или вы решили её не учитывать и не собирать, потому что подумали, что она не соответствует потребностям текущего момента, то по мере того, как в мире будут появляться новые события и новая информация, у вас не будет связующего звена в общей картине. Вопрос в том, что если мы не можем найти и соединить все звенья в нашей цепочке сейчас, то это заставляет нас постоянно пытаться соединять всё вместе позже и мы вынуждены зависнуть на этом вопросе навсегда. Хотя «навсегда», тут конечно, должно быть в кавычках.

Некоторые возникшие интересные характеристики Больших Данных достаточно просты, типа 'больше — всегда лучше'. Соотношение сигнал/шум в этом мире становится только хуже, но причина почему 'больше – это лучше' заключается в том, что она позволяет вам делать численную оценку того, что происходит в ваших данных и не заниматься затратным моделированием. Кто-нибудь помнит известную фразу Джорджа П. Бокса о моделировании? «Все модели неверны, но некоторые из них полезны». Проблема моделирования заключается в том, что оно заставляет вас делать предположения, которые все, так или иначе, искажены вашим видением текущих событий. Мы же хотим уйти от искаженной перспективы и иметь ясное понимание того, что происходит в мире.

С другой стороны, пользователи – не научные работники в области обработки данных и не инженеры. Они не ориентируются детально в материале. И нам надо, и мы должны быть уверены, что чтобы ни происходило в нашем мире, оно должно подпитывать нашу информацию — собственно наборы данных, достаточным количеством разума, так чтобы пользователю не нужно было делать ничего больше, кроме как задать вопрос и получить значимый ответ из собственно набора данных. Если им придется руками просматривать тысячи наборов данных и пытаться понимать, в каких из них есть информация, относящаяся к интересующему их вопросу, то это проигрышная ситуация по всем направлениям.

Следующее — сила для людей. Я скажу вам, что сегодня аналитика и инструментарий сложны в использовании. Чтобы добыть из данных ценную информацию, нам необходимы специалисты; мы называем этих специалистов учёными в области обработки данных, и мы пытаемся поднять на высокий уровень престиж, связанной с этим науки, потому что информация, навыки и знания необходимые для этого являются весьма сложными и требуют значительного времени для освоения. Проблема в том, что требуется достаточно много работы руками, и многое из того, что происходит, не встроено в наше деловое пространство.

Мир новых служителей от науки занимается освоением этих областей, о которых мы тут уже много говорили – исследователи в области данных, инженеры по обработке информации, и прочее.

Учёный в области обработки этих данных, в соответствии с википедией, должен иметь фундаментальную подготовку во всех этих областях. А у скольких людей на планете эти навыки есть? Не так много. Конечно, получив гранты, многие университеты на планете начали программы в освоении новых наук, это хорошая новость, но пока [неразличимо] положение вещей ещё далеко до идеала.

Мы верим в то, что демократия Больших Данных победит. Наша цель заключается в приближении момента, когда я буду в состоянии передать мощь Больших Данных и аналитику в руки среднего пользователя. Единственный способ, которым реальная ценность может быть нами воспринята, и, кстати, это справедливо и в коммерческом секторе и для индивидуальных компаний — когда каждый будет иметь доступ к инструменту и данным, позволяющим им делать свою работу, не беспокоясь о том как это работает.

Мы хотим, чтобы завтра появлялись элегантные, легкие в использовании инструменты. Пусть машины занимаются тяжелой работой, а нам нужны простые вещи типа того же поиска. Поиск в современном мире, о котором мы постоянно говорим и который уже подбирается к петабайтной шкале, пока еще невразумителен.

Мы понимаем все эти вещи, мы можем назвать семь универсальных конструктов, по которым мы хотим делать аналитику. Мы приглядываем за людьми, местами и организациями, нас заботят время, события, определенные вещи и концепции. Чего мы хотим для аналитиков, чтобы это всё было также просто, как использовать функции в Excel. Вы заходите в Excel, пишете там ваши маленькие уравнения — суммы, стандартные отклонения, открываете скобку, выбираете список значений, закрываете скобку – и тут же получаете ответ. И вы видите — правилен он или нет. Мы хотим аналогичный инструмент, скажем для анализа группы людей, – мне надо, допустим, увидеть между ними связь, и было бы здорово, если бы мы открыли скобку, ввели список имён, закрыли скобку. И чтобы мне хотелось получить? Красивый сетевой граф, из которого было бы видно, как люди связаны между собой любыми разными способами, основанном на том, что мне надо.

Я полагаю, что для тех, кто этим пользуется, всё это будет достаточно просто. И мы хотим, чтобы люди могли использовать все эти вещи, причем неожиданным образом, и чтобы они могли это все менять, чтобы они могли получать всё более сложные результаты, получаемые из относительно простых строительных блоков.

Это как раз тот самый случай, когда я хотел бы упомянуть про участников арабской весны, вот здесь бы хотелось бы провести анализ настроений в течение времени и поместить его на карту в виде карты распределения температуры. И хотелось бы, чтобы всё что нужно было сделать пользователям — просто нарисовать схему, типа как в Visio и увидеть что происходит на другом конце. И нам хотелось бы, чтобы для них это было максимально просто.

Задержка, порождающая неуважение. Это то, что касается скорости. Скорость является единственной вещью, значимой в нашем мире, и я думаю, что это также единственная вещь, которая что-то значит с коммерческой точки зрения.

Просто потому что мы хотим, чтобы все было быстро, и не хотим ждать. Что моих пользователей сводит с ума, больше чем, что либо – это когда они ждут, когда что-то произойдёт. Так что я думаю, что мы постепенно перемещаемся в мир, где это уже есть. У нас есть работы, которые выполняются практически в реальном времени, связанные с MapReduce — мы избавляемся от MapReduce, который гибкий, мощный и медленный и хотим использовать MapReduce который гибкий, мощный и очень быстрый.

Мы на самом деле хотим перенести это всё в структуры, которые мы называем архитектурами памяти петабайтного масштаба, чтобы можно было заниматься распределенной аналитикой и прочими вещами подобного типа. Такого рода вещи приводят к технологическим изменениям, о которых вы постоянно читаете.

И мы думаем, что эти процессы приведут к развитию новых конкурирующих архитектур, радикально изменяющий порядок вещей, происходящих в мире.

И наконец, всё находится в некотором контексте. В вашем контексте – и это важно, потому что это тот мир, в который мы верим, что мы его таким построили и таким воспринимаем.

Он будет находиться в пределах ваших понятий, потому что всё остальное будет находиться в пределах чьих-то ещё понятий. Так что назначение всех виджетов – это позволить вам построить свой WebTop, или пусть вы его будете называть как-то по другому, используя инструменты и возможности, необходимые вам для нормального выполнения вашей работы. Каково назначение всего того материала, возникшего в мире Больших Данных при использовании ‘схемы на чтение’? Это данные за пределами контекста, из которых вам надо извлечь пользу. Я хочу получать, как я и говорил раньше, собираемую пользователем аналитику в контексте задаваемых проблем и вопросов, а затем все это просчитается в контексте требований выполняемой работы. Вот, примерно, в чём заключается задача эластичных вычислений в нашем мире.
Несколько мыслей в заключение. Я полагаю, что в нашем информационном веке наступил полдень – когда солнце стоит высоко над головой, и говорю это вот почему.

Мы уже стоим совсем рядом с возможностью обрабатывать всю информацию накопленную человечеством. Знаете, что хорошо, если сравнивать людей по отношению к сенсорам? В течение 24 часов вы можете сделать массу вещей. Вы сидите здесь, делаете ваши заметки, снимаете фотографии или просто слушаете – вы делаете что-то одно. Вы не можете делать многих остальных вещей. Вы просто генерируете некоторые данные. Сейчас дело обстоит так – и если вы мне не верите, то давайте вернёмся к моему примеру с Facebook, в котором находится одна седьмая всего населения планеты и 35% всех сделанных цифровых фотографий – если хотите подумать о тех вещах, которые они[сенсоры] могут делать.

Неодушевленное становится разумным. Когда оно становится разумным, то мне становится как-то мрачновато. Появилась третья волна вычислений, возникшая, когда появились когнитивные машины. Watson – яркий этому пример. Что интересно, Watson в когнитивных машинах — это примерно как IBM PC 8088, если его сравнивать с современными машинами. Постепенно эти машины радикально изменят наш мир и будут заниматься всем в медицине, торговле на бирже, а также помогать нам в разведывательном анализе за рубежом.

Является свершившимся фактом, что мир движется быстрее, чем за ним успевает правительство и законодательство. Я могу поспорить, что он движется быстрее, чем вы за ним можете поспеть. Вы можете задать вопрос, а какие у вас права и кто владеет вашими данными? Бьюсь об заклад, что вы обязательно поднимите этот вопрос. Как я говорил ранее, он вызывает социальные изменения такими темпами и способами, которых мы даже не можем ожидать, и всё это создаёт очень интересный мир. Я не буду здесь говорить о кибер-угрозах, потому что у нас кончилось время. Спасибо вам большое.

[аплодисменты]

ВЕДУЩИЙ 28:47

Спасибо вам большое. Это было нечто удивительно. Я думаю, что мы теперь готовы пойти пообедать, и я думаю, что все желающие могут вас найти где-нибудь тут поблизости. Спасибо вам еще раз мистер Гас Хант, CTO CIA. Не знаю как вы, господа, а я собираюсь после обеда выкинуть свой телефон в реку.

ЦРУ — большие задачи и большие данные. На пути к созданию глобального информационного колпака

Выступление

Презентация

Articles