(За перевод спасибо Алексею Ворсину)
Доброе утро и добро пожаловать на GovCon7. Меня зовут Сод Абдулли и я ведущий инженер по внедрению Palantir Technologies и это Palantir 101. Я хотел бы в ближайшие полчаса или сорок пять минут рассказать о том что это, кто мы, что такое Palantir, и что он делает для организаций, с которыми мы работаем, а также, ближе к концу мероприятия, мы проведем небольшую презентацию.
Прежде чем перейти ко всему этому, я хочу начать с пары историй, которые должны пролить свет на то, что мы и Palantir, думаем о проблеме анализа в мире Big Data.
Первая история, — это история о шахматах.
Многие из вас знают, что в 1997 IBM создали суперкомпьютер Deep Blue, который одолел Гарри Каспарова, на тот момент, бывшего лучшим шахматистом в мире. Сейчас в простой мобильник могут быть установлены шахматы, играющие на турнирном уровне, и вопрос о том, кто сильнее в шахматах, человек или компьютер, уже не актуален.
Новый интересный вопрос: «Что будет, если человек и компьютер будут играть в шахматы вместе, как команда?»
Во-первых, такие команды показали высокую эффективность, и, на самом деле, это вполне ожидаемо, так как люди хороши в шахматах, компьютеры очень хороши в шахматах, но хороши они по разным причинам: компьютеры имеют серьезное тактическое преимущество, они могут оценивать многие тысячи комбинаций ежесекундно; у людей есть опыт, способность к трюкам, чутье и умение прочувствовать оппонента, что компьютеру тяжело дается.
Эти силы сочетаемы и команда человек/компьютер способна победить и команды сильнейших игроков и объединения сильнейших суперкомпьютеров.
Второе чуть сложнее: вы можете решить, что раз командная игра сильнее, можно взять сильнейшего игрока и сильнейший суперкомпьютер, посадить их вместе, и они будут нагибать весь шахматный мир. Вы ошибетесь.
Кроме собственной силы игрока, которая есть навык, и собственной силы компьютера, который есть оборудование и программа, есть еще третий фактор — качество взаимодействия между ними. Насколько легко игроку сформулировать запрос? Возможно ли для него сконцентрироваться на том, в чем он действительно хорош, оставив компьютеру остальное? Эти вопросы близки той точке зрения, которую мы исповедуем в Palantir, чтобы помочь организациям эффективно взаимодействовать с Big Data.
Все наши усилия, таким образом, сфокусированы на том, чтобы уменьшить количество лишних обращений оператора к данными (frictions).
Следующая история о компании PayPal, возможно вы слышали о ней.
Когда PayPal начинали, было еще несколько компаний, занятых в индустрии онлайн-платежей, включая финансовых тяжеловесов: Citibank, Western Union и интернет-гиганта Ebay. У всех свои системы расчетов. В конце концов они, один за одним, сошли с дистанции, а стартап PayPal, преуспел.
Как так получилось?
Есть одно важное замечание о платежных системах тех времен: с основной проблемой, совершением транзакций от одного счета к другому, все справлялись, более или менее; другой проблемой, не менее важной, было совершение транзакции так, чтобы её не стащили русские.
Огромное количество транзакций, огромный поток входящих данных, и очень мало времени на то, чтобы все это проверить, — здесь действительно есть возможности для аферы. Покупатели не собираются ждать неделями, пока вы проводите расследование по каждому платежу, поэтому то что нужно, — это возможность быстро решать, чиста ли или подозрительна транзакция. Это и сейчас, в основе своей, проблема, к которой, PayPal и остальные подошли по-разному:
Многие решили, что раз у нас есть много решений и мало времени, то человек не справится и нужно максимально разложить такие решения на операции, формализовать их, сделать повторяемыми и быстрыми, — алгоритмичными, иными словами. Этого оказалось мало.
PayPal начали с того же: много решений, большое количество данных для обработки и мало времени, — но вывод был противоположным — максимально повысить эффективность человека с помощью аппаратных средств. Таким образом фокус сместился на то, чтобы помочь человеку быстрее принимать решения, ускорить обработку и облегчить поиск информации. Ebay купил PayPal за полтора миллиарда долларов. Они решили для себя проблему таким образом.
Люди, создавшие PayPal, прославились в Кремниевой Долине, часть из них основала Palantir, ну, вы о нем слышали.
Перед Palantir стоят следующие задачи: обеспечить быстрый анализ и принятие решений при все возрастающем потоке входящих данных, что актуально в платежных системах, в том числе и при противодействии мошенникам, а так же и в охране правопорядка, в медицине, в разведке, в военной сфере. Количество данных растет постоянно, как и необходимость принимать решения, пользуясь данными.
Что ж такое Palantir?, — можете вы спросить. Одним предложением, — это аналитическая инфраструктура.
Слово аналитическая я использую очень-очень преднамеренно, дело в том, что Palantir, — это точно не инструмент визуализации, (видимо товарищу слишком часто приходится это объяснять) поначалу многие именно так и думают. Интерфейс — это просто интерфейс, внутри еще много чего интересного, чуть позже мы это увидим.
Palantir, также, — это не закрытая среда, и изначально задумывался максимально открытым. На практике это означает, что Palantir поддерживает формат открытых данных и любые данные, в какой бы форме они не существовали, могут быть загружены и выгружены обратно. Также, это означает совместимость с любыми сторонними приложениями, если вы используете их. Мы используем открытый и публичный интерфейс программирования приложений, то есть сторонние компании могут создавать новые приложения и расширять функционал на нашей платформе, как на смартфонах. Наконец, Palantir, — это не одна база данных над всеми остальными (one database to rule them all — аллюзия на Властелин Колец), то есть идея в том чтобы не заменять Palantir'ом все ваши наработки, а дополнить их, упростить вам работу.
Если говорить о том, что именно Palantir делает, то можно выделить четыре основных пласта, начиная с базового:
1. Интеграция данных.
2. Поиск и исследование.
3. Менеджмент знаний.
4. Совместная работа.
Теперь подробнее:
1. Интеграция данных, — это то, что послужило началом Palantir. Имеется в виду, что мы берем все данные, которые у вас есть, в любых формах, и интегрируем в вашу единую базу данных, в единую доступную среду. Это быстро, займет дни и недели, а не месяцы. Это гибкая система и позволяет интегрировать не только традиционные источники данных, но и специализированные, например данные GPS, карты или видео. Это вместительная система, способная оперировать миллиардами записей, связанных с данными.
2. Поиск и исследование, — второй большой пласт работы. Palantir дает возможность поиска и доступа ко всем данным через одно одну поисковую строку, причем речь идет не только о поиске того, что вы знаете, но и о инструментах, предоставляющих вам то, что вы не знали. Это поиск понятийный, основанный на взаимосвязях между данными, на сетях таких взаимосвязей, на том что можно назвать сутью вещей, это настойчивый поиск, и, после того как я сформирую некие основные требования об информации, которую хочу увидеть, Palantir, предупредит меня о любой информации подпадающей под характер запроса (pattern — шаблон, тенденция, схема; скорее всего речь идет о сути запроса, которую умная система вылавливает). Это поиск по времени и месту, так что мы можем понять что происходило там-то или тогда-то. Поиск сделан с оглядкой на стремление уменьшить периоды обращения оператора с данными. Это не только знакомый нам поиск по названиям, типам файлов и базам данных, но и, например, поиск по людям, событиям. Я могу напрямую спросить: «Покажи мне все такси, которые останавливались здесь за три недели», — или: «Покажи мне карту с метками всех преступлений, которые произошли в моем районе за последние полгода, и в чем разница с предыдущим полугодием». Это просто и не требует специальных усилий по программированию или разработке под каждый запрос.
3. Вообще говоря, поиск — это важно, но недостаточно. Вы можете получить информацию о том, что Сод — сотрудник Palantir, но вам нужны дополнительные сведения, чтобы воспользоваться ей, такие как: откуда эта информация поступила, когда была введена в систему, кто имеет доступ к информации. Это третий пласт — менеджмент знаний, идея в том, что каждое знание когда-то и кем-то создано, где-то введено в систему, так-то изменялось с течением времени, обладает таким-то уровнем доступа, и все это учитывается. Важны и данные и метаданные.
4. Что-то мы упускаем. Данные и метаданные изобильны, они дешевы, и в сборе и в хранении. Наиболее ценимый ресурс — анализ, то что ваши аналитики производят, — человеческое восприятие сырой информации. Palantir мы разрабатывали так, чтобы не только упрощать анализ, но и иметь возможность делиться результатами. Это четвертый пласт — совместная работа. Мы даем возможность делиться результатами, создавать полноценную картину явления усилиями многих аналитиков. Сама идея оказалась глубже, чем мы изначально предполагали. Идея в том чтобы иметь общую картину мира. Если мы видим разные данные, разные стороны явления, мы работаем отдельно. В то же время, наработав разные картины мира, мы ищем способы их проверить, сравниваем и синтезируем общую. Например, если имеется большой проект по софту, сотни специалистов могут вносить в него правки каждый день. Используя такой подход, мы получаем контроль версии продукта, возможность управлять процессом. Мы получаем пространство, где можем, начав с общей картины, вносить изменения по чуть-чуть, проверять гипотезы и в конце, снова собрать общую картину. Это, кроме того защищенный способ работы — каждый видит только ту часть, которую ему позволено видеть.
В общем и целом, Palantir:
- Масштабируемый, позволяет работать множеству людей с петабайтами данных, кроме того эти данные могут продолжать расти в ходе работы.
- Защищенный, то есть каждая гребаная частичка информации отслеживается, и Palantir уже работает с одними из самых sensitive (скорее всего Сод имеет в виду среды, сильно зависимые от безопасности) сред в мире.
- Низкорисковый, то есть Palantir — это не такой проект, где вы посадили семечко, и ждете полгода-год, пока взойдет, его можно интегрировать за недели.
- Доказал свою эффективность. Его уже используют в здравоохранении, в охране правопорядка, используют банки, при противодействии мошенникам.
Технология готова, технология работает. Сейчас посмотрим как именно.
Сейчас мы с вами проведем демонстрацию возможностей Palantir, эдакий день аналитика-контртеррориста, расследующего деятельность по финансированию терроризма в Северной Африке. Вы увидите как я найду кое-что в Египте. Увидите весь процесс целиком, с момента поступления новой информации. Я проведу расследование, и подведу итоги.
Я залогинился, вот так программа выглядит.
Слева наполнение, новые входящие документы, в нашем случае новые разведданные «с полей». Посмотрим мои новые наводки.
Агент CT-Blue, из Каира, сообщает, что присутствовал на благотворительном мероприятии Аль-Муджа, где было несколько приглашенных организаций. Прилагает карточки троих приглашенных, неамериканцев, которые обсуждали атаку на значимый объект в американском городе. Я возьму эти данные, введу в Palantir и посмотрю, есть ли что-нибудь, что мы можем обнаружить.
Как вы видите, здесь синие ссылки, это значит что кто-то из моих коллег уже работал над документом и сделал его более удобным, присвоил теги, и что часть этих данных перекликается с теми, что уже есть в системе. Эта синяя ссылка ведет к досье, которая у нас есть на парня, Майка Фикри. Я добавлю телефонный номер, обозначив его для Palantir так. Это способ придать смысл и структуру, неструктурированному отчету.
Я перетаскиваю этих парней на граф (викисловарь: граф — совокупность объектов со связями ), основной инструмент анализа связей в Palantir, чтобы узнать как они связаны друг с другом, есть ли у них связи с кем-нибудь еще. У Майка есть фото, значит у нас точно есть информация о нем.
Мы сейчас видим информацию, собранную из разных источников, таких как: сырые сведения, отчеты, базы данных, или внешние источники, — например, здесь есть сведения о платежах и телефонных переговорах. Это своеобразный обзор человека. Мы видим разные варианты написания имени, адреса, имя написано на двух языках, то есть мы можем работать с информацией на многих языках.
Видим несколько номеров телефона, различные вложения, то есть вы сюда можете приложить видео, аудио или изображения. Наконец, здесь есть связи с другими. Майк связан с двадцатью тремя звонками и двумя платежами, введенными в систему. Вернемся к графу, на нем удобно анализировать взаимосвязи.
Я лучше не буду заниматься деталями на этом уровне или читать досье, а задам более общий, более прямой вопрос: «Как эти трое связаны не только друг с другом, но и в более общем смысле, на основании той информации, что есть в Palantir сейчас?». Для этого у нас есть замечательный инструмент, который называется «Поищи вокруг да около». Я создаю новый поиск. Palantir спрашивает какого рода совпадения или связи я хочу увидеть. Я могу посмотреть с кем связаны эти парни, и с кем связаны те, кто связаны с ними. Я могу увидеть где именно информация совпадает. Я могу спросить, всплывал ли где-нибудь этот адрес, мейл или имя. Также, мы можем посмотреть кто связан через эти события (звонки и оплаты), кто был с другой стороны, и с кем они связаны. То есть Palantir позволяет задавать вопросы довольно точно.
Мне не нужно менять что-либо в запросе, поэтому я просто воспользуюсь созданным заранее.
Здесь задается несколько вопросов:
— Являются ли парни частью какой-то группы и есть ли еще участники в этих группах?
— В каких событиях (такие события, как телефонный звонок, в том числе) принимали участие парни и кто еще связан с этими событиями?
Здесь есть четыре степени разделения, то есть вопросы задавались не единожды, а повторялись раз за разом, чтобы получить более полную схему. Как вы видите схема получилась довольно большой, так что я завершу поиск и приступлю к исследованию.
Первое что я хочу сделать, получив такой объемный результат — спросить Palantir, на что именно я смотрю, и для этого использую инструмент Гистограмма, которая дает краткое представление о всем, на что я смотрю.
Смотрю я на 14 разных людей, а так же вижу то, что повторяется часто, например четверо парней живут в одном месте, в Бруклине, что в Калифорнии, они сейчас подсвечены. Трое живут вместе в Ванкувере, трое в Торонто, легко увидеть эти группы, когда они выделены. Так же я могу увидеть сколько из них живет в Сан-Франциско, в Беркли, в Дейли-сити.
Здесь популярный домен для почты, hotmail.com, видно у кого почта на hotmail, у кого на aol (America on line). Видно совпадения по фамилии, по национальности и т.п.
Здесь важно помнить, что Palantir не только позволяет владеть всеми этими типами информации, но и сами типы информации, какими вы хотите владеть, настраиваемые. В контексте контр-терроризма, — это те вещи, на которые вы обратите внимание: на людей и их национальность, на особенности биографии, события, такие как звонки и платежи. Если мы посмотрим на другую область, такую как кибербезопасность, то вместо людей на могут быть интересны, например, компьютеры и серверы, а событием станет трафик между ними. В здравоохранении это будут вспышки болезней.
Посмотрим поближе.
Первое, что бросается в глаза — это то, что только один из троих подозреваемых нами парней с чем-то связан. Остальных убираем, причем я не удалил их, просто скрыл до времени.
Оставшийся, Майк Фикри, связан с этой интересной группой людей. Есть присмотреться, то кто-то из моих коллег наблюдает их как группу подозреваемых в терроризме, из ячейки работающей в районе залива (Bay area cell). Майк связан с ними через другого парня, это сразу повышает мой интерес к нему. Наш подозреваемый из Каира, может быть связан с атакой где-нибудь в США. Также мы видим, что он связан с большой и интересной группой субъектов вот здесь. Как именно связан?
Подлинный субъект Майк Фикри связан с теми ребятами через неизвестную сущность под именем MF. Мне это подозрительно, так как похоже на инициалы Майка, давайте посмотрим.
Я открываю связи между этими парнями, чтобы увидеть что у них общего: они оба живут в Калифорнии, оба Иранцы, и на двоих у них один телефонный номер. Это конечно не достоверно, но я бы хотел проверить гипотезу, что Майк и MP — один человек.
В Palantir это довольно просто, я выбираю команду свести (Resolve) этих двоих, программа объединяет всю оригинальную информацию о них, и, кроме того, информацию о том откуда каждый фрагмент данных пришел и когда он появился в системе, эта информация по-прежнему существует. Сейчас у нас есть комбинированный вид, который включает в себя всю эту информацию, все объединенные адреса и телефонные номера из самостоятельных записей.
В любой момент я может появиться информация, делающая мою гипотезу несостоятельной — это не так уж и важно, я, как и любой из моих коллег, можем легко отменить объединение и востановить исходные записи. Может появиться и информация, созвучная этой гипотезе. Я хочу поделиться этой гипотезой с коллегами, для этого я выделяю и публикую (publish) эту информацию. До сих пор я работал в личном пространстве, теперь каждый, кто будет смотреть про Майка, увидит мое предположение, о том, что он и MF — одно лицо.
Теперь мы видим, что Майк Фикри напрямую связан с этой большой и интересной группой людей. Здесь вы видите много разного рода активностей: оплаты, звонки, общие адреса и полеты, то есть эти люди перемещались вместе. Довольно сложно понять что происходит здесь, кто платит, когда эти события имели место. Есть два способа сделать эту информацию полнее, которые я хочу показать вам.
Во-первых я хочу показать вам направления. Когда еть оплата, кто-то платит другому, и я хочу визуализировать это. В Palantir есть отличный инструмент, потоки (flows). Сейчас мы видим где деньги появляются и куда они идут. Красные точки имею разный размер, чтобы показать размер денежных потоков, так что вы видите небольшую активность там, и действительно серьезные движения здесь. Большие суммы движутся от этого человека к этим трем группам людей. Это интересно.
Две вещи о потоках.
Во-первых потоки полностью растяжимые, и это не только инструмент визуализации платежей, но и любых других движений. В этом исследовании мы так же можем взглянуть на звонки. Вот так будет выглядеть сеть звонков между ними.
Во-вторых, и это показывает нашу открытость, инструмент потоков разрабатывался как стороннее приложение, хотя выглядит и работает как наша собственная разработка. Это демонстрирует степень кастомизации платформы под разные задачи.
И так, мы увидели денежные потоки. Этот парень связан с остальными тем, что посылает им деньги. Мы также взглянем на время: мы знаем что платежи идут, что парни путешествуют. Каков порядок? Идут ли деньги одновременно или в какой-то последовательности? Перед полетами или после них?
У нас есть еще один инструмент, он называется временной график (timeline) и делает именно то, что вы подумали: показывает события во времени. Будет легче, если я выделю события цветом.
Полеты будут синими, платежи зелеными, звонки красными. Теперь мы видим чуть более ясную картину происходящего. Мы видим что первый платеж прошел 20.10.2007 года и перед ним активные звонки. Мы видим телефонный звонок, последовавший за платежом через короткое время. На следующий день повторяется то же самое со вторым платежом. Третий платеж совершен через еще через два дня, снова сопровождаемый звонком. Если мы посмотрим чуть дальше, то увидим много полетов. Эти три группы, живущие в Ванкувере, Торонто и Мехико, получили большие суммы денег от парня, связанного с нашим подозреваемым, созвонились после денег, и в ближайшие следующие дни сели на самолет. Куда они отправились?
Вернемся к гистограмме. Посмотрим, что мы можем узнать об аэропортах. Мы видим три полета: Ванкувер, Мехико, Торонто, и четвертый, все вместе, в Чикаго. Я нашел что-то интересное. Поступили разведданые о том, что группа людей может быть связана с атакой на город в США. Мы обнаружили, что один из них связан с передачей больших сумм денег трем разным группам за пределами США, и выяснили, что все три группы ездили в один и тот же американский город. Для меня это выглядит похоже на то, как может себя вести активизировавшаяся ячейка, как будто готовится операция.
Теперь я могу поделиться своими результатами, своим анализом с коллегами, с органами правопорядка. Я сделаю скриншоты важнейших подтверждений: временного графика и графа, и экспортирую в удобном (adjustable) формате, в виде презентации в PowerPoint.
Palantir здесь воспроизводит все мои шаги за время исследования: сначала я посмотрел на этого парня, затем построил эту сеть, затем выяснил ряд деталей. Сейчас объясню, что значит вот этот конкретный временной график. Сейчас у меня есть почти готовый материал, я почти готов им поделиться, после того как доработаю чуть-чуть.
Мы сейчас прошли через полный жизненный цикл, своеобразный день из жизни аналитика Palantir. Мы начали с поступления новой информации «с полей», провели небольшое расследование и анализ, немного поисследовали и поделились с остальными. Обратили ли вы внимание, на что ушла большая часть времени? Больше всего времени ушло на разговоры о самом аналитическом процессе, о вопросах, которые я формулировал, о том кто эти парни и что мы знаем о них. Мы не тратили время на поиски в базах данных по именам. Вы не видели меня развлекающимся (fascinating) с разными типами данных или с тайным чем-то (quiveries). Вы так же не видели чтобы мне пришлось потратить много времени на переделку моей работы под удобный (adjustable) формат, на то чтобы сделать презентацию или отчет о своей работе. Вы видели как я трачу время на то, в чем я, как аналитик, хорош, на то, чтобы применить свои специальные знания, на то чтобы использовать свою интуицию, на то, чтобы пойти по интересным мне следам. Я оставил компьютеру то, в чем он хорош: поиск информации, конвертирование информации в разные форматы, чтобы сделать её удобной. Все это подчинено идее о том, чтобы уменьшить количество взаимодействия меня, как аналитика, с информацией. Дать мне возможность быстро отвечать на вопросы, быстро проводить исследования и быстро делиться результатами с остальными.
Я надеюсь это была полезная демонстрация, очень поверхностная демонстрация того, что есть Palantir, поверьте мне. Есть еще фантастическая способность к специализации по территории (geospecial ability), которой мы даже не коснулись. Множество возможностей по работе с данными большого масштаба.
Рад также отметить наши растущие мобильные возможности, что открывает доступ ко всем возможностям Palantir на смартфоне. Спасибо вам, надеюсь вы пообщаетесь с нами и нашими клиентами.
Всего вам хорошего, спасибо за ваше время.