Palantir: торговля оружием и распространение пандемии

    Как данные в руках разведчиков аналитиков Palantir превращаются из неструктурированных в структурированные.

    Вместе с компанией Edison продолжаем расследование возможностей системы Palantir.


    Palantirчастная американская компания, четвертый по капитализации (после Uber, Xiaomi и Airbnb) стартап в мире (данные на начало 2016 года). Основные заказчики — ЦРУ, военные, ЦКЗ и крупные финансовые организации.

    По-моему, как-то так видели пользу информационных технологий «отцы-основатели» Вэнивар Буш («As We May Think»), Дуглас Энгельбарт («The Mother of All Demos») и Джозеф Ликлайдер («Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»), о которых я писал немного ранее.

    Под катом — два кейса (2010 года).
    • Первый — анализ распространения вируса во время национальной пандемии на основе пятнадцати миллионов записей обращений в больницу и трехсот пятидесяти семи тысячах записей о смерти.
    • Второй — анализ сотни отчетов из расследования по глобальной сети торговцев оружием.

    (За помощь с переводом спасибо Ворсину Алексею)


    VAST 2010 Challenge, Pt. 1





    00:00 Эта презентация покажет как Palantir, применяя анализ, превращает неструктурированные данные в структурированные. Для этой цели будут использованы отчеты по глобальной сети торговцев оружием.
    00:10 Мы покажем, как территориальный, временной, социальный и некоторые другие анализы могут ответить на вопросы разведки об этой сети.



    00:17 Эти значки на графе представляют собой около сотни отчетов из нашего расследования.
    00:25 «Облако текста» (textcloud) поможет нам выделить ключевые слова из этих отчетов.



    00:28 Некоторые термины проявляются: оружие, ствол, купить, Карачи, Пакистан и так далее, — что заставляет предположить, что эта сеть связана с Ближним Востоком и Южной Азией.
    00:37 Давайте перенесем эти документы на карту.



    00:42 Документы были распределены согласно географическим наименованиям, указанным в них. Мы так же можем использовать здесь Timeline, чтобы посмотреть расположение документов по дате создания.
    00:50 Теперь давайте очистим карту и поищем документы из Пакистана, одного из самых популярных результатов облака текста.



    00:57 Этот поиск приносит некоторое количество документов, давайте посмотрим их через браузер.
    01:01 В браузере аналитик может структурировать информацию, присваивая ей теги. Давайте выделим Малона Хаг Бухари.



    01:10 Palantir автоматически ищет объекты, которые уже присутствуют в базе данных, мы также можем создать новый объект, и выбираем ему особые свойства, чтобы присвоить тег надлежащим образом.
    01:19 Голубая линия под текстом показывает некую сущность, к которой мы только что присвоили тег.
    01:23 Двойное нажатие на тег открывает полное досье объекта, его свойства, связанные файлы медиа, историю объекта и список всех источников данных.



    01:35 Чтобы создать связи между объектами с тегами в тексте, мы просто перетягиваем одно на другое, а затем выбираем получившейся связи особые свойства.



    01:45 В полностью тегированном документе цвет и линии указывают на связи с существующими сущностями, событиями и взаимоотношениями.
    01:51 Давайте теперь добавим данные, которые мы структурировали в документах, относящихся к Пакистану, на граф.



    01:57 На графе аналитик использует различные инструменты, чтобы анализировать данные.



    02:00 Здесь сущности и события из Пакистанских тегов. Используя гистограмму, мы заполнили граф людьми, и аналитик теперь может использовать инструмент поиска взаимоотношений между сущностями, которые могут проявиться из документов, тегированных другими аналитиками из нашей компании.
    02:17 После постройки графа ключевых сущностей и событий пакистанской сети, мы можем использовать timeline, чтобы понять временные аспекты активности сети, которые включают в себя полеты, встречи, платежи, и тому подобное.



    02:30 Аналитик также может поделиться графом с другими аналитиками компании, здесь мы можем увидеть расшаренные графы из Пакистана, Латинской Америки и Дубая.



    02:40 Давайте посмотрим на граф мировой сети торговцев оружием, который включает в себя сущности и связи из всех тегов документов, присвоенных нашей командой.



    02:49 Мы используем помощник социальных связей, чтобы идентифицировать ключевые точки для будущих расследований в нашей всемирной сети.



    02:56 Давайте добавим выделение цветом. Теперь мы видим, что Дубай, Бухари и Домбровский являются важными точками пересечения в этой сети.



    03:03 Перетащив все это на карту, мы можем увидеть всю активность сети географически и во времени, если используем Timeline.
    03:10 Это дает широкий взгляд на то, когда и где каждая ячейка действует.



    03:15 Для примера, ОАЭ играют важную роль, многие из наших целей встречались здесь в апреле.
    03:21 Структурируя данные из неструктурированных отчетов и используя для достижения цели инструменты анализа данных Palantir, наша команда добилась ясного отображения сети торговли оружием в нескольких странах и указала место переговоров руководителей сети.

    VAST 2010 Challenge, Pt. 2





    Записи госпитализации: Характеристика распространения пандемии.

    00:00 Эта презентация покажет, как мы используем анализ «Горизонт» в Palantir, чтобы проанализировать распространение вируса во время национальной пандемии.



    00:05 «Горизонт» разработан для анализа больших объемов данных и сейчас будет использован для быстрой визуализации и анализа пятнадцати миллионов записей обращений в больницу и трехсот пятидесяти семи тысячах записей о смерти. Исходные данные были разделены по симптомам и введены в систему.


    Написано: «Горизонт» разработан для анализа на двух экранах. Видео будет переключаться между окном дерева анализа и окном визуализации.

    00:20 Пожалуйста, обратите внимание, что время на обработку запросов не включено в видео.
    00:23 Давайте начнем с просмотра нескольких базовых гистограмм, чтобы получить общий взгляд на данные.



    00:27 Эта гистограмма госпитализации по возрасту, которая дает почти идеальный график распределения с вершиной на отметке сорок четыре года.
    00:33 Это ненормально, так как мы ожидали большего количества визитов в госпиталь в возрасте до сорока лет, основываясь на данных о типичном распределении по возрасту и состоянию здоровья.



    0:43 Сейчас мы используем пакетную гистограмму визитов в больницу пациентов, которые позже умерли, чтобы определить симптомы, которые наиболее часто приводили к смерти.
    00:53 Тремор и потеря слуха, как пример симптомов, связанных со смертью.
    00:56 Чтобы исследовать временные закономерности болезни, создадим гистограмму визитов в больницу по дням, отфильтруем по смертям и создадим еще одну гистограмму смертей по датам.
    01:12 Есть незначительное увеличение количества обращений в мае, и в это же время увеличилось число смертей.



    01:22 Чтобы выявить временные закономерности болезни, будет полезно узнать сколько времени проходило между моментом обращения в больницу и смертью.
    01:29 Мы можем сделать это, добавив новое свойство, которое находит разницу между датой смерти и датой обращения.



    01:38 Мы можем теперь создать гистограмму с этим новым свойством. Она показывает, что почти все смерти случались на восьмой день после госпитализации, что, гипотетически, может быть характеристикой вируса пандемии.
    01:51 Сосредоточившись на указанных смертях, мы можем создать гистограмму наиболее часто встречающихся симптомов.
    01:58 Рвота и боли в животе, — самые популярные результаты.



    02:05 Давайте используем тепловую карту, чтобы увидеть в каких географических областях больше всего фатальных исходов.
    02:12 В Пакистане много смертей, в то время как в Таиланде и Турции сравнительно немного.



    02:20 Создадим график рассеивания (scattergram) по дням и местностям, что даст представление об интенсивности болезни во времени.
    02:34 Мы можем видеть, что в Таиланде и Турции постоянно низкое количество смертей, тогда как в других местах смертность достигает пика и снижается.



    02:45 Сравнив полученный график с гистограммой распределения смертей по датам, мы можем понять, когда начиналась пандемия.



    02:57 С этим новым подмножеством мы можем создать новый график рассеивания для госпитализаций, чтобы увидеть как болезнь распространялась во времени по местности.



    03:07 Мы видим что Кения, Пакистан и Сирия – страны с наиболее ранними вспышками болезни.
    03:15 Для более точных сведений о распределении болезни по времени и месту, мы можем обратиться к данным о смертях по каждой территории.



    03:25 Выбрав данные по Пакистану, например, мы можем создать гистограмму госпитализаций по датам из подмножества пациентов, которые, как мы подозреваем, умерли от пандемии.



    03:38 Используя Горизонт Palantir, мы получили возможность быстро импортировать, анализировать и визуализировать данные о пандемии, идентифицировать аномалии и охарактеризовать природу и развитие во времени этой болезни.

    Еще про Palantir:





    Вместе с компанией Edison продолжаем весенний марафон публикаций.

    Я постараюсь докопаться до первоисточников IT-технологий, разобраться, как мыслили и какие концепции были в головах у первопроходцев, о чем они мечтали, каким видели мир будущего. Для чего задумывались «компьютер», «сеть», «гипертекст», «усилители интеллекта», «система коллективного решения задач», какой смысл они вкладывали в эти понятия, какими инструментами хотели добиться результата.

    Надеюсь, что эти материалы послужат вдохновением для тех, кто задается вопросом, как перейти «от Нуля к Единице» (создать что-то, чего раньше и в помине не было). Хочется, чтобы IT и «программирование» перестали быть просто «кодингом ради бабла», и напомнить, что они задумывались как рычаг, чтобы изменить методы ведения войны образование, способ совместной деятельности, мышления и коммуникации, как попытка решить мировые проблемы и ответить на вызовы, вставшие перед человечеством. Как-то так.

    0 марта. Сеймур Пейперт
    1 марта. Xerox Alto
    2 марта «Позвоните Джейк». История NIC и RFC
    3 марта Грэйс «бабуля COBOL» Хоппер
    4 марта Маргарет Гамильтон: «Пацаны, я вас на Луну отправлю»
    5 марта Хеди Ламарр. И в кино обнаженной сняться и во врага торпедой пульнуть
    7 марта Великолепная шестерка: девушки, которые термоядерный взрыв рассчитывали
    8 марта «Видеоигры, я ваш отец!»
    9 марта С днём рождения, Джеф Раскин
    14 марта Джозеф «Lick» Ликлайдер: «Интергалактическая компьютерная сеть» и «Симбиоз человека и компьютера»
    15 марта Вэнивар Буш: «Как мы можем мыслить» (As We May Think)
    16 марта С днем рождения, Ричард Столлман
    21 марта Дуглас Энгельбарт: «The Mother of All Demos». Часть 1
    Edison
    95,21
    Изобретаем успех: софт и стартапы
    Поддержать автора
    Поделиться публикацией

    Комментарии 14

      0
      четвертый по капитализации (после Uber, Xiaomi и Airbnb) стартап в мире
      Вот интересно, а почему Гугл там или Apple стартапом не считают? В чём разница?
        0
        В том, что они уже провели IPO.
          0
          А Формула-1, которая не провела ещё IPO получается стартап?
            –4
            Тогда уж ИКЕЯ.
            Как я понимаю, под «стартапом» подразумевается компания с высокой ИТ-составляющей, претендующей как минимум на 1000-кратный рост/масштабирование. Поэтому ИКЕЯ, Формула-1 и прочие пережитки индустриальной эпохи не считаются. Но тут может стать вопрос про Tesla и SpaceX, так что слово «стартап» уже можно употреблять как для ларька с шаурмой, так и для «открытия Америки».
              +3
              стартап — это вообще то проект с НОВОЙ бизнес-идеей. Может быть как прибыльным так и убыточным но с перспективами роста. Но степень стартапности в любом случае определяется степенью новизны услуги/продукта. Но так да, сейчас это уже постепенно стирается и стартапом начинают называть любую новую команду.
                0
                Стартап, это когда изначально в проект входят только люди; максимум, бороды, фикус и кошка.
                Не стартап, это начальный капитал, производственная база, краденые чертежи…
                +2
                Стартап может не иметь ничего общего с IT
          0
          Эта программа походу немного лучше Maltego. Жаль она в Kali не входит.
            +1
            рабочее место палантира стоит лям $ в год.
              0
              лям в год? за программку которая рисует графы?
              0
              По-моему эта программа немного лучше excel'я. Ну вот правда, что в ней особенного? Вся информация в базу вносится самими аналитиками в удобно-читаемом виде (могу допустить что в программе имется возможность распознования текста), этими же аналитиками программе дается доступ к банковским данным, возможно к данным телефонных компаний и других служб. Далее Palantir выбирает наиболее часто встречающиеся фразы и слова, структурирует их по группам из справочников (например: ФИО, оружие и наркотики, география, и.т.д.), на основе этих данных рисуются карты и красивые графики, строятся связи по выбраннному преступнику.
              0
              Откуда палантир берет актуальные базы?
                0
                Зная их клиентов, ответ напрашивается.
                –1
                Понятно

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое