Прогнозирование событий и Data Mining — вперед в будущее



    В Сети появился интересный сервис мониторинга информации по открытым источникам — Recorded Future.

    Он позволяет аккумулировать информацию из более чем 150 000 различных СМИ с возможностью хранения архива до 5 лет с возможностью последующего анализа и извлечения знаний о возможных последствиях произошедшего и будущих событиях.

    Автором сервиса является Chris Holden, любезно предложивший нам воспользоваться Recorded Future без внесения оплаты, хотя полный функционал доступен только на коммерческой основе.

    Например, сейчас сервис осуществляет непрерывный мониторинг более 8 000 политических лидеров различных государств мира, позволяя отслеживать куда и зачем поедет какой-либо известный деятель. Порой, хорошая аналитика этих событий позволяет установить взаимосвязи в международных отношениях и спрогнозировать наиболее вероятные модели их развития путем анализа истории путешествий выбранного деятеля.

    Наиболее интересные кейсы, демонстрирующие возможности системы, отражены на следующих прикладных примерах:

    отслеживание возникающих киберугроз и действий хакеров в мире
    анализ содержимого писем из круга приближенных Усамы Бин-Ладена
    анализ протестной активности
    анализ выборов в Греции и Египте

    Recorded Future в действии

    Применение сервиса имеет более широкие границы, нежели использования в целях анализа геополитической обстановки, терроризма и протестной активности. Он успешно пригоден для мониторинга корпоративных новостей, информации по конкурирующим компаниям, их продуктам и механизмам их освящения в прессе.

    Аналитика позволяет отслеживать события, связанные с появлением какой-либо новой технологии, заключения контрактов, смены членов совета директоров или ключевых лиц компании, что уже представляет собой очень мощный и удобный аналитический инструмент с возможностью оценки эмоциональной окраски («позитив», «негатив»):

    Фьючерс — «Что наметила Apple на 2012/2013 год»



    Сервис предлагает платное API (http://code.google.com/p/recordedfuture/wiki/RecordedFutureAPI), позволяющее гибко задавать метки для отслеживания по заданным критериям, включая географию:

    Прогноз протестной активности на август 2012 года в отношении РФ



    Пример создания запроса (Python):

    import urllib, json, datetime, zlib, sys, time
    
    def query(q, usecompression=True):
    	"""
            Результатом выполнения запроса будет являться JSON-объект
    	"""
    	try:
    		url = 'http://api.recordedfuture.com/ws/rfq/instances?%s'
    
    		if usecompression:
    			url = url + '&compress=1'
    
    		for i in range(3):
    			try:
    				data = urllib.urlopen(url % urllib.urlencode({"q":q}))
    
    				if type(data) != str:
    					data = data.read()
    
    				if usecompression:
    					data = zlib.decompress(data)
    				break
    			except:
    				print >>sys.stderr, "Retrying failed API call."
    				time.sleep(1)
    
                    res = json.loads(data)
    
                    if res['status'] != "SUCCESS":
                            print >>sys.stderr, "Error",str(res['errors'])
    
    		return res
    	except Exception, e:
    		print str(e)
    		return {'status': 'FAILURE', 'errors': str(e)}
    
    


    Идея, используемая в сервисе, очень проста — из всех источников выделяются даты в различных нотациях (числовом, символьном) после чего события, которые за ними закреплены, — регистрируются. При этом анализируется, когда именно это событие произойдет («скоро», «через несколько месяцев», «в далеком будущем»). Сервис постоянно высылает обновления по наиболее интересным сферам для отслеживания:



    Использование подготовленного класса на Python:

    python company-entquery.py MYTOKEN tickerfile.txt 2010-06-14 2010-06-20 > entoutputfile.txt,
    python company-aggquery.py MYTOKEN tickerfile.txt 2010-06-14 2010-06-20 > aggrawoutputfile.txt
    где:

    MYTOKEN — полученный хэш доступа к API;
    tickerfile.txt — специальный файл, директивы которого указывают на СМИ и ресурсы, которые требуется анализировать.

    Сводный отчет будет представлять собой вывод вида:

    Ticker,Entity,Time,Count,Momentum,Positive,Negative
    MSFT,33312449,2011-11-01 19:30:00,780,0.43689,0.062,0.00461
    GOOG,33321272,2011-11-01 19:30:00,1707,0.72436,0.07052,0.0254
    AMZN,33328212,2011-11-01 19:30:00,344,0.20139,0.05491,0.01374
    CHK,33511577,2011-11-01 19:30:00,6,0.00817,0,0
    MSFT,33312449,2011-11-02 19:30:00,1235,0.4538,0.04981,0.0137
    GOOG,33321272,2011-11-02 19:30:00,2602,0.80317,0.06482,0.02282
    AMZN,33328212,2011-11-02 19:30:00,619,0.22222,0.06884,0.00787
    CHK,33511577,2011-11-02 19:30:00,45,0.02334,0,0.02581


    Обработка этой информации — ложится на плечи программиста, за исключением оценки «позитива» и «негатива». Использование подобного ресурса позволяет создать достаточно мощный и эффективный инструмент конкурентного анализа и использоваться в целях BI.
    Group-IB
    Компания

    Комментарии 22

      +6
      Да это же психоистория Азимова!
        –1
        «Этот человек Моисей»
          0
          Уже давно существуют системы типа Палантир (например, тут описана):

          Программное обеспечение «Палантира» реально способно быстро, в режиме параллельной обработки прочесывать все доступные ему базы данных и выявлять связанные друг с другом фрагменты информации? сопоставлять факты, систематизировать их, а также находить связи между такими звеньями из фактов...
            –1
            Недавно, как раз о ней писал — http://www.securitylab.ru/blog/personal/komarov/23207.php

            На самом деле, не стоит путать инструментарий, назначение их абсолютно разное. Палатир является клоном I2, который активно используется для установления связей и сценарного анализа. Никакой информации они не собирают из Интернета, они работают с подключаемой БД, которую либо готовит эксперт, либо она есть как факт. Откуда Вы копипастили, это явно описано. Действительно, работает с большим объемом неструктурированных данных и устанавливает между ними взаимосвязи.

            К делу это абсолютно не относится, мы говорим не о задаче установления связей между сущностями.
        • НЛО прилетело и опубликовало эту надпись здесь
            –1
            Скорее, речь идет о появлении нового сервиса, так как средств для OSINT уже достаточно.
            +3
            Ага, у кого больше денег, тот и рулит «трендами». Захотел влить лажу в информационные потоки, купил громковопящих постеров и вуаля!
              +1
              Да, кстати. Интересно, как оценивается компетентность и достоверность источника?
                –1
                Вы имеете ввиду самой системой или вообще? Такие критерии не фигурируют, так как анализ ведется по заранее внесенным источникам, которые определил оператор для себя (известный СМИ, аналитические порталы, официальные сайты государств, политических деятелей, компаний и так далее).
                0
                Собственно, на самом деле ситуация так и обстоит. Кто управляет СМИ, тот и рулит всем происходящим. Вместо СМИ можно использовать авторитетные для ЦА источники.
                  –1
                  Полностью согласен с таким мнением, управление СМИ является одной из стратегических задач при решении целей собственных интересов.
                0
                Это же Мультивак!
                  0
                  Нам, для анализа действий законодателей, такая система ни к чему. Переименовали милицию. Следующим ходом переименуют обратно. Убрали время — вернут время. Убрали 0,3 промилле — вернули 0,3 промилле. Если и нужна, то только для прогноза изменения следующего закона, но боюсь наши законотворители возьмут тогда её как мануал (как они пользуются сейчас произведениями Оруэлла) и Машина-Предсказательница станет верховным жрецом. Нет. все-таки не нужна нам такая система.
                    –1
                    Надеюсь, хорошо понятно, что подобными системами собственных правителей анализировать смысла мало :)

                    Речь шла немного о другом, надеюсь из контекста понятно, что ее используют в первую очередь не для таких задач, пример с деятелями из иностранных государств приводился именно для этого. Например, если бы таким же подходом исследовались лица, участвующие в переименовании милиции в полицию, то узнали бы мы это гораздо раньше, чем вышло на самом деле (1-ый поехал к 2-ому, в СМИ высказался 3-ему, 4-ый разработал предложение 5-ому, 6-ой прокомментировал ситуацию, 7-ой сослался на зарубежный опыт).

                    Использование допустимо на массиве информации (событий, тезисов, высказываний), но не на однозначных фактах, иначе что там анализировать?
                    0
                    Получил демо аккаунт. Ребята, прячьте код с поста, это будет интересно только очень и очень заинтересованным:
                    Developer API
                    $2,500-$9,000/mo
                    Хотя, это все-же может быть дешевле нежели создать и поддерживать каулер такого масштаба самому.

                    Для сравнения, обычный аккаунт:
                    Premium
                    $149/mo
                      –1
                      Все верно, обычный тоже дает возможности обращения к API, другой вопрос, что там есть ограничения по количеству таких запросов. Например, это будет однозначно актуально службам корпоративной безопасности, которым часто ставят задачу по мониторингу СМИ.

                      Уверен, что система — специальна, просто так ее использовать не будут, другой вопрос, что даже в специальных целях это может быть экономически эффективнее (150 000 источников, сбор архива до 5 лет, анализ по нему).

                      Главное, чтобы только они запросы и интересы пользователей при этом не отслеживали :)
                        0
                        Пытался зарегистрировать демо аккаунт. Пишет что временно это не доступно. Хабраэффект?
                          –1
                          Возможно, они высылают его при привлечении нескольких друзей, либо спустя какое-то время, не сразу.
                        0
                        ну в принципе краулер свой и содержать не нужно. Вполне реально юзать www.google.com/alerts для сбора. Вопрос в анализе данных.
                          –1
                          Была мысль, что именно так они и делают, так как по факту все, что делают они умеет и Google Alerts.
                        • НЛО прилетело и опубликовало эту надпись здесь
                            –1
                            Бесплатно — можно пользоваться по инвайту, без автоматизации, получая информацию через WEB-интерфейс. У разработчиков есть планы сделать больший функционал доступным для безвозмездного использования, ведь они совсем недавно запустились.

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое