Йохан Боллен (школа информатики при университете штата Индиана в Блумингтоне) и группа его коллег всё-таки опубликовали нашумевшую работу по статистической корреляции настроений в твиттере и индекса Доу-Джонса (DJIA). Анонс своих исследований они сделали раньше и названные цифры по точности совпадений немало удивили коллег. 14 октября 2010 года опубликована их научная работа целиком (PDF).
Йохан Боллен с коллегами с помощью теста причинности Грейнджера провели анализ временных рядов индекса Доу-Джонса и настроений твиттера за период с 28.02.2008 г. по 03.11.2008 г. в рабочие дни. Для выявления эмоций в твитах использовались система лингвистического анализа OpinionFinder и GPOMS — система психометрии Profile of Mood States (POMS-bi), расширенная 4- и 5-буквенными словами, собранными Google в 2006 году.
Исследователи попробовали разные варианты со сдвигом по времени и обнаружили, что по одному из параметров точность совпадений не оставляет места случайности.
В таблице показана статистическая значимость (p-значения) двумерной корреляции по тесту причинности Грейнджера между настроениями и DJIA с 28.02.2008 по 03.11.2008.
Как сказано в научной работе, «на основе значений теста причинности Грейнджера можно с большой степенью уверенности отбросить нулевую гипотезу», то есть гипотезу об отсутствии взаимосвязи между двумя наборами данных. Один из параметров психометрии (calm, спокойствие) демонстрирует очень высокую корреляцию с DJIA со сдвигом на 2-6 дней, и здесь результаты можно назвать статистически значимыми.
Значение “calm” предсказывает движение индекса с вероятностью 87,6%. Если наложить их на один график, то становятся заметны промежутки, когда настроение в твиттере совсем не влияет на индекс. По мнению учёных, в эти дни на рынок влияют непредсказуемые факторы. Например, неожиданное заявление ФРС по изменению учётной ставки или количественному смягчению и т.д.
Методология исследования показана на диаграмме.
Йохан Боллен с коллегами с помощью теста причинности Грейнджера провели анализ временных рядов индекса Доу-Джонса и настроений твиттера за период с 28.02.2008 г. по 03.11.2008 г. в рабочие дни. Для выявления эмоций в твитах использовались система лингвистического анализа OpinionFinder и GPOMS — система психометрии Profile of Mood States (POMS-bi), расширенная 4- и 5-буквенными словами, собранными Google в 2006 году.
Исследователи попробовали разные варианты со сдвигом по времени и обнаружили, что по одному из параметров точность совпадений не оставляет места случайности.
В таблице показана статистическая значимость (p-значения) двумерной корреляции по тесту причинности Грейнджера между настроениями и DJIA с 28.02.2008 по 03.11.2008.
Как сказано в научной работе, «на основе значений теста причинности Грейнджера можно с большой степенью уверенности отбросить нулевую гипотезу», то есть гипотезу об отсутствии взаимосвязи между двумя наборами данных. Один из параметров психометрии (calm, спокойствие) демонстрирует очень высокую корреляцию с DJIA со сдвигом на 2-6 дней, и здесь результаты можно назвать статистически значимыми.
Значение “calm” предсказывает движение индекса с вероятностью 87,6%. Если наложить их на один график, то становятся заметны промежутки, когда настроение в твиттере совсем не влияет на индекс. По мнению учёных, в эти дни на рынок влияют непредсказуемые факторы. Например, неожиданное заявление ФРС по изменению учётной ставки или количественному смягчению и т.д.
Методология исследования показана на диаграмме.