Как пользователи Twitter оценивают «Мир Юрского периода»? Обрабатываем Большие данные при помощи IBM Watson



    Новая часть саги о динозаврах, «Мир Юрского периода» побила многие рекорды кассовых сборов и собрала много положительных отзывов критиков. Но как зрители оценивают появление четвертой части фильма о древних рептилиях в привычном для нас мире? Насколько нетерпеливо зрители ожидали выхода «Мира» в кинотеатрах?

    Анализировать нужно тысячи и тысячи отзывов, что и сделала команда IBM Watson. Сейчас между корпорацией IBM и Twitter есть договор о сотрудничестве по поводу обработки Big Data, баз данных социальной сети. Поэтому специалисты IBM взяли некоторые данные из Twitter, имеющие отношение к фильму, и загрузили в Watson Analytics.

    Для подключения баз данных Twitter к Watson был использован инструмент Twitter Data Connector. При этом анализировались только данные с хэштегом #jurassicworld. Период времени, за который брались твиты — с 1 февраля до 29 мая этого года. Как только данные были импортированы, Watson сразу же взялся за работу. Никаких дополнительных действий предпринимать не потребовалось.

    Результаты обработки получились довольно интересными.

    В частности, оказалось, что больше всего твитов об этом фильме отправили зрители из Чили. Женщины публиковали сообщения о «Мире» чаще, чем мужчины, а в Португалии — опубликовано максимальное число как позитивных твитов, так и отрицательных отзывов.



    На каждый из запросов исследователей IBM Watson дал четкий ответ в виде подробного отчета с графиками и диаграммами. Стоит отметить, что большим плюсом IBM Watson является его открытость для всех: даже человек с минимальными знаниями в области анализа данных (да и вообще без знаний в этой сфере) сможет получить отличный отчет с подробными данными. Начать достаточно просто.

    Что касается результатов, стоит выделить следующие:
    • Число отзывов о фильме от зрителей из Монголии лишь немногим уступает количеству #jurassicworld твитов из Чили;
    • В апреле женщины более позитивно отзывались о фильме, чем в мае;
    • В целом, чувства зрителей были позитивными;
    • Общее количество #jurassicworld твитов возрастало в последние пять дней месяца.


    При клике на изображении картинка откроется в полном размере

    Такая активность в мае может быть вызвана увеличением трейлеров к Jurassic World на странице фильма в Tumblr. Данные, полученные исследователями, могут оказаться полезными для последующих релизов фильма в других странах. Возможно, премьеру стоит сдвигать на момент, когда количество позитивных отзывов максимально.

    IBM Watson сделал еще несколько интересных выводов:
    • оказалось, что отношение к фильму зрителей из арабских стран и Украины было, преимущественно, нейтральным (речь идет об отзывах на украинском и арабском языках);
    • норвежцы, в целом, оставляли положительные отзывы. И отношение позитивные/негативные отзывы было большим, чем в любом другом регионе;
    • минимальным же это отношение было в Лос-Анджелесе, максимальным (для США) — в Новом Орлеане.

    Все приемы, которые были использованы при анализе отношения жителей различных стран к фильму, можно использовать и любой другой сфере. Например, маркетолог может оценивать оценку (даже вероятностную) отношения ЦА к продукту компании, ученый получит детальный анализ результатов эксперимента и ранжирование факторов, которые повлияли на результат. IBM Watson — это мощный инструмент анализа сколь угодно большой базы данных, имеющих отношение к практически любой сфере деятельности человека.
    IBM
    Компания

    Комментарии 12

      +3
      Это, конечно, замечательно. Но, давайте, не будет уподобляться знаменитым на весь мир «британским ученым», а опубликуем действительно интересные результаты работы IBM Watson.
        +1
        Интересные результаты работы IBM Watson, в том числе, относящиеся к медицинской, финансовой, промышленной сфере, неоднократно публиковались в блоге IBM. Это исследование — не менее интересно, поскольку в доступной форме показывает возможности сервиса и суперкомпьютера.

        Тем более, что базы данных Twitter можно использовать для огромного числа исследований, включая распространение различных болезней, оценки последствий катастроф, оценка ожиданий пользователей для того либо иного коммерческого продукта и т.п.
        +2
        А как оно определяло эмоциональную окраску текста? Причем Твиттер сеть интернациональная и написанное может быть на любом языке?
        Это надо учитывать особенности каждого языка, сленг и т.д.
        Вообще, посмотрев демо с ваше сайта осталось больше вопросов чем ответов. Пока не попробуешь не поймешь.
        А так штука интересная, за такими идеями будущее!
          +2
          Они что там, реально на Ватсоне такой херней занимаются?
            +2
            Это демонстрация возможностей «Ватсона», популяризация сервиса. Те же исследования по раковым заболеваниям, которые проводятся с использованием Watson, будут мало понятны большинству людей, в том числе и аудитории Хабра. А здесь показаны возможности обработки и анализа BigData инструментами IBM.
              –3
              Какого сервиса? Что, можно заказать Ватсону обработку данных по посещаемости моей сети чебуречных?
                0
                Да, можно, почему нет. Вот ссылка, можете пока изучить. Машине все равно, что анализировать — паттерны пения птиц, динамику развития ударной волны после ядерного удара или посещаемость сети ларьков по производству шаурмы. Все упирается в целесообразность.
                  0
                  А, это меняет дело, спасибо. Я думал Ватсон — это внутренний проект IBM, исключительно RnD, без сдачи в аренду всем желающим.
            0
            Мне кажется, или такой анализ я могу сделать на ноутбуке за 15-20тыс. в течение дня. Самое долгое — это парсинг твиттера, в остальном ничего особого не вижу. ПИЧАЛЬ.
              –2
              Применение Ватсона — очень интересно, чего/как они делают и тд.

              «В апреле женщины более позитивно отзывались о фильме, чем в мае» — «держите нас в курсе, ага» :(

              Статься почему-то на 80-90% из второго. Какой в этом смысл?

              «Это демонстрация возможностей «Ватсона», популяризация сервиса. » — вообще-то больше похоже на рекламу очередного голливудского кинца в стиле «смотрите как мы научились рисовать».
                0
                Как уже говорилось выше, машине все равно, какие данные анализировать. Специалисты IBM Watson взяли в качестве примера то, что будет понятно всем, самой широкой аудитории. Благодаря таким методам популяризации компьютерных технологий обычные люди и узнают об «cutting edge technologies». Аналогичным образом поступает, например, NASA, в понятной форме обрисовывая последние научные открытия, имеющие от ношения к космосу.
                  0
                  Про машину все понятно, про специалистов Ватсона тоже, но статью-то сюда пишут не они. Если б вы писали для ленты.ру, например, тогда и самая широкая аудитория и популяризация технологий среди обычных людей и cutting edge of technologies были бы более чем уместны. Но аудитория гитаймс, кмк, уже как бы несколько в курсе всего этого. Было бы логично заточить статью под местных, не?

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое