Предвыборная гонка глазами поисковых роботов



    Мы ежедневно выполняем срез документов, расположенных на главных страницах миллиона самых посещаемых сайтов мира. Сегодня рассмотрим, как количество упоминаний кандидатов в президенты РФ коррелирует с происходящими оффлайн событиями.

    Ссылка на график, шкала — линейная

    Цифра соответствует количеству найденных упоминаний в тексте из корпуса html-документов получаемого краулером ежедневно, что позволяет нам выводить индекс для каждого кандидата. Обычно мы строим подобные индексы по брендам для маркетологов/pr-специалистов, но выборы — событие историческое.

    Признаться, подошли мы к этому вопросу с некоторой халатностью, Собчак добавили каким-то чудом перед тем, как она объявила о своем желании выдвинуть кандидатуру, Грудинина уже когда стало понятно, что без него банкет не состоится. С другой стороны, у нас не было цели сделать доскональный анализ технологий кандидатов, хотели посмотреть как ведут себя топы.

    На графике в начале темы мы можем наблюдать динамику упоминаний кандидатов. Шкала линейная, Путин улетел, сильнее всего к его индексу приближалась Собчак (когда объявила о своем выдвижении) и Навальный (когда ему ЦИК отказал в регистрации). Здесь шкала логарифмическая.

    Рассмотрим детали


    Путин




    1. Прямая линия с президентом
    2. Встреча Путина и Трампа
    3. День рождения Путина
    4. Отмена встречи с Трампом
    5. Выдвижение кандидатуры на пост президента
    6. Большая пресс-конференция Владимира Путина
    7. Обращение к федеральному собранию



    Навальный




    1. Организовал митинг
    2. Навальный продал «Лайфу» видео про «отдых Навального во Франции». Заработал 10 тысяч рублей для своей президентской кампании. Meduza. Параллельно запустилась сеть сайтов по продаже атрибутики к выборам с символикой Навального. Именно эта сеть так задрала фон.
    3. Протестные акции сторонников Алексея Навального
    4. ЦИК отказал в регистрации
    5. Протестные акции сторонников Алексея Навального
    6. Сайт Навального внесли в черный список



    Собчак, Жириновский




    1. МОСКВА, 4 сентября. /ТАСС/. Лидер ЛДПР Владимир Жириновский признался, что ему были неприятны публикации в российских СМИ, где утверждалось, что одним из кандидатов на предстоящих выборах в марте 2018 года будет женщина.
    2. Рождение Собчак, как кандидата в президенты. Хочется отметить, что фон упоминаний как влетел с уровня Жириновского, так полностью и не откатился.
    3. Собчак облила Жириновского водой во время дебатов



    Грудинин, Жириновский




    С Грудининым одни скандалы, ничего интересного (Жириновский для масштаба)


    Общий вид




    График будет обновляться ежедневно, система продолжает собирать данные, посмотрим, как события будут развиваться в последнюю неделю до голосования.

    Интересные наблюдения


    1. У Жириновского самый сильный инфоповод за историю наблюдений — скандал с Собчак, количество упоминаний самое низкое.
    2. Грудинин скандалами запутал всех, но бьется в одной куче с остальными.
    3. Так, как о Собчак написали в тот день, когда она объявила о своем желании — не писали больше никогда (пока).
    4. Навальный падает.
    5. Информационная волна от выступления Путина с посланием Совету Федерации сравнима с первой встречей с Трампом.



    P.S. Если кто-нибудь захочет провести собственное исследование, например, посчитать что-нибудь о кандидатах в новостных заголовках — пишите в личку, поделимся датасетами.
    Поделиться публикацией
    Ой, у вас баннер убежал!

    Ну. И что?
    Реклама
    Комментарии 27
    • +5
      Из этой краткой статьи, я вижу только одно.
      Собчак — скандалистка 80. Жириновский — скандалист 90 левела, Грудини — просто скандалист.

      Неужели так контролируется процесс регистрации, что туда могут попасть только специально подготовленные скандальные персонажи?

      На всю РФ нет более адекватных людей, у которых есть какая-никакая поддержка и возможность уплатить взнос?
      • –4

        Есть, Явлинский, Титов и ещё пара совсем скучных

        • +5
          переведу: есть «бездельник-неудачник уже 28 лет», «непонятно-кто» и еще пара даже более скучных.
          • 0

            Так скандалист нужен или нормальный скучный политик?

        • +3
          > На всю РФ нет более адекватных людей, у которых есть какая-никакая поддержка и возможность уплатить взнос?

          Есть некоторые трудности и с поддержкой, и со взносами
          • –6
            Грудинин-то с чего скандалист? Самый адекватный участник.
            «Скандалы» вокруг него выдумывают СМИ, он сам честно и спокойно отвечает на все выпады. В балагане с обливанием водой участвовать отказался.
            Уплатить взнос или предложить иную помощь (поработать наблюдателем, к примеру) можно в любом отделении КПРФ.
            • –6
              Самое интересное среди этих скандалов — обвинение, что у него счета в Швейцарии. Это абсолютно абсурдно и направлено только на низкий сегмент электората. Любой сколь-либо адекватный человек понимает, что при регистрации проходят проверки и отправляются запросы в другие страны на предмет наличия счетов. Можно было бы еще допустить какой-нибудь офшор, но человек, который построил довольно успешный бизнес, не станет держать счета в Швейцарии после того, как стал кандидатом.
              Ну если и станет, тогда нам точно такой президент не нужен. Однако доказательств никаких нет, только голое заявление.
              p.s. я не за него, только за честность в конкуренции
              • –1
                Как раз на такой запрос о счетах, пришел ответ, что по состоянию на 31 декабря 2017 года счета были. Зарегистрированным кандидатом Грудинин стал 12 января 2018.

                Это конечно очередная дыра в законах. Но благодаря тому что на нее наступил нужный человек, создался положительный прецендент, а не очередной барьер.
                • –1
                  так чего же не отказали то ему тогда. по-хорошему надо было бы.
                  • 0
                    А там нашли как вывернуться. Счёта были на 31.12, к 12.01 их могло и не быть. Формально оснований нет.))
                  • 0
                    И он честно рассказал, для чего нужны были эти счета (лечение родственников за границей), и что он их закрыл, прежде чем регистрироваться. На момент регистрации оставались только корсчета, к которым он отношения не имеет. Что не так?
                    Вы лучше бы спросили, сколько у Вовочки счетов и где…
              • +1
                А что Титов? ©
                • +1
                  Вы чо? Какие кандидаты? Вся политическая поляна выжигается напалмом. Чтобы у любого умного человека (пассионариев типа Н. оставим за скобками) даже мысли не возникало вылезти соревноваться с Папой.
                  • 0
                    Насчёт «никто другой» — была когда-то картинка.
                    Заголовок спойлера
                    image
                    Или другой вариант, но не нашёл быстро
                    — Никто не проголосует
                    — Первый раз вижу

                    — ВВП
                    В прошлый раз были смешные персонажи типа «вышел Бетмен» (не помню как зовут гражданку), но она слилась в процессе. Потому только такой цирк и никакой реальной альтернативы, даже «Против всех».
                  • +1

                    Вы различаете источники — "СМИ/ихаккаунты" в отличие от "люди" и "перепосты"?


                    P.S. В мизантропской манере про выборы рассказал Юлин "в гостях у Гоблина" — любопытно.

                    • +3
                      Хо-хо-хо, какая толстая тема, и на хабре, а какие комментаторы и кого обсуждают, да по каким сценариям, ну…
                      … предлагаю выпилить в топку эту политоту, ибо на исследование даже по чисто формальным признакам этот топик никак не тянет, ценности не представляет
                      • –4
                        Ну и при чём здесь предвыборная гонка? Вы считаете упоминания людей, которые В ЧАСТНОСТИ являются кандидатами на пост президента. Контекст кто учитывать будет, Пушкин?
                        • +1
                          Интересны бы посмотреть на датасеты Google
                          • +1
                            Посмотрели статистику и баиньки, незачем разводить демагогию кто лучше или хуже
                            • 0
                              А каков у вас объем выборки (в словах или байтах) и кол-во источников (скажем, за сутки)?
                              • 0
                                Топ 1М сайтов мира, ежедневно
                              • 0
                                М — это миллион, миллиард или мегабайт? У вас исследование на русском языке (или нет? вы не указали, какие языки используете). Нет ни слова ни об объеме, ни о презентабельности выборки. Что вы собираете: только СМИ или только соц.медиа. Учитывая, что сбор соц. медиа — задача не из тривиальных, то выборка по русскоязычным СМИ — это не более 5% от общего потока русскоязычных сообщений. Поэтому это либо плохо написанная статья, либо дешевый пиар под выборы.
                                • 0
                                  Вы невнимательны. Выборка обозначена в самом начале. В рамках данной статьи мы срезаем все сайты мира, на которые заходит более 500 человек в день (их получается чуть больше миллиона). Краулер проходит каждый день по морде и срезает контент. Далее выделяем тексты и считаем в них упоминания интересующих сущностей. Динамику по количеству упоминаний — визуализировали. Что значит СМИ, какие 5%, от чего, о каких сообщениях вы говорите? Мы сайты исследуем. Все русские сайты с трафиком присутствуют в топ 1м, глазами список Алексы посмотрите. Английские тоже обсчитываются statoperator.com/#data=putin

                                  Это история о том, какие данные из веб-корпуса можно намайнить выполняя 1,000,000 mapreduce операций ежедневно. Вы спрашивали о словах: ~100,000,000 в срезе.

                                • 0
                                  Вы спрашивали о словах: ~100,000,000 в срезе.

                                  — примерно такой ежедневный поток (в словах) генерируемых только в русскоязычном секторе. В англоговорящем — на несколько порядков выше. У вас нет распознавания языка: putin практически во всех индо-европейских языках пишется одинаково. Поэтому ваша статистика только с официальных открытых сайтов, типа СМИ — средств массовой информации, причем разделенная не по языку, а только по алфавиту. Вы же не майните твитер, фейсбук, вконтакте и пр. — а соц.сети это до 95% новой информации. Я про это говорил.
                                  • 0
                                    В каком секторе, о каком потоке вы говорите, откуда данные? Еще раз повторяю, мы срезаем все, что написали сайты (паблишеры), а не юзеры.
                                  • 0
                                    Поток — это все, что генериться, например, за сутки: вся текстовая информация в интернете. Не важно это паблишеры или юзеры. Тем более, что в современных реалиях они не различимы: у юзера может быть многотысячная аудитория. Разница только в том, что одни открыты, а другие закрыты для скачивания без регистрации.

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                    Самое читаемое