Как предсказывать исход событий с помощью интернета или кто победит в финале Лиги Чемпионов

    Какой самый успешных инструмент предсказаний и оценки будущих событий вы знаете? Кофейная гуща? Подбрасывание монетки? Или соц.опрос? В данной статье рассказывается о новом способе оценки будущих событий, который, возможно, в недалеком будущем станет одним из самых надежных инструментов предсказаний.

    Вы узнаете о возможностях исследования мнений в социальных медиа, так называемых «рынках предсказаний», а также – кто победит в финале Лиги Чемпионов 28 мая на стадионе «Уэмбли»

    От теоремы Кондорсе до рынка предсказаний


    Правда ли, что большинство не ошибается? И что глас народа всегда верен?
    На этот спорный вопрос более 200 лет назад дал ответ французский ученый и политический деятель маркиз де Кондорсе в своей теореме о жюри присяжных: если вероятность предсказания каждого независимого индивидуума больше 50%, то вероятность того, что большинство даст верное предсказание стремится к 100% по мере увеличения числа предсказывающих индивидуумов.

    С расцветом социальных медиа и возможности каждого (или каждого второго) выразить свое мнение онлайн, интернет становится такой же репрезентативной площадкой для сбора статистики, как и опросы общественного мнения. Но намного более простой, динамичный и относительно недорогой в получении результатов и их анализе.
    А иногда узкий срез людей легче найти именно на тематических площадках в сети, чем отыскать в безграничном пространстве офлайна.

    Грех было не воспользоваться таким кладезем информации и мнений, и на основе теоремы Кондорсе был создан новый класс приложений – рынки предсказаний (РП). На данный момент их насчитывается уже несколько сотен. По своей сути, такие приложения представляют собой спекулятивный рынок типа фондовой биржи, участники которого имеют цель заработать на предсказаниях. Чем выше ваша ставка на тот или иной вариант развития событий, тем выше оценивается ваш голос. Приведем только один яркий факт, доказывающий право таких приложений на существование:
    «В США предсказания РП оказались на последних президентских выборах в США точнее любых опросов общественного мнения и любых прогнозов экспертов. Ошибка РП «MAPE of IEE» составила всего 1,5%, против ошибки Gallup Poll в 2,4% (Gallup Poll всегда славился самыми точными оценками)».

    Успех онлайн предсказаний близок


    Одними из первых оценить и проверить на деле глас блогосферы не через искусственно созданные биржи, а посредством стороннего наблюдения и сбора информации попробовала американская компания “General Sentiment”.

    Весной прошлого года она провела мониторинг социальных и новостных медиа с целью определения финалиста популярного американского шоу American Idol (прародитель «Фабрики звезд»). Вы можете прочитать полное исследование по этой ссылке (там можно скачать PDF исследования), мы изложим только основные моменты.

    В своих исследованиях они оперируют тремя показателями: Media Value, Sentiment и Volume.
    Показатель Media Value конвертирует все упоминания персоны в реальную стоимость (доллары), соответствующие сумме, которую бы данной персоне или бренду пришлось бы потратить на традиционные медиаканалы (на PR-акции, мероприятия, проплаченные статьи и отзывы и др.) для порождения подобной волны обсуждений. Цифры получались действительно нешуточные
    Sentiment – это тональность обсуждений, которая рассчитывается по определенному авторскому Sentiment Index.
    Volume – это общее количество упоминаний бренда

    Американцы выложили свое исследование аккурат перед финалом телешоу, в который вышли два претендента – Кристалл Боуэрсокс и Ли ДиУайз. Однако Media Value было высчитано для 7 участников, и мы можем видеть, что с самого начала публика уделяла всем другим участникам намного меньше внимания, чем финалистам Кристал и Ли (даты – с апреля по май 2010 года)



    Рассчитав для двух финалистов также и показатели Sentiment и Volume, ребята из “General Sentiment” поставили на успех Кристал Боуэрсокс… Но победил в итоге Ли ДиУайз.
    Конечно, кейс был бы более изящный, если бы предсказание сбылось, но этот и ряд последующих исследований “General Sentiment” всё быстрее приближают эру, когда исход массовых событий можно будет предсказывать по анализу мнений в онлайн-среде.

    Но всё это – западные исследования, мы же взяли на вооружение похожую механику и решили создать нечто подобное для русскоязычной аудитории интернета. И, конечно же, не смогли отказаться от соблазна заглянуть в будущее и узнать, кто победит в самом зрелищном футбольном турнире Европы – Лиге Чемпионов.
    Мы провели анализ обсуждений финала Лиги Чемпионов с целью выяснить, на чью победу ставит большинство пользователей, и на основе него сделали прогноз.

    Как это работает?


    Сбор данных проводился по различным видам онлайн-медиа, начиная с форумов и заканчивая онлайн-сми.

    В процессе исследования само собой определились основные источники, где велось больше всего разговоров об исходе матча – это футбольные сообщества и порталы, где в комментариях разворачивались обширные дискуссии: http://www.eurosport.ru, http://news.sportbox.ru, http://www.championat.ru, http://football.ua и ряд других

    Поиск проводился по ключевым словам: “Манчестер", «МЮ», «Манкунианцы» и т.п. в контексте таких слов, как «Барселона», «Барса», «барсуки»

    Самым сложным этапом было, конечно же, анализ тональности прогноза – то есть определение, на кого ставит автор конкретного комментария.
    Для этого был составлен большой словарь, который постоянно пополнялся (за это время мы существенно пополнили личный лексикон!), например: «победит», «уделает», «обыграет», «сольёт», «продует»… и множество других аналогов. Однако задание в данном случае было действительно не из легких, так как «живой великорусский» язык на наших форумах трудно интерпретировать в автоматическом режиме (например, в отдельных случаях это бы просто счет в пользу той или иной команды), поэтому существенная доля упоминаний была обработана и оценена вручную.

    Самые популярные источники комментариев с соотношением тональности прогноза:


    Интегрально было собрано и обработано более полутора тысяч комментариев, в которых обсуждался финал футбольного турнира, причем менее четверти из них содержали явное указание на победителя. В итоге примерно 60% (204) голосов было отдано за победу МЮ, и только оставшиеся 40% (145) — за Барселону.



    Конечно же, мы столкнулись со многими трудностями
    В первую очередь, это технический сбор информации и обработка. Русский язык настолько богат, что все варианты упоминаний просчитать сложно (хотя мы старались), и определенные упоминания могли от нас ускользнуть.

    Во-вторых, если вы перечитаете теорему Кондорсе, то там ключевым показателем правильного исхода предсказания служит вероятность верного предсказания каждого больше, чем 50%. Полагаем, что нам удалось выдержать данное условие, т.к. упоминания были собраны с профильных футбольных площадок, где люди дают свои прогнозы не на пустом месте: то есть следят за футбольными турнирами и знают силу команд

    В-третьих, определенную погрешность могла принести и психология: «Барселона» последнее время сминала всех на своем пути и выиграла уже достаточно много турниров, так что многие просто устали от нее и будут болеть за «Манчестер Юнайтед» и делать ставку на них.

    В общем, методология еще требует шлифовки и совершенствования, но мы уже сбегали в ближайшую букмекерскую контору :)

    Предлагаем вам также принять участие в голосовании и прямо сейчас сказать, кто же станет обладателем Кубка европейских чемпионов. Все голоса аккумулируются на странице Facebook. Спасибо за участие!

    А у хабрасообщества хотели бы узнать мнение о вероятности удачи прогноза — и спросить, как вы считаете, какие недостатки есть у такого рода исследования? Будем благодарны за любые конструктивные отзывы!

    И для поднятия настроения – немного примеров комментариев из блогосферы:
    • Коля, может и не со счетом 3:1, но МЮ возьмет вверх в этом финале :) Ферги хоть и стар, очень хитрый лис. Барса безусловно хороша, и в этом году, и в предыдущем, но в характере, им до МЮ далековато. В общем, посмотрим, а ты готовь бутылочку вина, благо сейчас даже не далеко за ней ехать ) (ссылка)
    • БАРСА утрет шнобель МЮ, так же как и кислой команде маула!!! Барса истинный чемпион!!! (ссылка)
    • МЮ победит.Инфа 100%тная =) (ссылка)
    • йоу!!! я забил с мексом на работе на 20 баксов что барса выйграет манчестера… ждемссс финал 28 числа… (ссылка)
    • я думаю очень интересная игра будет, но приемущество на стороне барсы будет это 100 проц, что-бы барсе противостоять нужно в контроатаке играть а не сидеть у своих ворот как обычно это делает МЮ. (ссылка)
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 60

      +5
      Автор, Вы уже успели озолотиться, играя на тотализаторе?
        +1
        Если бы эти исследования могли предсказать счет и исполнителей — цены бы им не было :)
        +2
        Исследование сделано смелое… Но учитывая, что варианта развития всего два, высока доля обычной случайности или попадания пальцем в небо… Можете сказать, где такие исследования будут работать с большей долей вероятности?
          +2
          Исследование результатов выборов, прогнозы победителей теле-шоу и всевозможных конкурсов — то есть все те мероприятия, где существует сразу целый ряд возможных вариантов, а результат зависит от голосования большого числа человек, который можно предсказать анализируя отзывы в соц. медиа.
          0
          Странно, что до сих пор никто не высказался по поводу миллиона леммингов.
            +14
            Аналогичные опросы профильной аудитории в 12 веке однозначно показали, что Земля — плоская.
              0
              В 12 веке не было форумов и социальных сетей) А если бы были, Коперник бы быстро распространил свои знания посредством анонимного прокси.
                +6
                Не помогло бы. По данным ВЦИОМ, до сих пор 32% (!!!) россиян считают, что Солнце вращается вокруг Земли.
                  0
                  Смотря что брать за точку отсчета.
                    +1
                    Можно и с другой стороны посмотреть:
                    «По данным ВЦИОМ, уже 68% россиян считают, что Солнце вращается вокруг Земли! Ожидается, что в дальнейшем число таких людей будет только расти.»
                      0
                      Есть люди, которые считают что Солнце и Зекмля вращаются вокруг друг друга одновременно. Не исключено, что они правы.
                      А есть люди, которые считают что они вообще не вращаются, так что 68 процентов — не совсем корректная цифра.
              0
              Поддерживаю предыдущих ораторов.
              Если из 100 пользователей сети 7%, ( а всего в сети 0.07% населения региона, ну пусть даже 0.3% ) говорят «ДА» ( остальные не знают про сеть или имеет другое мнение ) и это значит что Спартак выиграет.
              По математике получается: 0,3* 0,7 = 0,21 === 21% (да, 21 чел. поддержат инициатора топика в его пристрастиях ) — ну можно взять другие цифры для расчета — а как сильно изменится результат?

              А сели речь идет о поспорить, отвести душу :), то ничего не имею против вашей идеи…
              Все равно проспоренное пиво будут пить все вместе!

              А завести народ на выражение эмоций — хорошо.
              Все получат удовольствие и инициатор и оппоненты.

              Но сегодня еще не пятница..., повторите ваш топик завтра.
              Вас поддержат

                0
                > вероятность предсказания каждого независимого индивидуума

                Это что за зверь?
                  +1
                  Это означает, что в своем прогнозе вы скорее правы, чем не правы. И это ваше мнение, данное без оглядки на другие.

                  Данная теорема не зря называется «о суде присяжных», т.к. хорошо ложится в обоснование дачи верного вердикта присяжными заседателями. Выслушав доводы всех сторон на суде, вы в качестве эксперта даете обоснованное решение, и большинством голосов действительно должны верно определить виновность подсудимого
                    0
                    Тогда наверное «вероятность верного предсказания для каждого независимого индивидуума»
                  +2
                  Контингент сервиса «Ответы mail.ru» хорошо характеризуется представленным графиком.
                    0
                    Да на football.ua тоже все ясно.
                      0
                      Вот именно. Этим, ИМХО, и нивелируются итоги «опроса». Концентрация школоты на футбол.уа превышает норму раз в 10
                      0
                      +1! тоже заметила, как различается показатель прогнозов на «казуальном» сайте и тематических =)
                      0
                      Какими были бы результаты опроса перед прошлогодним матчем Барселона — Рубин? А Рубин между прочим, выиграл 2-1.
                        +4
                        В основное время будет ничья, расслабьтесь :)

                        А система интересная, единственное что, не очень уверен что активно коментирующие спортивные новости на упомянутых сайтах являются презентативной выборкой.
                          +4
                          Был способ проще.

                          Последний график можно было получить просто просмотрев коэффициенты на тотализаторе, так как они как раз динамически меняются, чтобы устроитель не проиграл ни при каком исходе.

                          Больше ничего делать было не нужно.
                            0
                            В сурьезных тотализаторах коэфициенты не меняются динамически.
                              0
                              Коэффициенты меняются динамически в любом тотализаторе, иначе тотализатор разоряется за несколько дней. Если за полчаса до финала ЛЧ станет известно что не играют Чичарито и Руни — вы будете сильно удивлены насколько уедет линия.
                                –1
                                осталось найти Чичарито и Руни и вывести их из игры за полчаса до, чтобы проверить насколько изменятся коэффициенты.
                            –1
                            Вы в поиск включите чемпионат.ру, там Вам истинные профессионалы подскажут, кто выиграет в финале
                              +1
                              Мне кажется необходимо создание ресурса, где будут люди с вероятностью прогноза более 50%, а потом уже получение от них каких-либо данных.
                              +1
                              Может по старинке? Осьминоги там всякие или на кофейной гуще.
                                0
                                как завсегдатой чемпионата, могу сказать, что барса последнее время упоминается в двух ипостасях — допинг, купленные судьи. какие выводы вы можете делать? НИКАКИХ.

                                как давний болельщик, могу сказать, в спорте возможно всё, если игра НЕ изначально ничего не значащая. Договорняков масса, поэтому официально все великие клубы — полубанкроты, с большими долгами, в том числе МЮ и Барса.

                                как человек занимающийся некоторое время разработкой тотализаторов, могу сказать что нужно делать антонимические ставки за все исходы и выигрывать на разницах коэффициентов.
                                  –1
                                  +100
                                  торговля на разнице коэффициентов — это тема.
                                  остальное — попандос.
                                  0
                                  Какие исследования… ради жажды наживы :).
                                  Не сочтите за рекламу, но betfair.com — биржа ставок (не путать с букмейкерской конторой), в которой мнение каждого «независимого индивидуума» подкреплено финансово из чего следует полагать, что большинство разбирается в этом и считает свою оценку с вероятностью >50%.
                                  P.S. Из этого может что-то получиться, если учитывать мнение только экспертов (а не всех подряд в соц медиа).
                                    0
                                    В среднем по профильным ресурсам соотношение сил ~ 2/3 — Барселона: 1/3 Манчестер.
                                    0
                                    Проблема только в том, что в случае Президентских выборов и Фабрики звезд — люди сами и голосуют за победителя, а на результат в футболе они никак повлиять не могут.
                                      +1
                                      Я бы не был уверен, что влияние голосов на выбор Президента так сильно (
                                      0
                                      Где угодно, но не в футболе.

                                      Посмотрите, какие команды выиграли в 1992 и в 2004 годах в Чемпионате Европы по футболу. Как вы думаете, сколько людей ставили на них до того, как ЧЕ начался?

                                      В 1992 году Дания вообще попала в финальную часть турнира случайно, за несколько дней до чемпионата, из-за того, что команду Югославии сняли с соревнований по политическим причинам.
                                        +1
                                        У меня только один вопрос — если большинство людей в большинстве случаев угадывает, то почему букмекеры не разорились? Ведь по этой логике большинство игроков должно в 90% случаев выигрывать, т.е. букмекеры при такой логике должны выплачивать больше, чем получают от проигравших, однако как показывает практика букмекеры процветают.
                                          +1
                                          «Большинство людей в большинстве случаев» НЕ угадывают, поэтому существую специальные методологии и программные продукты, которые помогают удовлетворить ключевое условие теоремы Кондорсе. Например, в «Рынках предсказаний» это регулируется тем, что люди делают ставки.
                                            0
                                            так у букмекеров как раз и делаются ставки, чем же можно объяснить, что большая часть денег проигрывается и меньшая выигрывается?
                                              0
                                              Намеренным понижением коэффициентов букмекерами. Т.е. есть расчитанные коэффициенты отражающие вероятность исхода события, их перед опубликованием занижают.
                                                0
                                                ну хорошо коэффициенты на события с большим количеством ставок занижены, но даже фавориты по коэффициэнтам выигрывают далеко не в 90% случаев, т.е. где связь между большим количеством предсказаний события и большой вероятностью его наступления?
                                          +1
                                          кстати гугл делает предсказания евровидения на основе поисковых запросов, предыдущие 2 года он угадывал, а в этом году не попал совсем.
                                            +1
                                            Вероятнее всего, прогноз Google был бы точнее, если бы он учитывал тональность поисковых запросов и обсуждений и ряд других факторов. Это как раз то, как работает General Sentiment. Вот в этой статье об этом написано подробнее
                                            0
                                            Одно дело, когда люди предсказывают, как проголосуют опять же люди, и совсем другое, как сыграют независимые от них команды.
                                              0
                                              Футбол считается спортом номер один именно по причине тяжелой предсказуемости, слишком много факторов, слишком много случайных событий от 22 человек на огромном поле. Поэтому его и любят, поэтому на него и ходят.
                                                0
                                                Интересно, это предсказание на победу в основное время или проход? В основное ж время может быть и ничья… В данной статье об этом ничего не сказано. Как быть в таком случае?
                                                  0
                                                  Мы проводили аналитику общего исхода матча
                                                  +1
                                                  Протянул бы Пауль подольше — не пришлось б так загоняться.
                                                    0
                                                    Вспомнился анекдот:

                                                    Блондинку спрашивают:
                                                    — Какова вероятность того, что выйдя на улицу, Вы встретите динозавра?
                                                    — 50%
                                                    — ???
                                                    — Либо встречу, либо не встречу.
                                                      +3
                                                      погрешность-то прикидывали?
                                                        +2
                                                        Нет, погрешность не прикидывали и не планируем. Это был скорее эксперимент, и нас интересовал общий объем упоминаний с прогнозами матча и возможности по его анализу и обработке. Мы хотели провести подобное исследование и выбрали для этого самое ближайшее массовое мероприятие — финал Лиги Чемпионов
                                                        0
                                                        У букмекерских контор другое мнение :)
                                                          0
                                                          Иллюзия. Помнится только я один из двух десятков людей, смотревших финал Евро Португалия — Греция, сказал, что победят Эллины. И то потому что был на веселе…
                                                            0
                                                            Предлагали работать над проектом-сервисом таких штуковин в веб. Отказался, ибо считаю подобное мало реальным.
                                                              +2
                                                              Вы забыли самое важное требование: высказывания людей должны быть независимыми друг от друга. Вот свежее тому подтверждение. А в среде социальных медиа, не заточенных под эту цель специальным образом (в виде, например, сокрытия рейтинга чего-либо от тех, кто ещё не проголосовал), это практически невозможно.
                                                              Хотя я недавно видел научную статью, где на основе анализа 100 000 сообщений твиттера удалось предсказать результаты федеральных выборов в Германии.
                                                                0
                                                                Букмекерские конторы, кстати, считают иначе. У них Барселона фаворит. А с учетом того, что котировки в БК это не только мнение котировщика (учитывается в нвчале), но и бабки игроков (математика включается как только начинают ставить), то есть мнение что их данные более достоверные, все-таки голосующий рублем вызывает больше доверия чем брызжущий слюной на форуме ;)
                                                                  +1
                                                                  А как же самое популярное спорт сообщество sports.ru?
                                                                    +3
                                                                    Мы и его не забыли :) Sports.ru был в источниках, с этого ресурса было собрано более 100 комментариев (например, по этой ссылке), но из них конкретных ставок на победу той или иной команды было считанное количество. Исследование мы закончили в начале этой недели, чтобы было время собрать результаты и подготовить статью на Хабр
                                                                    +2
                                                                    Дорогие хабровчане! Большое всем спасибо за фидбек и оценку работы!
                                                                    Учтем все недоработки и будем дальше развивать подобные исследования. В каких-то областях они работают лучше и точнее, в других еще не оптимальны… Но для «пробы пера» зачин был неплохой :) и игра была захватывающей!
                                                                      0
                                                                      Главная ошибка тут в том, что исход матча в отличие от исхода голосовании всяких фабрик звезд не зависит от того кто и что рассуждает на форумах… 3-1 тому доказательство.

                                                                      Абсолютно не важно что думает большинство фанатов по поводу того или иного матча. я делаю более точный прогноз ни разу вообще не смотря ни одного матча, к примеру про бейсболу, даже и правил то не зная его. достаточно знать предыдущие результаты, текущее положение команд а также odds букмекеров. все остальное- нойз.
                                                                      • UFO just landed and posted this here

                                                                        Only users with full accounts can post comments. Log in, please.