Pull to refresh
1
0

Physics

Send message
  1. Результаты Брэкзита.



    Данные только по регионам, а не по отдельным участкам. Тем не менее, видны две гауссойды. Источник данных: https://www.electoralcommission.org.uk/who-we-are-and-what-we-do/elections-and-referendums/past-elections-and-referendums/eu-referendum/results-and-turnout-eu-referendum Файл full set of EU referendum result data


  2. Результаты референдума во Франции 2005 года
    https://ru.wikipedia.org/wiki/%D0%A4%D1%80%D0%B0%D0%BD%D1%86%D1%83%D0%B7%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B5%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D0%B4%D1%83%D0%BC_%D0%BF%D0%BE_%D0%9A%D0%BE%D0%BD%D1%81%D1%82%D0%B8%D1%82%D1%83%D1%86%D0%B8%D0%B8_%D0%95%D0%B2%D1%80%D0%BE%D0%BF%D0%B5%D0%B9%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%81%D0%BE%D1%8E%D0%B7%D0%B0_(2005)



    Данные по каждому участку. Тоже две гауссойды. Источник данных https://www.data.gouv.fr/fr/datasets/referendum-de-2005-resultats-par-bureaux-de-vote/


С чего бы у всех этих маленьких групп людей было бы точь-в-точь одинаковое распределение?
Если Вы просуммируете в коде количество голосов на участках с 50 избирателями и меньше, то получите всего 35 тысяч, а если с 100 избирателями и меньше, то 250 тысяч. Пики при большой явке дают под 2 миллиона. Поэтому маленькие участки по 5 человек не вносят практически никакого вклада.

Это я просуммировал общее число зарегистрированных избирателей, то есть верхний предел
df[df['n_registered_voters']<50]['n_registered_voters'].sum()

Чтобы закрепить эти вроде бы очевидные вещи, посмотрите на любой результат референдума/голосования, например результаты референдума в Великобритании по поводу членства в ЕС. У каждой административной единицы свои голоса за/против, своя явка.

В данной статье приведена явка по регионам (Regional count results). Результаты предпочтений по регионам могут отличаться, но явка предельна кластеризована в районе 65-75 %. Нет такого что только при явке близкой к 100 % голосуют за тот или иной вариант.
Вам не кажется, что при этом и графики должны быть разные? У автора и у Шпилькина они отличаются лишь в одной строчке в легенде графика.


Так как автор предоставил код, то его результаты воспроизводимы и можно посмотреть что в точности было сделано. Вы всегда можете прогнать код и проверить свои гипотезы. Я не видел ни кода, ни описания алгоритма Шпилькина. Насколько я знаю, он только графики в фейсбуке выставил и они потом были перепечатаны СМИ. Есть несколько препринтов в архиве, но они немножко про другое. Поэтому мой ответ выше в этой ветке — это всего лишь предположение как именно считал Шпилькин. Возможно, Вы знаете больше о технических деталях.

Ок, зайдём с другой стороны. Беглый поиск по фразе «correlation between voting yes and turnout» обнаруживает, что этой гипотезы не только нет, но и наоборот, активно рассматриваются различные примеры, когда разница в явке изменяет картину голосования.

В строгом смысле слова это гипотеза, как я и написал. Разумеется, отклонения от неё должны рассматриваться. Тем не менее, я считаю её довольно разумной. Она даёт хорошее качественное представление о результате. Если бы она не работала, социологические опросы бы не имели смысла.

Само по себе дисперсное распределение результате как функции явки с двумя кластерами аномально. Вы такое не найдете ни в брекзите, ни в результатах выборов. В России по крайней мере до 2000ых годов оно тоже не наблюдалось, если верить Шпилькину.

Опрос один и тот же. Варианта ответов два. Да, результат будет примерно одинаковым и для 20% опрошенных и для 100% опрошенных. В этом смысл социологии.
Я думаю, что автор и Шпилькин строят немного разные графики. На приведённом вами выше используется статистическая гипотеза что при любой явке распределение за или против приблизительно одинаково. В этом, например, смысл социологических опросов: опрашивается репрезентативная выборка (а не 100 % избирателей) и она с высокой долей вероятности показывает результаты голосования. Автор взял распределение голосов при «достоверной явке», которую определил как 55% и меньше и перераспределил значение голосов при высокой явке таким образом чтобы оно соответствовало распределению при достоверной явке сохранив при этом число голосующих. Тут, наверное, автор забыл поставить ещё количество голосов «Да с поправкой», так как красная кривая тоже должна немного вниз уйти.

Ниже приведён график Шпилькина. Он позволяет учесть именно вбросы. Я не видел технических деталей его подхода, но, насколько я понимаю, делается следующее. Он тоже использует выше приведённую статистическую гипотезу, но ренормирует кривую справа таким образом, чтобы она не уходила вверх а была горизонтальная. Разница между изначальным распределением и ренормированым можно считать аномальной. Построив куммулятивную сумму графика справа как функцию явки получаем график слева. Серая кривая — это куммулятивная сумма ренормированого распределения.



Насколько я понимаю делается следующее. Распределение голосов при любой явке (15%, 30%, 42%, 89% и тд) должно быть примерно одинаковым. Неважно придут все или 30%. Статистический разброс мнений «За» или «Против» при разных явках должен быть близок. Поэтому можно выбрать какой-то достоверный интервал явки в результаты которого мы верим. Судя по коду, автор взял значение явки меньше чем 55 % в качестве предела достоверного интервала. Затем для каждого значения явки больше чем 55 % автор отмасштабировал распределение голосов «За» и «Против» сохраняя общее число голосов. В данном случае описание верное, зелёная линия дает именно голоса нет с поправкой. Значение доверительного интервала в 55% тоже логично. Если Вы посмотрите на распределение голосов За и Против как функцию явки для каждого участка (картинка с красными и синими точками), то увидите, что каблук этой кривой находиться в зоне между 20 и 55 %. Обычно этот каблук интерпретируют как достоверную часть распределения, а отросток с кластером при высокой явке как аномальный.
Участки со 100 % явкой были предварительно отфильтрованы и не включены в анализ:

df=df[df['turnout_pct']<100.]

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity