Как стать автором
Обновить

Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

Время на прочтение3 мин
Количество просмотров35K
Выборы в Государственную думу только осенью, но мы уже начинаем готовиться. Если повторится история 2011 года, будет очень интересно. Наверное, многие помнят, как сразу после тех выборов появилась куча статистических исследований, намекающих на фальсификации и как все узнали, как выглядит распределение Гаусса. Я хотел бы рассказать, где искать данные про выборы и как с ними работать. Кроме хорошо известных графиков я покажу некоторые другие прикольные картинки, которых раньше в паблике не видел. Так, например, выглядит распределение голосов за Единую Россию по стране, хорошо видны регионы с максимальной поддержкой партии власти — Северный Кавказ и Татарстан:


Есть такой замечательный сайт izbirkom.ru. Его здесь даже недавно упоминали в контексте, что, типа, на него потратили слишком много денег. Но лично мне не жалко, сайт прекрасный:


Там есть инфа про все-превсе выборы с детализацией до УИКа. Выбираем 2011 год, уровень выборов — «федеральный», кликаем на "Выборы депутатов Государственной Думы Федерального Собрания Российской Федерации шестого созыва" и рекурсивно погружаемся в «Нижестоящие избирательные комиссии». Небольшой хак, который помогает собирать данные автоматически: идём на аккуратно сформированный урл www.kirov.vybory.izbirkom.ru/region/region/kirov?action=show&root=1&tvd=100100028713304&vrn=100100028713299&region=43&global=&sub_region=43&prver=0&pronetvd=null&vibid=100100028713304&type=233 и переходим по ссылкам в шапке таблицы пока ссылки не закончатся:


Но наше счастье было бы неполным, если бы для каждого УИКа нашей огромной страны Избирком не публиковал подробное описание. Телефон, адрес, члены избирательной комиссии — всё это можно найти на izbirkom.ru в разбивке по УИКам. Более того, ребята из Gis Lab, периодически прокачивают этот раздел сайта и выкладывают данные в виде csv-таблицы.

Есть только одна проблема: непонятно как объединить описания УИКов и цифры про результаты голосования на них. Потому что, например, в разделе с результатами для Базарносызганского района Ульяновской области УИКи имеют номера с 1 по 21, а разделе с описаниями с 1101 по 1120. Я решил применить здесь мой любимый метод: забить на них. В результате по точному совпадению названия региона и номера УИКа удалось объединить примерно 80% записей, а это целых — 80 000 УИКов. Скачать их можно по адресу github.com/alexanderkuk/analyze-izbirkom/blob/master/data/data.csv. Там же лежит код github.com/alexanderkuk/analyze-izbirkom. Таблица выглядит так (size — число людей, приписанных к УИКу, total — число бюллетеней, votes — число использованных бюллетеней, и дальше votes в разбивке по партиям):


С помощью этих данных можно воспроизвести классические наблюдению после выборов 2011. С ростом явки доля голосов за партию власти растёт, а за все остальные падает (точка — УИК):


В России, вообще, очень необычное распределение числа участков по явке. Почему-то на круглых значениях (60%, 70%, 80%) случаются пики, а максимум приходится вообще на 100%. На самом деле, должно получаться нормальное или лог-нормальное распределение, но не такая интереснейшая кривая:


Причём нельзя сказать, что высокая явка наблюдается только на мелких избирательных участках, нередки случаи когда 90-100% приходится на участки, к которым приписано 1500-2000 человек:


У нас есть координаты, поэтому обязательно нужно, что-то нанести на карту. Я недавно открыл для себя сервис CartoDB, всем советую. Вот так выглядит распределение голосов за Единую Россию, которое я показывал в самом начале (пустые пятна, как, например, вокруг Самары — это артефакты не идеального процесса склейки адресов УИКов с их результатами):


То же самое для КПРФ (повышенный уровень поддержки рядом с Нижним Новгородом и на Алтае):


У Яблока поддержка больше в столичных регионах:


Иногда ещё интересно посмотреть на отдельные города. Например, в Твери поддержка Единой России на левом берегу Волги явно выше, чем на правом:


В общем, ждём 18 сентября, по идее, данные должны выложить сразу после подсчёта голосов.
Теги:
Хабы:
Всего голосов 68: ↑60 и ↓8+52
Комментарии114

Публикации

Истории

Работа

Data Scientist
70 вакансий

Ближайшие события