Как стать автором
Обновить

Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения

Время на прочтение 9 мин
Количество просмотров 25K

Результаты выборов в государственную думу, которые проходили 17-19 сентября 2021 вызывают сомнения у многих экспертов. Независимый электоральный аналитик Сергей Шпилькин оценил количество голосов, вброшенных за партию власти, примерно в  14 миллионов. В данной работе применены методы машинного обучения для того, чтобы выявить избирательные участки, на которых подсчет голосов происходил без нарушений и установить истинный результат на тех участках, где , предположительно, были зарегистрированы ошибочные данные.

Результаты выборов можно найти на сайте ЦИК. Кроме того, результаты были выгружены с сайта и помещены в телеграмм канал RuElectionData. В рамках данной работы исследуются результаты выборов для партий «Единая Россия» и «КПРФ», которые по результатам, опубликованным ЦИК, получили 49,82 и 18,93 процента голосов избирателей. В данном исследовании в качестве источника результатов используется часть данных, которые были сохранены в файл ‘edata.csv’. Этот файл можно скачать совместно с исходным кодом с GitHub.

Для начала загрузим данные и проверим их полноту:

#%% Загружаем данные

import pandas as pd
uiks = pd.read_csv('data/edata.csv', index_col=0)

name

region

kprf

er

voted

total_voters

lat

lon

0

УИК №592

Алтайский край

57

49

178

385

51.885025

85.307478

1

УИК №593

Алтайский край

189

174

569

1515

51.934707

85.326494

2

УИК №594

Алтайский край

157

141

464

1175

51.930130

85.333621

3

УИК №595

Алтайский край

303

339

962

2257

51.943233

85.336853

4

УИК №596

Алтайский край

264

282

843

1924

51.961639

85.335227

...

...

...

...

...

...

...

...

...

Подсчитаем итоговый результат выборов для партии КПРФ и Единая Россия:

#%% Итоговый результат КПРФ

kprf = uiks['kprf'].sum()/uiks['voted'].sum()

0.18925488494610923

#%% Итоговый результат Единой России

er = uiks['er'].sum()/uiks['voted'].sum()

0.4982132868119814

Итоговый результат совпадает с результатом на сайте ЦИК, будем считать данные полными.

Как видно из результатов ЦИК, Единая Россия опередила КПРФ более чем в два раза. Однако есть регионы, где КПРФ одержала победу. Для каждого из участков добавим параметр 'k-e' , который равен разнице результата Единой России и КПРФ в регионе, в котором находится участок. Кроме того, создадим таблицу с регионами, где победу одержала КПРФ:

uiks['k-e'] = 0.0
regions = uiks['region'].drop_duplicates()
reg = pd.DataFrame()
for region in regions:
   region_data = uiks[uiks['region'] == region]
   voted = region_data['voted'].sum()
   kprf_total = region_data['kprf'].sum()
   kprf_percent = kprf_total/voted
   er_total = region_data['er'].sum()
   er_percent = er_total/voted
   uiks.loc[uiks['region'] == region, 'k-e'] = kprf_percent-er_percent
   if er_total>kprf_total:
       uiks.loc[uiks['region'] == region, 'color'] = 'blue'
   else:
       uiks.loc[uiks['region'] == region, 'color'] = 'red'
   reg = reg.append(pd.DataFrame({'name': region,'kprf':[kprf_total], 'kprf_percent':[kprf_percent],'er':[er_total],'er_percent':[er_percent]}), ignore_index=True)
reg[reg['kprf']>reg['er']]

name

kprf

kprf_percent

er

er_percent

1

Ненецкий автономный округ

4917

0.319763

4469

0.290629

2

Республика Марий Эл

89018

0.362999

81969

0.334255

3

Республика Саха (Якутия)

118683

0.351483

112160

0.332165

4

Хабаровский край

113691

0.265075

105112

0.245072

Нанесем участки на карту России с помощью библиотеки plotly.express.

import plotly.express as px
fig = px.scatter_mapbox(uiks, #our data set
                        lat="lat",
                        lon="lon",
                        color="k-e",
                        range_color = (-0.5,0.5),
                        zoom=2,
                        width=1200, height=800,
                        center = {'lat':60,'lon':105},
                        title =  'По данным ЦИК')
fig.update_layout(mapbox_style="open-street-map")
fig.update_traces(marker=dict(size=5))
fig.show(config={'scrollZoom': True})

На этой карте участки окрашены в различные цвета, в соответствии с разницей результата КПРФ и Единой России по региону, в котором находится участок(параметр ‘k-e’). Цвет может меняться от темно синего (Результат Единой России на 50% и более выше, чем у КПРФ) до желтого(результат КПРФ на 50% выше, чем у Единой России). На карте преобладают холодные тона. Преимущество Единой России очевидно.

Построим теперь график зависимости результатов Единой России и КПРФ от явки c помощью matplotlib:

import matplotlib.pyplot as plt
uiks = uiks[uiks['kprf']>10]
uiks = uiks[uiks['er']>10]
uiks['er_percent'] = uiks['er'] / (uiks['voted'])
uiks['kprf_percent'] = uiks['kprf'] / (uiks['voted'])
uiks['turnout'] = uiks['voted']/uiks['total_voters']
plt.scatter(uiks['turnout'], uiks['er_percent'], color='blue', s=0.01)
plt.scatter(uiks['turnout'], uiks['kprf_percent'], color='red', s=0.01)
plt.show()

На графике можно выделить две характерные зоны. Плотное ядро в районе явок 0.2-0.6 и расходящиеся «хвосты» в районе явок свыше 0.6. В своих работах, независимые электоральные аналитики показывают, что подобная картина может наблюдаться при вбросе голосов за партию, результат которой растет с явкой. Причем в ядре находятся участки с «нормальной явкой», на которых не было фальсификаций, а хвосты соответствуют участкам с «аномальной явкой», где результаты выборов недостоверны.

Отделим участки с нормальным голосованием от участков с аномальным голосованием.

Чтобы выделить участки в ядре используем алгоритм DBSCAN(Density Based Scan) из библиотеки scikit-learn. Этот алгоритм выделяет кластеры, в которых для каждой точки в радиусе “eps” имеется количество точек равное “min_samples”. Хороший результат дает eps = 0.009 и min_samples = 175:

#%% Выделение кластера участков с нормальной явкой

from sklearn.cluster import DBSCAN
er = uiks[['turnout', 'er_percent']]
er = er.to_numpy()
db = DBSCAN(eps=0.009, min_samples=175).fit(er)
plt.scatter(er[:, 0], er[:, 1], c=db.labels_, s=0.01)
plt.show()
uiks['db'] = db.labels_
uiks_normal = uiks[uiks['db'] == 0]
uiks_abnormal = uiks[uiks['db'] != 0]

Далее будем использовать участки из ядра для того, чтобы обучить модель. В качестве алгоритма будем использовать алгоритм k ближайших соседей. В sklearn он реализован в виде класса KNeighborsRegressor. Кроме того, мы создадим объект класса Pipeline, чтобы автоматически нормализовать данные с помощью StandardScaler.

#%% Создаем pipeline для машинного обучения

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsRegressor

pipe = Pipeline([("scale", StandardScaler()), ("model", KNeighborsRegressor())])
pipe.get_params()

Для обучения модели мы разделим участки в ядре на три части(cv = 3) и проведем оптимизацию результатов по количеству ближайших соседей ('model__n_neighbors'):

#%% Задаем параметры кросс валидации

from sklearn.model_selection import GridSearchCV
mod = GridSearchCV(estimator=pipe, param_grid={'model__n_neighbors': [45, 50, 55,60,65,70,75,80,85,90]}, cv=3)

Мы исходим из предположения, что на участках с аномальной явкой недостоверно регистрировался результат партии «Единая Россия» и соответственно явка. А такие параметры, как количество проголосовавших за партию «КПРФ», общее количество человек, которые могли принять участие в голосовании и координаты участка зарегистрированы верно. Именно эти переменные будем использовать для обучения модели:

#%% Обучаем модель

X = uiks_normal[['kprf', 'total_voters', 'lat', 'lon']]
y = uiks_normal['er']
Xx = uiks_abnormal[['kprf', 'total_voters', 'lat', 'lon']]
mod.fit(X, y)

Полученную модель используем для того, чтобы рассчитать результат партии «Единая Россия» на участках с аномальной явкой:

#%% Рассчитываем результат Единой России используя модель

prediction = mod.predict(Xx)
uiks_abnormal['prediction'] = prediction
uiks_abnormal['er_predicted'] = prediction.round()

Так как мы предполагаем, что результат Единой России не мог быть скорректирован в меньшую сторону в момент фальсификаций, на участках, где расчетные значения выше официальных результатов, оставим официальные результаты.

#%% Корректируем результаты, так как предполагаем, что за Единую Россию не было вбросов

for index, row in uiks_abnormal.iterrows():
    if row['er'] < row['prediction']:
        uiks_abnormal.loc[index, 'er_predicted'] = row['er']
uiks_normal['er_predicted'] = uiks_normal['er']

Теперь, когда у нас есть расчетные результаты партии Единая Россия на аномальных участках, можно пересчитать явку и другие параметры. Кроме того, создадим объект  uiks_predicted, который будет содержать результаты выборов на участках с нормальным и аномальным голосованием:

#%% Вычисляем явку по результатам машинного обучения

uiks_abnormal['voted_predicted'] = uiks_abnormal['voted'] - uiks_abnormal['er'] + uiks_abnormal['er_predicted']
uiks_normal['voted_predicted'] = uiks_normal['voted']
uiks_abnormal['turnout_predicted'] = uiks_abnormal['voted_predicted'] / uiks_abnormal['total_voters']
uiks_normal['turnout_predicted'] = uiks_normal['turnout']
uiks_abnormal['er_percent_predicted'] = uiks_abnormal['er_predicted'] / uiks_abnormal['voted_predicted']
uiks_normal['er_percent_predicted'] = uiks_normal['er_percent']
uiks_abnormal['kprf_percent_predicted'] = uiks_abnormal['kprf'] / uiks_abnormal['voted_predicted']
uiks_normal['kprf_percent_predicted'] = uiks_normal['kprf_percent']
uiks_predicted = uiks_normal.append(uiks_abnormal)

Используем данные из uiks_predicted для построения графика зависимости результатов на участках от явки.

#%% Строим график зависимости результатов на участках от явки по результатам машинного обучения

plt.scatter(uiks_predicted['turnout_predicted'], uiks_predicted['er_percent_predicted'], color='blue', s=0.01)
plt.scatter(uiks_predicted['turnout_predicted'], uiks_predicted['kprf_percent_predicted'], color='red', s=0.01)
plt.show()

После применения машинного обучения картина больше похожа на ту, что наблюдалась в регионах севера России, где выборы традиционно проходят на высоком уровне. «Расходящиеся хвосты» в области большой явки больше не наблюдаются. Подсчитаем итоговый результат для партии Единая Россия  и КПРФ по результатам полученных данных. Кроме того, установим количество вброшенных голосов:

#%% Считаем итоговый результат после применения машинного обучения

er_real = uiks_predicted['er_predicted'].sum() //12155992.0
kprf_real = uiks_predicted['kprf'].sum() //10610737
voted_real = uiks_predicted['voted_predicted'].sum() 40145581.0
er_real_percent = er_real / voted_real //0.30279775998259933
kprf_real_percent = kprf_real / voted_real //0.26430647497666054
fake_votes = uiks_predicted['er'].sum() - uiks_predicted['er_predicted'].sum() //14595980.0

Таким образом, после восстановления результатов с помощью модели машинного обучения Единая Россия набирает около 30 процентов при средней явке 40 процентов. Разница количества голосов за Единую Россию в исходных данных и данных, полученных в результате моделирования составляет 14595980. КПРФ набирает 26 процентов.  Посмотрим, изменился ли состав регионов, в которых лидирует КПРФ:

#%% Таблица регионов, где победила КПРФ после применения машинного обучения

reg_true = pd.DataFrame()
for region in regions:
   region_data = uiks_predicted[uiks_predicted['region'] == region]
   kprf_total = region_data['kprf'].sum()
   er_total = region_data['er_predicted'].sum()
   voted = region_data['voted'].sum()
   kprf_percent = kprf_total/voted
   er_percent = er_total/voted
   uiks_predicted.loc[uiks['region'] == region, 'k-e'] = kprf_percent-er_percent
   if er_total>kprf_total:
       uiks_predicted.loc[uiks_predicted['region'] == region, 'color'] = 'blue'
   else:
       uiks_predicted.loc[uiks_predicted['region'] == region, 'color'] = 'red'
   reg_true = reg_true.append(pd.DataFrame({'name': region,'kprf':[kprf_total],'er':[er_total]}), ignore_index=True)
reg_true[reg_true['kprf']>reg_true['er']]

name

kprf

er

1

Алтайский край

224806

205960

2

Ивановская область

84969

84383

3

Кабардино-Балкарская Республика

77074

72990

4

Костромская область

57588

56026

5

Ненецкий автономный округ

4863

3883

6

Омская область

190454

162625

7

Приморский край

173429

142138

8

Республика Алтай

22244

20992

9

Республика Калмыкия

25485

24826

10

Республика Марий Эл

89013

69266

11

Республика Саха (Якутия)

118362

87085

12

Ростовская область

333737

333235

13

Сахалинская область

43471

38457

14

Ульяновская область

147069

120774

15

Хабаровский край

113312

85935

16

Ярославская область

98695

90208

17

город Москва

871223

529986

Количество регионов, где КПРФ одержала победу над Единой Россией, увеличилось с четырех до семнадцати. Проверим, как изменилась раскраска регионов на карте России:

#%%Карта России с разноцветными участками по результатам машинного обучения

fig = px.scatter_mapbox(uiks_predicted, #our data set
                        lat="lat",
                        lon="lon",
                        color='k-e',
                        range_color = (-0.5,0.5),
                        zoom=2,
                        width=1200, height=800,
                        center = {'lat':60,'lon':105},
                        title =  'После машинного обучения')
fig.update_layout(mapbox_style="open-street-map")
fig.update_traces(marker=dict(size=5))
fig.show(config={'scrollZoom': True})

Карта окрасилась в более теплые тона. Во всех регионах результат у партий КПРФ и Единая Россия очень близкий.

В результате моделирования результатов выборов на участках с аномальной явкой можно сделать следующие выводы:

  • Разница количества голосов за партию Единая Россия при подсчетах ЦИК и с использованием модели машинного обучения составила более 14 миллионов.

  • Результат партии Единая Россия составил около 30%

  • Результат партии КПРФ составил 26 %

  • Средняя явка составила около 40%

  • Количество регионов России, в которых результат КПРФ превзошел результат Единой России, увеличилось с четырех до семнадцати.

P.S. К статье уже достаточно много комментариев. Часть из них критические. И это хорошо, когда комментаторы подробно описывают недостатки статьи. В работе используется простая модель с малым количеством признаков. Ее можно улучшить. Пожалуйста, напишите, как бы вы улучшили исследование, если у вас есть идеи.

Многие исходные предположения в работе базируются на исследованиях Сергея Шпилькина. Из некоторых комментариев понятно, что в статье не хватает контекста в этом плане. Я рекомендую посмотреть это видео всем, кто его еще не видел:

Теги:
Хабы:
+65
Комментарии 76
Комментарии Комментарии 76

Публикации

Истории

Работа

Data Scientist
66 вакансий
Python разработчик
136 вакансий

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн