zzzzbh13 ноя 2021 в 15:29

Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения

9 мин

27K

Python * Алгоритмы * Big Data * Искусственный интеллектИнфографика

+64

Комментарии 76

sunsexsurf 13 ноя 2021 в 15:53

Гитхаб пустой (This repository is empty), можете перезалить?

zzzzbh 13 ноя 2021 в 17:03

Спасибо! Поправил.

aamonster 13 ноя 2021 в 16:24

Да уж, такой профанации машинного обучения с хайпом на модной теме я давно не видел.

Суть статьи можно выразить кратко: "Предположим, что выборы прошли так. Обучим на этом модель. Смотрите – результаты модели совпали с нашим предположением!".

Хорошо хоть за основу взяли выкладки Шпилькина – результат сколько-то правдоподобный получился.

sunsexsurf 13 ноя 2021 в 17:06

абсолютно. у нас пол-страны - выбросов, по сути. Москва, "южные регионы" с сильным административным давлением и т.д. Там кластеров должно быть штук 30. Да уж (( грустно, что МЛ так поверхностно прикрутилось. А по поводу выкладок Шпилькина - вот его код посмотреть гораздо интереснее.

НЛО прилетело и опубликовало эту надпись здесь

zzzzbh 13 ноя 2021 в 21:42

Здравствуйте! Спасибо за комментарий, хотя он не вполне мне понятен. Можете подробнее описать в чем заключается "профанация", как это сделал Ordscarrid? Можете описать как бы вы решали подобную задачу? В каком месте делается предположение, что «выборы прошли так?»

Lepidozavr 13 ноя 2021 в 23:55

Мы исходим из предположения, что на участках с аномальной явкой недостоверно регистрировался результат партии «Единая Россия» и соответственно явка.

"Мы считаем, что А - неправильно. Мы обучаем модель, говоря ей что А - неправильно. Мы получаем результат, что всё, что говорило нам А - неправильно"

Я понимаю ход ваших мыслей, но вот этот момент в тексте выглядит очень уязвимым и необоснованным. Соответственно, всё что далее может восприниматься как информация, которой нельзя верить.

Выглядит как искажение в экспериментальных данных, которое связано с тем, каким образом данные были интерпретированы и группированы. Ещё напоминает confirmation bias (предвзятость подтверждения).
Со стороны выглядит как обучение машинного алгоритма с заранее определённой когнитивной ошибкой.

Я бы рекомендовал этот момент сильно расписать, снабдить ссылками, где подчёркиваются особенности различных вбросов/искажений статистики, расписать теорию и практику очистки данных от вбросов (опять же, со ссылками на уважаемые источники), тем самым подвести неподготовленного читателя к пониманию того, что вот так обучать модель - адекватно и обоснованно. Текст в этом блоке рекомендую сделать "гуманитарным")

maxim_zverev 14 ноя 2021 в 08:52

Фактически решалась задача "В предположении, что А - неправильно, посчитать количественно насколько сильно А неправильно." Единственно к чему можно придраться - к формулировке заголовка статьи.

Arqwer 14 ноя 2021 в 13:18

И даже эта задача решена некорректно. K nearest neighbours не даёт хоть сколько-нибудь обоснованный результат для экстраполяции. Проще говоря - нельзя его применять для экстрополирования, совсем совсем совсем нельзя! Более того, даже для интерполяции этот метод не даёт никакой доказательной базы. DBSCAN рисует кластеры основываясь только лишь на близости точек друг к другу, и также не имеет никаких теоретических основ. Это не критика алгоритмов kNN и DBSCAN - они вполне годятся там, где нужно что-нибудь как-нибудь нашаманить, лишь бы оно работало. Проблема в том, что то, о чём говорит автор имеет не больше доказательной силы, чем рисование кластеров и трендов от руки.

zzzzbh 14 ноя 2021 в 18:53

Здравствуйте! Спасибо за комментарий! Какие алгоритмы вы считаете корректно применить для решения задачи?

don_rumata03 14 ноя 2021 в 14:47

Казалось бы, здесь берётся за основу вполне разумное предположение, которое другие, «гуманитарные» исследователи выборов берёт за основу: стратегия ЕР на выборах ровно такая. Называние статьи соответствует содержанию — в ней содержится попытка оценить это количественно (причём использование таких незамысловатых методов политиками могло бы вывести дискуссию на новый уровень).

Нет ведь претензии на какой-то искусственный интеллект, который проанализировал все выборы за всю историю человечества, который сам понял, какие бывают фальсификации и понял, что они есть. Это классическое применение знаний из предметной области и комбинации с методами машинного обучения. Тут МЛ — это не цель, а всего лишь средство.

zzzzbh 14 ноя 2021 в 18:47

Здравствуйте! Спасибо за комментарий! Я добавил в конце статьи ссылку на видео. Там Сергей Шпилькин все в подробностях все объясняет. Будет время тоже напишу обзор, хотя лучше у меня вряд ли получится.

aamonster 14 ноя 2021 в 10:20

Коротко: у вас нет данных для ML модели.

zzzzbh 14 ноя 2021 в 18:36

Хотелось бы подробнее. Какие данные вы бы добавили для корректного обучения модели? Можете подробнее описать как вы бы решали задачу? Можете закомитить свой код на гитхаб? У вас самый популярный комментарий. Но вы пишите общие фразы. Из них я не могу понять что точно вы подразумеваете. Хотелось бы разобраться.

aamonster 14 ноя 2021 в 19:28

Кажется, мы с вами друг друга не понимаем. Вы, похоже, исходите из того, что здесь можно применить ML, и оно решит задачу. Я практически уверен в обратном.

Смотрите. Как выглядит типичная задача ML? Допустим, задача классификации? У нас есть набор исходных данных (вектора свойств объектов) и проставленные кем-то классы для этих векторов. Модель (нейронная сеть или ещё что) учится, а потом, когда ей предъявляют объект, определяет его класс.

Ключевой момент: расклассифицированная обучающая выборка.

Задача приближения функции – аналогично, но для входного вектора задаётся значение-результат.

У нас в задаче ничего такого нет. Есть только значения векторов, но нет истинных результатов. Модель учить не на чем.

Можно было бы создать обучающую выборку, если нарушить закон и проследить за избирателями (делать это надо незаметно как для них самих, так и для персонала УИК и наблюдателей, чтобы не повлиять на результат). Причём на самых разных участках. Нереально.

Так что у вас просто нет данных для обучения.

И внезапно вы берёте ожидаемые значения выхода из модели Шпилькина. Ok, ML отработает – но это будет не решение исходной задачи, а приближение модели Шпилькина. Т.е. вы решили не ту задачу, которую заявили, и даже не заметили этого :-(

ЗЫ: Уверен, что часть плюсов к тому моему комменту не за дело, а просто от людей, не согласных с полученными вами результатами (и положенными в их основу гипотезами – тут достаточно таких комментариев). Но моя претензия не к этому (эти гипотезы – отдельная тема, заслуживающая внимательного рассмотрения... В этом плане мне понравилась ваша статья про изменения результатов в зависимости от расстояния до крупных городов), а именно к методологии.

zzzzbh 16 ноя 2021 в 12:24

Спасибо за более развернутый комментарий. Очень приятно, что вы и предыдущую мою статью прочитали! Я так понял вам не нравится та часть статьи, в которой решалась задача регрессии. Обстоятельства, следующие: у нас есть массив данных об объектах класса УИК. Объекты характеризуются такими признаками как: местоположение, размер участка, количество проголосовавших, результат КПРФ, результат ЕР. Все множество участков разбито на два кластера: «ядро» и «хвост». Для участков из хвоста мы потеряли результат Единой России. Нам нужно сделать наилучшую попытку угадать результат партии Единая Россия на участках в хвосте. Поэтому мы используем ядро для обучения модели. С помощью модели предсказываем результат ЕР в хвосте. Я правильно вас понял? Вы считаете, что в ядре нет истинных результатов?

Darel13712 16 ноя 2021 в 13:00

По сути вы сказали "вот эта часть данных нам не нравится, поэтому мы её выкинем". Ок, это действительно странно, что результат зависит от явки, можно поверить экспертам, но потом вы сказали "а теперь заполним эти данные тем же, что в той части данных, что нам нравится".

Во-первых, это очень смелое предположение, что можно по четырем признакам предсказать результат выборов.

Во-вторых, эта модель не предсказывает количество вбросов. Для этого нет ни признаков, которые могут содержать подобную информацию, ни целевых значений, чтобы построить модель. Нет ни одного УИК, на котором известно, сколько было вброшено голосов -- нет задачи регрессии количества вброшенных голосов. У вас есть только предположительные УИК, на которых было 0 вбросов.

Вместо этого просто заменяете часть данных на среднее значение из близких УИК. Примерно такие результаты получились бы, если бы вы сказали "а вот теперь, когда мы выбрали данные, которые нам нравятся, предположим, по всей стране такие же результаты". И не нужно было никакие модели для этого обучать и создавать иллюзию искусственного интеллекта.

Даже при условии, что задача регрессии количества вбросов была заменена на регрессию количества голосов, это не серьезно делать по тем признакам, что есть, используя KNN.

zzzzbh 16 ноя 2021 в 14:15

Здравствуйте!

Во-первых я не спорю, что модель простая. Буду рад, если кто-то разовьет тему, добавит признаков и напишет статью, сравнит с моим результатом и покажет, что его модель лучше.

Во-вторых мы не пытаемся предсказать количество вбросов. Мы пытаемся предсказать результат партии Единая Россия. Если не нравится такой вариант, можно попробовать предсказать явку на участках.

Последнее утверждение, насколько я понял, это повторение во-первых. Возможно, вы порекомендуете, какие признаки использовать?

kraidiky 14 ноя 2021 в 12:36

Так Шпилькин тем же самым занимается последнее время. В своём последнем анализе голосования за поправки он фактически написал: Предположим, что вот этот сгусток ЦИК-ов, относящихся к крупным городам, продемонстрировавшим наименьшую явку является единственными настоящими результатами, а вся остальное - подтасовка. Посмотрите, какая огромная оказывается у нас подтасовка. Если бы он такое на экзамене по матстатистике выдал, его бы выперли с экзамена с двойкой, но для наших несогласных вполне проканывает.

https://st.golosinfo.org/store/upload/doc/152193/cover-71047b4320407cde9a9ede7d71e83669.jpg по его утверждениям только кластер на явке 0.4 является настоящим, а всё остальное подтасовка. Если проканало у шпилькина, то почему бы автору статьи не проделать то же самое. Ну не проканало и не проканало, в следующий раз поверят.

НЛО прилетело и опубликовало эту надпись здесь

kAIST 13 ноя 2021 в 17:52

Даже в пределах одного района города бывает очень разный контингент людей. Тут живут относительно довольные жизнь молодые семью, на соседней улице озлобленные пенсионеры, а чуть дальше в основном маргиналы. Вот тоже не понимаю, почему они все должны голосовать одинаково.

FinExpert 13 ноя 2021 в 21:25

утопическая картина. по факту с точечной застройкой жители новостроек и домов где больше пенсионеров ходят на один участок.

В нормальной картине отличия есть, но не превышающие критических значений. Дальше как с военными голоса аномальные, потому что сфальсифицировали. Мифы про лояльных бюджетников и пенсионеров в значительной степени - мифы.

НЛО прилетело и опубликовало эту надпись здесь

zzzzbh 13 ноя 2021 в 21:50

Спасибо за комментарии! Я с вами согласен. Я использовал примитивную модель. Но ее можно улучшить и повысить точность. Нужно добавить дополнительные данные. Есть идеи, где их добыть?

Forget 13 ноя 2021 в 18:22

Когда о таком говорят, то речь обычно не о близко расположенных участках, а об участках которые находятся буквально в одном здании. Причем если на таких участках мало наблюдателей, и они "правильные", то явка отличается на десятки процентов. Так же наблюдается интересная закономерность - чем выше на участке явка, тем более однообразно люди на участке голосуют - это и есть "хвост кометы", который объясняют вбросами. Собственно если отбрасывать все такие странные УИКи люди в нашей стане оказываются вполне себе однородными, по крайней мере без резких пиков на пустом месте.

Примеры были, выборы в дугих старанах, выборы РФ 2000

Выборы 2000 г

Явка в целом большая, но большая часть голосов, как ни удивительно, кучкуется в одной области. Посмотрим что было в 2016

2016

Чем больше людей приходит, тем более размазанным оказывается ядро. График в статье тоже выглядит интересно, не нем можно заметить регулярную сетку в верхней части графика:

Самое забавное что это не ошибка - это крайне похоже на результат "подгона" на участков результатов под конкретный процент. Похожую сетку можно увидеть на голосовании за поправку:

2020, голосование за поправку

Не знаю как вам, а мне такой способ поиска проблем кажется вполне убедительным. И он показывает что в среднем результаты по стране вполне себе монотонные, пусть на вашем примере какие-то участки и будут выделяться, но на масштабах страны с большей вероятностью будут выделятся именно проблемные участки. К сожалению, по данным текущей детализации (участок-процент за каждый пункт) более точной картины (чтоб отличить действительно странные участки) построить нельзя. Более интересны в этом смысле результаты электронного голосования, там можно выделить каждый отдельный голос, и отделить время голосования (с определенной, пусть и загрубленной точностью). Но это уже другая история

Картинки взяты отсюда

НЛО прилетело и опубликовало эту надпись здесь

tyomitch 14 ноя 2021 в 10:20

ускорилось расслоение

В чём именно? Федерализацию, наоборот, развернули вспять -- татарам запретили писать латиницей, всем остальным республикам запретили называть своих глав президентами, и т.д.

НЛО прилетело и опубликовало эту надпись здесь

tyomitch 14 ноя 2021 в 11:09

ОК, просто в первой части комментария речь шла про "территориальную неоднородность избирателей" -- я подумал, что и во второй про неё же.

А почему вы считаете, что классовое расслоение ускорилось? Коэффициент Джини между 2000 и 2015 почти не изменился:

НЛО прилетело и опубликовало эту надпись здесь

avshukan 16 ноя 2021 в 11:10

Не хватает обоснования, что классы как-то кучкуются по разным избирательным участкам. Тем более на таких больших числах (УИКов - тысячи).
И хуже всего, что есть подтверждения (к сожалению не найду сейчас пруфы), что во время президентских выборов, там где были наблюдатели в Чечне - результат был похож на среднероссийский, а там где не было - зашкаливало.

Расслоение скорее не среди избирателей, а среди фальсификаторов

НЛО прилетело и опубликовало эту надпись здесь

zzzzbh 13 ноя 2021 в 21:57

Здравствуйте! Спасибо за комментарий! Я согласен с вашей логикой и модель можно уточнить. Но такие подробные данные, как вы описываете(какая у кого зарплата и доволен ли ей человек) сложно добыть. Можно использовать данные Росстата по регионам по крайней мере. В рамках данной работы использована простая модель.

zzzzbh 13 ноя 2021 в 22:01

SergeyMax 14 ноя 2021 в 07:38

УИК в ЗАТО (Закрытое административно-территориальное образование) — по сути, это военный городок, там большинство военнослужащие.

Вы путаете, ЗАТО - это не военный городок, это обычный город, военнослужащих здесь столько же, сколько и в остальных городах.

НЛО прилетело и опубликовало эту надпись здесь

SergeyMax 14 ноя 2021 в 11:27

Тогда это так и называется: военный городок.

НЛО прилетело и опубликовало эту надпись здесь

alex1spb 14 ноя 2021 в 14:47

А какие есть доказательства, что военный городок голосует за Единую Россию?)

monane 13 ноя 2021 в 17:33

А вы храбрый. Будьте готовы сейчас вам расскажут что нейронка ваша ошиблась и вы резулт подогнали. Особенно много их будет в рабочие часы, ну кому за что платят)), но могут быть и вечерние смены. А то что она сложила и резулт совпадает (даже мягче 14 против 20) с выкладками Шпилькина, вам ответят в таком ключе https://www.kp.ru/daily/27152/4249203/ ;-) .

kAIST 13 ноя 2021 в 17:45

То есть люди, которые несогласны с чьим то мнением и достаточно аргументированно своем мнение высказывают, это ни что иное как кремлеботы? Конструктивные дискуссии у нас сейчас не в почете?

MilesSeventh 14 ноя 2021 в 04:58

Не вижу чтобы в комментарии это утверждалось.

MilesSeventh 15 ноя 2021 в 19:27

Вы чем минусовать, объясните мне, олуху, каким кретином надо быть чтобы утверждение с квантором существования понять как утверждение с квантором всеобщности, а потом с умным лицом еще предъявлять за какие-то конструктивные дискуссии?

Popadanec 14 ноя 2021 в 06:16

Ну вообще то да, и давно. Особенно в темах связанных с политикой. Есть правильное мнение и «не правильное», за которое не смотря на конструктивность/ссылки/подтверждения сливают карму, чтобы пользователь по меньше оставлял комментариев, а лучше вообще свалил с ресурса.

Popadanec 14 ноя 2021 в 10:54

Ну вот собственно явное подтверждение. Вместо возражений что это не так, молча сливают карму потому что не нравится мой комментарий. Кучка отщепенцев радикалов, запугала существенную часть аудитории, в результате высказываться можно либо радикально против власти, либо имея большой резерв кармы, иначе ограничения на комментирование.
Некоторым на столько не нравится, что они перейдут в профиль и пройдутся палкой по всем комментариям подряд, даже не читая что там написано. Не раз такое наблюдал на себе.

НЛО прилетело и опубликовало эту надпись здесь

monane 15 ноя 2021 в 09:00

То есть люди, которые несогласны с чьим то мнением и достаточно аргументированно своем мнение высказывают, это ни что иное как кремлеботы?

Это вы написали, а не я. Часто обвиняют? ;)

Конструктивные дискуссии у нас сейчас не в почете?

Конструктив бывает разный, заболтать, создать видимость массовой поддержки/неприятия тоже для кого то конструктив. Заказчика например. Этого можно избежать, если например сломать привычный для оппонента ход действий. Один из методов провокация. Мне безразличны минусы и карма, но цель как минимум у назовем это так "воображаемых оппонентов" )) не достигнута. В данном треде почти отсутствует "а в америке негров линчуют" И обсуждение тех деталей присутствует. Аж первый пост человека регнутого в день статьи это попытка раскатать сетку ТС. В общем все). Изучать можно всегда и методы бывают разные.

Popadanec 15 ноя 2021 в 12:33

Меня обвиняли и не раз. Просто по одному нейтральному комментарию в сторону власти. Их не смутило что акк у меня старый, комментов на нём уже за три тысячи и что большинство комментов темы политики не касается.
Минус в карму весь диалог от них, добиться ответов от таких бесполезно, да и спорить с дублем(акк чтобы оставлять сообщения и чтобы не слили карму на основном) нет никакого смысла.

aamonster 13 ноя 2021 в 18:31

Да смысл критиковать его результаты? Какие данные заданы для обучения (полученные из модели Шпилькина), такие и на выходе – с возможным искажением от плохо настроенной ML модели.

Вот результаты Шпилькина интересны. Простые, понятные, без хайпа на ML, с чётко объяснёнными ограничениями модели, без чёрного ящика в виде нейронной сети. Можно критиковать, можно строить более сложные и совершенные модели.

zzzzbh 13 ноя 2021 в 22:25

Здравствуйте! Спасибо за комментарий! Вы правы, что моя работа основывается на исследованиях Шпилькина. Я ссылаюсь на него в первом абзаце. Хотя, конечно, нужно было бы сослаться на конкретные работы. Однако, я поставил перед собой задачу рассчитать результат выборов для каждого из участков по отдельности. И здесь нужно было применить какой-то инструмент. Можно было и без машинного обучения обойтись. Одну и ту же задачу можно решить с помощью разных инструментов.

aamonster 14 ноя 2021 в 10:29

Нужно было без машинного обучения обойтись. У вас есть модель – просто применить её ко всем данным. Вы же вместо этого применили модель к части данных, построив обучающую выборку, а потом на обучающей выборке создали ML-модель и применили её к остальным данным.

Аналогия: у нас есть 100 чисел, надо посчитать для них значение синуса. Выбираем 10 точек, считаем для них, а для остальных интерполируем (например, сплайнами или полиномом Лагранжа). В лучшем случае получим для них значения с некоторой погрешностью, в худшем – полный бред.

НЛО прилетело и опубликовало эту надпись здесь

DancingOnWater 13 ноя 2021 в 18:04

А можно посмотреть результаты работы вашей нейронки для выборов во Франции, Англии, США за последние 70 лет?

aamonster 13 ноя 2021 в 18:33

А откуда автор возьмёт для них входные данные? (не просто официальные результаты, а пары официальные/реальные для части участков – желательно случайно выбранных).

DancingOnWater 13 ноя 2021 в 19:07

Я прочитал статью несколько раз, но я так и не нашел упоминание того, что авторы откуда-то откопали реальные результаты хотя бы для одного участка.

besteady 14 ноя 2021 в 14:48

Там ж нет таких топорных вбросов, чтобы хвост был. Аномалии можно поискать, но это другое. Это в РФ легко понять как результаты фальшивые, а какие нет и соответственно на основе первых обучиться и скорректировать вторые

vanxant 13 ноя 2021 в 19:04

А если отбросить все участки, где ер набрала больше 40%, и прогнать через волшебный бигдатамашинленинг, кпрф вообще долж6а победить!111

НЛО прилетело и опубликовало эту надпись здесь

Ordscarrid 13 ноя 2021 в 20:35

Начну с похвалы - по посту видно, что автор умеет видеть потенциальные применения машинного обучения в реальной жизни и уже знает о необходимости нормализации. Конец похвалы.

Откровенно говоря, на пост смотреть несколько больно.

"...В своих работах, независимые электоральные аналитики показывают..." - argumentum ad populum собственной персоной. К тому же, ответьте, пожалуйста, существуют ли НЕЗАВИСИМЫЕ аналитики? Любой человек зависит от тех, кто платит ему/ей деньги, а аналитики не из тех, кто работает на себя/развивает бизнес. Словом, зависимость хоть от кого-то да присутствует. Осталось проследить цепочку спонсирования и узнать, от кого на самом деле зависят "независимые" аналитики.
"Нормальная явка" - это нечто интересное. Обычно используют некие статистические показатели, чтобы показать, какая явка является "нормальной". Ну, мода там, медиана... Может, по квантилям пройдётесь. Словом, вариантов много. Но нет же, у Вас "нормальная" явка именно там, где результаты примерно равны. Хотя это решение ничем не обосновывается.
DBSCAN - почему именно такие параметры? Что есть "хороший результат" в случае с кластеризацией? Вам понравился кластер и поэтому Вы считаете данный результат "хорошим"? Тут уже включается субъективность. Вы бы хоть какие-то метрики кластера включили для подобия объективности (ну, туда попадает 90% точек, к примеру [хотя там дай Бог 20% - во всех остальных случаях были фальсификации?]).
KNeighboursRegressor вкупе с Вашим выбором участков с "нормальной явкой" приводит к просто невообразимо плохим последствиям. Значение голосования за ЕР, предсказанное KNN, будет НЕ ВЫШЕ наибольшего значения, которое было в местах с "нормальной явкой". Если у вас на "нормальном" участке максимум 400 человек проголосовало за ЕдРо, то KNN никогда не скажет, что хоть на каком-то участке проголосовали за ЕдРо 400+! Я уж молчу о том, что Вы не использовали параметр weights = 'distance' в KNN.
Наконец, НЕ ДОСТАТОЧНО использовать информацию о расположении участка, проценту за КПРФ и количестве проголосовавших. Вы как минимум не учитываете информацию о том, в каком регионе происходит дело. Есть условно Хакасия Коновалова. Если Коновалов - хороший руководитель, то рейтинг у КПРФ в Хакасии высокий. Рядом есть Красноярский край Усса, представителя ЕдРа. Если Усс - хороший руководитель (да, и от партии власти бывают такие), то в Красноярском крае у ЕдРа будет высокая поддержка. Однако инфрмацию о регионах Вы не учитываете. Более того, Вы можете ПОЛНОСТЬЮ убрать из своих данных регион с обоснованно высокой поддержкой ЕдРа. И тогда даже если у ЕдРа было на самом деле 60%, Вы впишете им условных 40%.
Вишенка на торте - посмотрите на предпоследний график. Видите забавный хвост слева? Он вызван тем, что автор пытается предсказать количество проголосовавших за ЕдРо с помощью KNN. На одном участке проголосовало условно 100 человек - из них 40 за ЕдРо, - на соседнем, в деревушке, проголосовало 10 человек - 6 за ЕдРо, 4 за КПРФ - этот участок посчитали аномальным и решили засунуть в модель. KNN смотрит, что на соседнем участке проголосовало 60 человек за ЕдРо и говорит: "В этой деревеньке, потому что она рядом, 60 же человек проголосовало за ЕдРо!" Отсюда и берётся хвост слева. То есть когда автор пытался в машинное обучение, он создал ужасного левиафана, КОТОРЫЙ КАК РАЗ ЯВНО И ФАЛЬСИФИЦИРУЕТ РЕЗУЛЬТАТЫ. Если кто-то попросит, повторю весь эксперимент и на конкретных примерах покажу, в каких участках способ автора приводит к ОТКРОВЕННЫМ ФАЛЬСИФИКАЦИЯМ.

P.s. если я не ошибаюсь, в Хабр (и сайты в целом) можно вставлять изображения Plotly, а не "скринить" их и вставлять картинчками. Теряется интерактивность, гражданин!

zzzzbh 13 ноя 2021 в 21:33

Здравствуйте! Спасибо за комментарий развернутый! Начну с похвалы. Он тянет на целую отдельную статью!

В целом я согласен с вашей критикой, так как модель, которую я использовал очень примитивная и ее можно сильно улучшить. Одна из целей публикации этой статьи - получение критических комментариев для улучшения модели.

Подробнее по пунктам:

1. Согласен. Здесь надо бы сослаться на конкретные работы. Желательно в рецензируемых журналах. Сделаю.

2. Согласен. Термин не вполне корректен и может вызывать ассоциацию с нормальным распределением, хотя я и взял его в кавычки. Можно заменить, например, на участки из плотного кластера.

3. Выбрал такие параметры, чтобы площадь ядра была максимальна и все еще не появлялись дополнительные кластеры, кроме основного. В основном кластере около 42 процентов от общего числа избирателей. Так как он более плотный, площадь его существенно меньше, чем у "хвоста". Насколько я понял Сергей Шпилькин использует k-means для выделения основного кластера. И у него он получается размером немного больше.

4. Можно провести эксперимент и оценить, насколько последствия невообразимо плохи. Что вы порекомендуете использовать вместо KNN? weights = 'distance' попробую.

5. Согласен. Важное замечание. Для уточнения модели можно использовать, например, данные Росстата по регионам.

6. Предпоследний график мне тоже не нравится. В идеале там должно быть два облака похожих по форме на эллипс. Одно выше другого. Что касается вашего предположения, боюсь от хвоста оно не избавит. В модели используется в качестве параметра размер участка. И разница в 10 раз будет учтена. Есть другие предложения?

7. На счет Plotly посмотрю, как это реализовать. Можно еще скачать ноутбук с гит хаба. Там интерактивность присутствует.

Если вас заинтересовал объект исследований, напишите мне в личку. Можем обсудить как доработать модель. Еще раз спасибо за критические замечания!

НЛО прилетело и опубликовало эту надпись здесь

egnodus 14 ноя 2021 в 17:01

А доказательства подбной "эээ деятельности" можно?

НЛО прилетело и опубликовало эту надпись здесь

ivodopyanov 14 ноя 2021 в 08:02

В своих работах, независимые электоральные аналитики показывают, что подобная картина может наблюдаться при вбросе голосов за партию, результат которой растет с явкой. Причем в ядре находятся участки с «нормальной явкой», на которых не было фальсификаций, а хвосты соответствуют участкам с «аномальной явкой», где результаты выборов недостоверны.

Кто еще из "электоральных аналитиков", кроме Шпилькина?
А еще подобная картина может наблюдаться, потому что одна партия хорошо мобилизует свой электорат, а другие - нет. Или потому что электорат сам по себе политически активный по каким-то причинам, и голосует за одну партию. Исходная предпосылка сама по себе висит в воздухе.

tyomitch 14 ноя 2021 в 10:34

Например https://kireev.livejournal.com/tag/выборы%20в%20Госдуму%202021
Нет, кратное различие явки и рейтинга одной партии между УИКами в одном здании не может наблюдаться ни при каких реалистичных предпосылках.

n0isy 14 ноя 2021 в 11:04

Не в угоду власти, а науки для: постулат, что явка и выбор не зависят друг от друга необходимо доказать! Допустим контр пример: люди разочарованы во власти и правящей партии и не верят в выборы => из этого следует => И низкая явка, И голосование оставшихся за условную "оппозицию".

tyomitch 14 ноя 2021 в 11:25

И количественные оценки объема манипуляций совпадают, например, с оценками, которые были получены при анализе результатов участков с наблюдателями и без в других работах. Есть довольно много разнообразных свидетельств, которые подтверждают, что никакой неоднородности на самом деле нет, а есть нормальное довольно однородное население страны со своими отклонениями и особенностями в разных местах, но, в общем, отклоняющиеся от одного общего среднего. Например, в этот раз были наблюдатели в Чечне, и они привезли результаты голосования, очень похожие на результаты голосования по всей стране, то есть чуть выше процент Путина, чуть ниже процент Грудинина, но в целом никаких запредельных показателей нет, – сказал Сергей Шпилькин.

Подробности и графики на примере одного города в Кузбассе: https://www.golosinfo.org/articles/145561