Search
Write a publication
Pull to refresh
20
0
Евгений Басистый @zzzzbh

data science

Send message

Здравствуйте! Спасибо за комментарий! Очень приятно, что вы внимательно следите за моими публикациями. Эту статью я как раз и решил выпустить быстро после того, как получил критические комментарии, в том числе от вас. К этой статье всего один дизлайк за "другое". Значит она была более убедительной, чем предыдущая. Поэтому третью статью пока не планирую выпускать.

Здравствуйте! Спасибо за комментарий! Под вбросами в данной статье мы понимаем вбросы, которые сами и осуществляем с помощью простого цикла. Карта была построена в предыдущей статье «Восстанавливаем результаты выборов 2021 с помощью машинного обучения».

Здравствуйте! Спасибо за комментарий! В этой статье используются данные о результатах выборов на 6602 участках. Участков из Северного Кавказа среди них нет. Такая выборка была сделана для удобства эксперимента. На участках симулируются фальсификации разного типа, чтобы посмотреть, как они могут выглядеть на графиках. Потом применяется модель, чтобы восстановить результат. Таким образом у нас появляются исходные данные, для проверки корректности работы модели. Статья не о результатах выборов, а о возможности применения модели для восстановления результатов.

То, что вы ходили наблюдателем бесплатно, это очень хорошо! Я тоже ходил наблюдателем за свой счет на выборы в Госдуму 2021.  Если было бы пол миллиона таких энтузиастов как вы, качество регистрации результатов выборов бы существенно выросло! К сожалению, не каждый сейчас может себе это позволить.

Здравствуйте! Спасибо за комментарий! Я уже пару месяцев рассматриваю данные результатов выборов. Делюсь находками, которые мне кажутся интересными. Статья на самом деле не очень длинная. В ней много кода, который можно читать по диагонали. В предыдущей статье «Восстанавливаем результаты выборов 2021 с помощью машинного обучения» больше конкретики. Возможно, она будет вам более интересна.

Здравствуйте! Спасибо за комментарий! Я в статье использовал результаты только Единой России и КПРФ, так как на этих выборах их результаты были близки на многих участках и их удобно сравнивать.

Здравствуйте!

Во-первых я не спорю, что модель простая. Буду рад, если кто-то разовьет тему, добавит признаков и напишет статью, сравнит с моим результатом и покажет, что его модель лучше.

Во-вторых мы не пытаемся предсказать количество вбросов. Мы пытаемся предсказать результат партии Единая Россия. Если не нравится такой вариант, можно попробовать предсказать явку на участках.

Последнее утверждение, насколько я понял, это повторение во-первых. Возможно, вы порекомендуете, какие признаки использовать?

Спасибо за более развернутый комментарий. Очень приятно, что вы и предыдущую мою статью прочитали! Я так понял вам не нравится та часть статьи, в которой решалась задача регрессии. Обстоятельства, следующие: у нас есть массив данных об объектах класса УИК. Объекты характеризуются такими признаками как: местоположение, размер участка, количество проголосовавших, результат КПРФ, результат ЕР. Все множество участков разбито на два кластера: «ядро» и «хвост». Для участков из хвоста мы потеряли результат Единой России. Нам нужно сделать наилучшую попытку угадать результат партии Единая Россия на участках в хвосте. Поэтому мы используем ядро для обучения модели. С помощью модели предсказываем результат ЕР в хвосте.  Я правильно вас понял? Вы считаете, что в ядре нет истинных результатов?

Здравствуйте! Спасибо за комментарий! Какие алгоритмы вы считаете корректно применить для решения задачи?

Здравствуйте! Спасибо за комментарий! Я добавил в конце статьи ссылку на видео. Там Сергей Шпилькин все в подробностях все объясняет. Будет время тоже напишу обзор, хотя лучше у меня вряд ли получится.

Хотелось бы подробнее. Какие данные вы бы добавили для корректного обучения модели? Можете подробнее описать как вы бы решали задачу? Можете закомитить свой код на гитхаб? У вас самый популярный комментарий. Но вы пишите общие фразы. Из них я не могу понять что точно вы подразумеваете. Хотелось бы разобраться.

Здравствуйте! Спасибо за комментарий! Вы правы, что моя работа основывается на исследованиях Шпилькина. Я ссылаюсь на него в первом абзаце. Хотя, конечно, нужно было бы сослаться на конкретные работы. Однако, я поставил перед собой задачу рассчитать результат выборов для каждого из участков по отдельности. И здесь нужно было применить какой-то инструмент. Можно было и без машинного обучения обойтись. Одну и ту же задачу можно решить с помощью разных инструментов. 

Здравствуйте! Спасибо за комментарий! Я согласен с вашей логикой и модель можно уточнить. Но такие подробные данные, как вы описываете(какая у кого зарплата и доволен ли ей человек) сложно добыть. Можно использовать данные Росстата по регионам по крайней мере. В рамках данной работы использована простая модель.

Здравствуйте! Спасибо за комментарий! Я согласен с вашей логикой и модель можно уточнить. Но такие подробные данные, как вы описываете(какая у кого зарплата и доволен ли ей человек) сложно добыть. Можно использовать данные Росстата по регионам по крайней мере. В рамках данной работы использована простая модель.

Спасибо за комментарии! Я с вами согласен. Я использовал примитивную модель. Но ее можно улучшить и повысить точность. Нужно добавить дополнительные данные. Есть идеи, где их добыть?

Здравствуйте! Спасибо за комментарий, хотя он не вполне мне понятен. Можете подробнее описать в чем заключается "профанация", как это сделал Ordscarrid? Можете описать как бы вы решали подобную задачу? В каком месте делается предположение, что «выборы прошли так?»

Здравствуйте! Спасибо за комментарий развернутый! Начну с похвалы. Он тянет на целую отдельную статью! 

В целом я согласен с вашей критикой, так как модель, которую я использовал очень примитивная и ее можно сильно улучшить. Одна из целей публикации этой статьи - получение критических комментариев для улучшения модели.

Подробнее по пунктам:

1.     Согласен. Здесь надо бы сослаться на конкретные работы. Желательно в рецензируемых журналах. Сделаю. 

2.     Согласен. Термин не вполне корректен и может вызывать ассоциацию с нормальным распределением, хотя я и взял его в кавычки. Можно заменить, например, на участки из плотного кластера. 

3.     Выбрал такие параметры, чтобы площадь ядра была максимальна и все еще не появлялись дополнительные кластеры, кроме основного. В основном кластере около 42 процентов от общего числа избирателей. Так как он более плотный, площадь его существенно меньше, чем у "хвоста". Насколько я понял Сергей Шпилькин использует k-means для выделения основного кластера. И у него он получается размером немного больше.

4.     Можно провести эксперимент и оценить, насколько последствия невообразимо плохи. Что вы порекомендуете использовать вместо KNN? weights = 'distance' попробую.

5.     Согласен. Важное замечание. Для уточнения модели можно использовать, например, данные Росстата по регионам.

6.     Предпоследний график мне тоже не нравится. В идеале там должно быть два облака похожих по форме на эллипс. Одно выше другого. Что касается вашего предположения, боюсь от хвоста оно не избавит. В модели используется в качестве параметра размер участка. И разница в 10 раз будет учтена. Есть другие предложения?

7.     На счет Plotly посмотрю, как это реализовать. Можно еще скачать ноутбук с гит хаба. Там интерактивность присутствует.

Если вас заинтересовал объект исследований, напишите мне в личку. Можем обсудить как доработать модель. Еще раз спасибо за критические замечания! 

Добрый вечер! Спасибо за комментарий! Мне сложно судить как это происходит на Кавказе. Я был в составе комиссии в Москве. В комиссию мог попасть любой желающий. Можно было получить направление от одной из партий. Если в комиссии есть люди, которые мотивированы честный подсчет провести, то они могут это организовать. На нашем участке все было честно, по крайней мере в дни голосования. Проблема в том, что нужно как минимум три человека на комиссию чтобы все контролировать. Всего таких комиссий около ста тысяч по стране. Поэтому нужно минимум 300000 человек, которые готовы бесплатно работать столько, сколько длятся выборы. В этом году это было три дня и почти 40 часов. Это огромные ресурсы, которыми видимо, пока-что не располагают стороны, заинтересованные в честном подсчете. С подконтрольным электоратом нужно оценивать его вклад в выборы, но он может быть не такой однозначный, как некорректный подсчет результатов.

Здравствуйте! Спасибо за комментарий! Согласен, что среди участков с большой явкой много специальных. Чтобы понять насколько много нужно дополнительно данные анализировать.

Добрый вечер! Спасибо за комментарий! Чтобы понять динамику нужен анализ данных за прошлые выборы. Мне известно, что в Москве десять лет назад были более существенные фальсификации на участках, чем сейчас. На это ответом стало электронное голосование.

1

Information

Rating
Does not participate
Registered
Activity