Это очень хорошее предложение. Я об это не подумал ранее. Если честно, то у меня мало экспертизы по анализу данных из других стран.
Достаточно просто, однако, сравнить число ТИКов с аномальными кластерами совпадающих значений на данных федеральных выборов 1999 или 2000 года (они считаются относительно чистыми) и изучаемого голосования.
У меня были такие же сомнения по поводу картинки, но ничего лучшего я не нашел. Какую картинку поставили бы вы?
В питоновском коде картинка не используется.
Я действительно хотел привлечь внимание к данной теме. Тема технически не сложная, но общественно важная.
biga Интересующие вас пропорции 'Да' и 'Нет' в добавленных бюллетенях иногда можно оценить из сообщений наблюдателей.
Наблюдатели Петербурга задокументировали приписку ~1000 голосов на УИК 2167
(протокол). Проведя всю арифметику, получается что доля ‘Да’ в добавленных голосах 90%, а доля 'Нет' 10%. Та же пропорция на УИК 1407 в Спб. Все прилично. Культурная столица как-никак.
Про феномен приписки 1000 голосов можно почитать в Yaroslav Sobolev blog или как еще один частный случай тут .
Обсуждение за и против этого метода я не включил из того что колаб и так получился очень большим.
Феномен зависимости результата победителя от явки появился после 2000 года. Является ли он точным методом оценки аномальных голосов, можно будет проверить на ближайших свободных и честных выборах.
Это модель и она показывает приблизительный порядок величины аномальных голосов, если ее предположения верны. All models are wrong but some are useful.
Я не вижу особой разницы между 1 млн. и 27 млн. аномальных голосов. Один миллион человек – это очень и очень много.
По возможности, могли бы вы переводить сообщения наблюдателей в цифру?
По данным ЦИК, явка на участке 1108 (страница ЦИК) составила 850/1219=70%.
Согласно наблюдателю, явка составила 482/1219=40%. Итого, аномальная явка =70-40=30%.
Для сравнения, на вышеупомянутом УИК 260 'ТИК 33 Казань, Ново-Савиновская' (страница ЦИК) покрытого наблюдателями, аномальную явку можно рассчитать как разницу между средним по ТИКу (64.84%) и явкой на УИК 260 (33.5%). Аномальная явка=64.8%-33.5=31%.
Данные по федеральными выборам РФ 1999-2012 можно найти здесь здесь.
Данные после 2012 года можно скачать, если прокрутить ТГ RUElectionData на самое начало.
где костяк составляют педагоги авиационного института-> где большинство членов избирательной комиссии с правом решающего голоса являются педагогами авиационного института.
Заметка посвящена выявлению случаев голосования с нулевой дисперсией. Результат модельно независим и имеет однозначную интерпретацию. Я бы не хотел отклоняться от главной темы.
Мое мнение об оценке аномальных голосов можно найти тут (ссылка на страницу комментарий ). Правильный ответ состоит в том, что точное число аномальных голосов мы не знаем и его можно оценить только через модели.
Если данные повреждены или шумные, то нужно применять Байесовы методы. Они говорят что наблюдениям в которых вы не уверены надо давать малый вес. Поэтому оптимальным методом оценки результатов является усреднение только по участкам где выполнены два условия: КОИБ + полный контроль всей досрочки.
УИК 260 из ТИК 33 Казань, Ново-Савиновская был полностью покрыт наблюдателями и нарушений не было. На УИК 259 они были минимальны. Поэтому для дата саентиста начальной точкой является результат УИК 260: явка 33%, ДА 44%.
Если вы наберете большую статистику, то поделитесь, пожалуйста. Пока ее нет, надо довольствоваться несколькими точками.
Изучите детально числа результата и явки на ТИК 33 Казань, Ново-Савиновская (ссылка на страницу ЦИК ). У вас не останется больше вопросов.
Итоговая явка и результат являются для нас латентными (ненаблюдаемыми) величинами. Все оценки будут модельно зависимыми.
Математически правильными представляется интерполировать на всю страну результаты участков со следующими условиями: КОИБ + грамотное наблюдение (полный контроль всей досрочки) + адекватная комиссия. Примером является УИК 260 из ТИК 33 Казань, Ново-Савиновская, где были выполнены все три условия и где костяк составляют педагоги авиационного института (ссылка на страницу ЦИК )
Причина очень проста. В байесовской оценке среднего, наблюдения складываются с весами обратно пропорциональными неопределенности наблюдений. Из графиков видно, что неопределенность данных ЦИК бесконечно велика. Это пример когда несколько точных наблюдений важнее десятков тысяч наблюдений с высокой неопределенностью.
Достаточно просто, однако, сравнить число ТИКов с аномальными кластерами совпадающих значений на данных федеральных выборов 1999 или 2000 года (они считаются относительно чистыми) и изучаемого голосования.
В питоновском коде картинка не используется.
Я действительно хотел привлечь внимание к данной теме. Тема технически не сложная, но общественно важная.
Наблюдатели Петербурга задокументировали приписку ~1000 голосов на УИК 2167
(протокол). Проведя всю арифметику, получается что доля ‘Да’ в добавленных голосах 90%, а доля 'Нет' 10%. Та же пропорция на УИК 1407 в Спб. Все прилично. Культурная столица как-никак.
Про феномен приписки 1000 голосов можно почитать в Yaroslav Sobolev blog или как еще один частный случай тут .
Феномен зависимости результата победителя от явки появился после 2000 года. Является ли он точным методом оценки аномальных голосов, можно будет проверить на ближайших свободных и честных выборах.
Это модель и она показывает приблизительный порядок величины аномальных голосов, если ее предположения верны. All models are wrong but some are useful.
Я не вижу особой разницы между 1 млн. и 27 млн. аномальных голосов. Один миллион человек – это очень и очень много.
По данным ЦИК, явка на участке 1108 (страница ЦИК) составила 850/1219=70%.
Согласно наблюдателю, явка составила 482/1219=40%. Итого, аномальная явка =70-40=30%.
Для сравнения, на вышеупомянутом УИК 260 'ТИК 33 Казань, Ново-Савиновская' (страница ЦИК) покрытого наблюдателями, аномальную явку можно рассчитать как разницу между средним по ТИКу (64.84%) и явкой на УИК 260 (33.5%). Аномальная явка=64.8%-33.5=31%.
Данные по федеральными выборам РФ 1999-2012 можно найти здесь здесь.
Данные после 2012 года можно скачать, если прокрутить ТГ RUElectionData на самое начало.
Мое мнение об оценке аномальных голосов можно найти тут (ссылка на страницу комментарий ). Правильный ответ состоит в том, что точное число аномальных голосов мы не знаем и его можно оценить только через модели.
Если данные повреждены или шумные, то нужно применять Байесовы методы. Они говорят что наблюдениям в которых вы не уверены надо давать малый вес. Поэтому оптимальным методом оценки результатов является усреднение только по участкам где выполнены два условия: КОИБ + полный контроль всей досрочки.
УИК 260 из ТИК 33 Казань, Ново-Савиновская был полностью покрыт наблюдателями и нарушений не было. На УИК 259 они были минимальны. Поэтому для дата саентиста начальной точкой является результат УИК 260: явка 33%, ДА 44%.
Если вы наберете большую статистику, то поделитесь, пожалуйста. Пока ее нет, надо довольствоваться несколькими точками.
Изучите детально числа результата и явки на ТИК 33 Казань, Ново-Савиновская (ссылка на страницу ЦИК ). У вас не останется больше вопросов.
Математически правильными представляется интерполировать на всю страну результаты участков со следующими условиями: КОИБ + грамотное наблюдение (полный контроль всей досрочки) + адекватная комиссия. Примером является УИК 260 из ТИК 33 Казань, Ново-Савиновская, где были выполнены все три условия и где костяк составляют педагоги авиационного института (ссылка на страницу ЦИК )
Причина очень проста. В байесовской оценке среднего, наблюдения складываются с весами обратно пропорциональными неопределенности наблюдений. Из графиков видно, что неопределенность данных ЦИК бесконечно велика. Это пример когда несколько точных наблюдений важнее десятков тысяч наблюдений с высокой неопределенностью.