Pull to refresh
51
0
Vladimir @VladFX

Machine learning and AI

Send message
Это очень хорошее предложение. Я об это не подумал ранее. Если честно, то у меня мало экспертизы по анализу данных из других стран.

Достаточно просто, однако, сравнить число ТИКов с аномальными кластерами совпадающих значений на данных федеральных выборов 1999 или 2000 года (они считаются относительно чистыми) и изучаемого голосования.
У меня были такие же сомнения по поводу картинки, но ничего лучшего я не нашел. Какую картинку поставили бы вы?
В питоновском коде картинка не используется.
Я действительно хотел привлечь внимание к данной теме. Тема технически не сложная, но общественно важная.
biga Интересующие вас пропорции 'Да' и 'Нет' в добавленных бюллетенях иногда можно оценить из сообщений наблюдателей.

Наблюдатели Петербурга задокументировали приписку ~1000 голосов на УИК 2167 
(протокол).  Проведя всю арифметику, получается что доля ‘Да’ в добавленных голосах 90%, а доля 'Нет' 10%. Та же пропорция на  УИК 1407 в Спб. Все прилично. Культурная столица как-никак.
 
Про феномен приписки 1000 голосов можно почитать в Yaroslav Sobolev blog или как еще один частный случай тут .
Обсуждение за и против этого метода я не включил из того что колаб и так получился очень большим.

Феномен зависимости результата победителя от явки появился после 2000 года. Является ли он точным методом оценки аномальных голосов, можно будет проверить на ближайших свободных и честных выборах. 

Это модель и она показывает приблизительный порядок величины аномальных голосов, если ее предположения верны.  All models are wrong but some are useful.

 Я не вижу особой разницы между 1 млн. и 27 млн. аномальных голосов. Один миллион человек – это очень и очень много. 
По возможности, могли бы вы переводить сообщения наблюдателей в цифру?

По данным ЦИК, явка на участке 1108 (страница ЦИК) составила 850/1219=70%.
Согласно наблюдателю, явка составила 482/1219=40%.  Итого, аномальная явка =70-40=30%. 

Для сравнения, на вышеупомянутом УИК 260 'ТИК 33 Казань, Ново-Савиновская' (страница ЦИК) покрытого наблюдателями,  аномальную явку можно рассчитать как разницу между средним по ТИКу (64.84%) и явкой на УИК 260 (33.5%). Аномальная явка=64.8%-33.5=31%.
Было бы замечательно, если бы вы это сделали.  

Данные по федеральными выборам РФ 1999-2012 можно найти здесь здесь.
Данные после 2012 года можно скачать, если прокрутить ТГ RUElectionData на самое начало.
где костяк составляют педагоги авиационного института-> где большинство членов избирательной комиссии с правом решающего голоса являются педагогами авиационного института.
Заметка посвящена выявлению случаев голосования с нулевой дисперсией. Результат модельно независим и имеет однозначную интерпретацию. Я бы не хотел отклоняться от главной темы.

Мое мнение об оценке аномальных голосов можно найти тут (ссылка на страницу комментарий ). Правильный ответ состоит в том, что точное число аномальных голосов мы не знаем и его можно оценить только через модели.

Если данные повреждены или шумные, то нужно применять Байесовы методы. Они говорят что наблюдениям в которых вы не уверены надо давать малый вес. Поэтому оптимальным методом оценки результатов является усреднение только по участкам где выполнены два условия: КОИБ + полный контроль всей досрочки.

УИК 260 из ТИК 33 Казань, Ново-Савиновская был полностью покрыт наблюдателями и нарушений не было. На УИК 259 они были минимальны. Поэтому для дата саентиста начальной точкой является результат УИК 260: явка 33%, ДА 44%.

Если вы наберете большую статистику, то поделитесь, пожалуйста. Пока ее нет, надо довольствоваться несколькими точками.

Изучите детально числа результата и явки на ТИК 33 Казань, Ново-Савиновская (ссылка на страницу ЦИК ). У вас не останется больше вопросов.
Итоговая явка и результат являются для нас латентными (ненаблюдаемыми) величинами. Все оценки будут модельно зависимыми.

Математически правильными представляется интерполировать на всю страну результаты участков со следующими условиями: КОИБ + грамотное наблюдение (полный контроль всей досрочки) + адекватная комиссия. Примером является УИК 260 из ТИК 33 Казань, Ново-Савиновская, где были выполнены все три условия и где костяк составляют педагоги авиационного института (ссылка на страницу ЦИК )

Причина очень проста. В байесовской оценке среднего, наблюдения складываются с весами обратно пропорциональными неопределенности наблюдений. Из графиков видно, что неопределенность данных ЦИК бесконечно велика. Это пример когда несколько точных наблюдений важнее десятков тысяч наблюдений с высокой неопределенностью.

Information

Rating
Does not participate
Registered
Activity