Как стать автором
Обновить
80
0
Федор Лаврентьев @fediq

Data Engineering Divine

Отправить сообщение

Я так понимаю, автор имеет отношение к Scrapinghub. Скажите, а ваша Portia — она насколько стабильно работает и насколько сложный парсинг поддерживает?


Попробовал вчера hosted версию — при работе с переменным числом блоков эвристики постоянно промахиваются, и получается мусор. При попытке выгрузить "накликанный" парсер в формате Scrapy — выгружает что-то похожее на mock'овый код — модельки описаны, а алгоритм парсинга — нет.

По смыслу — да. Но я не предлагал отсеивать маленькие участки, т.к. прямые будет видно и на больших.


Я предложил рассмотреть результаты на двух сильно различающихся по размеру и электоральному разнообразию территориях — в пригороде столицы и в далекой глубинке. Прямые может быть видно на обоих графиках, но на графике в глубинке они должны быть чётче.

Рискну предположить, что прямые y = k*x на графиках совместных результатов двух партий можно наблюдать для непопулярных партий на маленьких УИКах с небольшим числом избирателей. Вот что получается.


Пусть у партии А будет 5 голосов, у партии Б — 10.
Теперь немного поварьируем размер участка — 50, 60, 70 и т.д.
Получим результаты партий 10%/20%, 8,3%/16,6%, 7,1%/14,2% и т.д.
Результаты ложатся на прямую y = 0,5*x, с возрастающей плотностью в районе точки (0, 0).


Аналогично, изменяя изначальное соотношение голосов, получим прямые с другим коэффициентом k, густо закрашенные в начале координат и растворяющиеся вдали.


Чем больше участок и чем больше вариативность предпочтений избирателей, тем хуже будет видно такие прямые. Поэтому в Москве вы их не увидели, в МО уже что-то заметно, а, условно, в Лаганском районе Калмыкии их будет видно четко.


P.S. Это гипотеза, я не проверял.

Спасибо за разъяснения. Думаю, стоит их вынести в самое начало.

Посмотрите, к примеру, статью про ClickHouse. Сначала коротко говорят, что это и зачем, дальше идёт описание ниши, потом объяснение, почему это круто. И уже после всего этого начинаются технические подробности.
Из статьи непонятно самое главное — на какую нишу нацелена Bagri? Под какие задачи подходит лучше всего? Как выглядит в сравнении с другими решениями — базами данных, кешами, execution-фреймворками? Чем она удобнее, быстрее, надёжнее?

Короче, почему я буду использовать молодую зелёную базёнку вместо зрелых, проверенных продакшеном решений?
Ситуация дополнительно усугубляется следующим. Синтаксис Java ограничивает разработчика и заставляет его делать вещи Java-way, начиная от code style и заканчивая паттернами. В результате, хороший код на Java везде выглядит примерно одинаково.

Scala, наоборот, развязывает разработчику руки и предоставляет массу альтернатив. Это развивает вкусовщину, религиозные войны в коммьюнити и взаимную нечитаемость и неподдерживаемость кода.

Дедушки помнят девиз одного популярного некогда языка "There’s More Than One Way To Do It". Вспомните, где он теперь? =)

P.S. Несмотря на это, большую часть промышленного кода пишем на Scala.
Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.
Неравенство для населения в целом будет существенно больше.

Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).
В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.
Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.

Задачи параметризовать выборку каким-либо распределением не стояло.
Я вам — подробную статистику, а вы мне — голословные суждения. Нехорошо. Могли бы хоть википедией прикрыться.

Если вкратце — есть способы засунуть «не все» доходы в статистику.
Опечатался, поправил.
Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.

Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
Я лишь прикрываюсь этим брендом, чтобы оправдать бездарно потраченное время.
О, спасибо за наводку!

И за комплимент. =)
Среднее точно считалось по всем данным.
Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
В статье есть ссылка на подборку статистики, можете ознакомиться.
Очень дерзкий алгоритм, спасибо за наводку.
Асимптотически это то же самое, что и для хеш-таблицы с цепочками в среднем случае, просто load factor нельзя делать больше 0,5. Но "кукушечный" алгоритм гарантирует O(1) в худшем случае, что круто.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность