Я так понимаю, автор имеет отношение к Scrapinghub. Скажите, а ваша Portia — она насколько стабильно работает и насколько сложный парсинг поддерживает?
Попробовал вчера hosted версию — при работе с переменным числом блоков эвристики постоянно промахиваются, и получается мусор. При попытке выгрузить "накликанный" парсер в формате Scrapy — выгружает что-то похожее на mock'овый код — модельки описаны, а алгоритм парсинга — нет.
По смыслу — да. Но я не предлагал отсеивать маленькие участки, т.к. прямые будет видно и на больших.
Я предложил рассмотреть результаты на двух сильно различающихся по размеру и электоральному разнообразию территориях — в пригороде столицы и в далекой глубинке. Прямые может быть видно на обоих графиках, но на графике в глубинке они должны быть чётче.
Рискну предположить, что прямые y = k*x на графиках совместных результатов двух партий можно наблюдать для непопулярных партий на маленьких УИКах с небольшим числом избирателей. Вот что получается.
Пусть у партии А будет 5 голосов, у партии Б — 10.
Теперь немного поварьируем размер участка — 50, 60, 70 и т.д.
Получим результаты партий 10%/20%, 8,3%/16,6%, 7,1%/14,2% и т.д.
Результаты ложатся на прямую y = 0,5*x, с возрастающей плотностью в районе точки (0, 0).
Аналогично, изменяя изначальное соотношение голосов, получим прямые с другим коэффициентом k, густо закрашенные в начале координат и растворяющиеся вдали.
Чем больше участок и чем больше вариативность предпочтений избирателей, тем хуже будет видно такие прямые. Поэтому в Москве вы их не увидели, в МО уже что-то заметно, а, условно, в Лаганском районе Калмыкии их будет видно четко.
Спасибо за разъяснения. Думаю, стоит их вынести в самое начало.
Посмотрите, к примеру, статью про ClickHouse. Сначала коротко говорят, что это и зачем, дальше идёт описание ниши, потом объяснение, почему это круто. И уже после всего этого начинаются технические подробности.
Из статьи непонятно самое главное — на какую нишу нацелена Bagri? Под какие задачи подходит лучше всего? Как выглядит в сравнении с другими решениями — базами данных, кешами, execution-фреймворками? Чем она удобнее, быстрее, надёжнее?
Короче, почему я буду использовать молодую зелёную базёнку вместо зрелых, проверенных продакшеном решений?
Ситуация дополнительно усугубляется следующим. Синтаксис Java ограничивает разработчика и заставляет его делать вещи Java-way, начиная от code style и заканчивая паттернами. В результате, хороший код на Java везде выглядит примерно одинаково.
Scala, наоборот, развязывает разработчику руки и предоставляет массу альтернатив. Это развивает вкусовщину, религиозные войны в коммьюнити и взаимную нечитаемость и неподдерживаемость кода.
Неравенство для населения в целом будет существенно больше.
Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).
Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.
Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
Среднее точно считалось по всем данным.
Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
В статье есть ссылка на подборку статистики, можете ознакомиться.
Асимптотически это то же самое, что и для хеш-таблицы с цепочками в среднем случае, просто load factor нельзя делать больше 0,5. Но "кукушечный" алгоритм гарантирует O(1) в худшем случае, что круто.
Я так понимаю, автор имеет отношение к Scrapinghub. Скажите, а ваша Portia — она насколько стабильно работает и насколько сложный парсинг поддерживает?
Попробовал вчера hosted версию — при работе с переменным числом блоков эвристики постоянно промахиваются, и получается мусор. При попытке выгрузить "накликанный" парсер в формате Scrapy — выгружает что-то похожее на mock'овый код — модельки описаны, а алгоритм парсинга — нет.
По смыслу — да. Но я не предлагал отсеивать маленькие участки, т.к. прямые будет видно и на больших.
Я предложил рассмотреть результаты на двух сильно различающихся по размеру и электоральному разнообразию территориях — в пригороде столицы и в далекой глубинке. Прямые может быть видно на обоих графиках, но на графике в глубинке они должны быть чётче.
Рискну предположить, что прямые
y = k*x
на графиках совместных результатов двух партий можно наблюдать для непопулярных партий на маленьких УИКах с небольшим числом избирателей. Вот что получается.Пусть у партии А будет 5 голосов, у партии Б — 10.
Теперь немного поварьируем размер участка — 50, 60, 70 и т.д.
Получим результаты партий
10%/20%
,8,3%/16,6%
,7,1%/14,2%
и т.д.Результаты ложатся на прямую
y = 0,5*x
, с возрастающей плотностью в районе точки(0, 0)
.Аналогично, изменяя изначальное соотношение голосов, получим прямые с другим коэффициентом k, густо закрашенные в начале координат и растворяющиеся вдали.
Чем больше участок и чем больше вариативность предпочтений избирателей, тем хуже будет видно такие прямые. Поэтому в Москве вы их не увидели, в МО уже что-то заметно, а, условно, в Лаганском районе Калмыкии их будет видно четко.
P.S. Это гипотеза, я не проверял.
Посмотрите, к примеру, статью про ClickHouse. Сначала коротко говорят, что это и зачем, дальше идёт описание ниши, потом объяснение, почему это круто. И уже после всего этого начинаются технические подробности.
Короче, почему я буду использовать молодую зелёную базёнку вместо зрелых, проверенных продакшеном решений?
Scala, наоборот, развязывает разработчику руки и предоставляет массу альтернатив. Это развивает вкусовщину, религиозные войны в коммьюнити и взаимную нечитаемость и неподдерживаемость кода.
Дедушки помнят девиз одного популярного некогда языка "There’s More Than One Way To Do It". Вспомните, где он теперь? =)
P.S. Несмотря на это, большую часть промышленного кода пишем на Scala.
Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).
В википедии есть интересующие вас цифры со ссылкой на данные Росстата.
Задачи параметризовать выборку каким-либо распределением не стояло.
Если вкратце — есть способы засунуть «не все» доходы в статистику.
Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.
И за комплимент. =)
Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.
В статье есть ссылка на подборку статистики, можете ознакомиться.