Comments / Profile of fediq / Habr

Федор Лаврентьев @fediq

Data Engineering Divine

Frontera: архитектура фреймворка для обхода веба и текущие проблемы

fediq Mar 30 2017 at 07:36

Я так понимаю, автор имеет отношение к Scrapinghub. Скажите, а ваша Portia — она насколько стабильно работает и насколько сложный парсинг поддерживает?

Попробовал вчера hosted версию — при работе с переменным числом блоков эвристики постоянно промахиваются, и получается мусор. При попытке выгрузить "накликанный" парсер в формате Scrapy — выгружает что-то похожее на mock'овый код — модельки описаны, а алгоритм парсинга — нет.

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

fediq Oct 24 2016 at 09:29

По смыслу — да. Но я не предлагал отсеивать маленькие участки, т.к. прямые будет видно и на больших.

Я предложил рассмотреть результаты на двух сильно различающихся по размеру и электоральному разнообразию территориях — в пригороде столицы и в далекой глубинке. Прямые может быть видно на обоих графиках, но на графике в глубинке они должны быть чётче.

Выборы-2016. Часть 2 — удивительное рядом и оно разрешено

fediq Oct 23 2016 at 21:45

Рискну предположить, что прямые y = k*x на графиках совместных результатов двух партий можно наблюдать для непопулярных партий на маленьких УИКах с небольшим числом избирателей. Вот что получается.

Пусть у партии А будет 5 голосов, у партии Б — 10.
Теперь немного поварьируем размер участка — 50, 60, 70 и т.д.
Получим результаты партий 10%/20%, 8,3%/16,6%, 7,1%/14,2% и т.д.
Результаты ложатся на прямую y = 0,5*x, с возрастающей плотностью в районе точки (0, 0).

Аналогично, изменяя изначальное соотношение голосов, получим прямые с другим коэффициентом k, густо закрашенные в начале координат и растворяющиеся вдали.

Чем больше участок и чем больше вариативность предпочтений избирателей, тем хуже будет видно такие прямые. Поэтому в Москве вы их не увидели, в МО уже что-то заметно, а, условно, в Лаганском районе Калмыкии их будет видно четко.

P.S. Это гипотеза, я не проверял.

Bagri — NoSQL база данных с открытым кодом, построенная поверх распределенного кэша

fediq Sep 17 2016 at 16:47

Спасибо за разъяснения. Думаю, стоит их вынести в самое начало.

Посмотрите, к примеру, статью про ClickHouse. Сначала коротко говорят, что это и зачем, дальше идёт описание ниши, потом объяснение, почему это круто. И уже после всего этого начинаются технические подробности.

Bagri — NoSQL база данных с открытым кодом, построенная поверх распределенного кэша

fediq Sep 15 2016 at 15:51

Из статьи непонятно самое главное — на какую нишу нацелена Bagri? Под какие задачи подходит лучше всего? Как выглядит в сравнении с другими решениями — базами данных, кешами, execution-фреймворками? Чем она удобнее, быстрее, надёжнее?

Короче, почему я буду использовать молодую зелёную базёнку вместо зрелых, проверенных продакшеном решений?

Scala или не Scala? Вот в чем вопрос

fediq Sep 13 2016 at 19:40

Ситуация дополнительно усугубляется следующим. Синтаксис Java ограничивает разработчика и заставляет его делать вещи Java-way, начиная от code style и заканчивая паттернами. В результате, хороший код на Java везде выглядит примерно одинаково.

Scala, наоборот, развязывает разработчику руки и предоставляет массу альтернатив. Это развивает вкусовщину, религиозные войны в коммьюнити и взаимную нечитаемость и неподдерживаемость кода.

Дедушки помнят девиз одного популярного некогда языка "There’s More Than One Way To Do It". Вспомните, где он теперь? =)

P.S. Несмотря на это, большую часть промышленного кода пишем на Scala.

Социальное неравенство и зарплаты чиновников

fediq Apr 13 2016 at 07:53

Статья не про сравнение. Кроме того, она про очень частный случай. Получившиеся результаты некорректно сравнивать с общей статистикой.

Социальное неравенство и зарплаты чиновников

fediq Apr 13 2016 at 07:50

Неравенство для населения в целом будет существенно больше.

Например, для муниципальных служащих индекс Джини у меня получился 18.9 (что неправдоподобно мало), в то время, как по США в целом он 45.0 (что много и свидетельствует о социальных проблемах).

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 20:17

В статье описано и показано на картинках, почему так бывает. Попробуйте перечитать еще раз.

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 20:13

Да, в рассматриваемой выборке получилась неправдоподобная уравниловка. В реальности все немного по-другому.
В википедии есть интересующие вас цифры со ссылкой на данные Росстата.

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 20:10

Как написано в тексте, я пытался максимально наглядно показать на выборке среднее значение.

Задачи параметризовать выборку каким-либо распределением не стояло.

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:50

Я вам — подробную статистику, а вы мне — голословные суждения. Нехорошо. Могли бы хоть википедией прикрыться.

Если вкратце — есть способы засунуть «не все» доходы в статистику.

+23

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:11

Опечатался, поправил.

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:11

Сплошная черная линия — это плотность вероятности нормального распределения, подогнанная (fitted) к реальному распределению. Это самый простой способ визуально отобразить матожидание.

Как лучше параметризовать функцию реального распределения — вопрос более сложный, и он явно выходит за рамки статьи.

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:08

Я лишь прикрываюсь этим брендом, чтобы оправдать бездарно потраченное время.

+62

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:07

О, спасибо за наводку!

И за комплимент. =)

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:05

Среднее точно считалось по всем данным.
Насчет медианы вы сподвигли меня на сомнения. В документации сказано, что «усы» точно отбрасывают выбросы, но медиана должна их учитывать. Спасибо за замечание, вечером уточню.

Социальное неравенство и зарплаты чиновников

fediq Apr 12 2016 at 08:00

В России индикаторы социального неравенства ниже, чем США, но несильно. Так что статистически причин увидеть другие «свечки» нет.
В статье есть ссылка на подборку статистики, можете ознакомиться.

+11

Сделай сам: SQL JOIN на Java

fediq Mar 1 2016 at 07:18

Очень дерзкий алгоритм, спасибо за наводку.

Сделай сам: SQL JOIN на Java

fediq Mar 1 2016 at 07:17

Асимптотически это то же самое, что и для хеш-таблицы с цепочками в среднем случае, просто load factor нельзя делать больше 0,5. Но "кукушечный" алгоритм гарантирует O(1) в худшем случае, что круто.

1 2 3 4