Как стать автором
Обновить

Комментарии 6

По русски CDP это функция распределения случайной величины. Не очень наглядна, легче просто плотность вероятности использовать, как прямой аналог гистограммы, лишённый недостатков дискретизации. Так как плотность по сути производная от распределения, то она инвариантна к выбору осей координат.

Ох беда… уважаемые переводчики - не переводите, пожалуйста, то, что вы не понимаете. CDF (которую хвалят в статье) и PDF - это суть одно и то же, только CDF кумулятивная (в случае идеальных распределений - интеграл от PDF). Все те «интервалы» (bins), которые есть в PDF также есть и в CDF, только в кумулятивной функции они выглядят как ступеньки а не как провалы. Наконец, ни CDF, ни PDF нельзя сравнивать глазами - можно сравнивать только мат. методами (типа t-теста, который, к слову, имеет существенные ограничения - распределения должны быть нормальными, сравнение должно производится только один раз по достижении необходимого объема статистики, и т.п.). Если сравнивать «глазами» без понимания мат. статистики получится чушь что в одном, что в другом случае. И это мы не ещё не начали говорить про нюансы типа эффекта Бонферрони.

На первом рисунке данные на двух графиках очевидно разные. В оригинале тоже.

Ну вот построили мы CDP и как сравнить прибыль за два последних месяца? Если на гистограмме достаточно сравнить два отрезка, то тут придётся сравнивать две производные, что существенно сложнее.
Многие проблемы с гистограммами решаются их продвинутой версией — Ящиками с усами.

Хороший совет в статье разве что "Не надейтесь, что на дефолтных настройках можно одним кликом сделать идеальный информативный дизайн". С некоторой натяжкой — то, что гистограмма ещё не полноценный анализ данных. Всё остальное — несусветная глупость.


Поиск выбросов с помощью гистограммы при достаточном числе категорий вполне возможен, но вообще-то это автор картинки должен думать про то, какие у него дефолты. Если ты показываешь распределение одной переменной (а гистограммы для этого и предназначены) — так выкинь все записи, для которых эта переменная неизвестна.


Определить, дискретная ли она или непрерывная? А нафига тебе для этого вообще график, у переменных на такой случай есть типы.


Не читается четыре наложенных друг на друга гистограммы? Так в matplotlib есть специальные стили на такой случай. Код прямо там же, только проскроллить чуть-чуть. Кто тебя заставлял использовать наименее подходящий для твоей задачи вариант?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий