JamaGava Sep 30 2016 at 10:46

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

15 min

244K

Entertaining tasksSystem Analysis and Design*Algorithms*Mathematics*

Tutorial

+33

Comments 29

GeMir Sep 30 2016 at 11:03

Неплохо бы статью перед публикацией показать корректору, который почистит текст от остатков «(3/10) х (2/9)» и «Г(x)» (раз уж в большинстве случаев используется красивый TeX). Нумерация формул кажется лишней, а сама статья скорее похожа на цитату из скрипта лекции по вероятностному исчислению. Справочников по теме предостаточно и как студенты, так и «зрелые специалисты», думается мне, первым делом обратятся к ним, а не к поиску по Хабру.

JamaGava Sep 30 2016 at 13:45

Спасибо за комментарий. По поводу формул — согласен, буду дорабатывать.
А что касается тематики и нумерации формул: эта статья «база» для дальнейших более IT-шных статей по анализу данных (чтобы ставить ссылки на конкретные формулы, собранные вместе).

kxx Sep 30 2016 at 14:44

И есть небольшая неточность: биномиальный коэффициент записывается обычно либо как

, либо как

, но не как

JamaGava Sep 30 2016 at 23:30

Это действительно ляп с моей стороны… Спасибо.
Уже исправлено.

parpalak Oct 1 2016 at 12:37

Картинки, кстати, тоже можно сделать красивыми:

Вот исходник:

\begin{tikzpicture}[mark=*,mark size=1,only marks]
\begin{axis}[
    yticklabel style={/pgf/number format/fixed},
    ymax=0.25,
    width=10cm,
    declare function={binom(\k, \n, \p)=(\p^(\k))*((1-\p)^(\n-\k))*factorial(\n)/(factorial(\n-\k)*factorial(\k));}
]
\addlegendimage{blue}
\addlegendimage{green}
\addlegendimage{red}
\foreach \n/\p/\c in {20/0.5/blue, 20/0.7/green, 40/0.5/red} {
    \foreach \k in {0,...,\n} {
        \edef\temp{\noexpand
            \addplot[\c] coordinates {(\k,{binom(\k, \n, \p)})};
        }\temp
    }
    \edef\temp{\noexpand
        \addlegendentry{$p=\p, n=\n$}
    }\temp
}
\end{axis}
\end{tikzpicture}

tomzarubin Oct 2 2016 at 14:12

Непонятно почему вы считаете свой график лучше представленных выше. Точки тут неуместны— чтобы понять о чём график(а потом и форму распределения), надо напрячься.

parpalak Oct 2 2016 at 14:38

Согласен, конечно. Мы тут обсуждали оформление, а не содержание.

В тексте была откуда-то скопированная png-картинка. Моя svg-картинка сделана в латехе с пакетом tikz. Способ не без проблем: человеку без опыта тяжело сразу готовить такие картинки. Зато исходник можно править на лету, не перерисовывая картинку. Я вот за 5 минут поменял точки на столбцы, и диаграмма стала понятнее:

tomzarubin Oct 4 2016 at 17:04

Постойте, так про оформление и речь. Пример выше, конечно, чище и понятней.

JamaGava Oct 4 2016 at 20:05

Такие диаграммы красивее. Я взял материал со страниц википедии (в тексте приведены ссылки). Если для кого-нибудь действительно совсем несложно переделать графики — Вы можете улучшить Вики.
Сам бы занялся, но не владею технологией построения настолько красивых диаграмм :)
(Хотя, уже захотелось освоить)

parpalak Oct 4 2016 at 21:11

Переделать — не сложно, но и не просто :)

Хотите освоить — посмотрите введение к официальной документации tikz. В нем последовательным усложнением строятся полноценные примеры графиков и диагамм. Это хорошая отправная точка.

JamaGava Oct 4 2016 at 23:13

Спасибо

tomzarubin Oct 6 2016 at 09:10

Я не в претензии)
Кстати, в R есть прекрасные библиотеки. Тот же «классический уже» ggplot2 или seaborn + несколько библиотек интерактивных графиков.
Ну и R, по ощущениям, очень прекрасен для статистики и EDA. Самое главное— побороть непонимание синтаксиса самого R.

temas Sep 30 2016 at 12:47

Интересно, но ожидал больше примеров. (В дискретных распределениях примеры были)

JamaGava Sep 30 2016 at 13:43

Большой пример скоро будет в отдельной статье

Lelushak Sep 30 2016 at 18:48

Зачем захламлять теги отдельным названием каждого распределения? У них другое предназначение.

-1

ratatosk Sep 30 2016 at 19:03

Вот очень хорошая вводная статья про виды распределений: Common Probability Distributions: The Data Scientist’s Crib Sheet.

JamaGava Oct 1 2016 at 14:52

Название действительно провокационное, для привлечения внимания. В самой статье я пишу, что предложенные распределения используются в «наиболее часто встречающихся задачах».

Что касается «дз» это тизер готовящейся к публикации работы. Идея такова: мы не можем знать всё обо всех стратегиях, но может поступить по аналогии с тем, как строятся другие стат.тесты, а именно, построить распределение профитфактора для системы, торгующей случайно. Тогда значение профитфактора реальной системы должно быть таковым, чтобы случайное достижения такого значения являлось маловероятным.

smxfem Oct 1 2016 at 14:59

Название статьи провокационное. Получается, что сингулярные распределения — бесполезная альтернатива и создание этих распределений не продиктовано непригодностью описанных тут распределений к некоторым задачам — «случаям жизни»?

Домашнее задание смахивает на задачку с подвохом. Требуется смоделировать множество биржевых систем (тут требуются знания предметной области на уровне бога) и напрямую получить распределения аналитически или откуда-то взять статистику по биржевым системам, подобрать для нескольких дающих надежду распределений оптимальные параметры (оптимизационная задача) и выбрать среди полученных конкретных распределений наиболее точные?

ShashkovS Oct 3 2016 at 00:37

Я просто оставлю это здесь :)

Ну, и с подробностями: http://www.math.wm.edu/~leemis/chart/UDR/UDR.html

JamaGava Oct 3 2016 at 01:19

Вот это действительно: «Вау!» :)
Спасибо!

JamaGava Oct 3 2016 at 01:38

У меня вообще подозрение, что почти все непрерывные распределения должны укладываться в форму , где и — полиномы. Либо являться подстановкой функции (например, нецелой степени либо логарифма) от вместо аргумента в эту формулу.

Кто-нибудь встречал подобные обобщение?

smxfem Oct 8 2016 at 10:33

Есть обобщенное нормальное и обобщенное гиперболическое распределения, которые содержат многие распределения. Но обобщенный вид затрудняет оценку параметров (не критично), а полу-гуманитарные критерии применимости распределений к реальным задачам слабо распространены на такие виды. Попробуйте убедить, предположим, медиков, что какое-то обобщенное распределение лучше подходит для описания некоторой случайной величины, когда 100 лет уже её описывают в обширных исследованиях, которые считаются фундаментальными, более простым частным распределением. Хотя, если, после оценки, вклад всех параметров в распределение будет существенным, то никто не отвертится и придется принять обобщение.
Знакомый психолог публиковала в зарубежном журнале статью, где математических претензий не было, а отфутболивали именно из-за отсутствия обоснования применимости использованных распределений, пока не были найдены необходимые подтверждающие ссылки.

kxx Oct 4 2016 at 22:23

Граф впечатляет. Даже не подозревал о некоторых распределениях.

Leo5700 Oct 5 2016 at 01:27

Ближайшие полчаса путешествую по графу )

JamaGava Oct 5 2016 at 09:35

Студентам буду на зачёт задание давать: воспроизвести граф по памяти :)

nickolaym Oct 6 2016 at 02:00

Для плотности f(x) и y=g(x), — формула плотности fy(y) справедлива, только если g^-1(y) однозначна. То есть, g(x) биективна. А дифференцируемость g(x) не только недостаточное, но и необязательное условие: легко придумать кучу примеров как с разрывными отображениями
— например, пила вдоль линии y = int(x)-frac(x)
так и дифференцируемые отображения, для которых обратные не дифференцируемы
— например, с седловой точкой, y = x³ (при том, что оно биективно)

JamaGava Oct 6 2016 at 11:40

Согласен с Вашим, замечанием: дифференцируемой должна быть обратная к g(x) (опечатка).

AndreyIvanoff Oct 17 2016 at 21:16

Вот интересное оформление справки по теме.

Откуда взял себе, к сожалению, не помню.

JamaGava Oct 17 2016 at 23:24

Действительно красиво сделано.
И информативно.

Show the best of all time