MilashchenkoEA 24 окт 2021 в 21:07

Получаем кривую плотности распределения вероятности случайного процесса

8 мин

7.2K

Python*Программирование*Анализ и проектирование систем*Алгоритмы*Математика*

+10

Комментарии 10

omxela 24 окт 2021 в 23:10

Без формул - это хорошо. А вот как выбрать число интервалов гистограммы (в просторечии "ящиков")? Есть метод "на глазок" с последующей корректировкой. Ну, типа, берём 10 ящиков и смотрим, сколько минимум шариков лежит в каком-то из них. Нужно 3 минимум, если в кривой нет "плановых" замираний. А если есть? Имеются и формулы, разумеется, и не одна. Скажем, формула Стерджеса. Для оценок сойдет.

h = abs(maxX − minX)/[1+ 3,322lg(n)],

где h - ширина столбика, maxX и minX - максим. и мин. значение данных; n - число отсчетов данных. Логарифм десятичный. Для малого количества данных лучше на глазок.

MilashchenkoEA 24 окт 2021 в 23:34

Абсолютно согласен, есть формулы которые позволяют рассчитать число интервалов разбиения. Не хотелось углубляться в это. Формулу Стерджеса использовал, но в итоге, лично мне, всегда приходилось все-таки дополнительно корректировать число интервалов "на глазок", для того, чтобы получить наиболее визуально привлекательную кривую плотности распределения.

belch84 25 окт 2021 в 09:36

Я бы кривую оценки плотности вероятности рисовал ПОСЛЕ собственно кривой плотности вероятности, а то кажется, что оценки вообще нет на рисунке (в случае почти полной адекватности оценки)

MilashchenkoEA 25 окт 2021 в 10:20

Хорошее предложение, реализовать легко - поменять местами блоки кода, отвечающие за отображения графиков, по комментариям их легко найти.

VAE 25 окт 2021 в 17:07

Вы не обозначили тип переменной: непрерывная, дискретная , смешанная. С какой Вы имеете дело. Для неслучайной переменной все рассуждения в статье излишни.

MilashchenkoEA 25 окт 2021 в 18:46

На сколько я понимаю, в целом, для оценки плотности распределения особого значения не имеет непрерывная или дискретная случайная величина. В данном случае важно то, что мы имеем определённую выборку числовых значений. Под неслучайностью в тексте понималось, что выборка не обязательно должна заранее строго соответствовать какому либо определенному закону распределения и мы должны знать это, а, например, это может быть возраст скончавшихся от коронавируса, не сказать, что это полностью случайная величина, но мы можем построить по такой выборке кривую плотности распределения. Согласен, что, возможно, этот момент не совсем понятно сформулирован в тексте.

uchitel 26 окт 2021 в 10:38

В numpy есть функция histogramm() а в seaborn функция histplot(). По моему, проще бороться с причинами, которые не позволяют пользоваться этими функциями, чем изобретать велосипеды.

MilashchenkoEA 26 окт 2021 в 11:27

В pandas вообще есть метод kde, который строит плотность распределения, и я удивился, когда он неправильно это сделал, причём сильно неправильно, я наверное напишу про это статью. Причём строит неверно не всегда.

uchitel 27 окт 2021 в 08:53

Я бы на вашем месте не торопился и изучил документацию, в том числе stats из scipy. Многие методы поддерживают настройку параметров. В том же seaborn kdeplot имеет множество параметров.

Если ошибка действительно есть, то лучше сообщить об этом разработчикам, чем пилить сюда об этом статью. Pandas - это прежде всего инструмент подготовки и обработки данных, максимум разведочного, но не глубокого анализа.

MilashchenkoEA 27 окт 2021 в 11:29

Да, я ещё перепроверю конечно всё для начала.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Получаем кривую плотности распределения вероятности случайного процесса

Комментарии 10

Публикации

Истории