Pull to refresh

Comments 5

трих-диаграмма также наглядно показывает, как график распределения «создаёт» данные там, где их нет. Это связано с распределением ядерной оценки плотности в каждой точке данных. Это распределение может выходить за рамки начального диапазона данных, создавая впечатление, что некоторые рейсы Alaska Airlines прибывают и раньше и позже, чем в действительности. Нужно помнить об этой иллюзии и информировать о ней аудиторию!

а если не показывать график там, где нет данных (т.е. соединять линией только те точки, которые показаны на штрих-диаграмме)?

Насколько помню в histplot есть параметр hue_order, можно поставить признак, по которому надо сгруппировать, и не писать кучу лишнего кода.

Таких правил достаточно много - кроме Стерджесса, по крайней мере Фридмана-Диакониса и Скотта стоит упомянуть https://en.wikipedia.org/wiki/Histogram#Number_of_bins_and_width.

Также полезно обратиться к монографии: Лемешко Б.Ю. и др. Статистический анализ данных. Моделирование и исследование вероятностных закономерностей (2011), с.118.

matplotlib мягко говоря заметно лагает при выводе графиков, пока это все для внутренних нужд, оно не принципиально.

Но когда вопрос юзабельности программ более критичен, то разные графики, включая гистограммы, лучше выводить через библиотеку pyqtgraph, тем более что там есть подробный интерактивный сборник примеров функционала библиотеки, который вызывается простым коротким скриптом на python3:

#! /usr/bin/env python3

import pyqtgraph.examples

pyqtgraph.examples.run()

Sign up to leave a comment.