Comments 5
трих-диаграмма также наглядно показывает, как график распределения «создаёт» данные там, где их нет. Это связано с распределением ядерной оценки плотности в каждой точке данных. Это распределение может выходить за рамки начального диапазона данных, создавая впечатление, что некоторые рейсы Alaska Airlines прибывают и раньше и позже, чем в действительности. Нужно помнить об этой иллюзии и информировать о ней аудиторию!
а если не показывать график там, где нет данных (т.е. соединять линией только те точки, которые показаны на штрих-диаграмме)?
Насколько помню в histplot есть параметр hue_order, можно поставить признак, по которому надо сгруппировать, и не писать кучу лишнего кода.
"В конечном счёте нет верного или неверного ответа на вопрос о его ширине", вообще-то есть, называется правило Стёрджеса.
Таких правил достаточно много - кроме Стерджесса, по крайней мере Фридмана-Диакониса и Скотта стоит упомянуть https://en.wikipedia.org/wiki/Histogram#Number_of_bins_and_width.
Также полезно обратиться к монографии: Лемешко Б.Ю. и др. Статистический анализ данных. Моделирование и исследование вероятностных закономерностей (2011), с.118.
matplotlib мягко говоря заметно лагает при выводе графиков, пока это все для внутренних нужд, оно не принципиально.
Но когда вопрос юзабельности программ более критичен, то разные графики, включая гистограммы, лучше выводить через библиотеку pyqtgraph, тем более что там есть подробный интерактивный сборник примеров функционала библиотеки, который вызывается простым коротким скриптом на python3:
#! /usr/bin/env python3
import pyqtgraph.examples
pyqtgraph.examples.run()
Гистограммы и графики распределения в Python