Спасибо! Еще будет про геоданные и карты, вероятно, под конец января, и сперва в моем блоге. Если хотите немного "забежать вперед", можете пройтись по моему коду (gist) к этому посту. Вся карта воссоздается с нуля этим кодом.
Спасибо! Хорошее замечание. Честный ответ — потому что не подумал. Но действительно, картинки тут только как примеры использования, не в них суть. Кроме того, этот материал я готовил для студентов, которым прививаю интерес к R через визуализацию данных.
Не так давно писал два поста (раз, два — на английском) о том, как строить композитные карты в ggplot2. Функция annotate_custom позволяет творить чудеса.
Да, это очень мощное дополнение к боксплоту.
Ну а грубо по многим причинам. Главное (насколько я понимаю): мы визуализируем распределения с помощью боксплота, как правило, перед тем, как покрутить регрессии и посмотреть значимость различий. В большинстве случаев результаты анализа говорят нам о различиях в средних значениях, а не медианных. То есть аналитическая мощь этих засечек опирается на допущение о нормальности распределения, что редко бывает совсем уж правдой. Но все это значимо лишь в пограничных случаях (когда, кстати, и выбор 95% доверительного интервала — не более чем условность). Если различия по засечкам большие, то можно быть уверенным в их статистической значимости.
Еще очень удобны засечки (notches), обозначающие доверительный интервал медианы. Можно быстро и довольно надежно судить о значимости различий между группами наблюдений.
Пример
Примечание: TSR = Total Support Ratio — отношение численности населения в трудоспособном возрасте (15-64) к численности населения старше моложе трудоспособного возраста
Литература по теме
Krzywinski, M., & Altman, N. (2014). Points of Significance: Visualizing samples with box plots. Nature Methods, 11(2), 119–120. https://doi.org/10.1038/nmeth.2813
McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12–16. https://doi.org/10.2307/2683468
Мой последний содержательный пост (который я считаю самым крутым с точки зрения использованных технологий) прошел почти незамеченным, тогда как этот дискуссионный пост набрал рекордное для меня число плюсов.
Но я вообще не вижу, как популярный медиаресурс может обойтись совсем без завлекаловки со всеми вытекающими. И так удивительно, сколько всего ценного есть на хабре.
Не согласен.
Хабр — открытая площадка. Качество статей фильтруется голосованием. Незачем дополнительно вводить барьер в виде редакторов. Сейчас редактура поста — личная ответственность автора. Схалтуришь — заминусуют. Ну а если хабр голосованием поднимает посты, которые кажется вам слабыми… ну что ж… на эту тему много писали. Я не застал толком времена (если такие были), когда по общему мнению (если такое есть) хабр был тортом. В целом, мне очень многое нравится на хабре сегодняшнем. Но всегда можно что-то улучшить.
Спасибо! Еще будет про геоданные и карты, вероятно, под конец января, и сперва в моем блоге. Если хотите немного "забежать вперед", можете пройтись по моему коду (gist) к этому посту. Вся карта воссоздается с нуля этим кодом.
Спасибо! Хорошее замечание. Честный ответ — потому что не подумал. Но действительно, картинки тут только как примеры использования, не в них суть. Кроме того, этот материал я готовил для студентов, которым прививаю интерес к R через визуализацию данных.
Ну зачем же так жестоко. Дайте человеку всласть потрахаться с багами в пятничный вечер))
Не так давно писал два поста (раз, два — на английском) о том, как строить композитные карты в
ggplot2. Функцияannotate_customпозволяет творить чудеса.reveal.js прекрасно создается из-под R.
http://rmarkdown.rstudio.com/revealjs_presentation_format.html
Очень рекомендую.
Мой пример
Да, это очень мощное дополнение к боксплоту.
Ну а грубо по многим причинам. Главное (насколько я понимаю): мы визуализируем распределения с помощью боксплота, как правило, перед тем, как покрутить регрессии и посмотреть значимость различий. В большинстве случаев результаты анализа говорят нам о различиях в средних значениях, а не медианных. То есть аналитическая мощь этих засечек опирается на допущение о нормальности распределения, что редко бывает совсем уж правдой. Но все это значимо лишь в пограничных случаях (когда, кстати, и выбор 95% доверительного интервала — не более чем условность). Если различия по засечкам большие, то можно быть уверенным в их статистической значимости.
да
Но это довольно грубый и быстрый способ расчета доверительного интервала
Это и есть boxplot. Только добавлены засечки, обозначающие приближенно доверительный интервал медианного значения
Еще очень удобны засечки (notches), обозначающие доверительный интервал медианы. Можно быстро и довольно надежно судить о значимости различий между группами наблюдений.
Примечание: TSR = Total Support Ratio — отношение численности населения в трудоспособном возрасте (15-64) к численности населения старше моложе трудоспособного возраста
Krzywinski, M., & Altman, N. (2014). Points of Significance: Visualizing samples with box plots. Nature Methods, 11(2), 119–120. https://doi.org/10.1038/nmeth.2813
McGill, R., Tukey, J. W., & Larsen, W. A. (1978). Variations of Box Plots. The American Statistician, 32(1), 12–16. https://doi.org/10.2307/2683468
вот классный пост varagian про формулу рейтинга
карма и рейтинг вообще — очень мутная система, заслуживает отдельной дискуссии
Совершенно справедливое замечание!
Мой последний содержательный пост (который я считаю самым крутым с точки зрения использованных технологий) прошел почти незамеченным, тогда как этот дискуссионный пост набрал рекордное для меня число плюсов.
Но я вообще не вижу, как популярный медиаресурс может обойтись совсем без завлекаловки со всеми вытекающими. И так удивительно, сколько всего ценного есть на хабре.
Не согласен.
Хабр — открытая площадка. Качество статей фильтруется голосованием. Незачем дополнительно вводить барьер в виде редакторов. Сейчас редактура поста — личная ответственность автора. Схалтуришь — заминусуют. Ну а если хабр голосованием поднимает посты, которые кажется вам слабыми… ну что ж… на эту тему много писали. Я не застал толком времена (если такие были), когда по общему мнению (если такое есть) хабр был тортом. В целом, мне очень многое нравится на хабре сегодняшнем. Но всегда можно что-то улучшить.
Да не, развернуть на хабре систему типа SO (не говоря уже о git) — это слишком. Хотя бы просто соавторство для начала
Тсс… кто прошлое помянет
ага, по почте Word… плавали — знаем
Да, хотя atom + markdown preview — с этим даже бабушка разберется
А не проще отправить .md файл?
В рамках моего предложения достаточно будет просто позволить указывать более одного автора поста — с последующим разделением ответственности
Прелесть соавторства в том, что ты волен выбирать, с кем писать вместе, и варьировать команды сколько угодно. Командный аккаунт не даст такой свободы