Как стать автором
Обновить
20
0
Наиль Шарипов @nrsharip

Аналитик (Data, Web, Product, BI)

Отправить сообщение

Спасибо за хорошее замечание - да, для большинства основных критериев есть условие нормальности распределения исходных данных, поэтому в примерах есть некоторый эффект монотонности. Опять же я выбрал тесты, которые очень часто используются на практике, другие распределения можно также рассмотреть в качестве дополнительного материла. Насчёт вычисления достигнутого уровня значимости и других возможных метрик, я оставил это за рамками статьи - эту информацию можно доучить уже по мере необходимости для конкретных случаев. Здесь же я фокусировался в первую очередь на наглядности доверительных интервалов, т. е. на сути того, как по характеристикам отдельной выборки можно сделать вывод обо всей совокупности.

здравствуйте, посмотрите, возможно эта статья содержит то, о чём вы говорите - Применение статистических критериев при решении задач обнаружения в радиотехнике. Конечно, она дана с явным уклоном в радиолокацию и фильтрацию сигналов, но суть примерно одна и та же.

Я остановился на критерии Неймана-Пирсона и на данном списке тестов сугубо из практических соображений, т. к. они наиболее часто встречаются в реальных задачах, но, разумеется, всегда открыт для изучения других, новых или менее известных подходов, поэтому большое спасибо за отзыв.

Стоит также упомянуть, что я намеренно не стал раскрывать тему вероятности ошибки II рода \beta и тему статистической мощности в попытке максимально упростить подачу материала - рассмотрел только уровень значимости \alpha и эксперименты, где всегда верна нулевая гипотеза (кроме самого последнего). Познакомившись с принципом нулевой гипотезы на простых экспериментах будет уже легче освоить оставшиеся темы.

Спасибо, как я упомянул в начале этой статьи, в ней представлены результаты именно "моделирования" тысячи экспериментов, что априори является весьма урезанной и упрощённой формой того, с чем сталкиваешься в реальной жизни. Демонстрации, которые здесь представлены, служат, скорее, для наглядности математической теории, чем как схемы настоящих экспериментов.

Мне кажется, в случае с данными пользователей продукта, можно провести аналогию, например, с социологическими опросами или с тестами на профориентацию. Согласен, что требуется постоянная "калибровка" таких тестов, но и A/B тесты в современных условиях проводят сотнями практически без остановок, что позволяет держать модели актуальными. То есть, условно, момент перехода "Пушкин-яблоко-нос" к "Лермонтов-груша-ухо" как раз и прокрасится на одном из A/B тестов.

Также, на мой взгляд, главным всё же является вопрос репрезентативности выборки и по-настоящему случайного отбора. Наверное, стоит поправить самого себя, что качество данных всё же важнее их количества. В качестве яркого примера можно привести случай, когда Джордж Гэллап сделал более точный прогноз о победе Рузвельта, основываясь на опросе всего нескольких тысяч избирателей в противовес "Литерари дайджест", который опросил миллионы человек, но ошибся, т. к. выборка была явно смещённой (процесс отбора имел явный изъян).

Пожалуйста, рад поделиться накопленным материалом.

Спасибо за комментарий, в качестве доказательств предлагаю рассмотреть классическую воронку продаж любой компании, которая скорее всего подтвердит эффективность статистических методов для анализа данных по использованию продукта на всех этапах пользовательского опыта.

Согласен. Движение транспортного потока - это классический пример применения распределения Пуассона. Почитать подробнее можно в Главе 7 - "Распределение интервалов между автомобилями" книги П. Н. Малюгина - "Моделирование дорожного движения".

Также стоит обратить внимание на очень интересную статью "Парадокс времени ожидания, или почему мой автобус всегда опаздывает?", где, в частности, также расскрывается тема распределения Пуассона.

Ещё одной очень интересной статьёй является "Анализ распределения временных интервалов между покупками на R", где автор пытается подтвердить или опровергнуть принадлежность интервалов собственных покупок по банковской карте за полгода к определённым распределениям (в частности экспоненциальному).

Спасибо за комментарий. Целью данной статьи являются примеры генерации случайных величин из основных типов распределений. Информации о применении распределений в жизни достаточно много в других статьях, поэтому я решил её здесь не дублировать, чтобы сохранить лаконичность и наглядность примеров данной статьи. С другой стороны, ценностью детализации алгоритма генерации можно назвать, например, тот факт, что распределение Пуассона - это Биномиальное распределение для большого n, или что разница интенсивности отказов в Экспоненциальном распределении и распределении Вейбулла выражается в возводимой степени \frac{1}{k}. Эта информация, которая обычно не лежит на поверхности в других статьях или видео-уроках, что может оказаться ценным для людей, знающих тервер, и для тех, кто только начал знакомство с распределениями.

Исправил, благодарю.

Спасибо, постарался раскрыть суть распределений, так как с этим часто сталкиваешься на практике. Надеюсь, материал будет полезен.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Data Analyst, Product Analyst