Как стать автором
Обновить

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров11K
Всего голосов 22: ↑22 и ↓0+25
Комментарии13

Комментарии 13

Спасибо, мощно!

Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные об использовании лишь...

Не, нельзя. Это же люди, субъекты и применение к ним математики, рассчитанной для объектов, весьма сомнительно вот так, без доказательств.

Ну, эти субъекты в миллионной массе часто ведут себя как объекты. Пушкин-яблоко-нос. Предсказуемо схоже

Спасибо за комментарий, в качестве доказательств предлагаю рассмотреть классическую воронку продаж любой компании, которая скорее всего подтвердит эффективность статистических методов для анализа данных по использованию продукта на всех этапах пользовательского опыта.

воронку продаж придумали маркетологи для обоснования своего неумения применять математику

прекрасная статья с картинками

Это после промышленной революции, при переходе от мастерских к массовому производству и возник такой метод и такая математика

Зачем проверять миллионы болтов, когда можно проверить тысячу?

и эта математика и такие методы тогда и в таком производстве оправданы. Они подтверждали и обосновывали уменьшение расходов на проверку. Или же, тоже классическая задача тех времен, сколько снарядов для пушки для поражения цели.

Но для людей такие методы нужно применять с большой осторожностью и каждый раз доказывать корректность применения этой древней математики. Это как теорема Пифагора только на плоскости и что бы её применять, ну очень древнюю теорему, нужно убедиться, что расстояние меряем на плоскости, по прямой.

@Radisto пока вы меряете свойства одной группы, то у всей популяции уже "Лермонтов-груша-ухо" . Это субъекты и их будущее невозможно предсказать по прошлому. Это измерение свойств уже сделанных болтов так можно определять или свойства электронов/протонов. И все биржи предупреждают - доходы в прошлом ничего не говорят о доходах/потерях в будущем тоже именно поэтому.

Так что статья красиво описывает методы, но вот применение их к клиентам/посетителям/брокерам не оправданно без тщательного доказательства применимости. (Это как бы прикладная математика называется)

Спасибо, как я упомянул в начале этой статьи, в ней представлены результаты именно "моделирования" тысячи экспериментов, что априори является весьма урезанной и упрощённой формой того, с чем сталкиваешься в реальной жизни. Демонстрации, которые здесь представлены, служат, скорее, для наглядности математической теории, чем как схемы настоящих экспериментов.

Мне кажется, в случае с данными пользователей продукта, можно провести аналогию, например, с социологическими опросами или с тестами на профориентацию. Согласен, что требуется постоянная "калибровка" таких тестов, но и A/B тесты в современных условиях проводят сотнями практически без остановок, что позволяет держать модели актуальными. То есть, условно, момент перехода "Пушкин-яблоко-нос" к "Лермонтов-груша-ухо" как раз и прокрасится на одном из A/B тестов.

Также, на мой взгляд, главным всё же является вопрос репрезентативности выборки и по-настоящему случайного отбора. Наверное, стоит поправить самого себя, что качество данных всё же важнее их количества. В качестве яркого примера можно привести случай, когда Джордж Гэллап сделал более точный прогноз о победе Рузвельта, основываясь на опросе всего нескольких тысяч избирателей в противовес "Литерари дайджест", который опросил миллионы человек, но ошибся, т. к. выборка была явно смещённой (процесс отбора имел явный изъян).

Очень круто. Интересно, почему все вертится вокруг критерия Неймана-Пирсона? На Хабре нет ни одной статьи в которой бы описывались критерий Вальда или критерий Байеса. Было бы круто если бы вы так же наглядно показали последовательные или инкапсулированные аналоги всех вышеприведенных тестов.

здравствуйте, посмотрите, возможно эта статья содержит то, о чём вы говорите - Применение статистических критериев при решении задач обнаружения в радиотехнике. Конечно, она дана с явным уклоном в радиолокацию и фильтрацию сигналов, но суть примерно одна и та же.

Я остановился на критерии Неймана-Пирсона и на данном списке тестов сугубо из практических соображений, т. к. они наиболее часто встречаются в реальных задачах, но, разумеется, всегда открыт для изучения других, новых или менее известных подходов, поэтому большое спасибо за отзыв.

Стоит также упомянуть, что я намеренно не стал раскрывать тему вероятности ошибки II рода \beta и тему статистической мощности в попытке максимально упростить подачу материала - рассмотрел только уровень значимости \alpha и эксперименты, где всегда верна нулевая гипотеза (кроме самого последнего). Познакомившись с принципом нулевой гипотезы на простых экспериментах будет уже легче освоить оставшиеся темы.

Статистики, основанные на нормальном распределении, разжевываются практически в любом учебнике по статистике. Хотелось бы увидеть что-то не подразумевающее нормальное распределение исходных данных. А, допустим, логнормальное, бета-, гамма-, предельных значений. В тексте явно напрашивается добавить описание процедуры вычисления "достигнутого уровня значимости".

Спасибо за хорошее замечание - да, для большинства основных критериев есть условие нормальности распределения исходных данных, поэтому в примерах есть некоторый эффект монотонности. Опять же я выбрал тесты, которые очень часто используются на практике, другие распределения можно также рассмотреть в качестве дополнительного материла. Насчёт вычисления достигнутого уровня значимости и других возможных метрик, я оставил это за рамками статьи - эту информацию можно доучить уже по мере необходимости для конкретных случаев. Здесь же я фокусировался в первую очередь на наглядности доверительных интервалов, т. е. на сути того, как по характеристикам отдельной выборки можно сделать вывод обо всей совокупности.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории