Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений.Колдунство какое-то которое заставляет тупо заучивать числа не понимая сути. Проблема ведь не в том что по 29 измерениям дисперсию считать нельзя, а по 30 уже можно. Проблема в статистической значимости гипотез которые можно построить по таким измерениям.
Просто напомнил, что есть метод, который дает считать статистику с одного примера.
cancer & positive == true positive
cancer & negative == true negative <=======
healthy & positive == false positive
healthy & negative == false negative <======
1. наличие болезни и положительные тест — true positive
2. наличие болезни и отрицательный тест — false negative
Можно и так, только не учитывается, что нерабочий прибор может показать правильный результат.
Можно подвести итоги выкладок. При малом количестве данных надо иметь модель, параметры которой мы будем оптимизировать. Модель описывает набор предположений о реальном состоянии дел и мы выбираем наиболее подходящее предположение. Модель должна покрывать возможные варианты, которые мы встретим. При малом количестве данных модель будет выдавать большую дисперсию для выходных параметров, но по мере увеличения количества данных дисперсия будет уменьшаться и прогноз будет более однозначным.
Статья понравилась, но есть некоторые придирки. Статистика — это функция от выборки. Когда данных мало для изучения поведения статистики (интервалов например), пользуются бутстрапом. Это все "обычная" статистика.
Байесовская действительно о большем уровне уверенности в гипотезе (или её опровержение) при получении новых свидетельств (данных). Многие называют это дело верой скорее, если так, то я верю. Потому что (спасибо за аналогию) изучая местность, мы обновляем карту.
В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский.
Рассмотрим уже заезженную модель с ведром, в которое насыпали много черных и белых шаров и тщательно перемешали.
Можно ли считать статистику при малом количестве данных?