Comments 29
И как проверить достоверность этого прогноза? У нас ведь не будет серии экспериментов, а только один.
Это понимать в смысле количества информации. В таком контексте "вероятность" — мера нашего незнания, т.е. величина, связанная с информацией и энтропией. Вероятность 50% означает, что узнавание факта, пошел дождь или нет, даст нам ровно 1 бит информации. Если же вероятность дождя была оценена иной, то мы получим больше или меньше 1 бита.
Есть два подхода к пониманию вероятности: фреквентистский (вероятность — это предел частоты при увеличении числа экспериментов) и байесовский (вероятность — это уверенность в том, что событие произойдёт). Вот вероятность дождя — это пример байесовской вероятности.
Ок, а как проверить достоверность в случае байесовской вероятности? Событие-то одно будет.
Не подскажете, в каком учебнике есть об этих двух подходах?
Можно просто про байесовский подход почитать. Например, можно начать с наглядного объяснения теоремы Байеса
Ок, а как проверить достоверность в случае байесовской вероятности? Событие-то одно будет.
А как проверить фреквентистскую вероятность? Ведь вероятность равна частоте при большом числе испытаний только с некоторой вероятностью. То есть, мы определяем вероятность через вероятность. О чём-то подобном писал Литтлвуд в «Дилемме теории вероятностей».
Байесовская вероятность зависит от наблюдателя. Она показывает, насколько данный наблюдатель будет удивлен, если событие произойдет. Ее можно непосредственно измерить после того, как данное событие (не) произойдет, по тому, как изменятся ожидания наблюдателя относительно других событий, т.е. по количеству информации.
Два разных человека могут приписать разные вероятность одному и тому же событию, и оба будут правы.
В графике из Excel и следующем графике вы построили функции плотности бета распределения, оно в рассматриваемых вами случаях является сопряженным априорным распределением для параметра биномиального распределения. Параметры этих бета распределений в ваших примерах — (5,2); (8,3); (12, 4) и (25, 7). Например в R первую из этих функций можно построить командой
curve(dbeta(x, 5, 2))
. Выполнить эту команду и посмотреть результат можно здесь.Доверительный интервал для параметра биномиального распределения по данным наблюдений можно найти используя метод Клоппера-Пирсона (или, как вариант, снова задействовать бета распределение). Так для 24 успехов из 30 испытаний 95% интервал Клоппера-Пирсона в R находится как
binom.test(24, 30, conf.level = 0.95)$conf.int
. В результате получаем (0.61, 0.92).update: для дов. интервала взял цифры не из того графика автора, исправил.
# 2*pnorm(0, 0.5, 0.1) < 6*e-07, поэтому допустим обычный dnorm(0.5, 0.1)
curve(dnorm(x, 0.5, 0.1), lwd = 3, col = "red", ylab = "PDF")
curve(dbeta(x, 12.75 , 12.75), lwd = 3, col = "blue", lty = 2, add = T)
legend(0, 4, c("Normal(0.5, 0.1)", "Beta(12.75, 12.75)"), lwd = 3,
col=c("red", "blue"), lty = 1:2, bty = "n")
И мы вновь можем воспользоваться формулами.
Ваш график для случая 40/50 строится как
curve(dbeta(x, 52.75, 22.75))
. А границ дов. интервала находятся как
qbeta(0.025, 52.75, 22.75)
и qbeta(0.975, 52.75, 22.75)
.тем кто еще не знает. Можете ли разъяснить, как были получены коэффициенты для бета распределения? И так же интересует, как расчитывать доверительные интервалы для этих распределений без
программы R, мне по крайней мере это нужно в c++, и текущий используемый мной вариант несколько ужасен.
Для расчета квантиль функций проще всего использовать с/c++ библиотеки. В частности, бета распределение в GSL и в Boost. Или вы хотите реализовать эти вычисления самостоятельно?
А вот эта dbeta(x, 52.75, 22.75) как образовалась? Исходные это dbeta(x,12.75,12.75) и dbeta(x,41,11). Можно было бы предположить какую-нибудь слагаемость, но получается лишняя единичка.
При априорном усеченном нормальном распределении параметры равны (12.75, 12.75).
После 40 успехов в 50 испытаниях апостериорные параметры получаются равными (41, 11) при первом предположении и (52.75, 22.75) во втором случае.
Например, в физике частиц, явление признают, если статистическая значимость не менее 5 сигм (т. е. с вероятностью 1 — 0.0000003)
Полученный расчет закинул в эксель и сделал график
из соображений механических и прочих свойств исследуемого события. Что я и делаю относительно монеты — делаю предпосылку что там более специфичная вероятность. И уже после еще более уточняю первую предпосылку. Для игральной кости разбросы могут быть не в десятые вероятности, а в тысячные или более. Но дальше картина та же.
Что такое вероятность и как ее посчитать