victor79 Jul 11 2019 at 04:06

Что такое вероятность и как ее посчитать

5 min

22K

Comments 29

robomakerr Jul 11 2019 at 08:14

Когда в прогнозе пишут «вероятность дождя 50%», как это понимать? «Мы сами не знаем, будет дождь или нет»?
И как проверить достоверность этого прогноза? У нас ведь не будет серии экспериментов, а только один.

agalakhov Jul 11 2019 at 08:23

Это понимать в смысле количества информации. В таком контексте "вероятность" — мера нашего незнания, т.е. величина, связанная с информацией и энтропией. Вероятность 50% означает, что узнавание факта, пошел дождь или нет, даст нам ровно 1 бит информации. Если же вероятность дождя была оценена иной, то мы получим больше или меньше 1 бита.

victor79 Jul 11 2019 at 08:48

Я думаю вопрос вероятности дождя лучше спрашивать у синоптиков, по крайней мере про ихние вероятности. Разные типы данных по разному могут считаться. Единственное что наверняка, это то что для любого прогноза должны быть распределение результата прогноза и доверительные интревалы.

masai Jul 11 2019 at 09:23

Есть два подхода к пониманию вероятности: фреквентистский (вероятность — это предел частоты при увеличении числа экспериментов) и байесовский (вероятность — это уверенность в том, что событие произойдёт). Вот вероятность дождя — это пример байесовской вероятности.

robomakerr Jul 11 2019 at 10:35

Не подскажете, в каком учебнике есть об этих двух подходах?
Ок, а как проверить достоверность в случае байесовской вероятности? Событие-то одно будет.

WinPooh73 Jul 11 2019 at 10:44

Можно считать, что байесовская вероятность — это простая функция от коэффициента, по которому синоптик готов сделать ставку на то, что его прогноз сбудется. Например, если он говорит, что вероятность дождя 25%, значит, он готов заключить пари, что дождя не будет, поставив 3 против 1.

victor79 Jul 11 2019 at 11:04

Тут происходит небольшая путаница в понимании. Следует различать следующие две постановки вопросов: вероятность дождя/события при таких то условиях — это то что я описал, но это не прогноз погоды на сейчас. И другой вопрос, прогноз произойдет ли это событие сейчас. Этот вопрос в статье я не описывал.

masai Jul 11 2019 at 12:47

Не подскажете, в каком учебнике есть об этих двух подходах?

Можно просто про байесовский подход почитать. Например, можно начать с наглядного объяснения теоремы Байеса

Ок, а как проверить достоверность в случае байесовской вероятности? Событие-то одно будет.

А как проверить фреквентистскую вероятность? Ведь вероятность равна частоте при большом числе испытаний только с некоторой вероятностью. То есть, мы определяем вероятность через вероятность. О чём-то подобном писал Литтлвуд в «Дилемме теории вероятностей».

robomakerr Jul 11 2019 at 13:02

Есть вероятность равна частоте с вероятностью например 95%, это вполне устроит)

agalakhov Jul 11 2019 at 13:48

Та вторая вероятность, которая "с некоторой вероятностью", байесовская.

agalakhov Jul 11 2019 at 13:59

Байесовская вероятность зависит от наблюдателя. Она показывает, насколько данный наблюдатель будет удивлен, если событие произойдет. Ее можно непосредственно измерить после того, как данное событие (не) произойдет, по тому, как изменятся ожидания наблюдателя относительно других событий, т.е. по количеству информации.
Два разных человека могут приписать разные вероятность одному и тому же событию, и оба будут правы.

jzha Jul 11 2019 at 09:20

Здравствуйте.
В графике из Excel и следующем графике вы построили функции плотности бета распределения, оно в рассматриваемых вами случаях является сопряженным априорным распределением для параметра биномиального распределения. Параметры этих бета распределений в ваших примерах — (5,2); (8,3); (12, 4) и (25, 7). Например в R первую из этих функций можно построить командой curve(dbeta(x, 5, 2)). Выполнить эту команду и посмотреть результат можно здесь.

Доверительный интервал для параметра биномиального распределения по данным наблюдений можно найти используя метод Клоппера-Пирсона (или, как вариант, снова задействовать бета распределение). Так для 24 успехов из 30 испытаний 95% интервал Клоппера-Пирсона в R находится как binom.test(24, 30, conf.level = 0.95)$conf.int. В результате получаем (0.61, 0.92).
update: для дов. интервала взял цифры не из того графика автора, исправил.

victor79 Jul 11 2019 at 11:39

Это да, но у меня это более простыми методами продемонстрированно как это образуется, возможно будет понятно более широкому кругу людей.

jzha Jul 11 2019 at 13:23

Тогда, на мой взгляд, вам стоило добавить, что помимо сэмплирования можно обойтись формулами. При таком подходе вместо усеченного нормального 0.5, 0.1 распределения органичней смотрится beta распределение с параметрами 12.75, 12.75. Эти распределения почти неразличимы.

код в R

# 2*pnorm(0, 0.5, 0.1) < 6*e-07, поэтому допустим обычный dnorm(0.5, 0.1)

curve(dnorm(x, 0.5, 0.1), lwd = 3, col = "red", ylab = "PDF")

curve(dbeta(x, 12.75 , 12.75), lwd = 3, col = "blue", lty = 2, add = T)

legend(0, 4, c("Normal(0.5, 0.1)", "Beta(12.75, 12.75)"), lwd = 3,

 col=c("red", "blue"), lty = 1:2, bty = "n")

И мы вновь можем воспользоваться формулами.
Ваш график для случая 40/50 строится как curve(dbeta(x, 52.75, 22.75)).
А границ дов. интервала находятся как qbeta(0.025, 52.75, 22.75) и qbeta(0.975, 52.75, 22.75).

victor79 Jul 12 2019 at 03:30

Вашы посты для меня очень итересны. Но обычно те кто хорошо знает тему, они не очень торопятся объяснять, особенно так что бы было понятно
тем кто еще не знает. Можете ли разъяснить, как были получены коэффициенты для бета распределения? И так же интересует, как расчитывать доверительные интервалы для этих распределений без
программы R, мне по крайней мере это нужно в c++, и текущий используемый мной вариант несколько ужасен.

jzha Jul 12 2019 at 08:11

Параметры beta распределения находил в предположении его симметричности и что максимум его функции плотности должен совпадать dnorm(0.5, 0.5, 0.1). То есть, решил уравнение dbeta(0.5, x, x) = dnorm(0.5, 0.5, 0.1). В общем случае надо использовать функцию плотности усеченного нормального распределения — dtruncnorm.

Для расчета квантиль функций проще всего использовать с/c++ библиотеки. В частности, бета распределение в GSL и в Boost. Или вы хотите реализовать эти вычисления самостоятельно?

victor79 Jul 12 2019 at 10:08

Не, самостоятельно реализовывать это лишне, если уже есть. Там пределы предельных формул, это уже за пределами моих возможностей и дефицита времени).

А вот эта dbeta(x, 52.75, 22.75) как образовалась? Исходные это dbeta(x,12.75,12.75) и dbeta(x,41,11). Можно было бы предположить какую-нибудь слагаемость, но получается лишняя единичка.

jzha Jul 12 2019 at 10:29

При априорном равномерном распределении параметры равны (1,1), так как dunif(0,1) = dbeta(1,1).
При априорном усеченном нормальном распределении параметры равны (12.75, 12.75).
После 40 успехов в 50 испытаниях апостериорные параметры получаются равными (41, 11) при первом предположении и (52.75, 22.75) во втором случае.

victor79 Jul 12 2019 at 10:40

Вот эта цифра 52.75, это образовалось таким образом 41+12.75-1? Если да, то на основании каких свойств?

jzha Jul 12 2019 at 10:52

Нет, 52.75 = 12.75 + 40. Используем число наблюдаемых успехов — 40.

victor79 Jul 12 2019 at 11:33

Непонятно почему именно здесь именно так, но удостоверюсь итерационно, и буду использовать.

В любом случае спасибо, как раз поставил gsl и посчитал квантили от бета. Давно искал.

jzha Jul 12 2019 at 12:49

Честно говоря, мне непонятно, почему вы в качестве слагаемого хотите использовать 41. Откуда появилась эта дополнительная 1, ведь число успехов 40? Вероятно, мы друг друга недопонимаем.
Посмотрите вывод этой формулы, например, здесь или в википедии.

victor79 Jul 12 2019 at 13:13

Именно такие отсылки я и хотел увидеть, спасибо, буду осмысливать.

Vitter Jul 11 2019 at 12:25

Доверительный интервал часто используют не в процентах, а в сигмах(среднеквадратичных отклонениях).
Например, в физике частиц, явление признают, если статистическая значимость не менее 5 сигм (т. е. с вероятностью 1 — 0.0000003)

victor79 Jul 11 2019 at 19:27

Это допустимо только для симметричных функций. Значение вероятности распределяется не симметрично, значит одна из сторон области будет кривой и может вообще выйти за границы 0..1.

a3aquB Jul 11 2019 at 15:42

Полученный расчет закинул в эксель и сделал график

vectorplus Jul 11 2019 at 20:34

А чем вам ексель не угодил? Я бы лично делал визуализацию в R, ну или Python, просто потому что мне так привычнее, но когда я смотрю на график, мне всё равно, как он сделан, лишь бы был корректным и легко читаемым.

shuhray Jul 11 2019 at 16:05

Вероятность можно оценить до опыта из соображений симметрии. Есть правильная игральная кость, вероятность выпадения каждой грани одна шестая. Дальше бросаем эту кость, будет ли частота стремиться к вероятности? Если бросать каждый раз совершенно (идеально) одинаково, то и выпадать должна одна и та же грань. Но мы бросаем не совсем одинаково и разница быстро увеличивается, если кость подпрыгнет пару раз. На эту тему есть наука «эргодическая теория» (частота стремится к вероятности, если выполнено некоторое «свойство перемешивания», то есть первоначальные малые различия быстро растут со временем).

victor79 Jul 12 2019 at 01:26

>Вероятность можно оценить до опыта из соображений симметрии.
из соображений механических и прочих свойств исследуемого события. Что я и делаю относительно монеты — делаю предпосылку что там более специфичная вероятность. И уже после еще более уточняю первую предпосылку. Для игральной кости разбросы могут быть не в десятые вероятности, а в тысячные или более. Но дальше картина та же.