Теорема Байеса для чайников / Хабр

Теорема (формула) Байеса позволяет выяснить вероятность события при условии, что произошло связанное с ним другое событие.

Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома.

Фрагмент из к/с "Теория большого взрыва"

P(A|B) означает условную вероятность события A, если произошло событие B. P(A) - вероятность события A (гипотеза). P(B) - вероятность события B.

Вероятность события может быть от 0% до 100% (или от 0 до 1). Если обозначим событие буквой A, то вероятность этого события (A) будет P(A). Например, на шестигранном кубике 🎲 6 граней и вероятность выпадения любого числа одинакова, поэтому вероятность выпадения любого числа будет 1/6 (или 0.166..; или 16,66..%). P(1)=P(2)..=P(6)=16.66..%. Сумма же вероятностей всех (несовместимых) событий будет 100% (или 1).

На примере коробок с шариками

Допустим, у нас есть две коробки: желтая и зеленая. В каждой коробке лежат шарики: красные и синие. В желтой коробке 1 синий шарик и 1 красный, в зеленой - 6 синих и 2 красных. Если мы вслепую достали красный шарик, то из какой коробки он вероятнее всего?

Вероятность (вслепую) достать синий шарик (C) из желтой коробки (Ж) будет P(С|Ж) = 50%. Рассчитывается как количество синих шариков в коробке, деленное на общее количество шариков в коробке. 1/2 = 0.5 или 50%. Аналогично для красных шариков (К) и зеленой (З) коробки: P(К|Ж) = 1/(1+1) = 50%; P(C|З) = 6/(6+2) = 75%; P(К|З) = 2/(6+2) = 25%.

Условные вероятности цвета шарика в зависимости от коробки

Если мы достанем случайный шарик, то в зависимости от цвета шарика мы можем вычислить вероятность того, из какой коробки мы его достали (по формуле Байеса). P(Ж|С) - вероятность желтой коробки при синем шарике; P(Ж|К) - желтой при красном и т.д.

Вероятность цвета коробки от цвета шарика

Всего шариков в обеих коробках (N) = 1+1+6+2=10. Всего в желтой коробке (Ж) = 1+1=2 шарика, в зеленой (З) = 2+6=8 шариков. Вероятность, что случайный шарик будет из желтой коробки будет P(Ж) = 20%; из зеленой P(З) = 80%.

Всего красных шариков (К) = 1+2=3, синих (С) = 1+6=7. Если мы достаем шарик из общей кучи (т.е. независимо от коробки), то вероятность того, что он будет красным, P(К)=30%; синим P(С)=70%.

Вероятность цвета шарика из общего числа

Если мы не видели, из какой коробки достали шарик, то по цвету шарика мы можем определить вероятность той или иной коробки по формуле Байеса. Например, вероятность, что красный шарик был из желтой коробки.

P(Ж|К) = P(К|Ж) * P(Ж) / P(К) = 0.5 * 0.2 / 0.3 = 0.333.. = 33.3% = 1/3. Значит, если мы достанем красный шарик, то вероятность, что он из желтой коробки - 1/3.

Т.к. в сумме Р(Ж|К)+Р(З|К) = 1, т.к. вероятность, что красный шарик либо из красной либо из зеленой коробки 100%, то вероятность красного шарика из зеленой коробки:

P(З|К) = 1 - Р(Ж|К) = 1 - 1/3 = 2/3

Или по формуле: P(З|К) = P(К|З) * P(З) / P(К) = 0.25 * 0.8 / 0.3 = 0.666.. = 66.6% = 2/3

Для синего шарика из желтой и зеленой коробки:

P(Ж|С) = P(С|Ж) * P(Ж) / P(С) = 0.5 * 0.2 / 0.7 = 0.0,1428.. = 14.28% = 1/7

P(З|С) = 1 - 1/7 = 6/7

Или по формуле: P(З|С) = P(С|З) * P(З) / P(С) = 0,75 * 0,8 / 0,7 = 0,8571 = 85.71..% = 6/7

Можно рассмотреть это так: всего синих шариков - 7, из них 6 в зеленой коробке (6/7) и 1 шарик в желтой (1/7). Всего красных - 3, из них 1/3 в желтой и 2/3 - в красной. Значит, если мы достанем красный шарик, то вероятность, что он из желтой будет выше, чем для синего (1/3 > 1/7).

И что в этом такого?

Удивительные и контринтуитивные результаты этой формулы можно увидеть на примере теста на ВИЧ. По статистике заражения ВИЧ (в РФ за 2014 год) - 742 631 больных на 143800000 = 0.51%. (На 2022 уже 1,5 млн.) Допустим, чувствительность теста = 95%, специфичность = 97%. Т.е. вероятность ошибки теста для ложноположительного - 3%, ложноотрицательного - 5%.

Если тест на ВИЧ положительный, то какова реальная вероятность наличия болезни? Может показаться, что учитывая высокую точность теста, результат будет высоким. Однако - не совсем.

Расчет

Вероятность болезни (распространенность), P(Б) = 0,51% = 0.0051.

Вероятность оказаться здоровым, P(З) = 100% - 0.51% = 99.49% = 0.9949.

Чувствительность, т.е. вероятность положительного результата теста больного:

P(П|Б) = 95%; Отрицательный у больного Р(О|Б) = 1 - 0.95 = 0.05 = 5%.

Специфичность, т.е. вероятность отрицательного результата теста здорового:

P(О|З) = 97%, положительного теста у здорового Р(П|З) = 1 - 0.97 = 0.03 = 3%.

Вероятность наличия болезни при положительном тесте:

P(Б|П) = P(П|Б) * P(Б) / P(П).

P(П) рассчитывается по формуле полной вероятности. Как сумма вероятностей положительного теста для больного и здорового. Полная вероятность положительного теста:

Р(П) = P(П|Б) * P(Б) + P(П|З) * P(З) = 0.95 * 0.0051 + 0.03 * 0.9949 = 0.03469

P(Б|П) = P(П|Б) * P(Б) / P(П) = 0.95 * 0.0051 / 0.03469 = 0.1396 = 14%.

Для расчета вероятности болезни при повторном положительном тесте мы используем ту же формулу, но заменяем P₂(Б) на P(Б|П) из предыдущего расчета.

P₂(З) = 1 - Р₂(Б) = 1 - 0.1396 = 0.8604

P₂(П) = P(П|Б) * Р₂(Б) + P(П|З) * P₂(З) = 0.95 * 0.1396 + 0.03 * 0.8604 = 0.1584

P₂(Б|П) = P(П|Б) * P₂(Б) / P₂(П) = 0.95 * 0.1396 / 0.1584 = 0.8372

Вероятность наличия ВИЧ при положительном тесте будет всего лишь около 14%, что явно является контринтуитивным результатом. В этом случае необходимо сдать повторный тест, но даже при повторном тестировании, вероятность будет лишь около 83%.

Дело в том, что сама вероятность наличия болезни крайне низкая, а шанс оказаться здоровым - высокая, поэтому даже небольшая неточность в тесте может сильно исказить результат. Если бы тест был на 100% точным - такого бы не произошло. Но на 100% мы можем быть уверены лишь в том, что мы ни в чем не можем быть уверенны на 100%.

По аналогии с шариками в коробках - положительный результат - красный шарик, синий - отрицательный. Желтая коробка - болен, зеленая - здоров.

Изучение болезней и частотная интерпретация

Допустим, мы изучили 17 пациентов. У каждого из них мы обнаружили наличие некой болезни (А) и определенных симптомов (B). 17 - это очень маленькая выборка для статистики, но достаточно для примера.

Данные занесены в таблицу, где 1 - положительный результат, 0 - отрицательный. Там же рассчитали общее количество (N), количество положительных результатов (+), вероятность (P), наличие симптомов у больных (B|A), у здоровых (B|!A); отсутствие симптомов у больных (!B|A) и у здоровых (!B|!A). Восклицательный знак значит "не", т.е. "!A" значит "не болен".

В столбце (B|A) мы учитываем лишь те значения (B), где (A)=1. В столбце (B|!A) те, где (A)=0. И т.д.

Таблица

№	A	B	B\|A	!B\|A	B\|!A	!B\|!A
1	0	0			0	1
2	1	1	1	0
3	1	1	1	0
4	0	0			0	1
5	1	1	1	0
6	0	0			0	1
7	1	1	1	0
8	0	0			0	1
9	0	0			0	1
10	0	1			1	0
11	1	0	0	1
12	0	1			1	0
13	0	0			0	1
14	1	1	1	0
15	1	1	1	0
16	0	0			0	1
17	0	1			1	0
N	17	17	7	7	10	10
+	7	9	6	1	3	7
P	41.18%	52.94%	85.71%	14.29%	30.00%	70.00%

На основе этих данных можно составить частотную диаграмму. Это дерево, которое отражает вероятность того или иного исхода как вес ребра (стрелка с числом). Так же можно составить дерево с корнем из наличия симптома (обратное дерево).

Из этих данных уже можно рассчитать и вероятность наличия болезни если есть симптом, или P(A|B) = P(B|A)*P(A)/P(B)=0.8171*0.4118/0.5294=0.6355. Т.е. 63,55%.

Подобным образом изучались так же и симптомы COVID-19. Там же можно взглянуть и на древовидные диаграммы частотной интерпретации.

Заключение

Постарался изложить материал максимально доступно. Есть так же расширенная форма (с оценкой нескольких событий от события B), байесовская интерпретация с гипотезой априорной вероятности и подстановкой апостериорной вероятности, степенью доверия к гипотезе и т.д. Но в целом основные моменты раскрыл без лишних усложнений.