Исходя из формулы Байеса, при условиях, перечисленных выше, чтобы вероятность того, что человек действительно болен, была 0.5, точность теста должна быть 99.9556%. Другой вопрос, какое значение вероятности говорит о том, что надо лечить? Возможно, значение 0.02 превышает этот порог…
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025 и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78
Так как всего 1% населения заражён этим вирусом, то 5% ошибки теста играют существенную роль.
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.
Я попытался собрать воедино некоторые результаты мат анализа для людей, которые хотят изучать машинное обучение, но ленятся лопатить классические учебники. Серия этих статей называется «Конспект по машинному обучению». Идея в том, чтобы по каждой теме была написана краткая выжимка основных результатов. Я думаю, это удобно: зайти на Хабр и быстро посмотреть, что тебе надо. На какую-либо гениальность я не претендую.
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025 и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.