slava_py Nov 3 2019 at 20:05

Конспект по «Машинному обучению». Теория вероятностей. Формула Байеса

2 min

9.8K

Mathematics * Machine learning *

Comments 20

maxkomp Nov 3 2019 at 20:25

Отлично! Тут все формулы отображаются корректно, причем в том же самом броузере!

slava_py Nov 3 2019 at 20:29

Не понимаю, от чего это зависит???

konshyn Nov 3 2019 at 20:29

Должно помочь

slava_py Nov 3 2019 at 20:34

Спасибо

Palich239 Nov 4 2019 at 16:24

Я, наверное, что-то пропустил на Хабре? Это так принято стало делать много маленьких зарисовок из учебника? Не понимаю как так… Вроде же авторский текст должен быть. Или пометка «перевод» и т.п. Я если не прав — поправьте, в упор не понимаю что изменилось на ресурсе

Alexandr0202 Nov 4 2019 at 17:16

Диссонирующий вывод. С одной стороны, есть тест, который в 95% случаях даёт правильный результат. И этот тест говорит, что пациент заражён. С вероятностью 95% (мы не знаем какую логику оценки использует тест). С другой стороны по формуле получается, что вероятность того, что он действительно заражён всего 16%. Можете объяснить?

slava_py Nov 4 2019 at 18:47

Так как всего 1% населения заражён этим вирусом, то 5% ошибки теста играют существенную роль.
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.

Alexandr0202 Nov 4 2019 at 20:56

А давайте на реальном примере? Возьмём туберкулёз. Возможно, приведу не самый достоверный источник, но точные данные искать лень, а для общего представления достаточно.
Вот ссылка: ТЫЦ
Итак, в 2018 году показатель новых зарегистрированных больных 44.4 на 100 000 человек. Это 0.0444%. Новые тесты достигают показателя точности 98%. То есть, приходит больной в лабораторию, сдаёт анализ и ему говорят: вы больны с вероятностью 98%. А он берёт вашу формулу, пересчитывает и говорит… «не, ребят, я болен с вероятностью около 2%.»
1. Лечить будем?

2. Вопрос с подковыркой: а если 2 раза тест сделает (независимо, в 2-х разных лабораториях) и оба раза тест покажет положительный результат, то какова вероятность, что всё же болен?

slava_py Nov 4 2019 at 22:13

Исходя из формулы Байеса, при условиях, перечисленных выше, чтобы вероятность того, что человек действительно болен, была 0.5, точность теста должна быть 99.9556%. Другой вопрос, какое значение вероятности говорит о том, что надо лечить? Возможно, значение 0.02 превышает этот порог…
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025‬ и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78

Groramar Nov 5 2019 at 07:09

не, ребят, я болен с вероятностью около

Очень может так и быть. Поэтому диагноз ставят не только по одному тесту, а по совокупности тестов и симптомам (клинически):
www.rmj.ru/articles/ftiziatriya/DIAGNOSTIKA_TUBERKULEZA_ORGANOV_DYHANIYa

Alexandr0202 Nov 5 2019 at 20:46

Я не утверждал, что тест — это единичное измерение. Тест может быть комплексным. Каждое измерение имеет какую-то погрешность. Пусть, сделали 10 измерений различных параметров (и назвали это «тест на туберкулёз») и по совокупности они дают вероятность того, что пациент болен 98%. Видите, к чему я клоню?

Groramar Nov 5 2019 at 21:36

Как формула работает ARad внизу хорошо расписал.

Alexandr0202 Nov 6 2019 at 08:22

Да, я видел, спасибо. Но вас я спрашивал не про это. Вам я указывал на то, что состав теста неопределён и вполне может включать в себя всё, что угодно, вплоть до дополнительных расчётов.
Ситуация: есть тест 'А', он даёт точность 95%, есть тест 'В', он тоже даёт точность 95%. Один из этих тестов использует статистику по заболеваниям (формула Байеса уже применена). Пациенту просто говорят результат: вы больны с вероятностью 95%. Очевидно, что для одного из тестов дальнейшее применение формулы Байеса приведёт к неправльным результатам. Отсюда вывод: для того, чтобы понять результат, надо абсолютно точно знать как устроен тест и что именно он показывает. Какое значение вы подразумеваете под словами «точность теста»?

ARad Nov 4 2019 at 22:38

Например проверили всего 2000 человек. Из них всего 20 больных.
Тогда тест даст следующие результат:
1980 * 0.95 = 1881 здоровых
1980 * 0.05 = 99 ложно больных
20 * 0.95 = 19 больных
20 * 0.05 = 1 ложно здоровых

Получается тест определил 99 + 19 = 118 человек как больных. Из них всего 19 он определил верно. 19 / 118 это примерно 16% что человек действительно больной.

gearbox Nov 5 2019 at 11:02

Ять! Лучшее объяснение Байеса которое я видел!

Alexandr0202 Nov 5 2019 at 21:33

Спасибо, отличная иллюстрация. Получается, что для уникального события теста с точностью 95% недостаточно для постановки диагноза, а вот для постановки диагноза на, скажем, цитомегаловирус или герпес, достаточно будет аппарата с точностью 60-70%.
Применяя формулу выходит, что только для болезней, которыми заражены 50% жителей тест будет отвечать своей точности. Вот именно это и контринтуитивно. Возможно, я не до конца понимаю значение термина «точность теста». Попробуете объяснить?

ARad Nov 6 2019 at 08:14

95% точности значит что в из 100 человек он для 95 из них выдаст правильный ответ.
Из примера выше:
1980 * 0.95 = 1881 здоровых
и 20 * 0.95 = 19 больных тест определил верно

и для 5% неверно
1980 * 0.05 = 99 ложно больных
20 * 0.05 = 1 ложно здоровых

Но вот вероятность что определенный больным человек реально больной зависит от распространенности болезни.

Если вас определили здоровым то вероятность неверного результата:
1 ложно здоровый разделить на (1881+1) т.е. 1 человек на 1882 что достаточно много тоже, но меньше 5%

Alexandr0202 Nov 6 2019 at 08:34

Спасибо.
Кажется, вы в последнем расчете на лишнюю сотню домножили. Вероятность оказаться больным, в случае если тест вас определил как здорового, из вашего примера выходит 0.053%.

ARad Nov 6 2019 at 11:20

Во первых у вас и без теста вероятность всего 1%.
Во вторых 5% это в 19 раз меньше чем 95%, получается что после теста вероятность уменьшается еще примерно в 19 раз. 1% / 19 это примерно 0,0526315789473684%. Но это не точный, а интуитивный ответ. А точный по формуле Байеса считайте будет как раз в районе 0,053%.
Т.е. 1 человек на 1882 определенный тестом как здоровый будет больным.

ksr123 Nov 8 2019 at 08:09

А как считается процент ложных результатов? Чтобы определить, верный результат или ложный, нужен еще один тест. А у него есть твоя погрешность. И так далее.

Не могу понять.