Комментарии 20
Отлично! Тут все формулы отображаются корректно, причем в том же самом броузере!
Я, наверное, что-то пропустил на Хабре? Это так принято стало делать много маленьких зарисовок из учебника? Не понимаю как так… Вроде же авторский текст должен быть. Или пометка «перевод» и т.п. Я если не прав — поправьте, в упор не понимаю что изменилось на ресурсе
Диссонирующий вывод. С одной стороны, есть тест, который в 95% случаях даёт правильный результат. И этот тест говорит, что пациент заражён. С вероятностью 95% (мы не знаем какую логику оценки использует тест). С другой стороны по формуле получается, что вероятность того, что он действительно заражён всего 16%. Можете объяснить?
Так как всего 1% населения заражён этим вирусом, то 5% ошибки теста играют существенную роль.
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.
А давайте на реальном примере? Возьмём туберкулёз. Возможно, приведу не самый достоверный источник, но точные данные искать лень, а для общего представления достаточно.
Вот ссылка: ТЫЦ
Итак, в 2018 году показатель новых зарегистрированных больных 44.4 на 100 000 человек. Это 0.0444%. Новые тесты достигают показателя точности 98%. То есть, приходит больной в лабораторию, сдаёт анализ и ему говорят: вы больны с вероятностью 98%. А он берёт вашу формулу, пересчитывает и говорит… «не, ребят, я болен с вероятностью около 2%.»
1. Лечить будем?
2. Вопрос с подковыркой: а если 2 раза тест сделает (независимо, в 2-х разных лабораториях) и оба раза тест покажет положительный результат, то какова вероятность, что всё же болен?
Вот ссылка: ТЫЦ
Итак, в 2018 году показатель новых зарегистрированных больных 44.4 на 100 000 человек. Это 0.0444%. Новые тесты достигают показателя точности 98%. То есть, приходит больной в лабораторию, сдаёт анализ и ему говорят: вы больны с вероятностью 98%. А он берёт вашу формулу, пересчитывает и говорит… «не, ребят, я болен с вероятностью около 2%.»
1. Лечить будем?
2. Вопрос с подковыркой: а если 2 раза тест сделает (независимо, в 2-х разных лабораториях) и оба раза тест покажет положительный результат, то какова вероятность, что всё же болен?
Исходя из формулы Байеса, при условиях, перечисленных выше, чтобы вероятность того, что человек действительно болен, была 0.5, точность теста должна быть 99.9556%. Другой вопрос, какое значение вероятности говорит о том, что надо лечить? Возможно, значение 0.02 превышает этот порог…
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025 и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025 и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78
не, ребят, я болен с вероятностью околоОчень может так и быть. Поэтому диагноз ставят не только по одному тесту, а по совокупности тестов и симптомам (клинически):
www.rmj.ru/articles/ftiziatriya/DIAGNOSTIKA_TUBERKULEZA_ORGANOV_DYHANIYa
Я не утверждал, что тест — это единичное измерение. Тест может быть комплексным. Каждое измерение имеет какую-то погрешность. Пусть, сделали 10 измерений различных параметров (и назвали это «тест на туберкулёз») и по совокупности они дают вероятность того, что пациент болен 98%. Видите, к чему я клоню?
Как формула работает ARad внизу хорошо расписал.
Да, я видел, спасибо. Но вас я спрашивал не про это. Вам я указывал на то, что состав теста неопределён и вполне может включать в себя всё, что угодно, вплоть до дополнительных расчётов.
Ситуация: есть тест 'А', он даёт точность 95%, есть тест 'В', он тоже даёт точность 95%. Один из этих тестов использует статистику по заболеваниям (формула Байеса уже применена). Пациенту просто говорят результат: вы больны с вероятностью 95%. Очевидно, что для одного из тестов дальнейшее применение формулы Байеса приведёт к неправльным результатам. Отсюда вывод: для того, чтобы понять результат, надо абсолютно точно знать как устроен тест и что именно он показывает. Какое значение вы подразумеваете под словами «точность теста»?
Ситуация: есть тест 'А', он даёт точность 95%, есть тест 'В', он тоже даёт точность 95%. Один из этих тестов использует статистику по заболеваниям (формула Байеса уже применена). Пациенту просто говорят результат: вы больны с вероятностью 95%. Очевидно, что для одного из тестов дальнейшее применение формулы Байеса приведёт к неправльным результатам. Отсюда вывод: для того, чтобы понять результат, надо абсолютно точно знать как устроен тест и что именно он показывает. Какое значение вы подразумеваете под словами «точность теста»?
Например проверили всего 2000 человек. Из них всего 20 больных.
Тогда тест даст следующие результат:
1980 * 0.95 = 1881 здоровых
1980 * 0.05 = 99 ложно больных
20 * 0.95 = 19 больных
20 * 0.05 = 1 ложно здоровых
Получается тест определил 99 + 19 = 118 человек как больных. Из них всего 19 он определил верно. 19 / 118 это примерно 16% что человек действительно больной.
Тогда тест даст следующие результат:
1980 * 0.95 = 1881 здоровых
1980 * 0.05 = 99 ложно больных
20 * 0.95 = 19 больных
20 * 0.05 = 1 ложно здоровых
Получается тест определил 99 + 19 = 118 человек как больных. Из них всего 19 он определил верно. 19 / 118 это примерно 16% что человек действительно больной.
Ять! Лучшее объяснение Байеса которое я видел!
Спасибо, отличная иллюстрация. Получается, что для уникального события теста с точностью 95% недостаточно для постановки диагноза, а вот для постановки диагноза на, скажем, цитомегаловирус или герпес, достаточно будет аппарата с точностью 60-70%.
Применяя формулу выходит, что только для болезней, которыми заражены 50% жителей тест будет отвечать своей точности. Вот именно это и контринтуитивно. Возможно, я не до конца понимаю значение термина «точность теста». Попробуете объяснить?
Применяя формулу выходит, что только для болезней, которыми заражены 50% жителей тест будет отвечать своей точности. Вот именно это и контринтуитивно. Возможно, я не до конца понимаю значение термина «точность теста». Попробуете объяснить?
95% точности значит что в из 100 человек он для 95 из них выдаст правильный ответ.
Из примера выше:
1980 * 0.95 = 1881 здоровых
и 20 * 0.95 = 19 больных тест определил верно
и для 5% неверно
1980 * 0.05 = 99 ложно больных
20 * 0.05 = 1 ложно здоровых
Но вот вероятность что определенный больным человек реально больной зависит от распространенности болезни.
Если вас определили здоровым то вероятность неверного результата:
1 ложно здоровый разделить на (1881+1) т.е. 1 человек на 1882 что достаточно много тоже, но меньше 5%
Из примера выше:
1980 * 0.95 = 1881 здоровых
и 20 * 0.95 = 19 больных тест определил верно
и для 5% неверно
1980 * 0.05 = 99 ложно больных
20 * 0.05 = 1 ложно здоровых
Но вот вероятность что определенный больным человек реально больной зависит от распространенности болезни.
Если вас определили здоровым то вероятность неверного результата:
1 ложно здоровый разделить на (1881+1) т.е. 1 человек на 1882 что достаточно много тоже, но меньше 5%
Спасибо.
Кажется, вы в последнем расчете на лишнюю сотню домножили. Вероятность оказаться больным, в случае если тест вас определил как здорового, из вашего примера выходит 0.053%.
Кажется, вы в последнем расчете на лишнюю сотню домножили. Вероятность оказаться больным, в случае если тест вас определил как здорового, из вашего примера выходит 0.053%.
Во первых у вас и без теста вероятность всего 1%.
Во вторых 5% это в 19 раз меньше чем 95%, получается что после теста вероятность уменьшается еще примерно в 19 раз. 1% / 19 это примерно 0,0526315789473684%. Но это не точный, а интуитивный ответ. А точный по формуле Байеса считайте будет как раз в районе 0,053%.
Т.е. 1 человек на 1882 определенный тестом как здоровый будет больным.
Во вторых 5% это в 19 раз меньше чем 95%, получается что после теста вероятность уменьшается еще примерно в 19 раз. 1% / 19 это примерно 0,0526315789473684%. Но это не точный, а интуитивный ответ. А точный по формуле Байеса считайте будет как раз в районе 0,053%.
Т.е. 1 человек на 1882 определенный тестом как здоровый будет больным.
А как считается процент ложных результатов? Чтобы определить, верный результат или ложный, нужен еще один тест. А у него есть твоя погрешность. И так далее.
Не могу понять.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Конспект по «Машинному обучению». Теория вероятностей. Формула Байеса