Comments 20
Отлично! Тут все формулы отображаются корректно, причем в том же самом броузере!
0
Я, наверное, что-то пропустил на Хабре? Это так принято стало делать много маленьких зарисовок из учебника? Не понимаю как так… Вроде же авторский текст должен быть. Или пометка «перевод» и т.п. Я если не прав — поправьте, в упор не понимаю что изменилось на ресурсе
0
Диссонирующий вывод. С одной стороны, есть тест, который в 95% случаях даёт правильный результат. И этот тест говорит, что пациент заражён. С вероятностью 95% (мы не знаем какую логику оценки использует тест). С другой стороны по формуле получается, что вероятность того, что он действительно заражён всего 16%. Можете объяснить?
+1
Так как всего 1% населения заражён этим вирусом, то 5% ошибки теста играют существенную роль.
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.
Если предположить, что тест заканчивается успехом в 99.5% случаях, то в результате получается вероятность, равная 0.67 (вероятность того, что пациент действительно заражён).
И наоборот, предположим, что 10% населения заражены этим вирусом, и пусть в 95% случаях тест заканчивается успехом. Тогда в результате получается вероятность, равная 0.68 (вероятность того, что пациент действительно заражён).
Если предположить, что 50% населения заражены, то итоговая вероятность (при 95% случаях — успех) равна 0.95. Получается, уже довольно высокая точность.
0
А давайте на реальном примере? Возьмём туберкулёз. Возможно, приведу не самый достоверный источник, но точные данные искать лень, а для общего представления достаточно.
Вот ссылка: ТЫЦ
Итак, в 2018 году показатель новых зарегистрированных больных 44.4 на 100 000 человек. Это 0.0444%. Новые тесты достигают показателя точности 98%. То есть, приходит больной в лабораторию, сдаёт анализ и ему говорят: вы больны с вероятностью 98%. А он берёт вашу формулу, пересчитывает и говорит… «не, ребят, я болен с вероятностью около 2%.»
1. Лечить будем?
2. Вопрос с подковыркой: а если 2 раза тест сделает (независимо, в 2-х разных лабораториях) и оба раза тест покажет положительный результат, то какова вероятность, что всё же болен?
Вот ссылка: ТЫЦ
Итак, в 2018 году показатель новых зарегистрированных больных 44.4 на 100 000 человек. Это 0.0444%. Новые тесты достигают показателя точности 98%. То есть, приходит больной в лабораторию, сдаёт анализ и ему говорят: вы больны с вероятностью 98%. А он берёт вашу формулу, пересчитывает и говорит… «не, ребят, я болен с вероятностью около 2%.»
1. Лечить будем?
2. Вопрос с подковыркой: а если 2 раза тест сделает (независимо, в 2-х разных лабораториях) и оба раза тест покажет положительный результат, то какова вероятность, что всё же болен?
0
Исходя из формулы Байеса, при условиях, перечисленных выше, чтобы вероятность того, что человек действительно болен, была 0.5, точность теста должна быть 99.9556%. Другой вопрос, какое значение вероятности говорит о том, что надо лечить? Возможно, значение 0.02 превышает этот порог…
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025 и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78
Для ответа на второй вопрос необходимо пересчитать условные вероятности, используемые в формуле Байеса, для случая когда даны два ответа теста. При условиях, описанных в примере статьи, так как эти события независимы, то, например, вероятность P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} = P{t_1 = 1 | d = 1} * P{t_2 = 1 | d = 1} = 0.95 * 0.95 = 0,9025 и P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} = P{t_1 = 1 | d = 0} * P{t_2 = 1 | d = 0} = 0.05 * 0.05 = 0,0025. d_1 = d_2 = d, так как рассматриваем два положительных результата теста для одного человека (а он либо болен, либо нет). Итоговая вероятность равна
[P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1}] / [(P{(t_1 = 1, t_2 = 1) | (d_1 = 1, d_2 = 1)} * P{d = 1} + P{(t_1 = 1, t_2 = 1) | (d_1 = 0, d_2 = 0)} * P{d=0})] = (0.9025 * 0.01) / (0.9025 * 0.01 + 0.0025 * 0.99) = 0.78
0
не, ребят, я болен с вероятностью околоОчень может так и быть. Поэтому диагноз ставят не только по одному тесту, а по совокупности тестов и симптомам (клинически):
www.rmj.ru/articles/ftiziatriya/DIAGNOSTIKA_TUBERKULEZA_ORGANOV_DYHANIYa
0
Я не утверждал, что тест — это единичное измерение. Тест может быть комплексным. Каждое измерение имеет какую-то погрешность. Пусть, сделали 10 измерений различных параметров (и назвали это «тест на туберкулёз») и по совокупности они дают вероятность того, что пациент болен 98%. Видите, к чему я клоню?
0
Как формула работает ARad внизу хорошо расписал.
0
Да, я видел, спасибо. Но вас я спрашивал не про это. Вам я указывал на то, что состав теста неопределён и вполне может включать в себя всё, что угодно, вплоть до дополнительных расчётов.
Ситуация: есть тест 'А', он даёт точность 95%, есть тест 'В', он тоже даёт точность 95%. Один из этих тестов использует статистику по заболеваниям (формула Байеса уже применена). Пациенту просто говорят результат: вы больны с вероятностью 95%. Очевидно, что для одного из тестов дальнейшее применение формулы Байеса приведёт к неправльным результатам. Отсюда вывод: для того, чтобы понять результат, надо абсолютно точно знать как устроен тест и что именно он показывает. Какое значение вы подразумеваете под словами «точность теста»?
Ситуация: есть тест 'А', он даёт точность 95%, есть тест 'В', он тоже даёт точность 95%. Один из этих тестов использует статистику по заболеваниям (формула Байеса уже применена). Пациенту просто говорят результат: вы больны с вероятностью 95%. Очевидно, что для одного из тестов дальнейшее применение формулы Байеса приведёт к неправльным результатам. Отсюда вывод: для того, чтобы понять результат, надо абсолютно точно знать как устроен тест и что именно он показывает. Какое значение вы подразумеваете под словами «точность теста»?
0
Например проверили всего 2000 человек. Из них всего 20 больных.
Тогда тест даст следующие результат:
1980 * 0.95 = 1881 здоровых
1980 * 0.05 = 99 ложно больных
20 * 0.95 = 19 больных
20 * 0.05 = 1 ложно здоровых
Получается тест определил 99 + 19 = 118 человек как больных. Из них всего 19 он определил верно. 19 / 118 это примерно 16% что человек действительно больной.
Тогда тест даст следующие результат:
1980 * 0.95 = 1881 здоровых
1980 * 0.05 = 99 ложно больных
20 * 0.95 = 19 больных
20 * 0.05 = 1 ложно здоровых
Получается тест определил 99 + 19 = 118 человек как больных. Из них всего 19 он определил верно. 19 / 118 это примерно 16% что человек действительно больной.
+1
Ять! Лучшее объяснение Байеса которое я видел!
0
Спасибо, отличная иллюстрация. Получается, что для уникального события теста с точностью 95% недостаточно для постановки диагноза, а вот для постановки диагноза на, скажем, цитомегаловирус или герпес, достаточно будет аппарата с точностью 60-70%.
Применяя формулу выходит, что только для болезней, которыми заражены 50% жителей тест будет отвечать своей точности. Вот именно это и контринтуитивно. Возможно, я не до конца понимаю значение термина «точность теста». Попробуете объяснить?
Применяя формулу выходит, что только для болезней, которыми заражены 50% жителей тест будет отвечать своей точности. Вот именно это и контринтуитивно. Возможно, я не до конца понимаю значение термина «точность теста». Попробуете объяснить?
0
95% точности значит что в из 100 человек он для 95 из них выдаст правильный ответ.
Из примера выше:
1980 * 0.95 = 1881 здоровых
и 20 * 0.95 = 19 больных тест определил верно
и для 5% неверно
1980 * 0.05 = 99 ложно больных
20 * 0.05 = 1 ложно здоровых
Но вот вероятность что определенный больным человек реально больной зависит от распространенности болезни.
Если вас определили здоровым то вероятность неверного результата:
1 ложно здоровый разделить на (1881+1) т.е. 1 человек на 1882 что достаточно много тоже, но меньше 5%
Из примера выше:
1980 * 0.95 = 1881 здоровых
и 20 * 0.95 = 19 больных тест определил верно
и для 5% неверно
1980 * 0.05 = 99 ложно больных
20 * 0.05 = 1 ложно здоровых
Но вот вероятность что определенный больным человек реально больной зависит от распространенности болезни.
Если вас определили здоровым то вероятность неверного результата:
1 ложно здоровый разделить на (1881+1) т.е. 1 человек на 1882 что достаточно много тоже, но меньше 5%
0
Спасибо.
Кажется, вы в последнем расчете на лишнюю сотню домножили. Вероятность оказаться больным, в случае если тест вас определил как здорового, из вашего примера выходит 0.053%.
Кажется, вы в последнем расчете на лишнюю сотню домножили. Вероятность оказаться больным, в случае если тест вас определил как здорового, из вашего примера выходит 0.053%.
0
Во первых у вас и без теста вероятность всего 1%.
Во вторых 5% это в 19 раз меньше чем 95%, получается что после теста вероятность уменьшается еще примерно в 19 раз. 1% / 19 это примерно 0,0526315789473684%. Но это не точный, а интуитивный ответ. А точный по формуле Байеса считайте будет как раз в районе 0,053%.
Т.е. 1 человек на 1882 определенный тестом как здоровый будет больным.
Во вторых 5% это в 19 раз меньше чем 95%, получается что после теста вероятность уменьшается еще примерно в 19 раз. 1% / 19 это примерно 0,0526315789473684%. Но это не точный, а интуитивный ответ. А точный по формуле Байеса считайте будет как раз в районе 0,053%.
Т.е. 1 человек на 1882 определенный тестом как здоровый будет больным.
0
А как считается процент ложных результатов? Чтобы определить, верный результат или ложный, нужен еще один тест. А у него есть твоя погрешность. И так далее.
Не могу понять.
0
Sign up to leave a comment.
Конспект по «Машинному обучению». Теория вероятностей. Формула Байеса