Как стать автором
Обновить

Комментарии 26

НЛО прилетело и опубликовало эту надпись здесь
Однозначно, хотим.
Я бы с радостью, только не все там понимаю. Надо подучить базовую статистику.
хотим сканировать Черновецкого!
Вот очень интересное выступление на очень близкую тему

Почему мы мыслим как первобытные люди
Наше сознание противится ключевой идее науки: все можно рассчитать и проверить по теории вероятности, то есть все объясняет статистика. Как поймать себя на иррациональном мышлении? Почему мы ловимся на недостоверную информацию? Рассказывает математик из Оксфорда
Хочу поделится ещё несколькими ссылками:

Уверен всем понравится: О том, что цифры знают о мире все (Ханс Рослинг, Чуть более подробно ) — яркий пример работы с данными, инфориацией.
О заговоре производителей детских автокресел
Миллион и триста тысяч причин изобрести одноразовый шприц заново
… и другие
Ох, круть. Спасибо за ссылки!
Теория вероятностей…
В этом отрывке обыгрывается парадокс Байеса, если я не ошибаюсь.
Переводить всю статью не обязательно. Для тех, кого она заинтересовала, существуют книги:
1) Секей Г., «Парадоксы в теории вероятностей и математической статистике».
2) Кигайгородский А., «Невероятно — не факт».
>Но когда дело доходит до Владимира Вольфовича, загорается надпись, что он марсианин. Вы поверите устройству?
ДА!!!
Если я правильно помню, то это перемножение вероятностей.
Несмотря на это — я тоже марсианин (ну, или с другой планеты какой-нибудь звездной системы)
а можно тоже самое, но в цифирях?
всмысле — формулы! формулы!
ну или слайды хотябы.
Вроде как так:
P(bolen | polojitelno) = P(polojitelno | bolen) * P(bolen)/P(polojitelno)
P(nebolen | polojitelno) = P(polojitelno | nebolen) * P(nebolen)/P(polojitelno)
так как сумма вероятностей P(bolen | polojitelno) и P(nebolen | polojitelno) равна единице то P(polojitelno) = P(polojitelno | bolen) * P(bolen) + P(polojitelno | nebolen)

следовательно P(bolen | polojitelno ) = P(polojitelno | bolen) * P (bolen) /( P(polojitelno | bolen) * P(bolen) + P(polojitelno | nebolen) )
P(bolen) = 1E-6
P(nebolen) = 1-1E-6
P(polojitelno | bolen) = 0.99
P(polojitelno | nebolen)=0.01
подставляем… и получаем 9.899e-05 т.е. ~0.01%
Вам не кажется, что пример про врача не совсем корректный? Помимо теста с вероятностью 99%, у врача есть еще данные о симптомах и данные о том, что здоровый человек из того миллиона в больницу не придет.

Так что вероятность того, что Николай болен, гораздо больше 0,01%.
У врача нет данных о симптомах, это профилактический тест, как флюорография.
Профилактические тесты обычно не проводят для болезней, которыми болеет один из миллиона, потому что вред от этих тестов будет больше, чем в случае, если просто дать этому одному человеку болеть без лечения.
Но в целом с тезисом статьи согласен, если у нас есть болезнь, которой болеет один из миллиона, то тест, точность которого менее чем 99.9999% бесполезен, потому что такой точностью обладает псевдотест, который будет любому человеку говорить что он здоров.
Мне показалось, что тут происходит подмена понятий.

В случае с марсианами мы делаем сплошную выборку, причем заведомо не репрезентативную (т.к. мы подозреваем, что среди депутатов нет ни одного марсианина, ага). А в случае с васкулитом мы обследуем только одного больного, у которого заведомо есть подозрение на васкулит.

В вышеупомянутой теореме байеса речь идет о зависимых событиях. А у нас вроде как измерения происходят независимо.
Про репрезентативные ошибки:
Искать марсиан среди депутатов — это тоже самое, что мерять интеллект отдельно взятой страны, проводя исследование в дурдоме :)
Вы несогласны с тем, что у больного вероятность васкулита 0.01% (на основе имеющихся данных) или с тем, что пример с марсианами — это пример из той же серии?
Вероятность васкулита — 99%
Какая разница, какова частота этого заболевания, если эти два параметра ну никак друг на друга не влияют.

Вот представьте — мы таким образом нашли больного. По вашему — вероятность «правильности» 0.01%. Нашли следующего из другой миллионной группы больного. Абсолютно независимые события. Вероятность — по-вашему — опять 0.01%. И так пока наши группы-милионники не закончатся. В итоге вероятность определения тестом больного в группе всегда 0.01%. Это не соотносится с данностью о 99% барьере верности теста.

Чушь глубокую, в общем, вы пишете.
ЗЫ. Максимум, что мы можем сказать — погрешность теста слишком высока для практического массового применения. Выше статистической погрешности по заболеваемости. Как раз тема про дупутатовю. То есть он в принципе для выявления больных из массы неприменим.

Но для подтверждения диагноза конкретного человека — вполне себе. И в случае с одним человеком — вероятность 99% вполне себе хороший показатель для подтверждения диагноза.

Или я как-то особо туплю?
Да. Попробуйте проследовать логике:

1) Есть миллион людей, вы каждого проверяете на васкулит. Сколько примерно человек будет с положительным результатом теста? (Не обязательно больных, просто с положительным результатом) Ответ: примерно 10 000.

2) Сколько из этих 10 000 действительно будут больны васкулитом? Примерно 1 человек. Потому что из миллиона лишь один болен васкулитом, и он вероятно попал в выборку.

3) Из этой группы в 10 000 подозреваемых берем одного случайного (Николая). Ключевой момент. Какова вероятность того, что он тот единственный больной? 1 к 10 000, то есть 0,01%

4) Теперь забываем про весь миллион подопытных, они действительно никак на Николая не влияют. Но тот факт, что мы забыли про остальных никак не может изменить вероятность васкулита у Николая, правильно? И она по прежнему 0,01%

Это чисто математическая задача, никаких допущений здесь делать не нужно. Ни о целесообразности теста, ни о симптомах заболевания, ни о квалицикации врача. Это все антураж, чтобы приблизить ситуацию к жизни.

Теперь по вашему сообщению:
> Вот представьте — мы таким образом нашли больного. По вашему — вероятность «правильности» 0.01%.

Нет, мы нашли не одного, а 10 000 подозреваемых. Вероятность, что конкретно взятый нами экземпляр из этой группы в 10 000 болен составляет 0,01%, это прекрасно соотносится с 99% точностью теста. Парадокс состоит в том, что люди это интуитивно не понимают, и говорят: «Ну как же может быть 0,01%, если ясно написано, что 99%, ну полная чушь».

> Максимум, что мы можем сказать — погрешность теста слишком высока для практического массового применения. Выше статистической погрешности по заболеваемости. Как раз тема про дупутатовю. То есть он в принципе для выявления больных из массы неприменим.

Это правильно, непригоден.

> Но для подтверждения диагноза конкретного человека — вполне себе. И в случае с одним человеком — вероятность 99% вполне себе хороший показатель для подтверждения диагноза.

А это будет правильно только в том случае, если у человека уже наблюдаются симтомы заболевания, и нам нужно только определиться васкулит это или гонорея.

Если объяснение не помогло, я не прошу вас принимать все это на веру. Но имейте в виду, что со мной в этом вопросе согласен автор оринигальной статьи — глава направления исследований в Google и бывший сотрудник NASA, человек, прекрасно знающий математику. Стоит быть аккуратнее, называя это чушью.

Насчет практической пользы понимания таких вещей: выше привели пример, когда из-за неправильного расчета вероятности событий женщину посадили в тюрьму за убийство ее детей. Сколько ложных диагнозов было поставлено из-за такой же ошибки я даже предполагать не стану.
Вы правы. Суммарная вероятность независимых события определяется их произведением. Из-за драматически низкой вероятности болезни одного человека (одна миллионная) общая вероятность P(болезнь чеорвека) и P(провильное срабатывание маркера) равна 0,00000099. То есть для нормального использования маркера его точность нужно увеличить до 99,999999%

Ухожу посыпать голову пеплом.
как то особо тупите. мы ищем вероятность маловероятной болезни при условии позитивного теста. последнее предложение из оригинального топика раскрывает суть.
Из статьи следуют несколько выводов:

Вывод 1: Оборудование для диагностики васкулита не будет пользоваться спросом среди обычных потребителей.
Вывод 2: Заниматься поиском иголки в стогу сена — неблагодарное занятие. Лучше сидеть в больнице и дожидаться пока пациенты сами придут (или их привезут).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории