volokhonsky 16 мар 2020 в 20:16

Доверительный интервал для числа заболевших коронавирусом (расчёт по летальности)

4 мин

48K

+110

123

Комментарии 123

volokhonsky 16 мар 2020 в 20:34

Ну вот, первый в жизни пост на хабре и кто-то ставит минусы. Говорят, не соответствует тематике хабра…

Gorthauer87 16 мар 2020 в 21:14

Кажется у людей нервы сдают

Nicks_TechSupport 16 мар 2020 в 21:41

Не могу поставить плюс, мне кто-то карму заминусил((

volokhonsky 17 мар 2020 в 10:14

И вот тебе её снова заминусили, бедолага. :-)

Nicks_TechSupport 17 мар 2020 в 10:25

И не говори, Хабр в последнее время стал похож на набег школьников...

vvzvlad 17 мар 2020 в 13:20

Некоторых людей жизнь ничему не учит.

Nicks_TechSupport 17 мар 2020 в 13:25

Ок, раз вы все такие просвещённые, может расскажете за что люди просто жмакают минус, зачастую никак не аргументируя?

khim 17 мар 2020 в 14:07

Минус жмакают не «за что», а «для чего». Чтобы не видеть больше «дурацких постов».

Конечно чтобы постов реально стало меньше нужно, чтобы это сделало 11 человек… да и понятие «дурацкости» у всех разное. Так что работает это не всегда правильно, но… основная идея в этом.

Собственно об этом написано прямо в документации: Карма — это ключевой инструмент внутрисайтового механизма коллективной модерации.

Это не оценка вашей личности. И не почётная грамота. А всего лишь оценка ваших статей и комментариев.

Вот я просмотрел ваши комментарии (статей пока нет) и вижу, что есть несколько интересных замечаний и куча «информационного мусора»… а его на Хабре не любят, так как и без того им весь интернет засран.

Nicks_TechSupport 17 мар 2020 в 14:10

Спасибо за аргументированный ответ.
Первый адекватный за сегодня.
А статей нет, потому как особе некогда их писать, либо к к моменту написания она уже становится неактуальной к публикации.

Nicks_TechSupport 21 мар 2020 в 21:29

volokhonsky 21 мар 2020 в 21:40

Вот скажи мне, зачем ты разместил второй раз комментарий, который заминусили? Ты может не понял, за что? За утверждение «первый адекватный за сегодня». И за неспособность статьи писать.

vvzvlad 23 мар 2020 в 19:56

Некоторых людей жизнь ничему не учит.

netricks 17 мар 2020 в 07:35

Соответствует.

Практическое применение отрицательного биномиального распределения и расчет доверительных интервалов в контексте стоящей на повестке дня темы.

Очень даже соответствует.

sa1ntik 17 мар 2020 в 09:46

Минусы не ставил :)
Но хочу сказать, что ваш анализ(как и попытки анализа у многих других людей) был бы замечательным, если бы он был медицинским.
В вашем случае вы совершаете ровно то же самое упрощение модели, что и авторы других исследований — вы отбрасываете возраст. А потом на основании этих упрощений делаете некие выводы.
В соседних темах я уже писал, что использовать данные о смертности на всем известном круизном лайнере нельзя, если мы только не говорим о возрастной категории 60++ (вернее даже 70+), ведь именно таков средний возраст пассажиров любого круизного лайнера (а все погибшие на нём возраста 70+).
Говоря о статистике смертности в Южной Корее, в большинстве случаев, никак не принимается во внимание тот факт, что большая часть заразившихся в ЮК — люди до 40 лет (преимущественно женщины). А в той же самой Италии — относительно пожилые люди. К слову именно поэтому по уровню смертности Италия обгоняет Китай.
Поэтому возраст заболевших и умерших это именно та часть модели, которую нельзя упрощать. Потому что в данном случае именно она и оказывает наибольшее влияние на протекание болезни в реальном мире.

volokhonsky 17 мар 2020 в 09:54

А никто вроде бы и не упрощает настолько. Мы не используем для расчётов ни летальность итальянскую, ни даже корейскую, не говоря уже о летальности с круизного лайнера. Потому что представляем себе, что доля недиагностированных заболеваний всегда относительно высока. Так что оценка летальности берётся, как правило, по нижней границе.
Почему же нельзя упрощать-то? Простите, но без упрощения нельзя построить никакую модель. При отсутствии необходимых данных, ориентируемся на максимально ожидаемые. Я бы не стал для России делать скидку на то, что у нас доля пожилых меньше, чем в Италии. Тут, знаете ли, год за два считается. В том смысле, что наши шестидесятилетние по уровню здоровья и прочим параметрам едва ли имеют больше шансов, чем итальянские семидесятилетние. Но может быть и нет… К сожалению, мы это скоро узнаем с некоторой степенью достоверности.

sa1ntik 17 мар 2020 в 10:32

Так что оценка летальности берётся, как правило, по нижней границе.

Нижняя граница по Китайским расчётам — 0.2%; по Корейским — 0% для возрастных групп 0-9, 10-19, 20-29 (если ничего не поменялось, справедливо для данных на конец прошлой недели). Максимальная летальность вируса, по Китайским данным, наблюдается у возрастной группы 80+ и для всех случаев составляет 14,8% (для подтверждённых случаев 21,9%). То есть разница почти на два порядка (или на два с лишним).

Почему же нельзя упрощать-то? Простите, но без упрощения нельзя построить никакую модель.

Я знаю, что без упрощений нельзя построить никакую модель, вернее её построение потребует увеличения необходимых ресурсов и поэтому не предлагаю учитывать потребление сигарет в Италии и Корее.
А вот упрощать то, что оказывает наибольшее влияние на результат — нельзя. Например, если не ошибаюсь, в Корее на 2213 заболевших возраста 20-29 лет приходится 0 смертей. В то время как в Италии, как я и говорил, пик заболевших пришёлся на возраст 70-79 лет.

Данные о смертности, впрочем, тоже известны.
Поэтому упрощая модель по возрасту вы делаете её абсолютно недостоверной. Со всеми вытекающими из этого проблемами.
P.s. Да, в том числе поэтому в Корее столь низкий процент смертности — там заразились, в основном, молодые. В каком-то плане это именно обычное везение, а не просто во время принятые меры и состояние системы здравоохранения.

volokhonsky 17 мар 2020 в 10:51

OK, давайте возьмём за разумное допущение, что пока неизвестны дополнительные данные, передача болезни происходит равномерно по всем возрастам? Можно попробовать пересчитать, взвешивая корейские данные на российские демографические пропорции. Попробую ночью посчитать, но там уж я едва ли осилю прикинуть доверительные интервалы — так и не освоил учёт взвешивания при их калькуляции…

sa1ntik 17 мар 2020 в 13:40

OK, давайте возьмём за разумное допущение, что пока неизвестны дополнительные данные, передача болезни происходит равномерно по всем возрастам?

Давайте допустим.

взвешивая корейские данные на российские демографические пропорции

Так а корейские данные на какие возрастные группы? Ведь именно это важно. Упраздняя в статистике о проценте погибших возраст, вы делаете статистику «не статистикой». После этого она будет годна лишь для пресс-релизов. Я с этого и начал: мешать смертности разных возрастных категорий не стоит.

andrew911 17 мар 2020 в 12:19

Проблема в том, что в Корее проверяли всех подряд, поэтому % зараженных в возрастных группах практически одинаков, в Италии тестируют тяжелых с симптомами, которые преобладают в старшей возрастной группе

sa1ntik 17 мар 2020 в 13:36

Проблема в том, что в Корее проверяли всех подряд, поэтому % зараженных в возрастных группах практически одинаков,

Нет, не всех подряд а тех, кто контактировал с зараженными в первую очередь. Так же как и в Китае

в Италии тестируют тяжелых с симптомами, которые преобладают в старшей возрастной группе

Нет, там так же тестируют тех, кто контактировал с зараженными. Просто более медленно.
И да, симптомы появляются у всех возрастных категорий. А вот осложнения — нет. В одном из прошлых постов меня поправили насчет бессимптомного течения болезни (я допускал, что оно есть). Так вот: на текущий момент болезнь практически не встречается в бессимптомной форме.

andrew911 17 мар 2020 в 13:56

Не совсем так, в Италии на 86т тестов 21т зараженных, можно сделать выводы кого они тестируют.

Ну и про не встречается в бессимптомной хотелось бы видеть источники и что считается за симптомы.

sa1ntik 17 мар 2020 в 15:54

Не совсем так, в Италии на 86т тестов 21т зараженных, можно сделать выводы кого они тестируют.

Можно: больных и тех, кто с ними контактировал, по-моему это очевидно из цифр :)
Так же и в Корее, просто там круг контактов устанавливается лучше в том числе благодаря треккингу сотовых телефонов по вышкам, например.

Ну и про не встречается в бессимптомной хотелось бы видеть источники и что считается за симптомы.

По данным WHO в Китае полученных на основании данных массового скрининга на вирус (примерно 320 тысяч человек) менее 1% доказанных случаев заражения протекают бессимптомно. Причем из этих 1% у более 75% симптомы развились уже после тестирования.
За симптомы считается проявление любых симптомов ОРВИ, специфичных для COVID 19. То есть это не «пневмония + ИВЛ», если вы об этом.

andrew911 17 мар 2020 в 16:07

Для Кореи написано, что не только тех кто с симптомами.
По поводу бессимптомности не все так просто.

sa1ntik 17 мар 2020 в 17:01

Для Кореи написано, что не только тех кто с симптомами.

И тех, кто с ними контактировал)
Ни одна страна мира сейчас не в состоянии проверять просто так всех подряд. Вернее в состоянии, но это займет больше года. Поэтому проверяют тех, кто в группе риска. А это те, у кого симптомы ОРВИ и те, кто контактировал с подтверждёнными больными.

По поводу бессимптомности не все так просто.

Да всё очень даже просто:

But it appears that a Massachusetts coronavirus cluster with at least 82 cases was started by people who were not yet showing symptoms, and more than half a dozen studies have shown that people without symptoms are causing substantial amounts of infection.

«Some spread might be possible before people show symptoms; there have been reports of this occurring with this new coronavirus, but this is not thought to be the main way the virus spreads,» according to the website.

На мой взгляд статья абсолютно очевидна: человек становится заразным до того, как у него могут появится симптомы, но при этом это не означает что симптомы у него не появятся в будущем. Поэтому более 99% переносчиков окажется в группе с симптомами и в это время будет отправлено на диагностику.

Chamie 17 мар 2020 в 15:01

в Корее проверяли всех подряд, поэтому % зараженных в возрастных группах практически одинаков

Я чего-то не понимаю? У вас на графике на одну из девяти групп (20-29) приходится треть всех случаев, как вы это называете «% заражённых практически одинаков»?

andrew911 17 мар 2020 в 15:04

«практически», можно посмотреть другие группы и сравнить с Италией

Chamie 17 мар 2020 в 15:22

Ну вот я смотрю на другие группы, и в половине из них показатели в 5(!) раз ниже. Это «практически одинаков»?

andrew911 17 мар 2020 в 15:26

Практически одинаково соотношение между оранжевым и синим столбиком

Chamie 17 мар 2020 в 15:41

Оно тоже до 25 раз различается.

andrew911 17 мар 2020 в 15:43

Сравни с Италией группы после 30

Chamie 17 мар 2020 в 15:52

Может, скажешь, наконец, нормально, что имел в виду? Я, знаешь, не подряжался сидеть и расчёты забивать после каждого твоего комментария.

andrew911 17 мар 2020 в 15:57

Что заболевшие в Корее более равномерно распределены по возрастным группам, чем в Италии и это, скорее всего, результат более широкого тестирования

Chamie 17 мар 2020 в 16:02

Это если совершенно игнорировать группу 20-29?

andrew911 17 мар 2020 в 16:09

Нет правил без исключений, возможно у них больше активность и количество связей, что приводит к большей вероятности.

sa1ntik 18 мар 2020 в 02:08

В смысле «правил без исключений»?
Одна из девяти возрастных групп (причем не самая многочисленная, Корея — пожилая страна, да и это видно из распределения на графике) даёт треть случаев заболевания. И вы это называете «исключением»? :)

PsyHaSTe 18 мар 2020 в 21:50

А где вы смотрите за что минусы ставят? Нигде не мог найти ни разу...

Chamie 19 мар 2020 в 13:41

Давно пробовали? Фичу в конце ноября выпустили.

PsyHaSTe 19 мар 2020 в 16:31

Я видел новость. Только я за эти месяцы раз 5 облазил весь личный кабинет, и нигде не нашел этой информации. Всё, что есть: вот такая статистика

Не, мож я слепой, но — не нашел. Поэтому был бы рад получить информацию, где это можно найти.

НЛО прилетело и опубликовало эту надпись здесь

PsyHaSTe 21 мар 2020 в 22:40

Ничего себе! Спасибо, я бы долго искал.

Кто-то поставил минус монадам за «много рекламы». Очень интересно)

НЛО прилетело и опубликовало эту надпись здесь

PsyHaSTe 22 мар 2020 в 09:10

Ну вот у меня в некоторых первый и третий пункт сразу. В статье про ФП все минусы по статье «другое», что я расцениваю как «Считаю что автор — плохой человек, но объективно ставить не за что, так что держи фашист гранату просто так».

Chamie 16 мар 2020 в 22:59

Камон, автор! В той статье было не трое умерших, а три случая заболевания, из которых один — летальный. И из этих вот данных выводилась немыслимая летальность в 33%. Которая далее не оправдывалась погрешностью (которая на такой выборке запредельная), а использовалась как доказательство(!) подозрений по скрытым случаям.

volokhonsky 16 мар 2020 в 23:17

Точно. Но чем не доказательство? Само по себе число в 33% в дальнейших расчётах никак не использовалось, просто было объявлено недостоверным в силу описанных далее причин.

Если мы считаем истинной летальностью вируса 1%, то 1 заболевший даёт нам указание, что мы с 95% вероятностью можем сказать, что общее количество заболевших не менее 6 по состоянию на две недели до момента смерти, если мы считаем, что болезнь достигает летального исхода за 14 дней. Это — нижняя оценка. Автор ориентируется не на нижнюю, а на среднюю, и я не вижу, почему бы ему на неё не ориентироваться. Вот если бы он на верхнюю ориентировался, то получалось бы, что один умерший — это триста выздоровевших…

Chamie 16 мар 2020 в 23:37

Тем не доказательство, что это не доказывает большого числа скрытых случаев. При величине погрешности больше самой измеряемой величины смысла в измерении нет никакого от слова совсем. Метрология же — погрешность не может быть больше половины величины последнего значимого разряда, соответственно, тут все разряды незначимые.

То, что там дальше — вообще расчётами называть нельзя, не заслуживает такого громкого слова. Вот например:

Мы приблизительно знаем, сколько в среднем требуется времени, чтобы погибнуть с момента получения вируса — это 17,3 дня.

Открываем ссылочку, а там 17.3 встречается только в одной таблице и это… максимальное (upper bound) время от попадания в госпиталь до выписки (Time from hospitalization to discharge) по китайским данным. То есть, это и не среднее, и не от заражения, и не до смерти.

volokhonsky 17 мар 2020 в 00:21

Вот я вам рассчитал величину погрешности измерения, в чём проблема? При 1 умершем и 1% смертности количество заболевших не менее шести. Не нуля. Не одного. Шести.

17.3 дня там получилось иначе. В данных есть раздел Time from symptom onset to death, там приведено четыре оценки примерно одинакового качества. Если их усреднить, как раз получается 17.3. Косяк автора, что он этот нюанс опустил… А может и не косяк, если каждый шаг разжёвывать, он был бы раза в четыре больше.

Chamie 17 мар 2020 в 14:52

четыре оценки примерно одинакового качества

Откуда информация о «примерно одинаковом качестве»? Я там ни объёма выборки, ни прочих показателей оценки качества не вижу. Может, там выборки на 2 порядка различались.

volokhonsky 24 мар 2020 в 05:51

Вот именно.

Chamie 24 мар 2020 в 11:58

Что «вот именно»? Подтверждаете, что я прав?

НЛО прилетело и опубликовало эту надпись здесь

Chamie 17 мар 2020 в 14:51

Погодите, там же в таблице объём выборки не указан, как вы так лихо их все приравниваете, чтобы среднее считать? Если, скажем, одна выборка — 100 человек, и там среднее значение 15, а другая — 10000 человек, и там среднее —17, то среднее во всей выборке будет 16? Серьёзно?

НЛО прилетело и опубликовало эту надпись здесь

Chamie 17 мар 2020 в 15:26

Это уже нумерология какая-то, простите. То, что можно взять данные, произвести над ними какие-то случайные бессмысленные операции, и получить такое число — это не подтверждение того, что число там было.

Это уже знак Нью Каямы какой-то выходит

НЛО прилетело и опубликовало эту надпись здесь

Chamie 19 мар 2020 в 13:46

Эмм, а мой предыдущий комментарий с иллюстрацией того, что среднее от двух средних по двум выборкам — не равно среднему от всей выборки, он для вас недостаточно математический? Тем более, что «from symptom onset to death» — это не с момента заражения, а с момента выявления симптомов, т.е., есть ещё и неизвестной длины инкубационный период.

volokhonsky 21 мар 2020 в 16:32

Тут такое дело. Когда делается метаанализ различных публикаций, то такого рода усреднение средних — практика нормальная, хотя математически она может казаться странной. Но только на первый взгляд.
Мы имеем три разные оценки одного и того же параметра генеральной совокупности. Это не три средних трёх выборок, которые нужно сложить в одну выборку и получить такую вот мегасупероценку. Это три независимых исследования, в которых получены разные оценки.

Смотрите, что происходит. Допустим у нас есть пять иследователей в пяти точках земного шара, каждый из которых купил градусник на Али. Первый измерил температуру здоровых австралийских женщин 100 случаев и получил среднее 36.62. Второй измерил температуру случайной выборки людей старше 18 лет 200 случаев и получил 36.7, третий измерил температуру случайной выборки школьников 200 раз и получил 36.45, четвёртый исследовал неизвестно кого 400 раз и получил 36.8. Наконец, было ещё одно исследование со случайной выборкой здоровых людей в Германии, где было изучено 1300 человек и получена средняя температура 37.8.
Примерно с такими данными приходится иметь дело, когда делаешь какой-то метаанализ. Что-то ты выкидываешь, как заведомо некачественное и не относящееся к вопросу, что-то оставляешь. Но ты всегда должен предполагать, что у кого-то был сломанный китайский градусник. :-)
Иногда вообще неизвестно, какого размера была выборка, которая привела к какому-то показателю. Но всё равно эти данные, которые стоит как-то учесть, если в принципе данных очень мало и они разнородны.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 24 мар 2020 в 05:51

Это действительно грустно. Нет, понятное дело, есть куча всевозможных статистических ухищрений, специальных формул для вычисления величины эффекта из данных разной природы, но практически никогда нет оснований взять и свалить все исследования в одну кучу и посчитать статистику по собранным в одну большую кучу данным.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 24 мар 2020 в 06:10

У меня никаких предложений, я не возражаю против оценки в 17.3 дня.

Chamie 23 мар 2020 в 20:23

Мы имеем три разные оценки одного и того же параметра генеральной совокупности. Это не три средних трёх выборок, которые нужно сложить в одну выборку и получить такую вот мегасупероценку. Это три независимых исследования, в которых получены разные оценки.

Вы так пишете, будто никогда не слышали про статистическую мощность, effect size и вообще курса статистики у вас не было.

volokhonsky 24 мар 2020 в 05:48

А вы так пишете, как будто только что прочитали про них в Википедии и спешите донести эту ценную информацию граду и миру. Как вы думаете, почему в современных медицинских исследованиях стали приняты не только двойные слепые плацебо-контролируемые рандомизированные исследования, но ещё и многоцентровые?

Chamie 24 мар 2020 в 12:35

Чтобы распределение в выборке приблизить к распределению в генеральной совокупности. И как это связано с обсуждаемой статьёй? Можете ещё выравнивание по социально-экономическому статусу вспомнить, оно тут тоже ни при чём.

НЛО прилетело и опубликовало эту надпись здесь

Chamie 24 мар 2020 в 12:29

Какого расчёта вы от меня ждёте, если из его данных это посчитать невозможно? Тем более, у него расчётов вообще не было, было число с потолка и ссылка на простыню с разными данными, в которой это число было написано в одном месте явно, но подписано как значение совершенно другой величины, и в другом месте можно было найти как средне из четырёх разных чисел, все из которых, опять же, подписаны как значения совершенно другой величины (время с установления симптомов, а не время с заражения, при инкубационном периоде около 2 недель, это разница порядка самой записанной величины).
Кстати, если открыть первую же попавшуюся ссылку на источник у этой таблицы, то и числа в таблице непонятно, откуда взяты, т.к. в вот этой, скажем, статье, приведённой как источник к первой строке таблицы, таких чисел тоже нет. В ней написано «time from illness onset to death with a mean of 19.9days (95% CI: 14.9, 29.0)», а в таблице автора — 15,2.

приведете еще один параметр, не буду говорить какой

Типичное «я прав, а вы нет, объяснять не буду, вы сами это и докажите».

НЛО прилетело и опубликовало эту надпись здесь

Chamie 27 мар 2020 в 15:28

Число 15.2 было взято из 1-й версии статьи, раздел 3, первый абзац.

Отлично, ну, хотя бы число понятно откуда. Хотя оно всё равно характеризовало не ту величину, которой это приписал автор.

НЛО прилетело и опубликовало эту надпись здесь

Chamie 27 мар 2020 в 15:33

Ещё раз: как я пересчитаю вам "from catching virus to dying", если во всех его источниках — только число "from illness onset to death"? Т.е., не с момента заражения, а с момента проявления симптомов, которые проявляются только после инкубационного периода, который занимает от 2 до 14 дней с неизвестным распределением? Т.е., даже если считать, что взяв среднее от четырёх исследований, мы получили верное значение, то всё равно к нему нужно прибавить от 2 до 14 дней (опять предложите взять среднее от 2 и 14?), чтобы получить что-то близкое к реальности.

defuz 17 мар 2020 в 03:00

При величине погрешности больше самой измеряемой величины смысла в измерении нет никакого от слова совсем. Метрология же — погрешность не может быть больше половины величины последнего значимого разряда, соответственно, тут все разряды незначимые.

Все эти заученные из школы мантры действуют только для последовательных измерений постоянной величины, отклонения измерений которой подчиняются нормальному распределению.

То есть для очень узкого класса задач, которые не имеют ничего общего с описанным в статье.

Если у нас 10 надежно подтвержденных случаев заражения, но у нас есть смутная догадка, что их может быть в 10 раз больше, какая у нас «погрешность»? 1000%?

Означает ли это, что значение 10 теряет всякий смысл? Нет, у нас все еще есть достоверная нижняя оценка числа заболевших, из которой мы можем выводить конструктивные суждения, что и делается в статье.

НЛО прилетело и опубликовало эту надпись здесь

M_AJ 17 мар 2020 в 15:44

Вообще какие-то странные вещи делаются, если на примере пояснить, то изготовили мы 100 деталей, одна вышла с браком, принимаем уровень брака в 1%, выпускается ещё 10 000 деталей, ты находим там всего 5 бракованых, и на этом основании делаем далеко идущий вывод, что ещё 95 бракованых мы не заметили.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 17 мар 2020 в 13:06

Ну так именно об этом и речь была же. Что реальная смертность гораздо ниже. Кто и где использовал смертность в 33% для обоснования каких-то выводов, кроме вывода о том, что есть неучтённая заболеваемость?

Chamie 17 мар 2020 в 15:19

Так как можно делать этот вывод? Реальная летальность ниже, но т.к. для конкретного человека это только вероятность смерти, то реальные показатели смертности приблизятся к ней только с ростом выборки. Если я кинул монетку дважды, и оба раза выпала решка, это не значит, что у нас где-то есть ещё две неучтённых монетки, выпавших орлом.

volokhonsky 17 мар 2020 в 16:32

Конечно, не значит. Потому что мы знаем для монетки её вероятность выпадения решкой (0.5) и зная, что Вы кидали несколько раз монетку и получили две решки, я могу рассчитать доверительный интервал, по которому получается, что Вы кидали монетку от 2 до 9 раз. И даже если бы у вас была не монетка, а кубик, который выпадал два раза единичкой, всё равно в 95% доверительный интервал попадало бы от 2 до 30 бросаний кубика.

Chamie 19 мар 2020 в 13:49

Однако же для асимметричной монетки с вероятностью орла в 16.5% и результатами решка-решка-орёл, у вас интервал почему-то начинается не с 3.

defuz 17 мар 2020 в 03:41

Я думаю стоит отдельно подчеркнуть, что 297(300) – это не оценка числа зараженных, это оценка количества выздоровлений.

Отрицательное биноминальное распределение описывает количество не-успехов для завершенных испытаний Бернулли, у которых есть только два возможных исхода – в нашем случае это либо летальный исход, либо выздоровление.

Таким образом, 3 летальных исхода при 1% летальности сообщает нам лишь о том, что было «завершено» около 300 испытаний, и следует ожидать что в нашей популяции есть 297 выздоровевших. Но мы ничего не знаем о незавершенных испытаниях, по-этому количество заразившихся может быть гораздо больше.

Приведу пример. Допустим одновременно заразилось X человек, и никакого дальнейшего распространения не происходит. Через неделю умирает один человек. Чему равно значение X? На основании ваших рассуждений мы можем лишь утверждать, что при летальности 1% в конечном итоге 99 человек из этих X будут здоровы. Но эта информация не дает нам никакой возможности оценить X, ведь вполне может быть что на следующий день умрет еще 10, и наша оценка увеличится в 10 раз.

Чтобы оценить X нужно дождаться пока все заболевшие определятся со своим статусом – либо умрут, либо выздоровеют.

defuz 17 мар 2020 в 04:20

Если у нас бурный рост количества заболевших, то среди умерших в день X мы имеем некоторое количество заразившихся не 17 дней назад, а 16 или 15 дней, а может и 10 дней назад.

А еще среди умерших в день X мы имеем некоторое количество заразившихся не 17 дней назад, а 18 или 19 дней, а может и 24 дня назад.

Таким образом, в ситуации быстрого роста количества заболевших такой обратный расчёт может приводить к завышенным оценкам распространённости заболевания.

Не приводит, потому что мы рассматриваем только завершенные эксперименты, а значит все они должны были начаться какое-то время назад. Все те, кто заразился позже, не принимают участия в ваших расчетах, потому что из их выборки еще никто не успел умереть.

Правда, это рассуждение конструктивно только если мы принимаем истинным тот факт, что болезнь развивается продолжительный промежуток времени, и ситуация когда от заражения до смерти проходит всего неделя маловероятна.

К тому же, если я правильно понимаю, 17 дней – это оценка интервала от первых симптомов до смерти, а не от момента заражения до смерти, то есть без учета времени инкубации, так что конечная оценка скорее всего занижена.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 17 мар 2020 в 07:28

Я просто полдня читал комменты неверующих, там в основном повторяется два типа аргументов — автор не вирусолог и "так нельзя". Вот выше как раз Chamie пишет что-то про то, что нельзя делать выводы, когда величина меньше погрешности (о какой величине речь, умалчивается). Это вот тот самый аргумент.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 17 мар 2020 в 10:01

Согласен, это вполне справедливое замечание. Но я всё-таки считаю, что рассчитывать так можно, до тех пор пока у нас нет более надёжных данных. У меня вот регулярно в работе случаются такие задачи — дать хоть какую-то оценку на основании косвенных сведений. Ты, говорят, скажи хоть, семьдесят процентов людей в Хайдарабаде чистят зубы по утрам, или семь.

Chamie 17 мар 2020 в 15:30

когда величина меньше погрешности (о какой величине речь, умалчивается)

Вы серьёзно вот это? Величина смертности/летальности, вот та самая, которая там оценивалась в 33%. Где в моём комментарии это неясно написано?

volokhonsky 17 мар 2020 в 16:34

Это везде неясно написано. И я не понимаю, почему вы считаете, что кто-то пользовался этой величиной для каких-либо расчётов. Было указано, что она недостоверна и всё на этом.

Chamie 19 мар 2020 в 13:50

Было указано, что она говорит о большом количестве скрытых случаев. В то время, как она вообще ни о чём не говорит.

volokhonsky 19 мар 2020 в 22:41

Она ни о чём не говорит, если у нас нет вообще никакой информации об истинном значении этого показателя. В случае же, если у нас есть основания полагать, что летальность существенно ниже 33%, то она именно и говорит о наличии скрытых случаев.

Chamie 23 мар 2020 в 20:26

То есть, возвращаясь к монеткам, два орла подряд говорят нам о скрытых решках?

volokhonsky 24 мар 2020 в 05:59

С односторонним уровнем значимости в 5% — при условии, что вероятность выпадения орла меньше 0.223.
Но пример с орлами и монетками не очень интуитивен. Представьте себе некий аппарат, выстреливающий шариками со случайной вероятностью 80% белых, 20% чёрных. Из этого аппарата сделано НЕИЗВЕСТНОЕ количество выстрелов в ящик. Вы вынимаете из ящика два шара и они оказываются чёрными. Какова вероятность того, что ящик после этого не пустой?

Chamie 24 мар 2020 в 12:40

У вас количество извлечённых шаров и количество выстрелов — независимые величины, а они зависимые.

vadimr 17 мар 2020 в 06:00

А кто сказал, что летальность — постоянная величина? Очевидно же, что это не так.

Трое умерших означают только то, что не менее трёх человек заболели (при условии, что на вскрытии ничего не напутали с диагнозом). А заболеваемость можно оценить только по результатам тестов в репрезентативной выборке, как для живых людей, так и для мёртвых. Если речь идёт про коронавирус, то исключительно биохимических тестов, так как симптоматически этот диагноз не выделяется из других ОРВИ.

volokhonsky 17 мар 2020 в 07:24

Да, переменная. Но можно же использовать какие-то оценки летальности. Если мы принимаем, что летальность не выше определенного значения, то трое умерших дают нам оценку числа заболевших с высокой степенью достоверности большую, чпм три. Об этом собственно впсь мой текст, нет?

vadimr 17 мар 2020 в 07:57

А на каком основании мы принимаем, что летальность не выше определённого значения? Это само по себе нуждается в статистическом подтверждении на репрезентативной и статистически значимой выборке.

На мой взгдяд, ваш текст основан на порочном круге в рассуждениях. Когда вы априорно присваиваете значению летальности, полученному на малой выборке или на нерепрезентативных данных, низкую погрешность (а у вас вообще написано: “допустим, что нам известна летальность”), то из этого можно вывести низкую погрешность всего остального.

volokhonsky 17 мар 2020 в 10:10

Никто не говорит про низкую погрешность. От 60 до 717 — это как до Луны. Мы достаточно уверенно можем утверждать, что для случайного человека из нескольких миллиардов землян летальность будет ниже семи процентов, потому что семь процентов — это чуть ли не максимум, показанный в наблюдениях на разных выборках. С учётом разных специфик этих выборок, мы можем ожидать реальную летальность заметно ниже семи процентов. Для этого нам не обязательна «репрезентативная выборка», а уж что такое «статистически значимая выборка» — я не знаю.

Armitage1986 17 мар 2020 в 10:11

Летальность — это отношение умерших к выздоровевшим, а не к заболевшим.

volokhonsky 17 мар 2020 в 10:11

К сумме умерших и выздоровевших. Завершенные испытания Бернулли, как уже было тут в комментах высказано.

vv78rus 17 мар 2020 в 10:12

Только ленивый не пишет про вирус.
Хайп такое дело.

volokhonsky 17 мар 2020 в 10:12

Я ради такого случая даже вот первый пост написал на хабре! :-)

kdo70 17 мар 2020 в 10:12

Не могу поставить +, у меня аккаунт заражен коронавирусом.

TimeCoder 17 мар 2020 в 11:03

Возможно ли сжать общий вывод до 2 битов?

Все это шумиха, коммерция, скоро пройдёт и забудем
Все не так плохо, как везде говорят
Все даже хуже, чем пугают
Катастрофа.

volokhonsky 17 мар 2020 в 13:08

Нет, не получится. Но если кратко — заметка Томаса Пуэйо приводит более-менее корректные расчёты, которые вполне можно использовать в принятии решений.

productfamily 17 мар 2020 в 21:37

5. Теория (а может, и практика) заговора.

xenon 17 мар 2020 в 12:18

Может кто-то мне пояснить простую вещь про вирус и карантин? Вот, допустим, сейчас вирус уже действует и на улицах ходят и чихают опасные люди. Если я выйду из дома, велик риск, что на улице, транспорте, магазине я заражусь. Это все понятно. Но при этом о полной победе над вирусом в обозримом будущем (полгода-год) речи не идет. То есть, даже если все будет довольно оптимистично, через полгода-год все равно на улице будут больные люди?

Тогда какой смысл в карантине? Не как в кино, когда в лесу есть скрытый бункер и там запас еды на 3 года, а обычная квартира, иногда кто-то приходит неизбежно, иногда (ну хоть раз в неделю) надо самому выйти.

Сидеть дома несколько лет — невозможно. Неужели выходит, что заражение неизбежно? (кончится ящик тушенки — пойду за другим, там продавщица на которую полгорода чихало). Реально возможный карантин только позволяет мне отложить дату заражения?

andrew911 17 мар 2020 в 12:26

Смысл в осложнениях — небольшому проценту от заболевших требуется аппарат искусственной вентиляции легких.
Но небольшой процент от большого числа превращается в большое число, а аппаратов ограниченное количество, не расчитанное на такие ситуации. Что и случилось в Италии, где смертность растет, т.к. нет возможности оказать помощь всем.
Поэтому смысл состоит в уменьшении количества заболевших и растягивании их во времени, чтобы им могла быть оказана помощь.

anger32 17 мар 2020 в 13:23

Поэтому смысл состоит в уменьшении количества заболевших

… в единицу времени.

andrew911 17 мар 2020 в 13:24

И в целом тоже

Valerij56 21 мар 2020 в 23:24

В целом — не получится, переболеют этим вирусом на Земле практически все (ну, может быть, кроме жителей дикого племени в джунглях), и, вероятно, не по одному разу. Задача — сделать так, чтобы они не заболели одномоментно, и, тем более, не заболели сейчас — в самом начале. Потому, что теперь надо массово делать аппараты ИВЛ, оборудовать ими все скорые и даже оснастить ими поликлиники и сельские фельдшерские пункты.

volokhonsky 21 мар 2020 в 23:59

А вот тут уже, чтобы что-то утверждать, моих знаний явно недостаточно. Но вызывает большие сомнения про «практически все». Гриппом-то на земле наверняка есть миллионов сто, которые ни разу не болели. Как и туберкулёзом и множеством других заболеваний разной степени летальности и контагиозности.

Valerij56 22 мар 2020 в 01:19

Как и туберкулёзом

Да, туберкулёзом и многими другими болезнями многие большинство никогда не болело. Кто-то в силу климата, кто-то из-за прививок. А вот сто миллионов на планете, населённой семью миллиардами, то есть, если примерно один из семидесяти жителей Земли ни разу за свою жизнь не болел гриппом — то это как раз и будет «практически все на планете гриппом переболели.

Например, мой второй ребёнок, проживший, в 1983 году, чуть больше суток, никогда не болел, и больше никогда не заболеет гриппом. Почему вы считаете, что это повод для оптимизма?

vadimr 17 мар 2020 в 15:55

Это вещь, как я её понимаю, не такая простая. Для начала надо задаться более общим вопросом: а почему вообще эпидемии каких-либо заболеваний, не вызывающих пожизненного иммунитета, прекращаются? Очевидно, обрывается эпидемическая цепочка по тем или иным причинам (мутировал штамм, поменялись природные условия, достигнута критическая концентрация антибиотиков в воздухе, умерли все восприимчивые и т.д.)

С точки зрения интересов вируса, наиболее эффективным является лёгкое течение заболевания, когда люди распространяют вирус незаметно для себя, т.е. не лечась (если вообще человек не является терминальной ветвью жизненного цикла вируса, куда он попал от летучих мышей по ошибке). Поэтому эволюционный отбор вирусов идёт в сторону уменьшения патогенности. А так как эволюция у микроорганизмов идёт очень быстро, то в короткие сроки патогенность вируса снизится до эволюционно обоснованных величин.

beerchaser 17 мар 2020 в 19:59

Ремарка: вирус не микроорганизм, антибиотики на него не действуют.

vadimr 17 мар 2020 в 20:16

Я в данном случае писал вообще об эпидемическом процессе. Конечно, терминологически некорректно отнеся вирус к микроорганизмам, но по сути изложенное верно.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 17 мар 2020 в 13:09

Не зарегистрированных случаев, а выздоровевших.

dubakov 18 мар 2020 в 09:51

Вот да. Если используется термин летальность, то где-то должно быть «за какое время».

volokhonsky 18 мар 2020 в 14:25

Мне представляется, что летальность — это вероятность умереть в случае заражения вирусом по причинам, непосредственно связанным с заболеванием. Может быть с такой поправкой — вероятность для тех, у кого вирус явно себя проявил, потому что там ещё есть неизвестное количество людей, которые и не заметили, что у них вирус побывал — пока нет широко распространённого тестирования, затрагивающего множество здоровых, как в случае с ВИЧ.

НЛО прилетело и опубликовало эту надпись здесь

volokhonsky 17 мар 2020 в 13:15

А при чём здесь статистика. Это эмоции. Они тоже важны, если хочешь добиться результата в презентации данных широким народным массам, но… Какой-то врач рассказала журналистам, что в их больнице никто не выздоровел. Для разнообразия это хотя бы подлинная история. Я прошёлся, нашёл репортаж этого итальянского телеканала и там врач действительно это говорит.

vassabi 17 мар 2020 в 13:21

Мало информации для контекста — речь про больницу вообще или про отделение, в котором врач работает (интенсивной терапии с очень тяжелыми больными).
Выздоровевшие-то в Италии есть, просто много из них — это легкие случаи, которых в больницу не кладут (даже если это пневмония — но без симптомов явной недостаточности)…

НЛО прилетело и опубликовало эту надпись здесь

shellenberg 17 мар 2020 в 15:18

Это в чистом виде давление на эмоции, хороший прием если вы политик но не для технического ресурса.

NumLock 17 мар 2020 в 21:31

Боюсь, что распределение нельзя посчитать по стат. данным который сейчас представлены в интернете. Новая технология породила новый вид шумихи, на которой делают деньги.
Большинство болеющих и выздоровевших не учтено. Нет столько тестов, чтобы определить каким вирусом болеют большинство людей. Вся статистика только от тех, кто обратился за помощью. Остальная большая масса не учтена.
По роду своей деятельности, каждый день, я нахожусь в контакте с парамедиками в многомиллионном городе. Чрезвычайное положение в городе уже объявлено. Уже выявляют короновирус среди мед. персонала, «для галочки». Потому, что отследить кто был контакте с заболевшими до выявления у них этого вируса — невозможно. Остальной мед. персонал ходит на работу и возможно проявляется у них этот вирус как обыкновенная простуда. Никто из них специально тесты не делает.
Так что, в реальности — это обыкновенное тяжёлое ОРВИ, которое появляется раз в 15-20 лет. Если сравнить продолжительность жизни сейчас и 20-30 лет назад, то она увеличилась. Однако вирус может её отбросить назад.

hour 17 мар 2020 в 21:38

Интересная статья от Имперского колледжа
www.imperial.ac.uk/media/imperial-college/medicine/sph/ide/gida-fellowships/Imperial-College-COVID19-NPI-modelling-16-03-2020.pdf

Зарегистрируйтесь на Хабре, чтобы оставить комментарий