afedintsev 24 мар 2020 в 19:38

Смертность, летальность, коронавирус и матан

5 мин

27K

Data Mining*БиотехнологииЗдоровьеМатематика*

+30

Комментарии 45

MooNDeaR 24 мар 2020 в 20:39

CFR по подтвержденным случаям составляет около 18%

Это не согласуется с реальными цифрами в Китае, в котором на данный момент насколько я ознакомился с последними новостями, новых зараженных не появляется.

На данный момент цифры такие (из карты яндекса):

Число выздоровевших: 73 278
Число смертей: 3 281
Заражений: 81 588

Еще есть некоторое количество людей, которые не выздоровели их судьба пока неизвестна, но возьмем за аксиому, что они никого не заразят и доля смертей будет такой же как и сейчас. Тогда посчитаем только тех, чья судьба уже решилась:

CFR = 3281 / (3281 + 73 278) = ~4,3 %.

Тогда, если взять модель в 86% не диагностированных случаев, то IFR должен быть в районе 0,5%.

afedintsev 24 мар 2020 в 20:45

В Китае изменили тактику тестирования и начали шире тестировать при помощи компьютерной томографии. У КТ чувствительность больше, что позволило выявить больше бессимптомных, но при этом есть и ложноположительные результаты, поэтому я не опираюсь на последние данные по Китаю.

MooNDeaR 24 мар 2020 в 21:04

Я могу согласиться с тем, что IFR по китаю особо не посчитать, но нам и не нужно. Основная цифра, которая меня интересует: если я попал в больницу или получил диагноз, какие у меня шансы оттуда выйти.

Судя по вашим оценкам — умрёт каждый пятый (ну, почти).
Судя по реальным цифрам, умрет каждый двадцать пятый. Это всё еще дохрена, но не настолько пессимистично.

Про статистику ложноположительных диагнозов (того, что влияет на CFR) ничего в статье не сказано.

afedintsev 24 мар 2020 в 21:12

если я попал в больницу или получил диагноз, какие у меня шансы оттуда выйти.

— это зависит от возраста очень сильно. Если вы младше 70, то вероятность существенно меньше 1%.

Судя по реальным цифрам, умрет каждый двадцать пятый

— эти «реальные» цифры уже ближе к IFR чем к CFR, так как компьютерная томография обладает большей чувствительностью (а это значит, что большее количество бессимптомных будет попадать в статистику), а также меньшей специфичностью (что означает занижение летальности из-за ошибочной диагностики пневмоний, вызванных, например, гриппом). 75% результатов КТ — ложноположительные pubs.rsna.org/doi/10.1148/radiol.2020200642

MooNDeaR 24 мар 2020 в 22:08

Прошел по вашей ссылке.

In patients with negative RT-PCR results, 75% (308/413) had positive chest CT findings; of 308, 48% were considered as highly likely cases, with 33% as probable cases.

75% не ложноположительных, а 75% среди тех, на ком RT-PCR выдал негативный результат. Т.е. из общей массы (1014 человек) ложно-положительный получили только 30%. Причем только 48% из них (150 человек, или же 15% от всех) не были бы отправлены на дополнительное тестирование через RT-PCR, потому что получили оценку "highly likely", остальных бы точно отправили на доопследование.

В итоге получается, что КТ даёт примерно 15% ложноположительных больных, т.е. знаменатель в формуле CFR надо домножить на 0,85 (убрав тем самым из общего числа больных ребят, случайно попавших в выборку будучи здоровыми).

CFR = 3281 / ( 0.85 * (3281 + 73 278) ) =~ 5.0%.

Всё еще даже близко не 18%.

afedintsev 24 мар 2020 в 22:14

Ок, не 75% ложноположительных. Но вы же пишете:

75% среди тех, на ком RT-PCR выдал негативный результат

А это значит что? Что КТ позволяет задетектить больше пациентов и поэтому количество подтвержденных кейсов тоже будет больше, что смещает оценку в сторону IFR, а не CFR. 18% же получены только на тех, кому делали RT-PCR, поэтому и сравнивать их некорректно

MooNDeaR 24 мар 2020 в 22:49

Ну, я все ещё считаю, что этот сдвиг должен быть не такой значительный. КТ делают уже при наличии симптомов. Не всем же подряд его прописывают. В общем, вернёмся к разговору через месяц, да посмотрим на цифры)

afedintsev 24 мар 2020 в 23:00

Посмотрите на Южную Корею — там тестировали максимально широко(6148 тестов на миллион человек). Сейчас там 120 умерших и 3507 выздоровевших, что дает консервативный эстимейт IFR в 3.3%.

wsgy04 25 мар 2020 в 17:45

А можно источник на чувствительность кт? В моем понимании кт возможно покажет очаги затемнения в легких до развития клинических признаков тяжелого осложнения в виде пневмонии. Но делать его просто так всем бессимптомным? Мб все таки пациентам с легким (пока еще течением)?

afedintsev 25 мар 2020 в 17:51

pubs.rsna.org/doi/10.1148/radiol.2020200642

А вот тут показано, что у бессимптомных пациентов КТ видит изменения в легких: pubs.rsna.org/doi/10.1148/ryct.2020200110

Возможно, что бессимптомных там и не стали больше выявлять, но количество недокументированных кейсов явно значительно поубавилось.

kvas 25 мар 2020 в 16:51

> CFR = 3281 / (3281 + 73 278) = ~4,3 %.

Совершенно верно. Автор построил отличную мат модель, но забыл что надо ещё проверить применима ли она к реальной жизни. Модель, которая предполагает удвоение случаев каждые 5 дней к Китаю сегодня неприменима.

afedintsev 25 мар 2020 в 17:26

да нет, автор ничего не забыл. Я видел эти 4% до написания статьи, вот только оценка недокументированных случаев (86%) не применима к более поздним данным, когда начали выявлять много новых случаев. На графике новых случаев в Китае хорошо виден резкий скачок — это как раз начали тестировать не только по ПЦР. Больше выявленных больных означает шире покрытие и меньшее количество недокументированных случаев. Нам просто не на что опереться (в плане количества недокументированных случаев), если будем использовать в качестве CFR те числа, которые вы приводите.

kvas 25 мар 2020 в 17:58

> вот только оценка недокументированных случаев (86%) не применима к более поздним данным, когда начали выявлять много новых случаев.

Ну ок, не применима. То есть мы не знаем как посчитать IFR от CFR = 4%. Но это же не значит что можно эту цифру выкинуть и делать вид что CFR всё ещё 18%.

> На графике новых случаев в Китае хорошо виден резкий скачок — это как раз начали тестировать не только по ПЦР

Он не очень большой, там всего где-то 10к случаев добавилось по сравнению с обычной скоростью роста в тот момент. То есть это точно не близко к 85% и после скачка всё равно скорее всего много непосчитанных случаев. Согласен что мы не знаем точно сколько, но это можно оценить и всё равно сегодняшние цифры мне кажутся более информативными.

afedintsev 25 мар 2020 в 18:09

Ну ок, не применима. То есть мы не знаем как посчитать IFR от CFR = 4%. Но это же не значит что можно эту цифру выкинуть и делать вид что CFR всё ещё 18%.

Вы неправильно поняли посыл моей статьи — CFR, по большому счету, бесполезная величина, так как сильно зависит от стратегии тестирования. Тестируем только тех, кого надо госпитализировать? Получаем CFR > 40% как в Италии! Но вирус везде один и тот же, летальность от него сильно не отличается поскольку нет специфического лечения. Поэтому имеет смысл только один показатель — IFR. Его я и оценил в 2.5%, что плюс-минус попадает в доверительные интервалы других оценок. Я привел в пример работу специалистов из Imperial College London, но помимо них есть еще Южная Корея, где проводят очень много тестов, а еще есть Diamond Princess: IFR = 1.8%, 95% CI: 0.8%-2.9%. Видно, что доверительный интервал включает оценку IFR моим методом. Но посыл поста вообще был не в оценках и прогнозах.

kvas 25 мар 2020 в 18:38

IFR тоже не один у всех, он зависит от возрастной структуры населения, состояния и загрузки медицинской системы, и ещё бог знает от чего. По оценкам, которые я видел, получается что-т типа 0.5% если хватает аппаратов ИВЛ и прочей интенсивной терапии на все тяжёлые случаи и 2.5% если не хватает. В Италии чуть больше, так как там более старое население. В любом случае это выглядит гораздо хуже чем грипп, тут я с вами согласен.

> Но посыл поста вообще был не в оценках и прогнозах.

Ну ок, а в чём он тогда был?

afedintsev 25 мар 2020 в 18:58

По оценкам, которые я видел, получается что-т типа 0.5% если хватает аппаратов ИВЛ и прочей интенсивной терапии на все тяжёлые случаи и 2.5% если не хватает.

Вот я привел вам Diamond Princess в качестве примера. Там IFR = 1.8% (0.8%-2.9%), учитывая возрастную структуру населения, получится где-то вдвое меньше. Но разницы между 0.9% и 2.5% гораздо меньше чем между 0.01% (для гриппа) и 0.9%.

afedintsev 25 мар 2020 в 19:02

Ну ок, а в чём он тогда был?

Объяснить в чем различие между смертность и летальностью, объяснить, что такое CFR и IFR (чтобы люди не искали разницу между Италией и другими странами в уровне медицины), объяснить, что нельзя полагаться на оценки, полученные методом Deaths/Cases, а для любителей математики вроде меня еще и разобраться как этот метод можно пофиксить.

kvas 25 мар 2020 в 18:50

О, кстати, есть вот ещё какая штука: если мы знаем IFR в какой-то стране, то зная количество смертей можно попробовать оценить общее количество случаев. Понятно что если это делать наивно, то мы получим сколько было случаев две недели назад, но это можно откорректировать. Общее число случаев и его динамика — это весьма полезные метрики, которые позволяют оценить личный уровень риска, понять насколько работают существующие меры и нужно ли добавить или убавить мер.

Вы наверняка это и так знаете, но в посте не написали, а это по-моему важный момент.

afedintsev 25 мар 2020 в 18:54

О, кстати, есть вот ещё какая штука: если мы знаем IFR в какой-то стране, то зная количество смертей можно попробовать оценить общее количество случаев.

Я даже калькулятор сделал afedintsev.shinyapps.io/covid

kvas 25 мар 2020 в 19:07

Отлично, но ваш калькулятор полагается на то, что число случаев в среднем удваивается за 5 дней. Это верно только если никаких мер не принимать, то есть в данный момент в большинстве стран калькулятор неприменим.

Я имел ввиду, что если мы знаем IFR и знаем сколько смертей в день сейчас происходит, то можно прикинуть сколько заражалось в день две недели назад (или сколько там в среднем получится), а от этого, зная скорость умножения инфекции в эти последние две недели (можно прикинуть по динамике официальных случаев и смертности) можно прикинуть сколько новых заражённых сегодня. Во всех этих числах есть неточности конечно, но порядок хотя бы можно оценить.

afedintsev 25 мар 2020 в 19:11

В начале эпидемии удвоение еще быстрее идет

docadept 24 мар 2020 в 21:01

«Сразу оговорюсь, что в википедии (как русской, так и английской) приведено ошибочное определение летальности, которое сбивает с толку.» — а что именно неправильно? Все вроде верно написано — делим умерших на общее количество заболевших, получаем летальность. Тот факт, что показателей летальности два, ничего не меняет принципиально, только знаменатель дроби.

Главное ведь что — более-менее корректное значение летальности можно получить только к концу или по окончании эпидемии, а во время эпидемии они будут искажаться, конечно — об этом тоже пишут в научных работах и в Википедии в том числе, так что претензия, мне кажется, необоснованна:

«A CFR can only be considered final when all the cases have been resolved (either died or recovered). The preliminary CFR, for example, during the course of an outbreak with a high daily increase and long resolution time would be substantially lower than the final CFR.»

afedintsev 24 мар 2020 в 21:05

is the proportion of deaths from a certain disease compared to the total number of people diagnosed with the disease for a certain period of time.

вот этот вот «for a certain period of time» совершенно не к месту. Потому что летальность — это вероятность умереть в конце-концов от этой болезни. Конечно, если речь идет об острой инфекционной болезни

docadept 24 мар 2020 в 22:40

«Потому что летальность — это вероятность умереть в конце-концов от этой болезни.» — если абстрактный показатель при отсутствии лечения, то да, но реальный показатель летальности сильно варьируется в зависимости от того, есть ли лекарство, например. Летальность Эболы достигала 80-90%, а с применением лекарств снизилась до 20-30%.

Фразу «for a certain period of time» я лично интерпретировал всегда как примечание, что нужно взять какое-то время, более-менее продолжительное по сравнению с продолжительностью вспышки.

afedintsev 24 мар 2020 в 22:54

Я пишу про лекарство:

Летальность же от времени не зависит явным образом, но, например, может снизиться со временем, если найдут/изобретут лекарство.

Именно поэтому важно уметь точно оценивать летальность именно во время эпидемии, потому что после окончания летальность может быть совсем другой как раз из-за возможного лекарства.

Фразу «for a certain period of time» я лично интерпретировал всегда как примечание, что нужно взять какое-то время, более-менее продолжительное по сравнению с продолжительностью вспышки.

— с этим не спорю, но это все таки сбивает с толку многих, проще думать о бинарном исходе.

docadept 24 мар 2020 в 23:12

«важно уметь точно оценивать летальность именно во время эпидемии» — есть подозрение, что это не очень благодарное дело, почему об этом показателе практически никто не берется судить во время эпидемии, когда данные неполны.

Вы использовали неплохой подход, как по мне, я грубее делал — делил количество умерших на количество новых заболевших N дней назад — просто потому, что если попытаться уточнить, то погрешность может оказаться больше самой вычисляемой величины, а это недопустимо. N брал от 5 до 7 — среднее время от выявления больного до его смерти.

В итоге CFR приблизился к значению в 3,3%: prntscr.com/rm4998, но потом снова начал расти, так как эпидемия расползлась по миру: prntscr.com/rm49to

afedintsev 29 мар 2020 в 21:48

вот здесь похоже делали, только смотрели на две недели назад.

Furriest 25 мар 2020 в 04:09

Вы зря наделяете летальность столь мощной предиктивной силой. Она никак не предскажет вероятность вашей смерти от конкретной болезни, потому что она ничего не знает про ваши индивидуальные особенности. Летальность — это всего лишь процент умерших среди всех переболевших (не заболевших, а переболевших).

И как летальность (медицинский показатель), так и смертность (социологический показатель) — ретроспективны, т.е. могут быть корректно оценены после окончания события.

afedintsev 25 мар 2020 в 11:12

Мне кажется, вы все же не дочитали статью:

Важно понимать, что значение IFR не следует использовать для оценки вероятности умереть от болезни, так как вероятность умереть от болезни зависит от множества факторов:

Furriest 25 мар 2020 в 11:31

Я говорил про определение термина, данное в самом начале статьи. Оно некорректно.

afedintsev 25 мар 2020 в 11:35

Посмотрите, пожалуйста, определение вероятности. То, о чем говорите вы, это условная вероятность, то есть вероятность умереть при условии такого-то возраста, пола, наличия заболеваний и прочего.

Furriest 25 мар 2020 в 11:41

Летальность — это не вероятность. Летальность — это смертность в группе переболевших. Постфактумное значение.
Вы зря пытаетесь спорить с википедией в этом вопросе, там приведено полностью корректное определение. Формулируя же летальность как вероятность, вы вносите в этот термин предиктивное значение, которого в нем нет.

afedintsev 25 мар 2020 в 12:03

вероятность — это количество благоприятствующих исходов поделить на общее количество. В данном случае, благоприятствующий исход — это смерть (как ни странно), а общее количество исходов — это число переболевших. Делим количество умерших на количество переболевших и получаем вероятность смерти при условии болезни.

Furriest 25 мар 2020 в 14:12

То, что летальность и вероятность считаются по одной формуле, не делает первое вторым. Вероятность всегда предиктивна, летальность всегда постфактумна и ничего не говорит о моменте времени T=0+. Речь не о математике расчета величин, а о разном их физическом смысле.

afedintsev 25 мар 2020 в 17:21

Вероятность всегда предиктивна

— приведите, пожалуйста, источник этого утверждения.

Furriest 25 мар 2020 в 19:22

Это следует из самой теории вероятностей. Она работает исключительно со случайными исходами, в то время как любой исход в момент времени Т=0- детерминирован. Вероятность произошедшего события всегда равна 1.

pavlik 26 мар 2020 в 17:14

Почему переболевших? Ведь диагностированных. Летальность — это вероятность умереть если у тебя диагностировали заболевание.

afedintsev 26 мар 2020 в 17:21

Всего исхода два: выздороветь или умереть, общее число исходов — это сумма выздоровевших и умерших.

Hardcoin 25 мар 2020 в 14:47

Любое постфактумное значение можно использовать для моделирования будущего. Никаких логических или научных запретов для этого нет. Главное адекватно оценивать надёжность модели.

soul32bit 25 мар 2020 в 04:32

Посмотрите на кол-во абортов в той же "неправильной" Википедии и успокойтесь… Вторая мировая и та забрала меньше людей. Корона вирус? Да не смешите.

sandstranger 25 мар 2020 в 11:12

Смертность от коронавируса в последний день превысила 1700 человек и судя по всему будет увеличиваться дальше.
Вам все ещё смешно?
Ну, смейтесь дальше...

НЛО прилетело и опубликовало эту надпись здесь

ILDAR_BAHTIGOZIN 25 мар 2020 в 12:43

по Италии ещё пересчитать бы по такому методу, там летальность должна получиться выше…
т.к. всё же ещё зависит и от перегруженности мед.системы…

Aeverandi 31 мар 2020 в 16:54

Если вы хотите более точных цифр заболеваемости, то нужно с особым занудством учитывать в расчетах чувствительность, специфичность и распространенность тестов на заболевание, так как в разных странах используются разные тест-системы, которые по-различному покрывают население. А в прогнозе летальности никак не обойтись без учета факторов риска, которые в разных странах тоже распространены по-разному. Я уже молчу про различную эффективность карантинных мер. Хотя есть конечно общие закономерности течения эпидемии, не спорю.

afedintsev 6 окт 2020 в 18:10

В Нью-Йорке IFR оценили в 1.39%, что довольно близко к предсказанным в статье 2.5%. Надо учитывать, что в Китае популяция, в среднем, старше (медианный возраст в Нью-Йорке 36.6 лет проти 38.6 лет в Китае)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Смертность, летальность, коронавирус и матан

Комментарии 45

Публикации

Истории