К настоящему моменту накопилось досточно данных для выполнения заявленного анализа. Будут использованы данные за октябрь, ноябрь и декабрь 2021 года, поскольку эти месяцы как содержат российский эпид. сезон, так и являются однородными с точки зрения штамма вируса: в обеих странах в этот период был распространен Дельта- вариант. Данные для анализа взяты из официальных источников России и США.
Смертность и вакцинный статус
Во времена Дельта- штамма основной причиной избыточной смертности называли непривитое население: дескать, именно они заболевают Covid-19 и впоследствии умирают. Определим избыточную смертность как отношение умерших за месяц 2021 года к одноименному месяцу 2020 года. В таком случае если построить график избыточной смертности от доли непривитого населения, то мы должны получить растущую прямую, выходящую примерно из точки (0, 0.8) и достигающую значения (1, 1).
Действительно, если все население привито, то текущая смертность должна находиться в районе 2019 года (поскольку в таком случае никто не умирает от Covid- 19, а смертность от остальных причин сохраняется), а при полностью непривитом населении смертность должна повторить значение предыдущего года. Таким образом теория задает растущую прямую с коэффициентом наклона примерно равным 0.2. В этом разделе публикации мы построим эти графики для обеих стран и сравним с ранее выдвинутым теоретическим утверждением.
Может показаться, что задача очень проста: необходимо усредняя по стране для каждого месяца определить избыточную смертность (координата y) + долю невакцинированного населения (координата x) и нанести эти точки на график. Но в этом случае у нас будет неявная зависимость от времени, поскольку разные точки одного графика будут относиться к разным месяцам. А в разные месяцы большое количество факторов (погода, питание, спортивная активность, достаток, традиции, принятые ограничительные меры....) могут иметь разное значение, поэтому мы получим зависимость избыточной смертности от вакцинации и большого количества факторов, косвенно участвующих в виде времени.
Отдельно выделю фактор стадии эпид. процесса, который задает различное положение максимумов смертности в разных годах. Это приводит к тому, что есть как месяцы с завышенной избыточной смертностью (где был максимум в 2021 году), так и с заниженной (где был максимум в 2020 году). Например, для г.Москва максимальные значения заболеваемости отличаются от фоновых примерно в 3 раза, поэтому избыточная смертность может колебаться в 9 раз! На фоне подобных "качелей" избыточной смертности оценки эффективности вакцинации будут содержать большие ошибки.
Казалось бы из- за действия сильных зашумляющих факторов задача превращается в нерешаемую. Но для подавления шумов мы задействуем тот же прием, который используется при анализе сильно зашумленного космического излучения.
Представьте, что у вас есть небольшой полезный сигнал в виде периодического маленького "тычка", на фоне 100- кратно превышающего его белого шума. Выделить полезный сигнал из этой совокупности практически нереально. Но если мы 100 раз сложим этот зашумленный сигнал сам с собой, то полезная составляющая усилится в 100 раз (поскольку "тычок" имеет постоянное значение), а шум ослабнет (поскольку он случаен, т.е. разнонаправлен и будет сам себя подавлять). Так можно получить полезный сигнал из сильно зашумленных данных.
Поэтому мы нанесем каждый регион на график отдельной точкой и несмотря на то, что на регионы действует большое количество переменных факторов, мы в силу их рассогласованности при усреднении получим сильно ослабленное шумовое воздействие. Поэтому точки, представляющие отдельные регионы, не имеют самостоятельного смысла, а результатом анализа можно считать только наклон регрессионной прямой (отражающей усредненное значение). Также не стоит заниматься экстраполяцией регрессионной прямой (к значениям абсцисс 0 и 1), поскольку ее наклон расчитывается с определенной ошибкой, а экстраполяция кратно увеличит эту ошибку.
Россия
В нашей стране есть два независимых источника данных по смертности от Covid- 19: сайт стопкоронавирус и официальные отчеты Росстата. Первый дает сильно заниженные данные как по заболеваемости, так и по умершим, поэтому летальность в различных регионах из- за подобных корректировок отличается в разы. Я считаю данные сайта стопкоронавирус ненадежными и буду использовать помесячные данные Росстата. При анализе я не учитывал регионы со смертность в 2020 году ниже 1000 человек / месяц, поскольку в этом случае случайные отклонения могут ощутимо исказить статистику.
Для получения данных по вакцинации использовался сайт gogov.ru, который детализирует данные по регионам и датам. На этом сайте представлено два числовых показателя: вакцинированно и полностью вакцинированно. При построении отчетов я приводил оба значения, но рекомендую опираться на первые, поскольку их больше и как следствие статистика получается более точная.
При соединении наборов данных получены графики, каждая точка на которых представляет отдельный регион. Данные по вакцинации брались за 5 дней до начала соотвествующего месяца. Это учитывало как временной лаг для протекания болезни (-10 дней), так и отставание опубликованных данных от реального положения в регионе (+5 дней).
Голубая область задает границы 95% уверенности нахождения регрессионной прямой. Уравнения приведены для искомой регрессии.
По графикам видно, что для России ранее выдвинутое теоретическое утверждение (о том, что от Covid- 19 умирает в основном непривитое население) не соответствует действительности: в октябре и ноябре в популяции наличиствует обратная зависимость (чем больше в регионе непривитого населения, тем в нем ниже избыточная смертность). Декабрь хорошо приближается к искомой зависимости (выходит из точки (0; 0.8) и стремится в точку (1; 1)). Декабрьский рост регрессионной прямой скорее всего связан с вакцинацией бустерной дозой, которая временно понижает смертность (во втором разделе настоящей публикации вы увидите, что в США в декабре также есть отклонение в сторону эффективности вацинации).
США
Данные по вакцинации взяты с сайта Центра по контролю и профилактике заболеваний США (его роль заключается в предоставлении информации для улучшения решений в области здравоохранения). На том же сайте в другом наборе данных представлена информация о смертности от всех причин.
Дополнительным бонусом данных из США оказалось разделение населения по возрастным группам как среди вакцинированных, так и среди умерших, что позволяет более детально проанализировать воздействие вакцинации. Позже анализируя эту разницу мы получим интересные выводы.
Графики, построенные по тем же правилам, что и для России.
По США ранее выдвинутое теоретическое утвеждение также не подтвержается: регрессионная прямая имеет обратную зависимость (т.е. чем больше в регионе непривитого населения, тем в нем ниже избыточная смертность).
Идентичность графиков, полученных для двух стран, позволяет сделать вывод о корректности всех использованных 4- ех наборов данных (2 для России и 2 для США). Действительно, если бы хоть один набор был некорректен, то по двум странам мы получили бы разные графики. Эта промежуточная "победа" позволяет продолжить исследование и на основании представленных графиков сделать ряд дополнительных выводов.
Эффективность вакцинации
А теперь наконец перейдем к основной теме публикации. Мы уже косвенно оценили, что эффективность вакцинации далека от 1, поскольку для обеих стран не выполнилась исходная теория. Но все же хочется иметь какие- то более точные оценки.
Первый способ
Одну из оценок можно сделать на основании того, что рассматриваемые месяцы идут непрерывно. В этом случае если и произойдет сдвижка максимума смертности одного года относительно другого, то это в себе учтет следующий месяц. Т.е. верхнюю границу эффективности вакцинации можно оценить как максимум разницы между 1 и средней избыточной смертности. Обращаясь к графикам США для тотально вакцинированной группы 65+, мы видим, что минимальное отклонение центра красной линии от 1 равно 0.2. Это и есть первая оценка верхней границы эффективности вакцинации.
Стоит заметить, что на популяцию могут действовать факторы, имеющие в разных годах различное влияние, поэтому этот метод дает надежную оценку только при условии постоянства всех остальных факторов.
Второй способ
Ранее я говорил о большом количестве факторов, действующих в регионе. Но для отдельно взятого месяца это влияние должно быть одинаковым на обе возрастные группы (65+ и 65-). Таким образом, анализируя отличия избыточной смертности и долей для центра краной линии, можно заключить, что верхняя граница эффективности вакцинации в ноябре составляла примерно 0.3, а в декабре примерно 0.5. Отличия по двум месяцам скорее всего объясняются значительной долей популяции 65+, поставивших в декабре 2021 года бустерную дозу вакцины (у которой пока еще сильное воздействие на организм).
Этот метод также содержит изъяны:
Скорее всего зависимость эффективности вакцинации от доли вакцнированного населения является нелинейной функцией, поэтому ее экстраполяция прямой линией по небольшому центральному участку некорректна.
Оценка опирается на апроксимирующии линии двух возрастных групп, каждая из которых содержит достаточно значимую относительную ошибку. Поэтому итоговая оценка также получается с большой относительной ошибкой (т.е. не робастна).
Так как по США мы имеем более правдоподобные данные заболеваемости, то можно учесть то, что за промежуточный год по официальным данным переболело ~10% населения (на практике я думаю это значение примерно в 2-3 раза выше), часть из которого не пережило заболевание. Так популяция США "приспособилась" к новому вирусу и потому в 2021 году должна иметь на 10% меньшую смертность, чем в 2020.
Вывод: верхняя граница эффективности вакцинации от Дельта- штамма в России и США лежит в интервале от 15% до 30%.
p.s. Проект на Github.
Update I: ложность возражения о корреляции параметров от возраста
В комментариях было выдвинуто такое возражение: прямые имеют отрицаетельный коэффициент наклона, потому что возрастные интервалы, в разрезе которых строятся графики (65+ и 65-), для разных регионов имеют различный профиль возрастной пирамиды. Как результат преобладания в регионе молодого населения (в рамках возрастного интервала), мы получаем большую вероятность того, что они не будут вакцинироваться и меньшую- что умрут.
Но в публикации рассматривается не зависимость смертности, а избыточной смертности, которая определена как отношение смертностей 2021 и 2020 годов. Если в 2021 году у популяции одного из регионов есть особенности возрастного профиля, изменяющие его смертность, то эта особенность точно также действовала в предыдущем году. Дело в том, что возрастной профиль оказывает мультипликативный эффект, поскольку при расчете смертности необходимо вероятность смертности для каждого возраста умножить на количество людей этого возраста в популяции. В итоге воздействие особенностей возрастного профиля в регионе на избыточную смертность отсутствует. Например, если текущая смертность из- за специфического профиля возрастной пирамиды для рассматриваемого региона занижена (относительно других регионов), то и прошлогодняя смертность должна быть ровно во столько же раз занижена, а их отношение в свою очередь уже не зависит от возрастного профиля.
Это касается и других мультипликативных факторов, которые сохраняют свое влияние на протяжении длительных периодов (не только возрастного состава) и могут оказать влияние на смертность (так называемый факторный анализ). Если на смертность в регионе действует какой- то квазипостоянный фактор повышающий / понижающий смертность в К раз, то точно также этот фактор повышал / понижал смертность в К раз в предыдущем году. Конечно, если фактор носит аддитивный характер (например, падение метеорита или цунами в регионе разово увеличивают смертность), то избыточная смертность ощутит его влияние. Но, во- первых, подобных воздействий значительно меньше (что подтверждается практически равным нулю свободным членом в законе Гомперца), а во- вторых, мы используем процедуру усреднения для избавления от подобных случайных влияний.
Все вышесказанное позволяет заключить, что введенная в публикации избыточная смертность не зависит ни от каких специфических мультипликативных квазипостоянных региональных факторов, в том числе от возрастного состава.
UPDATE II: ложность теории о полной неэффективности вакцинации до определенного порога
В комментариях оппоненты привели теорию, по которой, пока популяция не достигнет определенного порога вакцинации, эффективность вакцинации будет равна 0. А как только достигает, так эпидемия тут же начинает угасать.
Прольем свет на процесс распространения эпидемии, для этого рассмотрим процесс передачи заболевания от 1-ого зараженного человека. Пусть R0=4, тогда (по определению R0) 1 заболевший заразит 4 человек. Но если популяция вакцинированна на 25%, то он заразит уже 3-ех (поскольку из 4 случайно встреченных людей в среднем 1 человек будет вакцинирован), а при 50% вакцинированных- всего 2-ух человек, а при 75% уровне вакцинации заболеет всего 1 человек, и эпидемия угаснет. Смертность в свою очередь будет пропорциональна количеству переболевших. Таким образом, рассматривая потенциальных больных как чисто статистические выборки из популяции, можно говорить об эффективности вакцинации на любом ее уровне.
Если же вы хотите добавить в рассмотрение передачу инфекции между вакцинированными, то необходимо ввести коэффициент эффективности вакцинации против заболеваемости (предположим он равен 0.2) и домножать вакцинированных, попавших в окружение заболевшего, на этот коэффициент при расчете общего числа зараженных.
Скажем при R0=4 и 25% уровне вакцинации получаем 3 + 1*0.2 = 3.2 зараженных, а при 50% вакцинации заразится 2 + 2*0.2 = 2.4 человека. Как видно низкий уровень вакцинации работает (при 25%: 3.2 < 4), даже с поправками на передачу заболеваемости между вакцинированными.
В свою очередь, заболевание в популяции передается последовательно от одного заболевшего к другому в течении характерного для Covid-19 периода. Так как и количество заболевших и период передачи содержат дисперсию, то полное количество заболевших в популяции за определенный пеирод будет достаточно сложной функцией. Но очевидно одно: чем меньше людей заражет один заболевший, тем меньшим будет полное число заболевших (т.е. функция является возрастающей).
Все это позволяет заключить, что мой анализ, опирающийся на рассмотрение избыточной смертности на разных уровнях вакцинации, корректен, поскольку вакцинация должна оказывать влияние на любых своих уровнях.
UPDATE III: Корректность усреднения по регионам
В моей работе присутствует усреднение по регионам без учета, проживающего в них количества людей (когда я строю регрессионную линию). Давайте разбираться будет ли это ошибкой.
Напомню, что при распределении сильно отличающегося от нормального нельзя применять анализ средних значений (в этом случае используют медианы). Очевидно, что распределение регионов России сильно отличается от нормального.
Дополнительным бонусом является то, что усредненные значения без весовых коэффициентов получаются более устойчивыми, поскольку они менее зависят от текущих изменений: значения рассчитанные с региональными весами будут постоянно "плыть" вместе с крупными регионами, а наш вариант будет зависеть только от изменений по всей стране в целом.
Косвенно корректность рассуждений этого раздела можно проверить следующим образом: отсортировать регионы каждой страны по количеству проживающих в нем людей и построить теже самые графики для половины самых населенных регионов. Так мы получим крайнюю пропорцию весов (положим крупным регионам вес 1, а мелким- 0), в свою очередь все остальные способы "взвешивания" регионов будут лежать между исходным и этим карайним вариантом. Если новые графики совпадут с графиками, содержащими все регионы, то это подтвердит мои слова о корректности отсутствия взвешивания. Конечно, необходимо учитывать, что при вдвое меньшем количестве точек алгоритм построения регрессионной линии не может настолько же точно провести прямую, поэтому неминуемы отклонения от исходных прямых (доверительный интервал также сильно расширился).
Графики для половины самых крупных регионов России
Графики для половины самых крупных регионов USA
Сравнение двух серий графиков позволяет сделать вывод о корректности использованной в работе методики.
UPDATE IV: подтверждение выводов публикации текущим распространением Омикрон- штамма
Лучшим подтверждением любой работы, содержащей теоретическую часть, является практика. Она- тот судья, который выносит окончательный вердикт о корректности выполненных исследований.
Давайте посмотрим на заявления официальных лиц и эпидемиологов по ситуации распрострения Омикрон- варианта, которые в свою очередь базируются на реальной текущей эпид. ситации в мире:
Эффективность вакцин против нового штамма минимальна
Бустерная доза временно повышает защищенность организма
Оба эти утверждения являются калькой выводов моей публикации для Дельта- штамма. Сегодняшняя практика полностью подтверждает мои рассчеты. И это логично, поскольку оба варианта являются мутациями исходного Альфа- штамма вируса, под который собственно и разрабатывались все существующие на данный момент вакцины. Популяция также за прошедшие полгода сильно не поменялась. Поэтому и не должно быть никаких существенных отличий в эффективности вакцинации для этих вариантов. И это логично, поскольку вселенная не изобилует причинами. Как правило законы, лежащие в основаниях тех или иных процессов, просты и раз от раза повторяются во множестве ситуаций с небольшими поправками, вызванными отличиями текущего окружения. В этом собственно и заключается цель исследований: найти общие закономерности в разрозненных данных.