Pull to refresh

Исследование данных о распространении COVID-19 с помощью разностей первого порядка. И что из этого получилось

Data MiningBig DataMathematicsOpen dataResearch and forecasts in IT
Привет Хабр. Пришла в голову идея о проведении анализа данных с помощью разностей. Метод не нов, но суть идеи состоит в том, чтобы исследовать не абсолютные значения данных о распространении, а именно долю агента (страны) в общем ансамбле агентов (всех стран). И поведение этой доли в процессе развития эпидемии.

На рисунке 1, представил все исследуемые точки (почти 24 000, данные от European Centre for Disease Prevention and Control), поэтому он немного мутный, и выделил линии аппроксимации для тех стран, которые явно проявляют свой характер с уравнениями регрессии и коэффициентом R^2.


Рис. 1.

Минутка заботы от НЛО


В мире официально объявлена пандемия COVID-19 — потенциально тяжёлой острой респираторной инфекции, вызываемой коронавирусом SARS-CoV-2 (2019-nCoV). На Хабре много информации по этой теме — всегда помните о том, что она может быть как достоверной/полезной, так и наоборот.

Мы призываем вас критично относиться к любой публикуемой информации


Официальные источники

Если вы проживаете не в России, обратитесь к аналогичным сайтам вашей страны.

Мойте руки, берегите близких, по возможности оставайтесь дома и работайте удалённо.

Читать публикации про: коронавирус | удалённую работу

На рисунках, под спойлером, представил данные по выбранным странам в двух вариантах, когда исследуется изменение доли агента и фактические данные о приросте инфицированных. С небольшим анализом графиков. В целом можно сказать, что разностный метод в данной интерпретации может работать как вспомогательный опережающий индикатор процессов развития пандемии, что-то типа индикаторов в техническом анализе биржевых курсов.

Графики

Рис. 2.


Рис. 3.


Рис. 4.


Рис. 5.


Рис. 6.

Теоретические основы


Представлю начальные сведения о механизме показателя в начале на простом примере фактическом примере.

Возьмем локальную группу из трех стран (Россия Иран США) за период 22, 23 апреля (рисунок 7).

1а) В Иране количество инфицированных на 22.04.2020 составило 84802 человек.
1б) В Иране количество инфицированных на 23.04.2020 составило 85996 человек.
2а) В России количество инфицированных на 22.04.2020 составило 52763 человек.
2б) В России количество инфицированных на 23.04.2020 составило 57999 человек.
3а) В США количество инфицированных на 22.04.2020 составило 825041 человек.
3б) В США количество инфицированных на 23.04.2020 составило 842629 человек.
4а) Общее количество инфицированных, в ансамбле из трех стран, на 22.04.2020 — 962606 человек.
4б) Общее количество инфицированных, в ансамбле из трех стран, на 23.04.2020 — 986624 человек.


Рис. 7.

Математическое обоснование.

Обозначим общее количество инфицированных на шаге (на дату) i – Ni.
Обозначим общее количество инфицированных в стране j на дату i = Mji.
Тогда исследуемая функция имеет вид:
Fji = Mji / Ni
Приращение функции dFji имеет вид:



У этой функции есть важное свойство баланса, которое заключается в том, что сумма всех разностей на каждом шаге (в каждую дату) равна 0. Далее математическое обоснование.



Второе следствие из этого закона баланса, что сумма всех разностей на протяжении всего процесса развития и жизни эпидемии также равна нулю. Математика ниже.



Данные разности имеют три состояния:

А) Меньше нуля;
Б) равно 0;
В) Больше нуля.

Их интерпретация идет по стандартным правилам исследования функций и, здесь, этими аспектами перегружать не буду.

Рассмотрим поведение графика функции в бесконечности. Вспоминаем, что современные принципы говорят, что мы сегодня не в состоянии искоренить вирус, а только можем попытаться привести заболеваемость по этой причине до приемлемого уровня. То есть где-то в будущем будет состояние равновесия по условиям:
Mji+1 = Mji + dj

То есть к арифметической прогрессии, тогда принимая, что рост (альфа) общего числа инфицированных больше 1, получаем:



Это хорошо видно на рисунке графика для Китая.


Рис.12.

Из всего вышесказанного формируется следующее свойство. Что данная модель может быть стабильной при существовании локальных всплесков у одного или части агентов (стран).

Рассуждаем следующим образом. В процессе развития пандемии каждая страна в итоге будет выходить на этап, когда последующие разности будут приближаться к нулю с отрицательной стороны. Количество этих стран будет возрастать и в идеальном случае приблизиться к количеству k-1. Но больше этого быть не может, так как балансовое уравнение должно соблюдаться. У k-1 суммарная сумма разностей на i-том шаге будет меньше нуля. И тогда k-ая страна должна иметь величину разности больше нуля, чтобы итоговый баланс был равен нулю. То есть всплеск. На i+1 шаге k-ая страна снижает свою разность и она перемещается на графике в отрицательную полуплоскость. Но это возможно только в том случае, если произойдет всплеск в одной или нескольких странах, которые до этого были в отрицательной зоне. Это все мы и видим в сезонных всплесках гриппа, который должен подчиняться этим же законам.

Оценивая сложность задачи, первое, что приходит на ум, это «задача трех тел» но здесь их 206. Теоретически возможно, но непонятно, и какую систему дифуравнений придется решать. Но с другой стороны система дифуравнений подразумевает начальные параметры и у нас уже таких параметров немало. С учетом того, что область значений функций от -1 до +1 и система дифуров подразумевает множество мертвых зон. По построенной модели, сумма баланса из-за ошибок в расчетах расходилась с нулем на 1*10^-17. То есть диапазон исследуемых значений составляет 2*10^17. Предполагаю, что такие условия вполне дают возможность спроектировать и обучить нейронную сеть, что возможно, будет быстрее. Благо, что модель масштабируется по городам для каждой страны это, как следствие, обучающих выборок можно найти достаточно.

Ну и немного дегтя в данную модель.

Когда посмотрел баланс по агентам, то обнаружил, что накопленные разности ведут себя следующим образом, как на рисунке ниже для Китая.


Рис.13.

Из рисунка видно, что Китай берет на себя всю отрицательную массу. Исключая Китай получил аналогичный график, но отрицательную массу брал на себя Таиланд. Моя гипотеза об этом свойстве выглядит следующим образом. Пока количество агентов (стран) неизменное модель отражает внутренние процессы. На этапе, когда добавляется новый агент (то есть обнаружился зараженный в еще одной стране), то система фиксирует последнее состояние предыдущего этапа и это становится начальными параметрами для следующего.

Резюмируя в целом можно предположить, что эту модель можно использовать как опережающий индикатор процесса распространения пандемии и сходных процессов, типа распространения каких-то продуктов, особенно в интернете. Еще на интуитивном уровне выдвигал для себя гипотезу, что можно подкорректировать некоторые индикаторы теханализа. Также буду рассматривать, гипотезу об уточнении способа определения волатильности при определении цены опциона, там есть один не проясненный момент, где определяется интервал исторических значений для определении волатильности.
Tags:big datacoronaviruscovidcovid19data miningdata scienceepidemySARSанализ данныхбольшие данныекоронавирусматематикаматематический прогнозматематическое моделированиемодельпандемияпопуляционная динамикапрогнозированиестохастические процессыэпидемия
Hubs: Data Mining Big Data Mathematics Open data Research and forecasts in IT
Total votes 14: ↑6 and ↓8-2
Views1.8K

Popular right now

Top of the last 24 hours