Комментарии 4
Судя по картинкам 1,2,3, не проще ли применить обычное фитирование?
0
Регионов 85 штук, коэффициенты функций надо вычислять, я сам примерно так и делал, чтобы оценить параметры распространения во времени, а не просто распространение на неделю вперед. Это про некоторые сложности. С другой стороны, фитинг — это смысл машинного обучения. Фитится функция наиболее подходящая. Если делать «просто», прогноз будет хуже. В конкурсе «логарифмическая точность, т.е. точность в разах» (вернее MALE) прогноза на неделю была критерием победы. И нужно было постараться с фиттингом, чтобы победить (и забрать 300 000 руб.). Кстати, некоторые подозревают манипуляции с цифрами, когда предсказывать можно простым приростом («не более 10,000 в день, ± 500!»).
0
как такой подход? на вскидку :)
- фитируешь полиномом N-ой степени, или сплайнами, по всем 85 регионам
- натравливаешь машинное обучение на результаты фитирования
Я так понимаю задача стоит сложнее.
Входными параметрами должны быть (на вскидку):
- число инфицированных и время после заражения
- число зарегистрированных
- возрастная категория
- плотность населения
++ множество других параметров влияющих на скорость заражения.
Было бы неплохо подключить сюда уже имеющуюся мировую базу
и модели, которые несомненно есть (сколько народу по всему миру над этим потеет)
+1
Именно так и ставили задачу — подобрать такие данные и фиттинг, которые дают максимальную точность (как определил выше). В статье — отчет победителя, что зашло («доля городского населения + временной ряд») и какую функцию строил (деревья на градиентном бустинге).
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Data Science vs COVID-19_Часть 3