Как стать автором
Обновить

Комментарии 4

Судя по картинкам 1,2,3, не проще ли применить обычное фитирование?

Регионов 85 штук, коэффициенты функций надо вычислять, я сам примерно так и делал, чтобы оценить параметры распространения во времени, а не просто распространение на неделю вперед. Это про некоторые сложности. С другой стороны, фитинг — это смысл машинного обучения. Фитится функция наиболее подходящая. Если делать «просто», прогноз будет хуже. В конкурсе «логарифмическая точность, т.е. точность в разах» (вернее MALE) прогноза на неделю была критерием победы. И нужно было постараться с фиттингом, чтобы победить (и забрать 300 000 руб.). Кстати, некоторые подозревают манипуляции с цифрами, когда предсказывать можно простым приростом («не более 10,000 в день, ± 500!»).

как такой подход? на вскидку :)


  • фитируешь полиномом N-ой степени, или сплайнами, по всем 85 регионам
  • натравливаешь машинное обучение на результаты фитирования

Я так понимаю задача стоит сложнее.
Входными параметрами должны быть (на вскидку):


  • число инфицированных и время после заражения
  • число зарегистрированных
  • возрастная категория
  • плотность населения
    ++ множество других параметров влияющих на скорость заражения.

Было бы неплохо подключить сюда уже имеющуюся мировую базу
и модели, которые несомненно есть (сколько народу по всему миру над этим потеет)

Именно так и ставили задачу — подобрать такие данные и фиттинг, которые дают максимальную точность (как определил выше). В статье — отчет победителя, что зашло («доля городского населения + временной ряд») и какую функцию строил (деревья на градиентном бустинге).
Зарегистрируйтесь на Хабре, чтобы оставить комментарий