Pull to refresh

Точность метеорологических прогнозов

Reading time 2 min
Views 24K
Statistics in IT
Разнообразие температур, наблюдающееся этой зимой, напомнило мне о проекте MyCli.me Хабраюзера aib, собирающего прогнозы погоды сразу с нескольких гидрометеорологических сайтов и позволяющего путем усреднения «в голове» повысить их точность.

Собственно, еще полтора года назад при первом знакомстве с сайтом, меня первым делом посетила мысль о том, что статистика с него — идеальный материал для неформальной оценки качества предсказаний погоды. Если быть совсем точными, то сайт и сам имеет систему рейтинга достоверности прогнозов, выбирая наилучшего «предсказателя» для каждого занесенного в реестр города за прошедший месяц.

Но мне хотелось более продолжительной и «взвешенной» оценки.

Входные данные

Города, участвующие в анализе: Москва, Санкт-Петербург, Нижний Новгород, Киев, Сочи — равномерно из разных частей европейской части России и Украины. Красноярск, Новосибирск и другие рядом расположенные города, пришлось исключить из-за частых сильных (до 22 градусов) ошибок у многих метеосайтов, сильно изменяющих, как следствие, общую статистику качества прогнозирования.

Период анализа: 3 месяца — ноябрь, декабрь, январь. Для Москвы за эти 3 месяца максимальная фактическая температура составила +13С, минимальная -23С, т.е. наблюдался почти весь зимний диапазон значений.

Первый срез: краткосрочный или долгосрочный

Производим выборку усредненных абсолютных (по модулю) значений ошибок для разных прогнозов «за 1 день», «за 2 дня», ..., «за 5 дней» (только для дневной температуры). Сразу хочу предупредить (т.к. неоднократно возмущался сам), что ось абсцисс немного поднята — исключительно для читаемости графика.



Второй срез: дневной или ночной

Попытаемся определить совокупную точность прогноза на конкретный день. Для этого присвоим веса (коэффициенты) [ 45%, 25%, 15%, 10%, 5% ] ошибкам прогнозов за 1, 2,… и 5 дней соответственно. Это экспоненциально взвешенное среднее (EMA) с периодом T=2 дня (т.е. любая пара коэффициентов, отстоящих друг от друга на 2 дня отличаются в 2,718 раза). Логично предположить, что ошибка в прогнозе за день до срока может вызвать более неприятные последствия, чем за 4 или 5. Графически веса выглядят примерно следующим образом:



Для того, чтобы графическое изображение было нагляднее, рассчитаем среднюю ошибку с этими весами отдельно для дневных и отдельно для ночных температур и отложим их по разным осям. Соответственно, признак высокого качества прогноза — близость к точке (0;0), этот факт дополнительно выделен заливкой. Интересно резкое ухудшение на этом графике позиций BBC Weather, т.к. его дневные прогнозы — одни из самых точных, в то время как ночные — не в первой пятерке.



В «сухом остатке»

Озвучивать выводы дело неблагодарное — каждый может сделать их для себя сам. Кому-то интереснее прогноз «на завтра», кому-то «на 5 дней вперед», кому-то важнее температура днем, а кому-то и наоборот. Конечно, некоторых сайтов здесь нет вообще, а некоторые сайты имеют весомые конкурентные преимущества, например, в длительности публикуемого прогноза. Задачей не стояло найти «самый лучший метеосайт», а только лишь сравнить точность краткосрочных прогнозов за ближайший прошедший 3-месячный период.

Если сравнение вас заинтересовало — можно попытаться сделать аналогичный анализ за 12 месяцев.
Tags:
Hubs:
Total votes 57: ↑55 and ↓2 +53
Comments 38
Comments Comments 38

Posts