All streams
Search
Write a publication
Pull to refresh
22
0
Александр Ганьшин @avgan

Руководитель сервиса Яндекс Погода

Send message
Ещё раз, ключевое слово «независимых». Я не говорю, что графики в статье нарисованы в paint, это образный оборот, причем речь идет про нас. Я не говорю, что работа коллег плохая, наоборот, подход очень правильный и мне нравится.
Я говорю, что оценки должны быть сделаны незаинтересованными людьми.
Ещё раз, если мы нарисуем графики точности нашего прогноза, лично вы будете верить этим цифрам? Или джентльмены друг другу верят на слово?
Я веду к тому, что оценка должна быть независимой.
Спасибо за чудесную статью и хорошую оценку нашего прогноза. Рад, что Яндекс.Погода не оставила вас равнодушным. Действительно, мы не печатаем научные статьи про методы, которые дальше почему-то не используются в оперативной деятельности, а спрятаны в методическом кабинете.

И мы не показываем графики сравнений, потому что подсчитывать точность должен не тот, кто прогнозирует. Иначе, где вера в то, что метрики подсчитаны объективно, а не нарисованы в пэинте? Любой же может запросить доступ к нашему API и получить его бесплатно на месяц. И например посчитать метрики по метеостанциями, которые измеряют раз в три часа, а не только максимальное и минимальное (чего кстати для этих графиков не сделали, а получили какие-то числа не вполне законным путем).

Зато мы делаем продукт. Для наших пользователей, а не для научных отчетов. Не про минимальную и максимальную температуру, а честный почасовой прогноз на трое суток вперед. С предупреждениями об изменениях в погоде или о надвигающихся дождях. С картой осадков на два часа вперед.
Спасибо всем неравнодушным, благодаря вам мы становимся лучше.
Да, данные уже используются. Подумаем, как продуктово преподнести.
Это и правда непростая задача, пока что то, что мы готовы раскрыть — описано в статье. Чуть позже сможем предоставить больше подробностей.
Об этом написано в статье — это 1 км в видимом диапазоне. :)
Каналы попадают все.
Снимки приходят на компьютер, подключенный к тюнеру от тарелки, складываются в хранилище, затем распаковываются, склеиваются в единое поле, переводятся в удобочитаемые форматы.
Landsat-8 или Sentinel-2(3) напрямую не используем, только в качестве данных, ассимилированых в модели прогноза погоды.
Еще мы используем python библиотеки и нейросети.
Прогноз пересчитывается по мере поступления данных новых данных — будь то новый прогноз или наблюдения. Не реже, чем раз в три часа. Ближайшие горизонты гораздо чаще — например с учетом наукаста — каждые 10 минут. Сообщения мы учитываем и обрабатываем.
Про них мы прекрасно знаем. Проблема любительских станций в том, что они в большинстве случаев неправильно установлены, например измеряют температуры стены или балкона. Из этого можно вытянуть полезный сигнал, если использовать одинаковые станции, например netatmo. Но к сожалению у народного мониторинга зоопарк средств измерения, что затрудняет использование данных.
Опыт конечно имеется. В том числе некоторый есть и у меня :) Дело в том, что черный ящик конечно не знает физику, но его можно научить находить закономерности, чтобы воспроизводить законы, наблюдаемые в природе. Там как атмосфера сложная система, то по честному мы не всем можем учесть, а тем более решить аналитически. Приходится прибегать к допущениям, упрощениям и параметризациям. А вот тут машинное обучение и приходит на помощь — обобщает наши знания и помогает найти лучшее решение. Если говорить про определение дождя со спутников, то точность детекции алгоритмами, построенных на урматфизе оказывается в районе 0.3 по f1, тогда как мы смогли добиться 0.8 с помощью нейросети.
Мы не можем просто так парсить данные, в каждом случае мы заключаем договор на легальную покупку необходимых данных. Тема со станциями интересна, можно побольше подробностей?
А можно, если такое опять повторится, сообщить нам об ошибке в приложении или через форму обратной связи?
Если трудно предсказать, лучше кастовать свою погоду :)
Соглашусь, качество на краях области от этого и страдает.
Про архитектуры мы писали в этой статье: habr.com/company/yandex/blog/343518
Учтем, что нужно больше цифр.
На это нужна целая отдельная статья. Попробую кратко. К сожалению, станций по пыльцевому мониторингу можно пересчитать по пальцам руки, а ежедневно обновляющаяся — только одна в Москве. Да и это с задержкой в сутки. Поэтому такие данные в основном модельные. По спутниковым снимкам и кадастру составляется карта растительности основных аллергенов. Затем используется модель цветения, основанная на сумме накопленных температур. То есть в каждой точке известно что растет, а также с учетом прогноза по температуре — когда зацветет. Далее эти данные обрабатываются в модели, аналогичной тому, которая рассчитывает прогноз погоды, чтобы после начала цветения переносит пыльцу вместе с ветром.
К сожалению у него разрешение чуть хуже, кроме того измерения проводятся раз в полчаса, что для задач наукастинга — очень редко.
К европейским радарам у нас на данный момент пока что нет доступа.
У нас есть по 100 серверов в 3 ДЦ. На них проходит расчеты метеорологической модели. Плюс мы используем несколько других поставщиков и машинное обучение — подрбонее тут — habr.com/company/yandex/blog/271725
Статья старая, с тех пор мы глобально работаем, но подходы похожи. Для подготовки данных и применения обученной модели, у нас есть map-reduce кластер на 3000 ядер.
Не просим принимать на веру. Возьмем данные с метеостанций с независимого сайта. rp5.ru подойдет? Берем снизу: Костанай — rp5.ru/Архив_погоды_в_Костанае — идет дождь. Берем сверху: Сургут — rp5.ru/Архив_погоды_в_Сургуте_(аэропорт) — идет дождь. Есть идеи, как проверить лучше?
Ну не совсем так, это хороший бейзлайн, но вот например для Нью-Йорка forecastadvisor говорит, что persistence в аутсайдерах: www.forecastadvisor.com/NewYork/NewYork/10036%20

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity