Pull to refresh

Comments 8

Да, ребят, все верно. Ссылка на Часть 2 есть, но статья еще не залита. Спасибо, что обратили внимание. Сделаю пока неактивной.

Вам бы таблички транспонировать, имхо (и на телефоне - не смотрибельно).

Если я правильно понял основную идею (напихать в обучающую выборку побольше разных рядов), то подход очень странный. Чем это отличается от средней температуры по больнице? Я всегда думал, что прогноз ВР - это:
1) Поиск устойчивых закономерностей в поведении конкретного сигнала
2) Экстраполяция этих закономерностей в будущее

Если мы смешиваем закономерности из совершенно разнородных сигналов, то какое отношение они имеют к данному конкретному ряду? Насколько я знаю про геофизический мониторинг, один довольно продвинутый специалист, наоборот, неоднократно показывал, что добавление в модель дополнительных рядов данных

часто только ухудшает модель

Шум растет, полезный сигнал растворяется. К сожалению, конкретные работы не назову, так как он эту идею многократно (и обоснованно) излагал на семинарах, т.е. еще до публикации... Но если кому-то эти ссылки нужны, могу у него спросить

Имхо, таким способом будут хорошо прогнозироваться только лишь те паттерны, которые присутствуют в основной массе сигналов обучающей выборки. Например, если это достаточно однотипные по своей структуре ряды продаж. Но вот даже у рядов концентрации атмосферного СО2 на разных широтах различия в этих паттернах просто ужасающие, хотя казалось бы, все станции измеряют один и тот же физический процесс. Так что совсем не факт, что однородные (вроде бы) переменные должны иметь однотипное поведение.

Нет, я конечно не спорю, что некоторые типовые паттерны присутствуют сразу в очень многих рядах. Взять ту же сезонность. Тут наверно ML может сработать. Только вот совсем не факт, что ML-методы тут справятся лучше традиционных. Ведь на практике сезонный эффект почти не встречается "в чистом виде". Почти всегда он накладывается на нестационарность (причем не мультипликативную), плюс неслучайность шумов, и т.д. и т.п. Это сразу же приводит к смещению "тривиальных" оценок параметров сезонности (основанных на матожидании) при попытке их вычисления "в лоб". "Прямую" (покомпонентную) модель в этом случае можно явным образом подкрутить, добавив туда дополнительную переменную с ясным смыслом, или убрать смещение методом итераций (см. примеры ниже под спойлером). А как обнаруживаются и исправляются такие проблемы рамках ML-подхода? Было бы интересно узнать. А то в моем представлении обобщенная ML-модель пока что больше напоминает черный ящик с кучей параметров. Что приводит к проблемам с физической интерпретацией этих параметров и, следовательно, с пониманием внутреннего устройства модели. А еще очень смущает, что многопараметрические модели должны приводить к гораздо более сложной конфигурации функционала невязки. Ведь чем выше размерность пространства, тем хуже устойчивость (а оценка погрешности превратится в отдельный квест).

"Лобовые" модели в этом отношении намного прозрачнее. Например, для атмосферного СО2 у нас получился отдельный закон роста амплитуды сезонных вариаций, который не дублирует рост концентрации СО2 (тоже см. ссылки ниже под спойлером). Причем, эту закономерность (хотя она и оценена непараметрически) вполне можно чем-то аппроксимировать и экстраполировать в будущее. Идея там в том, что при оценке свойств каждой отдельной закономерности все остальные составляющие сигнала рассматриваются, как шум, и безжалостно вычищаются. В результате становится чуть понятнее, соответствует поведение некоторой компоненты здравому смыслу, или фигня.

Примеры смещения оценок параметров моделей сезонности, и некоторые идеи, как мы с ними боролись

Вот пара публикаций (раз, два, три, четыре, пять) и их полные тексты (здесь). Причем, ко всем этим работам у меня есть как экспериментальные данные, так и синтетические временные ряды, использованные для тестов. Если есть интерес (и возможность, естественно), то может попробуем сравнить два подхода (ML-модель и декомпозицию) на этих примерах? Думаю, что это может быть интересно ;-)

Единственное ограничение - у меня во всех этих случаях временные ряды содержат пропущенные наблюдения (иногда их до 30%). К сожалению, с нашими данными по-другому не получается. Причем, хороший способ интерполировать эти пропуски предложить трудно. Мы поэтому все расчеты делаем по данным с пропусками (китч-лозунг "работаем только с реальными измерениями"). Так что тут придется что-то придумывать.

"Ведь чем выше размерность пространства, тем хуже устойчивость (а оценка погрешности превратится в отдельный квест)." Да, и квест и марафон и лабиринт и темная комната и ...

Пробовал сравнивать на датасете Dow Jones index с Kaggle. Chronons оказался точнее, но об этом уже во второй части.

Sign up to leave a comment.

Articles