adeshere 16 фев 2021 в 12:00

Корреляция между временными рядами: что может быть проще?

25 мин

26K

Data Mining*Big Data*Математика*Научно-популярноеФизика

Из песочницы

+23

Комментарии 19

dolovar 16 фев 2021 в 12:36

IMHO, мысли по хаброредактору лучше вынести в отдельный пост, чтобы не смешивать обсуждение разнородных вопросов. По объему «лирическое отступление» вполне тянет на отдельную статью.

Связываться со службой поддержки можно не через лички, а через форму, ссылка на которую есть внизу страницы и называется «Служба поддержки». Например, я там спросил и быстро получил достаточный ответ про недоступность на хабросторадже просмотра списка загруженных картинок.

Ivan22 16 фев 2021 в 13:52

Офигенская статья, спасибо!!! Очень жду вторую часть!

adeshere 16 фев 2021 в 21:34

Офигенская статья, спасибо!!!

Спасибо за оценку! Я не просто старался — у меня, можно сказать, наболело ;-) Я иногда рецензирую научные статьи, в которых все построено именно на вот таких корреляциях… В первый раз спорить с автором такой статьи о значимости его корреляций было прикольно. Но делать это снова и снова немного надоедает… Теперь буду в таких ситуациях давать им ссылку на эту статью ;-)

Хотя, бывают и очень упертые, против которых, как против лома, нет никакого приема

Например, один из таких авторов вычислял по своей методике «опасные годы», когда резко возрастает риск всяких природных и техногенных ЧП, и надо соблюдать особую осторожность на транспорте, опасных производствах и пр. Причем, методика у него граничила с астрологией. Конечно, само по себе это еще не повод его статью отвергать — а вдруг методика и правда работает? Но когда Вы сталкиваетесь с подобной методикой, то хочется получить хоть какие-то доказательства, правда? А они у него были просто убойные. Например, он вычислил, что годы YY1, YY2, YY3 — опасные, и пишет, что «статистика» дает этому железные подтверждения: в YY1 была необычная засуха в Айове, в YY2 — в Техасе, а в YY3 — в Иордании (засухи действительно были). Я ему отвечаю: хорошо, давайте возьмем список всех известных засух в заданных регионах, посчитаем вероятность для каждого года, и если получится, что в годы YY1, YY2, YY3 количество засух значимо выше среднестатистического — то Ваш аргумент принимается. В ответ — никаких расчетов, а в отредактированном абзаце: «годы YY1, YY2, YY3 — опасные, так как в YY1 были страшные пожары в Калифорнии, в YY2 — под Москвой, в YY3 — в Сибири». Опять-таки, автор не врет: пожары действительно были. Но было ли их в эти годы больше, чем в среднем? Через месяц получаем ответ: теперь в статье про пожары ни слова, зато написано, что в YY1 разбился самолет (...), в YY2 — сгорел вертолет (...), а в YY3 — столкнулись два истребителя (...). И так по кругу… И что самое печальное, такие вот исследователи публикуются в нормальных журналах, получают проекты и гранты (причем не российские, а за хорошие деньги), издают книги, и окружены почетом и уважением. А мы потом удивляемся, почему к науке такое двоякое отношение.

Очень жду вторую часть!

Буду готовить, но не быстро. Подготовке первой части помог коронавирус — сижу дома с температурой, могу хоть весь день в форумах провести ;-) Но долго это вряд ли продлится ;-)

Пока могу дать только ссылку на CHM-файл

Точнее, по ссылке лежит zip-архив, так как многие антивирусы запрещают напрямую chm из сети скачивать.
Но главное: это совсем не статья, а просто парочка подразделов в большой справочной системе к одной программе. В принципе, там некоторые наши идеи описаны (можно глянуть в главе 3 разделы I3 и I4, ну и еще в начале файла разделы А1 и А6). Но я совсем не уверен, что Вы там найдете что-то полезное…

НЛО прилетело и опубликовало эту надпись здесь

adeshere 17 фев 2021 в 01:13

Отличная статья, очень интересно было бы почитать Ваши мысли по поводу оценки зависимости нестационарных таймсерий. Я так подозреваю, что-то на основе вейвлетов ?

Если говорить про самые общие идеи, то я бы на первое место поставил такую: для нестационарных таймсерий никаких общих идей и подходов нет в принципе. Каждый ряд нестационарен по-своему, поэтому каждый случай надо разбирать индивидуально.

Что касается геофизического мониторинга, то у нас довольно полезным иногда оказывается подход, основанный на декомпозиции сигнала на компоненты. В идеале — физически обусловленные, когда каждую компоненту сигнала можно связать с какими-то причинными факторами, под влиянием которых она находится. Например, многие сигналы довольно логично раскладываются на сезонную вариацию, нестационарный тренд (дрейф) и квазистационарный (относительно более высокочастотный) остаток.

Еще одна идея — это анализ сигналов в скользящем окне. Если размер такого окна небольшой, и внутри окна сигналы можно считать квазистационарными, то это позволяет применять довольно много методов обработки для поиска взаимосвязей между сигналами в пределах окна. Обычно для этого строится какая-то (по возможности, физически осмысленная) модель, а затем ее параметры оцениваются для каждого положения скользящего окна. В качестве бонуса, мы автоматически получаем зависимость параметров модели от времени — часто это самое интересное.

Третья идея — это параметрический анализ. Даже имея нестационарный сигнал, мы можем оценить какую-то статистику этого сигнала (например, фрактальную «размерность» D) в небольшом временном окне, и затем построить зависимость D от времени. Довольно часто такие параметрические статистики можно считать квазистационарными. Это позволяет искать взаимозависимости между такими статистиками (а не измеряемыми величинами), применяя обычный статистический аппарат.

Общая проблема всех таких алгоритмов — это отсутствие математической строгости. Однако тут не все просто. Ведь даже когда мы используем для анализа экспериментальных сигналов алгоритмы со строгим обоснованием и доказанной оптимальностью, у нас всегда остается открытым вопрос о том, не нарушены ли условия применимости таких алгоритмов? Ведь любой алгоритм всегда начинается с преамбулы (требования), что исходные данные должны обладать вполне определенными свойствами. Но когда мы имеем дело с экспериментальным сигналом, доказать выполнение этих требований почти невозможно. Поэтому было бы наивно думать, что корректность результата можно гарантировать строгостью метода. На практике использование строгих методов не дает никаких преимуществ, если с тем же уровнем строгости не доказана адекватность модели данных, в рамках которой сформулирован метод. При режимных наблюдениях это почти невозможно. В лучшем случае можно только предполагать, что «базовая модель» сигнала вполне адекватна реальным данным. В худшем (и, к сожалению, более типичном) случае, наоборот, имеются видимые несоответствия между требованиями теоретической модели и экспериментальным сигналом. Но если у нас нет уверенности в адекватности используемой модели данных, это ставит под сомнение и все результаты, полученные в рамках такой модели.

Поэтому простых ответов и решений нет (точнее, я их не знаю). Можно только предположить, что в любой нестандартной ситуации надо в первую очередь апеллировать к логике, критическому мышлению и здравому смыслу. И не бояться предлагать свои решения и подходы в дополнение (или даже в противовес) к стандартным. Чем больше разных подходов получится опробовать, тем больше будет надежда, что ничего интересного не пропущено, и что найденные зависимости достаточно устойчивы (то есть они не являются артефактами выбранной «базовой модели»).

Ну и конечно, любой результат надо проверять и фальсифицировать всеми доступными способами. Какими именно — вопрос настолько же творческий, как и вопрос о выборе подходов и методов. Но, например, для оценки значимости очень часто бывает полезно численное моделирование.

P.S. Что-то очень сумбурный ответ получается :-( Наверно, мне все-таки надо набраться терпения и скомпилировать это все в виде статьи. Чтобы получилось нормальное обсуждение с критикой (желательно конструктивной), а не просто вопросы-ответы :-(((

adeshere 16 фев 2021 в 14:19

MHO, мысли по хаброредактору лучше вынести в отдельный пост, чтобы не смешивать обсуждение разнородных вопросов. По объему «лирическое отступление» вполне тянет на отдельную статью.

Связываться со службой поддержки можно не через лички, а через форму, ссылка на которую есть внизу страницы и называется «Служба поддержки». Например, я там спросил и быстро получил достаточный ответ про недоступность на хабросторадже просмотра списка загруженных картинок.

Тысяча извинений! Я все-таки надеялся, что мне подскажут, как правильно все оформить… И в форму поддержки я тоже писал (безответно). Я ведь по-прежнему с редактором на «Вы». Сейчас попробую хотя бы ссылки в своем тексте расставить…

dmagin 16 фев 2021 в 19:59

Я тоже присоединяюсь к просьбе выделить претензии к редактору в отдельную статью. Ну реальная же боль набирать текст с формулами и картинками в этом редакторе. Это общая проблема всех писателей хабра.

adeshere 16 фев 2021 в 21:56

выделить претензии к редактору в отдельную статью

Я бы с удовольствием это сделал, но если Вы обратили внимание — это статья из песочницы. По-моему, я и так уже вышел за рамки приличия, начав свое общение на этом сайте с критики хабровского редактора. А делать из этого отдельную статью было бы просто наглостью. Тем более, что одна такая статья уже есть.

Ну и второй момент: команда Хабра написала мне в ЛС, что:

То описание, что вы приводили, оно актуально для старого редактора. Мы сейчас в процессе миграции, поэтому не всё окончательно железобетонно реализовано

Поэтому нужно не просто критиковать редактор, а высказывать конструктивные предложения — что именно хочется там увидеть, и как именно эти фичи лучше реализовать. На мое скромное IMHO, гораздо правильнее, если это сделает кто-то из опытных членов сообщества, а не зеленый новичок, которому первый раз

дали слово

При этом я совершенно не возражаю против любого использования моего текста, в том числе списка тех сложностей, с которыми я столкнулся при редактировании. Можно даже на меня не ссылаться ;-) Только учитывайте, что мой крик души был написан уже почти месяц назад, и с тех пор кое-что могло измениться ;-) Например, появился мануал по редактору.

ruslaniv 17 фев 2021 в 12:35

«Correlation is not causation» в дата-сайнс — это почти что как законы термодинамики в физике.

barbaris76 17 фев 2021 в 21:13

Есть прекрасный аналог на русском: "после того, не значит — вследствие того".

adeshere 17 фев 2021 в 23:41

Верно. Но у нас на ученом совете матерые геологи, умудренные опытом, говорят чуть-чуть по другому: «корреляция — не доказательство». Их этому жизнь научила ;-) И не важно, что про такую науку, как математика, некоторые из них слышали очень издалека ;-))

Androniy 17 фев 2021 в 16:12

Если виновата зависимость значений от предыдущих, то взятие конечно-разностной производной должно избавить от этой зависимости. При этом, если процессы зависимые, то и их производные тоже должны быть зависимыми. Таким образом, если посчитать производную от значений двух процессов, то их корреляция, по идее, может дать более точный ответ о зависимости (независимости) процессов. Или взятие производной не влияет на стационарность?

adeshere 17 фев 2021 в 17:27

Да, переход к приращениям часто устраняет нестационарность или очень существенно ее подавляет. Кстати, для большинства упомянутых в статье сигналов ложные корреляции в этом случае исчезают.
У нас в геофизике переход к приращениям — это один из типовых приемов. В частности, это обычно делается при поиске признаков коллективного поведения в различных сигналах. Это относительно новый, очень интересный метод анализа, с помощью которого был сделан, например, заблаговременный прогноз сильнейшего землетрясения последних лет — события Тохоку-2011. Правда, это был

среднесрочный прогноз

(с которым дела постепенно налаживаются, причем во многом благодаря вкладу российских сейсмологов), а для практических целей наиболее интересен оперативный. Поэтому общемирового фурора не получилось. Но среди специалистов эти результаты хорошо известны, т.к. соответствующие результаты были опубликованы

еще до землетрясения

(подробнее см. работы А.А.Любушина, мне они очень нравятся, хотя это мой непримиримый конкурент в научном плане ;-) В отличие от прогнозных работ другого сотрудника нашего института, гораздо более раскрученных и модных, но кратно более слабых в плане надежности статистического обоснования результатов. Впрочем, для любого нового направления это нормально на начальном этапе.

Так что идея с приращениями — правильная и полезная, но, как и все остальное, это отнюдь не панацея. Например, это не работает для периодических функций (производная синуса = косинус). Но главное, при дифференцировании усиливается вклад высоких частот (фактически спектр умножается на частоту). А на высоких частотах чаще всего сосредоточен основной шум. Из-за этого полезный сигнал (в том числе и регрессионная связь) может просто

утонуть в шумах

А мы (геофизики) сейчас работаем на довольно слабых эффектах, которые надо «вытаскивать» из шума, т.к. все эффекты первого порядка величины уже изучены достаточно хорошо. Например, мы уже давно знаем про приливы в твердой Земле, и умеем их измерять (это эффект первого порядка величины). Но при изучении внутреннего строения Земли важны не сами приливы, а их отклонения от теоретических (т.е. отклонения амплитуд и фаз наблюдаемых приливных волн от теоретически вычисленных). И вот это — уже эффект второго порядка малости, для «вытаскивания» которого нужна достаточно аккуратная и хитрая обработка сигналов.

BARSKOMP 26 фев 2021 в 10:58

Хорошая статья! Очень хотелось бы увидеть продолжение.

Rodres 7 июн 2021 в 17:25

Спасибо за статью. Будет ли продолжение?

adeshere 9 июн 2021 в 00:55

Спасибо за оценку. Мне самому очень хочется написать продолжение. Но пока что не получается. Хотя такая цель стоит, и она важна в первую очередь для меня самого.
Главное, что меня тормозит — я не умею сделать нужные математические преобразования, чтобы перейти от критики к конструктиву (см.спойлер в статье). Есть надежда на одного математика, но он занятый человек, и когда он сможет заняться этой темой, не ясно. Вот такие дела :(

rukhi7 26 ноя 2022 в 17:33

А я когда то лично знал одного доктора наук, который заслужил звание, разрабатывая метод измерения направления прихода радио сигнала в диапазоне частот в котором у радиосигналов нет прямолинейного направления по определению (существует как минимум один или два переотраженных сигнала со сравнимыми амплитудами)

sadr0b0t 27 мая 2023 в 22:48

Главное, что отличает случайный процесс
от случайной величины – процесс явным образом зависит от времени.
Проводя наблюдения за каким-то природным явлением, мы вовсе не извлекаем
получаемые значения из одной и той же генеральной совокупности.

расскажите, как вы можете получить случайную величину, не зависящую от времени? бросок игрального кубика - это случайный процесс или случайная величина? Можете ли вы получить несколько результатов броска одного и того же кубика, результат которых не зависит от времени?

adeshere 29 мая 2023 в 00:02

@sadr0b0t, спасибо за хороший вопрос (хотя и слегка запоздалый). В своей статье я этот момент слегка упустил - думал, что это все очевидно, и что мой жаргон никого не смутит. Ваш вопрос показывает, что это не так, и что надо было об этом сказать. Попробую исправиться: лучше поздно, чем никогда ;-)

расскажите, как вы можете получить случайную величину, не зависящую от времени

Разумеется, значения случайной величины при разных измерениях будут разные. На то она и случайная величина ;-) Однако генеральная совокупность, из которой они извлекаются - остается одной и той же. Она от времени не зависит. Именно в этом смысле можно сказать, что функция распределения, матожидание, дисперсия и другие свойства случайной величины зафиксированы раз и навсегда и завтра останутся такими же, как сегодня. И не важно, когда и сколько измерений мы сделаем.

Когда говорят, что случайный процесс зависит от времени, то имеют в виду, что для него это не так. Говоря формальным языком, случайный процесс - это индексированное семейство случайных величин. У которых могут быть разные матожидания и т.д. Если под индексом понимать время (как это чаще всего и бывает), то как раз и получится, что случайный процесс зависит от времени. В отличие от любой конкретной случайной величины, которая от времени не зависит (хотя последнее - это уже наверно жаргон, но раз я выбрал для статьи такой стиль, то буду и тут ему следовать).

Конечно, независимость характеристик случайной величины от времени - это лишь идеализация (тот же Большой Взрыв намекает ;-). Однако в рамках человеческого опыта многие реальные процессы довольно хорошо этой идеализации соответствуют. Например, при бросании правильного игрального кубика вероятность выпадения любой цифры равна 1/6 при первом, втором, третьем и т.д. бросках. Именно в этом смысле иногда говорят (да, жаргон), что результаты броска не зависят от времени - но имея при этом в виду вовсе не то, что мы всегда будем получать исключительно только значение "42" (с), а что вероятность получить любую цифру от 1 до 6 не меняется при разных бросках..

Впрочем, если бросать такой кубик достаточно долго, то он начнет изнашиваться. К примеру, если сделать кубик из дерева, то износ вдоль и поперек волокон будет отличаться. И спустя некоторое время кубик станет несимметричным. А еще у него может появиться сточенное ребро, на котором он будет останавливаться каждый сотый бросок. Вероятность выпадения 1 при этом может стать равной 1/7, а двойки - 1/5, и т.д. И вот в этом случае (когда вероятности изменились) мы обязаны сказать, что наша генеральная совокупность уже не ~~торт~~ та. Это означает, что приближение "случайной величины" больше не работает. Как только износ кубика перестает быть пренебрежимо малой величиной, у нас появляется случайный процесс, характеристики которого зависят от времени.

Надеюсь, это достаточно понятная аналогия?
Если не очень - спрашивайте еще, я постараюсь ответить.

P.S. Что же касается основной статьи, то в ней я как раз и пытался обратить внимание читателей на тот не совсем очевидный факт, что в практической жизни нас почти всегда окружают именно случайные процессы, а вовсе не случайные величины. Попросту говоря, мы очень часто думаем, что бросаем один и тот же кубик. А на самом деле он каждый раз разный...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Корреляция между временными рядами: что может быть проще?

Комментарии 19

Публикации

Истории