Комментарии 19
Связываться со службой поддержки можно не через лички, а через форму, ссылка на которую есть внизу страницы и называется «Служба поддержки». Например, я там спросил и быстро получил достаточный ответ про недоступность на хабросторадже просмотра списка загруженных картинок.
Спасибо за оценку! Я не просто старался — у меня, можно сказать, наболело ;-) Я иногда рецензирую научные статьи, в которых все построено именно на вот таких корреляциях… В первый раз спорить с автором такой статьи о значимости его корреляций было прикольно. Но делать это снова и снова немного надоедает… Теперь буду в таких ситуациях давать им ссылку на эту статью ;-)
Очень жду вторую часть!
Буду готовить, но не быстро. Подготовке первой части помог коронавирус — сижу дома с температурой, могу хоть весь день в форумах провести ;-) Но долго это вряд ли продлится ;-)
Но главное: это совсем не статья, а просто парочка подразделов в большой справочной системе к одной программе. В принципе, там некоторые наши идеи описаны (можно глянуть в главе 3 разделы I3 и I4, ну и еще в начале файла разделы А1 и А6). Но я совсем не уверен, что Вы там найдете что-то полезное…
Отличная статья, очень интересно было бы почитать Ваши мысли по поводу оценки зависимости нестационарных таймсерий. Я так подозреваю, что-то на основе вейвлетов ?
Если говорить про самые общие идеи, то я бы на первое место поставил такую: для нестационарных таймсерий никаких общих идей и подходов нет в принципе. Каждый ряд нестационарен по-своему, поэтому каждый случай надо разбирать индивидуально.
Что касается геофизического мониторинга, то у нас довольно полезным иногда оказывается подход, основанный на декомпозиции сигнала на компоненты. В идеале — физически обусловленные, когда каждую компоненту сигнала можно связать с какими-то причинными факторами, под влиянием которых она находится. Например, многие сигналы довольно логично раскладываются на сезонную вариацию, нестационарный тренд (дрейф) и квазистационарный (относительно более высокочастотный) остаток.
Еще одна идея — это анализ сигналов в скользящем окне. Если размер такого окна небольшой, и внутри окна сигналы можно считать квазистационарными, то это позволяет применять довольно много методов обработки для поиска взаимосвязей между сигналами в пределах окна. Обычно для этого строится какая-то (по возможности, физически осмысленная) модель, а затем ее параметры оцениваются для каждого положения скользящего окна. В качестве бонуса, мы автоматически получаем зависимость параметров модели от времени — часто это самое интересное.
Третья идея — это параметрический анализ. Даже имея нестационарный сигнал, мы можем оценить какую-то статистику этого сигнала (например, фрактальную «размерность» D) в небольшом временном окне, и затем построить зависимость D от времени. Довольно часто такие параметрические статистики можно считать квазистационарными. Это позволяет искать взаимозависимости между такими статистиками (а не измеряемыми величинами), применяя обычный статистический аппарат.
Общая проблема всех таких алгоритмов — это отсутствие математической строгости. Однако тут не все просто. Ведь даже когда мы используем для анализа экспериментальных сигналов алгоритмы со строгим обоснованием и доказанной оптимальностью, у нас всегда остается открытым вопрос о том, не нарушены ли условия применимости таких алгоритмов? Ведь любой алгоритм всегда начинается с преамбулы (требования), что исходные данные должны обладать вполне определенными свойствами. Но когда мы имеем дело с экспериментальным сигналом, доказать выполнение этих требований почти невозможно. Поэтому было бы наивно думать, что корректность результата можно гарантировать строгостью метода. На практике использование строгих методов не дает никаких преимуществ, если с тем же уровнем строгости не доказана адекватность модели данных, в рамках которой сформулирован метод. При режимных наблюдениях это почти невозможно. В лучшем случае можно только предполагать, что «базовая модель» сигнала вполне адекватна реальным данным. В худшем (и, к сожалению, более типичном) случае, наоборот, имеются видимые несоответствия между требованиями теоретической модели и экспериментальным сигналом. Но если у нас нет уверенности в адекватности используемой модели данных, это ставит под сомнение и все результаты, полученные в рамках такой модели.
Поэтому простых ответов и решений нет (точнее, я их не знаю). Можно только предположить, что в любой нестандартной ситуации надо в первую очередь апеллировать к логике, критическому мышлению и здравому смыслу. И не бояться предлагать свои решения и подходы в дополнение (или даже в противовес) к стандартным. Чем больше разных подходов получится опробовать, тем больше будет надежда, что ничего интересного не пропущено, и что найденные зависимости достаточно устойчивы (то есть они не являются артефактами выбранной «базовой модели»).
Ну и конечно, любой результат надо проверять и фальсифицировать всеми доступными способами. Какими именно — вопрос настолько же творческий, как и вопрос о выборе подходов и методов. Но, например, для оценки значимости очень часто бывает полезно численное моделирование.
P.S. Что-то очень сумбурный ответ получается :-( Наверно, мне все-таки надо набраться терпения и скомпилировать это все в виде статьи. Чтобы получилось нормальное обсуждение с критикой (желательно конструктивной), а не просто вопросы-ответы :-(((
MHO, мысли по хаброредактору лучше вынести в отдельный пост, чтобы не смешивать обсуждение разнородных вопросов. По объему «лирическое отступление» вполне тянет на отдельную статью.
Связываться со службой поддержки можно не через лички, а через форму, ссылка на которую есть внизу страницы и называется «Служба поддержки». Например, я там спросил и быстро получил достаточный ответ про недоступность на хабросторадже просмотра списка загруженных картинок.
Тысяча извинений! Я все-таки надеялся, что мне подскажут, как правильно все оформить… И в форму поддержки я тоже писал (безответно). Я ведь по-прежнему с редактором на «Вы». Сейчас попробую хотя бы ссылки в своем тексте расставить…
выделить претензии к редактору в отдельную статью
Я бы с удовольствием это сделал, но если Вы обратили внимание — это статья из песочницы. По-моему, я и так уже вышел за рамки приличия, начав свое общение на этом сайте с критики хабровского редактора. А делать из этого отдельную статью было бы просто наглостью. Тем более, что одна такая статья уже есть.
Ну и второй момент: команда Хабра написала мне в ЛС, что:
То описание, что вы приводили, оно актуально для старого редактора. Мы сейчас в процессе миграции, поэтому не всё окончательно железобетонно реализовано
Поэтому нужно не просто критиковать редактор, а высказывать конструктивные предложения — что именно хочется там увидеть, и как именно эти фичи лучше реализовать. На мое скромное IMHO, гораздо правильнее, если это сделает кто-то из опытных членов сообщества, а не зеленый новичок, которому первый раз
Есть прекрасный аналог на русском: "после того, не значит — вследствие того".
У нас в геофизике переход к приращениям — это один из типовых приемов. В частности, это обычно делается при поиске признаков коллективного поведения в различных сигналах. Это относительно новый, очень интересный метод анализа, с помощью которого был сделан, например, заблаговременный прогноз сильнейшего землетрясения последних лет — события Тохоку-2011. Правда, это был
Главное, что меня тормозит — я не умею сделать нужные математические преобразования, чтобы перейти от критики к конструктиву (см.спойлер в статье). Есть надежда на одного математика, но он занятый человек, и когда он сможет заняться этой темой, не ясно. Вот такие дела :(
А я когда то лично знал одного доктора наук, который заслужил звание, разрабатывая метод измерения направления прихода радио сигнала в диапазоне частот в котором у радиосигналов нет прямолинейного направления по определению (существует как минимум один или два переотраженных сигнала со сравнимыми амплитудами)
Главное, что отличает случайный процесс
от случайной величины – процесс явным образом зависит от времени.
Проводя наблюдения за каким-то природным явлением, мы вовсе не извлекаем
получаемые значения из одной и той же генеральной совокупности.
расскажите, как вы можете получить случайную величину, не зависящую от времени? бросок игрального кубика - это случайный процесс или случайная величина? Можете ли вы получить несколько результатов броска одного и того же кубика, результат которых не зависит от времени?
@sadr0b0t, спасибо за хороший вопрос (хотя и слегка запоздалый). В своей статье я этот момент слегка упустил - думал, что это все очевидно, и что мой жаргон никого не смутит. Ваш вопрос показывает, что это не так, и что надо было об этом сказать. Попробую исправиться: лучше поздно, чем никогда ;-)
расскажите, как вы можете получить случайную величину, не зависящую от времени
Разумеется, значения случайной величины при разных измерениях будут разные. На то она и случайная величина ;-) Однако генеральная совокупность, из которой они извлекаются - остается одной и той же. Она от времени не зависит. Именно в этом смысле можно сказать, что функция распределения, матожидание, дисперсия и другие свойства случайной величины зафиксированы раз и навсегда и завтра останутся такими же, как сегодня. И не важно, когда и сколько измерений мы сделаем.
Когда говорят, что случайный процесс зависит от времени, то имеют в виду, что для него это не так. Говоря формальным языком, случайный процесс - это индексированное семейство случайных величин. У которых могут быть разные матожидания и т.д. Если под индексом понимать время (как это чаще всего и бывает), то как раз и получится, что случайный процесс зависит от времени. В отличие от любой конкретной случайной величины, которая от времени не зависит (хотя последнее - это уже наверно жаргон, но раз я выбрал для статьи такой стиль, то буду и тут ему следовать).
Конечно, независимость характеристик случайной величины от времени - это лишь идеализация (тот же Большой Взрыв намекает ;-). Однако в рамках человеческого опыта многие реальные процессы довольно хорошо этой идеализации соответствуют. Например, при бросании правильного игрального кубика вероятность выпадения любой цифры равна 1/6 при первом, втором, третьем и т.д. бросках. Именно в этом смысле иногда говорят (да, жаргон), что результаты броска не зависят от времени - но имея при этом в виду вовсе не то, что мы всегда будем получать исключительно только значение "42" (с), а что вероятность получить любую цифру от 1 до 6 не меняется при разных бросках..
Впрочем, если бросать такой кубик достаточно долго, то он начнет изнашиваться. К примеру, если сделать кубик из дерева, то износ вдоль и поперек волокон будет отличаться. И спустя некоторое время кубик станет несимметричным. А еще у него может появиться сточенное ребро, на котором он будет останавливаться каждый сотый бросок. Вероятность выпадения 1 при этом может стать равной 1/7, а двойки - 1/5, и т.д. И вот в этом случае (когда вероятности изменились) мы обязаны сказать, что наша генеральная совокупность уже не торт та. Это означает, что приближение "случайной величины" больше не работает. Как только износ кубика перестает быть пренебрежимо малой величиной, у нас появляется случайный процесс, характеристики которого зависят от времени.
Надеюсь, это достаточно понятная аналогия?
Если не очень - спрашивайте еще, я постараюсь ответить.
P.S. Что же касается основной статьи, то в ней я как раз и пытался обратить внимание читателей на тот не совсем очевидный факт, что в практической жизни нас почти всегда окружают именно случайные процессы, а вовсе не случайные величины. Попросту говоря, мы очень часто думаем, что бросаем один и тот же кубик. А на самом деле он каждый раз разный...
Корреляция между временными рядами: что может быть проще?