> Разлом, о котором идет речь - это его курильско-японско-филиппинская часть плюс ответвление в Индийский океан.
Можете все-таки прислать PDF? А то разговор беспредметный. Я не геолог, поэтому спорить о терминах не возьмусь. Но геологи в моем окружении почему-то различают зоны субдукции (которыми в основном и сформировано ТОК) и разломы. А еще они между собой постоянно спорят, что можно считать разломом, а что нет ;-) В общем, я готов согласиться с Вашей терминологией, но мне нужно ее понять для начала. Желательно - поглядев на статью и на карту.
> Не помню точно, сколько, но значительная часть мировых толчков там и происходит
Ну да. Но Вы же писали о конкретном разломе? Я конечно уже заранее дал карт-бланш на терминологию, но все-таки мысль о том, что все ТОК целиком - это единый разлом, для меня чересчур революционна ;-) Если же Вы имели в виду какой-то фрагмент ТОК, то согласитесь, что там происходит лишь малая часть от всех мировых событий. Особенно с малыми магнитудами (ведь их пишут преимущественно отдельные плотные сети).
В общем, давайте я сперва все-таки прочитаю Вашу статью, посмотрю на географические границы этого региона и графики повторяемости для него для разных эпох. Иначе со мной тут просто не о чем разговаривать.
> У меня такое ощущение, то вы математик по образованию, поэтому мы с вами разговариваем в разных парадигмах восприятия мира.
Не угадали: я строго физик, и до смертоубийства
спорю со своими друзьями-математиками о том, что первично: яблоки или абстракции.
То есть, первична ли формула 1+1=2 (вне зависимости от наличия физического носителя), или же она все-таки вытекает из эмпирического опыта. Пока что мой крайний аргумент состоит в том, что сложение двух половинок критической массы может дать неожиданный для чистого математика результат ;-)
Однако, физическое понимание мира вовсе не исключает логическую проверку моделей, которые мы строим по эмпирическим фактам. Обращаясь к некоторым вопросам, физика просто вынуждена на языке математики говорить :-(((
> Мы проверяли значимость эффектов на самых разных интервалах магнитуды, и если нижняя шкала указана в 3.0, то это вовсе не означает, что эффект там сидит, он обычно сидит на самых сильных и частых точках из интервала.
Ну так в описанном случае непредставительны не только события с М=3, а вообще все вплоть до М=4.8, как минимум. А если ограничиться более локальным регионом, то в силу пространственной неоднородности 4.8 может превратиться и в 5.8, и даже в 6+. Если взять такой каталог, и перейти к временным рядам, то сравнительно небольшое изменение эффективности регистрации в таком регионе даст вполне заметное изменение не только локального, но и общего потока событий. Которое при использовании статистических методов АВР обнаруживается очень четко. Именно в этот момент и возникает риск неправильной интерпретации результата.
> Если у нас есть две кривые с числом толчков в каждой точке в много сотен, то рассуждения о недостаточности статистики, с точки зрения физика, решен.
В том-то и дело, что нет. Нам же нужно не просто установить факт, что толчков стало значимо больше (это как раз не проблема). Но и связать этот рост с причиной такого увеличения. И вот в этот момент вопрос о представительности каталога становится ключевым.
> Я не хочу входить в детали ваших замечаний, очень занят, но там много подводных камней, которые вы проскакиваете.
Ну разумеется, я не мог за сутки разобрать три работы подробно. Для начала давайте все же обсудим наиболее очевидные алогичности, которые там допущены. Я старался читать Ваши тексты дословно. Возможно, на самом деле Вы написали одно, а подразумевали что-то другое, но это не ясно без чтения предыдущих работ? Поэтому я и задаю те вопросы, которые сразу приходят в голову мало-мальски эрудированному в предметной области человеку. Это же научная публикация, а не религиозный догмат. Поэтому на каждый такой вопрос должен быть разумный ответ. Включая как вариант, что читатель чего-то не понял, так и случай, что авторы где-то ошиблись.
> Например, в каталоге США не шкала Рихтера, поэтому утверждения про то, что фиксируется только 3% толчков выглядят неубедительно.
???
Вы тут точно ничего не напутали?
Закон Гуттенберга-Рихтера от выбора магнитудной шкалы вообще не зависит. Например, если заменить ее классами по Раутиан, там изменится только угловой коэффициент наклона прямой на лог-графике повторяемости. И все. У Вас на рисунке 1 [2009] по оси X отложены магнитуды. Если Вы вдруг просуммировали там не N(М), а яблоки с тапочками, то, извините, это вопрос не ко мне. А мне все-таки разрешите исходить из того, что рисунок в Вашей статье аккуратный и подпись правильная. Мой вывод про 3% жестко и однозначно следует из среднего графика на этой Вашей картинке + закона ГР. Никакая другая информация (в том числе и о каталоге США) для этого вывода про 3% вообще не нужна.
Конечно, я смотрел только на графики, а не на таблицы, поэтому цифры оценил с какой-то погрешностью. На самом деле там вполне может быть не 3%, а 1% или даже 4%. Но на общий вывод это никак не влияет. Он остается в силе вне зависимости от того, пропущено ли в этом каталоге 96% событий с M<5 или же все 98%.
> (...) утверждения про то, что фиксируется только 3% толчков выглядят неубедительно. > Если сомневаетесь - пишите опровержение.
Так я уже написал все подробно. Куда уж дальше разжевывать?
А впрочем, давайте все-таки разжую. Так как беглый поиск по интернету, к моему удивлению, ничего адекватного не дает. Наверно и правда информация очевидна лишь для сейсмологов... а остальным "заглянувшим на огонек" будет не очевидно.
Итак, пошаговая инструкция для тех, кто действительно хочет понять суть проблемы и самостоятельно вычислить - почему и как получается "три процента".:
1) Перерисуйте средний график с рисунка 1 [2009] в логарифмической шкале по Y, как это общепринято в сейсмологии. У Вас должно получиться что-то похожее вот на эту картинку:
Примеры графиков повторяемости (ГП) для реальных каталогов. Это рисунок 2 вот из этой статьи
2) Найдите на получившемся графике участок, где зависимость можно считать линейной. На моих графиках левая граница линейного участка для отдельных кривых показана стрелочкой. У Вас она пройдет где-то в районе M=4.7 или больше
3) Аппроксимируйте график справа от перегиба прямой линией. Это называется линейный участок графика повторяемости (ГП). Считается, что в пределах этого участка данные соответствуют Гуттенбергу-Рихтеру. То есть, мы регистрируем подавляющее большинство реально произошедших событий.
4) Закон ГР гласит, что эта зависимость начинается с М=8 (для М=9 есть небольшие нюансы) и пролонгируется в область малых энергий вплоть до микротрещин. Лабораторные эксперименты на образцах это уверенно подтверждают. Нет абсолютно никаких сомнений, что для больших интервалов времени и территорий закон ГР выполняется в области магнитуд от 0 и выше с очень хорошей точностью. Это дает нам право экстраполировать полученную прямую линию влево вплоть самого края графика. В Вашем случае это будет М=3.0 (см. рис.1[2009]).
5) После того, как мы эту линию провели, мы твердо знаем, что фактическое количество событий в рассматриваемом фазовом объеме соответствует этой линии (закон ГР!). Чтобы перейти к числам, в Вашем случае достаточно проинтегрировать эту зависимость от М=3.0 до М=5.0. Именно так я и получил общее число событий
более миллиона
На самом деле я конечно не логарифмировал мысленно Ваш рисунок, так как есть способ проще. Для грубых оценок можно принять, что угловой коэффициент прямой в законе ГР близок к 1 (для большинства реальных каталогов это так, отличия минимальны). Это значит, что при уменьшении М на 1 число событий растет в 10 раз. Соответственно, если у Вас имеется 5000 событий с М=5.0, то в пределах этой же области и за то же самое время должно было произойти примерно 50 тыс. событий с М=4.0 и около 500 тыс. событий с М=3.0. Тупое суммирование от М=3.0 до М=5.0: N=N(3.0)+N(3.1)+N(3.2)+...+N(5.0) дает нам число, значительно большее миллиона. Какое именно - посчитайте сами, данные для этого есть у Вас, а не у меня. Я же считал по порядку величины и просто округлил результат в Вашу пользу.
6) Теперь считаем, сколько таких событий (с М от 3.0 до 5.0) фактически присутствует в Вашем каталоге. Для этого надо просуммировать все столбики гистограммы на Вашем рисунке. Навскидку у меня получилось около 30 тысяч. У Вас есть точные данные, так что можете просто поправить мою оценку.
7) Осталось разделить второе число (= число событий в каталоге) на первое (= число фактически произошедших событий, включая как зарегистрированные, так и пропущенные). Это и даст Вам тот результат,
в котором Вы усомнились
Кстати, мне самому было бы интересно узнать точную цифру. Учитывая то округление, которое я сделал при интегрировании ГР, оценка в 3% действительно, вероятно неточная. Больше похоже, что там должен быть 1%. С другой стороны, я наверняка немного ошибся в ту же сторону при оценке числа фактически зарегистрированных событий. Так что вполне может получиться не 1%, а все-таки 1.5%.
Впрочем, на мой итоговый вывод это практически не влияет. Ну получим мы требуемое изменение эффективности регистрации не с 3.0% до 3.5%, а с 1.0% до 1.2%, и что? Сама цифра (0.5% или 0.2%) не столь уж и важна. Важно, что даже ничтожное изменение эффективности регистрации может полностью перекрыть все эффекты, обнаруженные в статье.
Надеюсь, с "тремя процентами" теперь все понятно?
.
> Я же уверен, что мы вскрыли целый ряд интересных закономерностей, не замеченных ранее,
Это вполне возможно. Я спорю только со словом "вскрыли". В моем понимании, слово "вскрыли" означает "заметили в данных закономерность, которая ранее была неизвестна". И которую нельзя объяснить тривиально. Проблема в том, что в тех данных, которые представлены в трех приведенных выше работах, нет чего-то такого, что нуждается в объяснении. Есть лишь обычные факты, логично понятные в рамках тривиальной модели. К которым в виде надстройки прилажена уже гораздо более накрученная модель. Однако чем она лучше тривиального объяснения - не очень понятно.
Разумеется, это вовсе не означает, что предложенные Вами гипотезы неверны. Но в представленных трех работах просто нет никаких эмпирических подтверждений этих гипотез. (Буду рад обнаружить такие подтверждения в остальных, пока не прочитанных Ваших статьях).
Я ведь не так уж и много прошу. Докажите, что наблюдательная селекция объясняет не все. Это и будет весомый аргумент, что нам действительно необходима "новая сущность". Что она не излишняя. В тех трех работах, ссылки на которые Вы выложили, я такого доказательства, к сожалению, не увидел.
> и более тщательные исследования лишь подтвердят их, а не опровергнут - по крайней мере, большинство из них.
Выше я предложил целый ряд очевидных идей -
что именно можно попробовать сделать для ответа на эти вопросы
При наличии инструментов и подготовленных данных все те неясности, на которые я обратил внимание выше, можно снять очень просто. Цена вопроса - это месяц расчетов. И-да, у меня действительно есть "комбайн", который хотя и не совсем соответствует тем идеям, о которых Вы написали в исходной статье, но в каком-то смысле позволяет "просеивать" временные ряды. Просто берите программу, настраивайте
и считайте
Базовые функции для работы с каталогами там есть (расчеты для абсолютно всех моих публикаций сделаны в этом пакете). А сам он свободно доступен (условие использования - ссылка на авторов).
Действительно, реалии "нормального мира" тех времен я представляю плохо. Во второй половине 1980-х и в начале 1990-х я сидел в горной экспедиции в Таджикистане, и там все было по-своему. К моменту моего появления в экспедиции там уже несколько лет, как стояла СМ-4 (читай - PDP-11), сменившая СМ-3. А более-менее нормальные персоналки (сперва 8086, потом 80286) у нас в горах появились в 1987-89, т.е. почти сразу же после моего приезда туда. Спасибо американским и европейским коллегам, которые к нам в Гарм частенько заглядывали. Правда, персоналки достались не каждому, а в коллективное пользование ;-).
А еще у нас там был один очень почтенный зам.по науке, который относился к "Компьютеру" с таким пиететом, что считал страшным кощунством
набор на нем текстов статей
Это же ЭВМ!!! Она - ДЛЯ - РАС - ЧЕ - ТОВ !!!!!
Так что молодые сотрудники занимались этим преимущественно по ночам, делая вид, что уединились с сотрудницами на ВЦ совсем для другого, причем в Лексиконе ;-)
> когда персоналок и интернета не было - какие там пдф из редакции!
К нам из российских редакций тогда попадали оттиски. Которые так и лежали в бумажном виде примерно до середины 2000-х, когда мы стали их активно сканировать. С современными PDF, конечно же, не сравнить (это просто картинки), но читать можно.
> Вы невнимательны. Эффект асимметрии сейсмической активности северного и южного полушарий мы не связываем с разной скоростью их вращения.
Разумеется, про разную скорость вращения земных полушарий я написал в порядке шутки. Простите великодушно, если переборщил. По сути претензия в том, что инерционные эффекты, возникающие из-за неравномерности вращения Земли, должны приводить к идентичным механическим аномалиям в двух полушариях. А не наоборот. Хотя вопрос, понятно, сложнее (о чем я и написал чуть ниже в обсуждении работы 2007г).
> Мы вполне детально в одной из работ разобрали, что корень - в тройном субдукционном разломе между Тихим и Индийским океаном. Тройной разлом - которых довольно много между плитами - ведет себя как клин, вбиваемый в полено: клин двигается вперед и на его краях напряжения растут, а напряжение в полене - наоборот падает. Клин убирается назад - обратная картина. И это игра напряжений проявляется в землетрясениях средней силы разных полушарий, потому что тройник так расположился - одна ветка в Северном, а две - в Южном полушарии.
Извините, но вот тут не поверю. Что один разлом или блок, даже очень хитрой конфигурации, может влиять на сейсмичность во всем полушарии? Каким образом? Есть вязкость и релаксация напряжений. Механическая передача усилий на значительные расстояния с такой постоянной времени в коре попросту невозможна. Впрочем, подробно спорить не буду, пока сам не прочитаю эту статью. Возможно, Вы сейчас для краткости половину конструкции опустили, а на самом деле там предложены физически реалистичные механизмы. А я просто "с наскока" идею не понял.
> Почему плиты двигаются неравномерно? А почему столь неровные и неоднородные плиты должны двигаться (заползать друг под друга или сталкиваться) равномерно?
Ну вообще-то сейчас есть ГНСС-данные, которые более-менее надежно отвечают на этот вопрос (как именно движутся плиты). И неравномерность движения действительно есть. Но вот именно подтверждений предложенной Вами концепции мне пока что в ГНСС-обработке не попадалось (впрочем. я за этой темой не особо слежу). Было бы интересно взглянуть на такие статьи.
> Мы практически доказали, что у них есть неоднородность движения с вариабельностью 2-3 года. Физика более-менее понятна, но конкретных моделей построить нельзя - что мы знаем о неровностях плит в зоне субдукции - только то, что последние точки там замирают на 700 км.
Давайте этот вопрос обсудим, когда я Ваши статьи посмотрю? Какие данные обработаны, какими методами, и что именно получилось. Но предварительно свою позицию могу пояснить. Я считаю, что наличие гармоник в фурье-разложении доказательством являться не может, пока не установлена значимость этих эффектов. А вот с этим у нас (не у Вас!)есть ну очень большие проблемы, учитывая свойства сейсмичности.
> Мы, конечно, проверяли качество используемых каталогов - и не стали работать с более многочисленными данными Международного центра именно потому, что там были очевидные нефизические скачки и пустоты. Но сомневаться в представительности огромной статистики землетрясений по целым полушариям у нас нет оснований.
Извините, но вот тут Вы пишете что-то странное. Похоже, Вы что-то неточно сформулировали в предложении выше. Слово "представительность" в этом контексте ну просто ни в какие ворота не лезет. Особенно с учетом контекста моих вопросов.
С одной стороны, Вы рассматриваете события с М от 3.0 (см. например рис.2 из статьи 2007 года). С другой стороны, Вы утверждаете, что у нас нет оснований "сомневаться в представительности огромной статистики землетрясений по целым полушариям".
Но, из рис.2 [2007] однозначно следует, что Вы имеете дело с непредставительными событиями. Мне даже не нужно лезть в каталог USGS, чтобы это продемонстрировать. Я буду апеллировать
исключительно к тем картинкам, которые приведены в Ваших статьях.
А именно, из рисунка 1 в статье 2009г с очевидностью следует, что лог-линейность графика повторяемости для всего каталога в целом наблюдается лишь для М>4.8 (на рисунке использована линейная шкала вместо обычной логарифмической, поэтому я мог ошибиться на +-0.1 при оценке). Далее рассмотрим вариант графика для 1964-1990 (заштрихованный). Мысленное интегрирование этого графика от М=3.0 до М=5.0 показывает, что всего в рассмотренном Вами каталоге присутствует не более 30 тыс. событий с M<5.0. В то же время простая экстраполяция закона Гуттенберга-Рихтера показывает, что за рассматриваемый интервал времени на рассматриваемой территории произошло порядка миллиона событий с M от 3.0 до 5.0. Таким образом, в рассматриваемом Вами каталоге присутствует лишь три процента от всех фактически произошедших событий. Я говорю про выбранный Вами для анализа объем фазового пространства, естественно.
Попросту говоря, 97% от фактически произошедших за 1964-1990 гг событий с М=3.0..5.0 в каталог не включены (= не зарегистрированы).
Для второго графика (данные за 1964-2007) картина чуть лучше. Навскидку, процент зарегистрированных событий там приближается к 10-20%. Но тем не менее, это значит, что Вы работаете с каталогом, в котором отсутствует не менее 80% фактически произошедших событий.
И это я еще не завел свою шарманку про пространственную неоднородность. Которая четко указывает, что порог представительных магнитуд при анализе больших территорий обычно различается на разных участках на одну, иногда на две единицы М. То есть, получив график повторяемости с перегибом в районе M=5, можно почти автоматически сделать вывод, что в некоторых субрегионах этого каталога Mrep=6 или даже 7. Тем не менее, для анализа в такой ситуации часто берут Mrep=5. Иногда это можно делать (если хорошо понимаешь, что делаешь!), а иногда - совершенно недопустимо. Например, если речь идет о зависимости от времени - это в точности второй случай. Эту ошибку даже неплохие сейсмологи иногда совершают, поскольку при анализе только общего графика повторяемости
факт пространственной неоднородности каталога совершенно не очевиден
Фишка тут в том, что наибольший вклад в общее число событий и, соответственно, в этот график дают регионы с хорошей представительностью. А чтобы увидеть специфику субрегионов, надо построить графики повторяемости для каждого из субрегионов отдельно. Мы эту работу неоднократно проделывали для региональных каталогов: раз, два, три. Там же, кстати, продемонстрировано - как построить однородные выборки сейсмических событий для анализа, чтобы избежать тех ляпов, об опасности которых я предупреждал в своих первых постах.
Кстати, раз уж мы вспомнили о пространственной неоднородности поля Mrep, могу порекомендовать Вам и Вашим коллегам программу Complete Mag от В.Б.Смирнова, которая все это считает. С любезного разрешения ее автора, я могу выслать Вам
эту программу со своими плагинами к ней
О программе подробнее тут: Смирнов В.Б.Вулканология и сейсмология. 1997. № 4. С. 93. ОПЫТ ОЦЕНКИ ПРЕДСТАВИТЕЛЬНОСТИ ДАННЫХ КАТАЛОГОВ ЗЕМЛЕТРЯСЕНИЙ
Далее мы переходим к анализа данных и обнаруживаем, что
число событий
Подчеркну - не произошедших, а включенных в каталог
в некотором суб-боксе фазового пространства периодически (квазисезонно) меняется на 10%-15%. Элементарный расчет показывает, что в эпоху 1964-1990 такое изменение может быть обеспечено изменением эффективности регистрации с 3.0% до 3.5%. Другими словами, если предположить, что при благоприятных условиях мы регистрируем 3.5% от всех произошедших событий указанной силы (М от 3 до 5), а при неблагоприятных - лишь 3.0%, то этого с лихвой хватает для объяснения всех эффектов, которые обсуждаются в Ваших статьях. Подчеркну: достаточно, чтобы эффективность регистрации менялась на 0.5%.
Именно поэтому при анализе результатов такого рода я настоятельно прошу в качестве нулевой гипотезы рассмотреть возможную причинную связь обнаруженных вариаций с эффектами наблюдательной селекции. И сделать это, по-хорошему, надо было бы до того, как переходить к построению красивых и в каком-то смысле даже изысканных моделей интерпретации. В противном случае (пока мы не доказали, что это НЕ наблюдательная селекция) все этим модели, извините за грубость, очень напоминают натягивание совы на глобус. То есть представляют собой прекрасных сфероконей, которые, однако, совершенно не вытекают из эмпирического материала.
> Вы много претензий высказали к нашим работам, я же выскажу только одну: вы очень торопитесь. За несколько часов - раз! - разобрали и раскритиковали многолетнюю работу целой группы. Торопливость чревата везде, а тем более - в науке.
Ну вот извините, так получилось. Если группа публикует какие-то результаты, то тем более столь интересные, то ужасно хочется,
чтобы они были хорошо обоснованы
Вообще, я с большим интересом и уважением читаю Ваши статьи здесь, на Хабре. И Вашу последнюю книжку на одном дыхании прочитал. Поэтому и требования к другим Вашим работам предъявляю по Гамбургу. Я ведь воспитан в советское время, и от науки жду не каких-либо выгод, а удовлетворения личного любопытства за государственный счёт. Попросту говоря, очень хочется знать: как же оно происходит на самом деле? И если мы для этого анализируем данные, то это надо делать корректно и аккуратно. Поэтому критика, даже жесткая, это вовсе не способ "продавить" оппонента, а всего лишь попытка внести свой вклад в спрямление путей к Истине. На неинтересные мне работы я бы и время тратить не стал...
Да, но и ДАН, и ФЗ - переводные. По этой причине многие авторы сохраняют и английские, и русские PDF. А иногда даже только английские :-((
...есть в библиотеках (пдф у меня нет)
Понятно. Жаль, что без PDF. Я, к сожалению, работаю удаленно, и в библиотеку физически попадаю очень нечасто. А вот Известия КрАО глянул. Скажу честно - если бы эти работы 2005-2009гг попали ко мне на рецензию в 2025 году, я бы попросил их серьезно подкорректировать.
Начнем с работы 2005 года.
Во-первых, Вы там пишете про события с М<5 за 1964-1990г. Но такие события заведомо не являются представительными по всей территории в этот период. Это значит, что поиск причин любого обнаруженного там эффекта надо начинать (принцип Оккама) с проверки тривиальной гипотезы: не наблюдательная ли это селекция? В статье об этом - ни слова. Хотя все три базовых факта, что эффект обнаруживается для:
1) слабых (непредставительных) событий, причем 2) мелкофокусных и 3) в полосе широт 38-61
идеально согласуются с гипотезой наблюдательной селекции
Во-вторых, по моим представлениям, скорость вращения северного и южного полушарий Земли (в отличие от Солнца) практически одинакова ;-) Во всяком случае, в последнее время (т.е. уже примерно 4.5E+9 лет). По этой причине априори можно было бы ожидать, что эффекты в Земле, причинно связанные с неравномерностью ее вращения, также должны быть синфазны в двух полушариях. Но Вы получили обратный эффект.
Как известно (принцип Поппера), в науке наиболее интересны те результаты, которые противоречат общепринятой парадигме (по Т.Куну). Именно с этой точки зрения обнаруженный Вами эффект следовало бы проанализировать в первую очередь. Однако Вы об этом даже не упоминаете. Вместо этого в качестве "модели по умолчанию" рассматривается гипотеза, предполагающая, что в разные сезоны года литосферные плиты движутся по-разному. Какие физические причины могут быть у такого эффекта - загадка. Это даже не обсуждается.
В работе 2007 года к этим результатам добавлена детализация по глубинам и географическим зонам. Также рассматривается механизм перераспределения момента импульса между атмосферой и твердой Землей. Но, на перечисленные выше обстоятельства (1)-(3) это никак не влияет. А направление пассатов (с запада на восток) в обоих полушариях одинаковое. И хотя тут
есть повод для размышлений
Момент количества движения (МКД) атмосферы в разных полушариях может изменяться по-разному, что влечет разницу в нагрузках на литосферу при его изменении. Но, по-видимому, асимметричная часть этого эффекта все же не доминирует над симметричной. Особенно с учетом того, что в перераспределении МКД также участвует и океан, причем его вклад и вклад атмосферы сравнимы. Вдобавок анализ осложняется тем, что даже лучшие базы данных атмосферных параметров (например, БД реанализа ERA5) содержат явные глюки (см., например, вот эту статью). Это я к тому, что любая методика должна учитывать, что исходные данные не идеальны. Иначе можно долго обсуждать аномалии и закономерности, которые могут оказаться псевдоэффектами.
я бы не назвал эту тему раскрытой.
В общем, несомненное достоинство работы 2007г - что в ней вопрос о причинах асимметрии годового хода сейсмичности в двух полушариях хотя бы ставится. Однако уровень анализа этого вопроса не выдерживает критики. Так, на рис.2 показана величина, которая не имеет физического смысла в силу тех причин, о которых я написал в двух прошлых постах. Если она о чем-то и говорит, то лишь о неравномерности распределения сейсмичности по широтам. Больше того, есть сильное подозрение, что если аккуратно (с учетом неоднородности данных) отнормировать эту оценку на число событий в широтной полосе (кстати, вводили ли Вы эту поправку при публикации, и как именно?), то мы получим эффект, идеально соответствующий наблюдательной селекции. Ну и вдобавок лично я вообще никакого согласия между широтными зависимостями на рис.1 и рис.2 не вижу.
Ну и что касается рис.3. По моим представлениям, сдвиг фаз на два-три месяца между сезонными вариациями (полупериод = 6 месяцев!) - это веский аргумент против той модели (о причинном влиянии перераспределения МКД на сейсмичность), которую Вы предлагаете. И наоборот, он прекрасно согласуется с "тривиальной" моделью, предполагающей, что мы видим наблюдательную селекцию.
С учетом этого, постановка финальных вопросов работы 2007г (на с.123) мне представляется, как минимум, преждевременной. Так как эти вопросы приобретают физический смысл лишь при условии истинности нескольких предварительных тезисов, которые в процитированной работе почему-то считаются доказанными, хотя это совершенно не так.
Ну и теперь про работу 2009 года. В ней наконец-то появилась возможность использовать данные по 2007 год. Лично я бы в такой ситуации прежде всего разбил каталог на эпохи, и проанализировал зависимость всех эффектов от времени. Ведь сейсмическая сеть развивается, представительность каталога растет. Такой анализ критически важен, чтобы продемонстрировать отсутствие (или наличие) наиболее тривиального эффекта, объясняющего все замеченные Вами закономерности. Я имею в виду наблюдательную селекцию.
Однако в работе такой вопрос даже не ставится. Наоборот, на рис.1-5 по-прежнему приводятся данные за 1964-1990гг. Не потому ли, что в 1991-2007г порог представительности смещается на меньшие магнитуды, и все зависимости от М (которые на самом деле привязаны к этому порогу) при объединении эпох размываются?
Второй вопрос - почему на рис.6-7 показаны кумулятивные зависимости за 1964-2007, а не два отдельные варианта за 1964-1990 и 1991-2007? Продолжительность первого интервала 27 лет, второго - 17. Понятно, что если какой-то эффект был сильным до 1990г, а потом он ослаб, изменился или даже исчез, то он все равно будет заметен и по объединенной эпохе. По этой причине гораздо интереснее было бы провести анализ и сравнить результаты до и после 1990г. Данных для этого хватает. Почему Вы этим пренебрегли - для меня загадка.
В общем, я совершенно не хочу сказать ничего плохого
про КрАО и про Известия КрАО
Наоборот, о моем отношении к КрАО может сказать тот факт, что книжка Б.М.Владимирского и коллег 1994 года до сих пор стоит у меня на полке со справочниками. Вообще, в год своего выхода она произвела на меня довольно сильное впечатление. Мы даже напечатали пару работ по ее мотивам, предложив при этом собственный метод анализа скрытых периодичностей (раз, два). И лишь в 2010-11гг, после детального разбора "Гармонической модели Вселенной" от Б.Л.Берри (раз, два), мне стало понятно, что с этими периодичностями все не так просто, как может показаться на первый взгляд.
Но как мне кажется, три обсуждавшиеся выше публикации в Известиях КрАО сейчас могут представлять лишь исторический интерес.
P.S. И напоследок. Если Вы или Ваши коллеги еще не утратили интерес к этой теме
то мне это тоже было бы интересно. Я как-то начинал расчеты по поиску влияния горизонтальных градиентов давления на сейсмичность, а также искал эффект динамического давления ветра на линейный горный хребет (естественно, в прилегающей к нему зоне). Но до публикации не довел: проекты, в рамках которых это все затевалось, закончились, и соавторы были вынуждены переключиться на другие задачи.
В общем, пишите в личку,
обсудим конкретнее
кто что может сделать, в какие сроки, и куда будем потом "продавать" результаты ;-) Единственное условие - при таком поиске я всегда стараюсь опираться на данные. То есть, сначала искать там значимые (в моем понимании) закономерности, и только потом их "прикладывать" к разным гипотезам (а не только к какой-то одной, заранее сформулированной).
А вот самостоятельно я этим заниматься, извините, не буду. Во-первых, не факт, что работая независимо, я смог бы аккуратно учесть и обсчитать все идеи-задумки, подразумевавшиеся в Ваших работах. А во-вторых, у меня есть серьезные опасения, что многим ранее полученным результатам в итоге придется дать дать
совсем другую интерпретацию
Только, пожалуйста, не поймите этот намек, как критику или наезд! Жизнь развивается, появляются новые данные и методики, поэтому уточнение или даже исправление ранее полученных результатов - это, имхо, совершенно нормально. Например, однажды мы обнаружили, что наши изначальные результаты (раз, два) были ошибочными, и честно написали об этом в отдельной работе с подробным разбором причин ошибки
И хотя, по моим представлениям, исправлять предыдущие результаты - это нормально, но делать это надо ВМЕСТЕ с авторами исходных работ. А не вопреки им.
Спасибо за ссылки! Но ведь у Вас наверняка сохранились PDF-ы этих статей? Можете их где-нибудь выложить? Буду особенно благодарен за русскоязычные варианты, так как с другими языками (не считая фортрана) у меня почти катастрофа :-((
P.S.
Что же касается моих публикаций, на которые я ссылался выше, то у себя на сайте я, наоборот, обычно выкладываю только русские варианты. Английские, если кому-то это удобнее, обычно можно найти на RG. Ну или пишите в личку - пришлю.
Согласен, что публикация статьи в научном журнале - это определенный критерий качества. Однако надо различать два случая:
1) Есть физическая идея, и мы проверяем: согласуются ли с ней данные, или нет 2) Есть комбайн, который просеивает данные, и ищет там любые закономерности. Если закономерность формально найдена - придумываем гипотезу и пишем статью.
Так вот. Я сам изначально попал в группу, которая придерживалась второго подхода. И долгое время как раз и занимался таким вот "поиском закономерностей". Только не в каталогах, а во временных рядах. Пока не пришел к твердому выводу, что с нашей методикой что-то не так.
Собственно, что касается классических предвестников землетрясений,
то это стало ясно уже в 1990-х
Вы ведь знаете, сколько таких работ вышло после развертывания самых разнообразных систем мониторинга. Люди успешно рисовали графики, показывали там запредельные вариации, украшали их стрелочками землетрясений. И все закончилось пшиком. Единичные случаи успешных прогнозов к ранее выявленным аномалиям (перед прошлыми событиями) прямого отношения не имели. Как и попытки прогноза вперед в подавляющем большинстве случаев.
Причина стала очевидной лишь после признания факта неоднородности (нестационарности) этих временных рядов. Оказалось, что практически все эти "запредельные аномалии" - это просто нормальный фон. Что наши ряды именно так и должны себя вести в "обычное" время, т.е. вне какой-либо связи с сейсмичностью. Другими словами, "корреляция" с сейсмичностью оказалась ложной (=иллюзорной).
Ошибка состояла в том, что мы посчитали факт совпадения "аномальной" вариации и момента землетрясения доказательством значимости. Но, значимое событие по определению должно быть редким. В рамках проверяемой гипотезы оно не должно наблюдаться почти никогда. И если оно все-таки обнаружено в данных, то мы вправе такую гипотезу (предсказывающую почти-невозможность события) отклонить. Глядя на "аномальную вариацию", все были уверены, что это и есть та самая "редкость".
А потом оказалось, что такие "запредельные аномалии" происходят чуть ли не регулярно. И что выбрав случайный момент времени, мы почти всегда обнаружим подобную "аномалию" либо во время события, либо за какое-то время до него. Именно отсюда "растут ноги" у кучи "предвестников", наблюдавшихся за годы и за сотни километров от будущего очага. При том, что в более ближней зоне (по расстоянию и по времени) никаких предвестников либо не было, либо они были меньшей амплитуды.
Чего только не придумывали для объяснения этого факта! А на самом деле все было проще - события, которые казались высокозначимыми, на самом деле вовсе не были таковыми. Это были случайные аномалии, не связанные с землетрясениями от слова вообще.
Второе направление нашей работы состояло в поиске связей (корреляций) между разными геодинамическими процессами. Оказалось, здесь та же шарманка. Все стандартные критерии значимости корреляций, которые безупречно работают для случайных величин, совершенно неприменимы для временных рядов. В типичных случаях смещение уровней значимости составит не пару процентов, а пару порядков. Если, конечно, мы рассматриваем фликкер-шум со степенным параметром более единицы. А наши ряды - именно таковы. Отсюда сразу же следует, что
большинство из найденных тогда корреляций (не только нами) - суть ложные.
Я вполне понимаю, что при чтении этого утверждения первая мысль у любого нормального человека - да автор свихнулся! Проблема, однако, в том, что Вам совершенно не нужно соглашаться со мной. Надо просто сделать небольшой численный эксперимент. Сгенерируйте сотню реализаций ФШ со степенным параметром между 1 и 2. Желательно подлиннее (миллиона отсчетов хватит). Только обязательно используйте тот ГСЧ, которому Вы полностью доверяете. И который гарантирует, что на выходе именно случайные числа, а не псевдослучайные. Ну или псевдослучайные, но с таким большим периодом повторения, что в рамках рассматриваемого эксперимента их можно считать независимыми.
Ну а теперь посчитайте корреляцию между сгенерированными (гарантированно независимыми!) ФШ-рядами. Вроде бы, 99% корреляций (три сигма) не должны превышать по модулю 0.003 (= 3/SQRT(N), где N-длина ряда). Для случайных величин это именно так. Однако, проделав этот несложный эксперимент, Вы обнаружите, что для ФШ картина ровно обратная. Лишь порядка процента от всех корреляций действительно будут по модулю меньше, чем 0.003. Чаще всего коэффициент корреляции будет не просто больше, а много больше. Точные цифры зависят от того, какой степенной параметр вы выберете при генерации ФШ. Если, к примеру, задать там n=2, то чуть ли не половина всех корреляций будет по модулю больше 0.3. То есть, в сто раз больше, чем мы ожидаем для случайной величины или БШ. Обратите еще внимание, что 0.3 - это ТРИСТА сигма. Кстати, сколько сигма там сейчас "золотой стандарт" в космологии?
Единственная (но достаточная!) причина этого результата в том, что мы взяли нестационарные (=неоднородные) данные вместо случайных величин. Подробнее я об этом написал вот в этих статьях: раз, два (PDF здесь). Лет двадцать назад об этом стоило бы сделать отдельную научную публикацию... но тогда я это сам еще не понимал до конца. А сейчас этот факт уже стал, в моем представлении, общим местом, так что писать в научном журнале только об этом - стыдно. Поэтому я написал на примерах конкретных данных. А общий обзор вопроса сделал в формате научпопа на Хабре.
Но что касается итогового вывода, то он, с одной стороны, вполне тривиален, а с другой - абсолютно алогичен интуитивно. А именно, значимость любых корреляций, которые мы считаем по временным рядам, нельзя оценивать стандартными способами. Если, конечно, эти ряды не являются белым шумом (чего на практике почти не бывает).
В общем, что касается именно временных рядов, то спорить тут просто не о чем. Если временной ряд нестационарен, то это не случайная величина, а случайный процесс. И это вовсе не терминологическая тонкость, влекущая незначительные поправки, а ключевое свойство, кардинально меняющее интерпретацию всех корреляций. Этот вывод относится к любым временным рядам, у которых степенной параметр спектра n превышает 1 (геодинамические сюда попадают практически все).
Если n > 1, то вся логика обработки и все алгоритмы должны строиться с учетом этой особенности. Собственно, не я первый это придумал. Просто раньше, когда соответствующих временных рядов еще не было, на этом факте не особо акцентировали внимание. А потом, когда ряды появились, "по инерции" к ним какое-то время применяли статистики, построенные для случайных величин. Несмотря на то, что это совершенно недопустимо (и это во всех учебниках сказано). Но вот почему-то обычный человек в это верить не хочет. Настолько не хочет, что об этом
даже пишут статьи на Хабре
В которых показано, что свойства ФШ-сигналов ну очень нетривиальны. См., например, вот эту статью от @sci_nov. Или вот эту, которую движок Хабра уже перестал нормально отображать, но @TVSобещал обновить
Ну и теперь про сейсмичность. Я не работал с глобальным каталогом - он для наших задач слишком неоднородный. Но для тех рядов чисел землетрясений, которые я рассматривал, значение n было порядка 1 или больше. Примеры таких рядов и спектров можно посмотреть вот тут или вот тут (PDF здесь). Ну или возьмите и посчитайте эти спектры для своих данных. Ручаться не буду, но мне кажется, что стационарности там точно не будет. Но если это действительно так, то обычный подход к интерпретации корреляций, посчитанных по таким рядам, является некорректным.
А практический вывод отсюда следующий. Если мы рассматриваем задачу (1):
1) Есть физическая идея, и мы проверяем: согласуются ли с ней данные, или нет
то все хорошо. Так как мы в этом случае ищем опровержение конструктивной гипотезы, а не нулевой. Но вот если вопрос поставлен в формулировке (2):
2) Есть комбайн, который просеивает данные, и ищет там любые закономерности. Если закономерность формально найдена - придумываем объяснение и пишем статью.
то тогда как раз "опа". Так как "просеивание" сразу выдаст массу "ложноположительных" результатов. Причина этого в том, что мы сплошь и рядом примем за значимые совершенно случайные корреляции.
> Почему неоднородность убивает возможность анализа?
Разумеется, саму возможность анализа - не убивает. Наоборот, в своих последних работах я как раз и пытаюсь использовать корреляционный анализ, акцентируя при этом
вопрос об оценке значимости корреляций
Однако критерии значимости корреляций я при этом построил свои, и они кардинально отличаются от общепринятых (еще раз ссылки на те же статьи: раз, два, PDF здесь). Причем, я вовсе не утверждаю, что мои критерии хороши. Наоборот, я сам вижу у этих критериев тьму недостатков...
просто не знаю, как их исправить
Отдаваясь журналам, я надеялся, что рецензенты что-нибудь посоветуют... но они отнеслись к работе поверхностно и по критериям вообще никаких советов не дали
Кстати, если вдруг у кого-то руки дойдут упомянутые статьи посмотреть, буду особенно благодарен за замечания по предложенным там критериям значимости корреляций.
Но как только у нас появляется неоднородность/нестационарность, проблема оценки значимости внезапно превращается из технической в творческую. Если Вы знаете, как ее аккуратно решить - замечательно. Я вот - не знаю, хотя и пытаюсь (см. прошлый спойлер).
А вот на чем я твердо настаиваю - так это на том, что стандартные критерии значимости корреляций при работе с такими сигналами полностью непригодны. Собственно, это и было главной причиной, сподвигшей меня на "велосипедостроение". А при построении такого "комбайна", о котором Вы пишете, эта проблема (оценка значимости) становится ключевой. Пока она не решена аккуратно, все остальное просто бессмысленно.
Ведь в чем разница между экспертом и этим комбайном? Пока Вы работаете вручную, Вы можете каждый случай покурить в индивидуальном порядке. Отсеивая при этом всякую очевидную ерунду по критериям здравого смысла. Но комбайн-то этого не умеет! Он формально получит значимость 10 сигма, и скажет: Вот Вам ответ! Поэтому крайне важно, чтобы оценивалась реальная, а не иллюзорная значимость. Но для нестационарных сигналов (в том числе и сейсмичности) эта задача (аккуратная оценка значимости эффектов) - на два порядка сложнее, чем собственно наладка "комбайна", просеивающего данные. Возможно, кстати, что именно поэтому он до сих пор и не создан ;-)
> Я как раз был таким "муравьем", который ползал по двум каталогам землетрясений (лучший - Геологической службы США) и нашел там, с помощью коэффициента корреляции, кучу ранее неизвестных временных и пространственных закономерностей (например, антикорреляцию сейсмической активности Северного и Южного полушарий на интервале, помнится, 27 лет с вариабельностью на шкале 2-3 года), которых хватило на несколько научных статей в солидных журналах, начиная от ДАН СССР. Это было 30 лет назад, сейчас база данных увеличилась в два раза. И не вижу никаких проблем, чтобы не сделать ИИ-поисковик, может, с набором указаний, чего искать.
К моему сожалению, я почти не занимался анализом сейсмичности (работал с временными рядами). А если что-то и делал, то обзор всегда составляли соавторы. Поэтому если можно, я бы попросил у Вас PDF-ы упомянутых выше статей. Если там обсуждается, как оценивать значимость в нестационарном случае - с интересом их почитаю. Так как проблема отсутствия стационарности для двух прикладных областей (временные ряды и сейсмичность) фактически общая.
UPD. Заметил Ваше второе сообщение. Похоже, я слишком долго писал это письмо ;-) Сейчас отвечу отдельно, т.к. время редактирования этого сообщения истекает.
Если взять большую базу данных – например, землетрясений, то она образует, как минимум, пространство пяти измерений (...)
Вот именно с каталогом землетрясений такие задачи полным перебором не решаются. И вовсе не из-за чрезмерного количества вариантов. А из-за бессмысленности такого перебора. Дело в том, что перебор подразумевает однородность пространства событий (=каталога). А по факту ее заведомо нет даже в нулевом приближении.
Представительность абсолютно любого сейсмического каталога
Формально каталог считается представительным, если там присутствуют абсолютно все землетрясения данной энергии и сильнее, фактически произошедшие в рассматриваемом фазовом объеме. На практике обычно задается некая минимальная магнитуда, начиная с которой в каталоге есть почти все события такой силы и более сильные. Но по факту какая-то часть событий всегда бывает пропущена И хотя их общий процент может быть небольшим (золотой стандарт современной сейсмологии = 10% ;-), но в некоторых пространственных областях (на окраинах регионального каталога, или в зонах с малой плотностью станций у глобального) этот процент может быть кратно выше. Вплоть до 50%. А еще сеть сейсмостанций меняется во времени, и
не всегда в одну сторону
1) бывают временные станции, которые изначально рассчитаны на короткий срок службы. А 2) многие стационарные долго работают, но потом закрываются
Это приводит к неоднородности каталога во времени. Причем она зависит от времени совершенно по-разному в разных географических зонах - даже в пределах одного каталога. Неспециалисты просто не знают, какой там ужас на самом деле ;-) Я тут имею в виду самые лучшие каталоги, естественно. Про худшие и говорить нечего... Впрочем, у "плохих" каталогов есть одно бесспорное преимущество: в этом случае у пользователей хотя бы нет иллюзий насчет однородности каталога ;-)))
меняется одновременно и в пространстве, и во времени, причем по разным и немонотонным законам. Эти изменения на много порядков превышают те пороги, которые мы можем выявить статистическими методами. Поэтому формальное применение предлагаемых Вами методов повлечет лишь открытие немеряного числа
высокозначимых, но тем не менее ложных (кажущихся) корреляций
Обычно про них говорят в контексте временных рядов, но там число измерений гораздо меньше. Поэтому обычный человек, глянув на результаты анализа,
может хотя бы заподозрить, что что-то пошло не так
И задаться вопросом: почему же железобетонно надежные статистические критерии (которые напрямую выводятся из базовых аксиом современной математики), вдруг обнаруживают ультравысокозначимую (50 сигма - запросто!) статистическую связь между безупречно подготовленными временными рядами (к качеству измерений не придерешься!), несмотря полное отсутствие физически правдоподобных механизмов появления такой связи.
А чуть более заинтересовавшийся - может открыть вот эту статью и прочитать там во всех подробностях, где же подвох.
Но в предлагаемой Вами задаче измерений не одно, а гораздо больше. Поэтому честный, но наивный исследователь запросто может принять все найденные роботом корреляции за чистую монету. Подобно тому, как некоторые Ваши коллеги не так давно обнаружили связь между ядерными испытаниями и мегаземлетрясениями (см. статью в УФН). О том, почему обнаруженная ими корреляция является кажущейся, подробно написано вот в этом комменте на Хабре. Сразу после выхода упомянутой статьи в УФН мы хотели изложить основную идею этого комментария в научном журнале, но нам тогда намекнули, что по некоторым причинам публиковать ее нежелательно.
Которые почти наверняка будут неправильно проинтерпретированы из-за того, что внутренности модели (комбайном просеивающей сейсмический каталог в поисках корреляций) де-факто скрыты от получателей результата. Не потому, что этот комбайн от нас действительно что-то скрывает, а просто в силу обилия внутренней информации, необозримой человеческим взглядом.
Как говорится,
хочешь спрятать надежно - положи на самом виду, но насыпь рядом побольше похожего мусора
А еще есть такая штука, как пространственно-временная неоднородность (нестационарность) сейсмичности. Из-за которой при box-to-box-анализе все уровни значимости летят в тартар со скоростью, на 146% превышающей скорость света ;-) Причем, чем сложнее наша комбинированная статистика, оценивающая box-to-box-связь (т.е. чем больше измерений в нее вошло), тем сложнее вычислить, какой именно вклад в итоговое смещение этих уровней дает неоднородность данных вдоль этого исходного измерения. Тут ситуация
полностью аналогична нестационарности временного ряда
только гораздо хуже из-за обилия измерений. Ведь в случае временных рядов у нас неоднородность (нестационарность) лишь по одной из координат (=времени). И все равно целая куча довольно умных людей оказалась введена в заблуждение. А Вы хотите справиться сразу с пятью? Боюсь, тут даже сильный ИИ не спасет ;-)
И это мы еще даже не начинали про
наблюдательную селекцию ;-)
Там фишка в том, что чувствительность сейсмической сети зависит от уровня шума. Когда шум выше - вероятность пропустить событие больше. Например, в горах летом и/или днем воды в реках больше, и поэтому регистрируется меньше событий. А на морском побережье может мешать сильный ветер во время циклонов (деревья гнутся, земля трясется). Плюс микросейсмы. И т.д. и т.п. А ты потом угадай: если землетрясений днем стало меньше, то
это чистая наблюдательная селекция, или там есть и реальный эффект?
Мы вот однажды гадали ;-) Правда, обычную колоду в горах найти не смогли, а карты таро в то время были еще не в моде. Поэтому мы гадали на перфокартах и перфолентах. В итоге мне пришел в голову довольно занимательный трюк с выходными и рабочими днями, благодаря которому мы смогли определить процент засорения одного из типичных региональных сейсмических каталогов взрывами. Там этих взрывов в отдельных выборках оказалось до 50 (кто б мог подумать!) процентов.
Потом, много позже, эти результаты и метод даже были опубликованы. А вот ответ на первый вопрос (наблюдательная селекция или реальный эффект) мы до сих пор так и не знаем. Да и вся мировая наука не очень уверена...
А еще есть аналогичный вопрос про приливы. Они на сейсмичность влияют или не очень? Тут даже физика более-менее проработана. Вплоть до анализа векторных деформаций (прилив) и сейсмических механизмов (т.е. куда там что сдвинулось в очаге).
А ответа все равно нет
Так как подход на основе статистики упирается в ту самую неоднородность данных, про которую я только что написал (в силу чего доверие к таким результатам лично у меня очень низкое). А подход на основе анализа единичных событий не исключает возможность случайного совпадения. Да и совпадения там, если честно, не особо хорошие. А главное, мы даже априори не знаем: оно (совпадение) вообще должно быть, или нет? Ведь каждое сильное событие всегда в чем-то индивидуально (различия в механизмах, геологии, НДС и т.д.).
Короче, Вы сейчас со своими идеями разворошите такое осиное (зачеркнуто) сейсмическое гнездо, что они покусают всех заглянувших, включая меня ;-)
А если немного серьезнее, то предложенный чисто статистический метод будет нормально работать только при условии достаточной однородности данных по всем измерениям фазового пространства. В случае сейсмического каталога таких вариантов лишь два: либо мы ограничиваем магнитуду самой верхушкой (которая точно представительная всегда и везде), либо мы берем самый минимальный временной срез.
В первом случае объем выборки сжимается на столько порядков, что нам не просто AI не нужен - мы даже самые обычные статистические методы не применим из-за нехватки данных. Так как число оставшихся событий (в безупречно однородном каталоге) будет измеряться первыми тысячами, максимум десятками тысяч. Что немедленно сводит задачу box-to-box перебора к одному измерению. Ибо количество событий в боксе для сколько-нибудь устойчивого статистического анализа должно измеряться
минимум сотнями
Иначе там даже представительность по-нормальному не оценишь. Более менее адекватные результаты получаются только при общем числе событий порядка тысячи (лучше больше), из которых представительных несколько сотен
Короче, даже для двумерного боксинга однородных событий уже не хватит
А во втором случае нам придется забыть про временную динамику. Ныряйте с вышки в пространственные закономерности! А там, неожиданно, в бассейне нету воды. Так как пространственное распределение сейсмичности - это сложный нерегулярный фрактал, нанизанный на тектонические структуры. Благодаря чему анализ пространственных корреляций хотя и возможен, но не очень-то продуктивен. Особенно без знания
геологии
где, как известно, при наличии двух геологов вы получите три абсолютно надежных и достоверных, безупречно подтвержденных фактическим материалом, но совершенно несовместимых друг с другом модели строения. Если же
геологов больше трех (как это обычно бывает)
то при попытке обратиться к любому профессору комбинаторики с вопросом об ожидаемом количестве несовместимых моделей среды Вы, скорее всего, сразу получите пулю в лоб. Впрочем, на это я уже намекал в соседней статье ;-)
Ну и еще один бонус-фактор: практически все геологические границы наклонны. Работая на поверхности, мы стараемся это не замечать, но бурение и многие другие методы однозначно показывают, что вертикальная граница в геологи - это нонсенс. Ну или точнее, очень редкое исключение. В отдельных особо благоприятных условиях (зоны субдукции или полигоны по типу Гармского) это и по сейсмическим данным читается. Но если брать среднее по больнице (т.е. земному шару),
то точность определения глубины событий обычно сравнима с их глубиной ;-)
Исключение - те районы, где горизонтальное расстояние от трех ближайших сейсмостанций до гипоцентра меньше, чем глубина очага. Среди сейсмологов до сих пор ходят слухи, что они видели человека, который лично знает коллегу, который с именно такой сетью работал и даже с хорошей точностью глубину очагов вычислял. Но по моим впечатлениям, данные от таких сейсмологов в открытые источники просто не пропускают ;-) А для запудривания мозгов в каталогах пишут стандартное отклонение оценки глубин, которое в 90% случаев имеет лишь весьма косвенное отношение к фактам реальности...
В общем, при такой точности оценки глубин строить трехмерное облако малоосмысленно. Изредка можно раскрутить картину в каком-то вертикальном сечении, но лишь для особо благоприятных районов с хорошей сетью. Все остальное - это плоская карта. Только вот ее мы и так уже знаем без всяких AI...
Ну и теперь резюме:
Хоть бы кто сделал самостоятельный анализатор данных – пусть с интеллектом муравья, — который бы мог круглосуточно ползать по заданной рыхлой куче чисел в поисках жемчужин закономерностей и докладывать человеку раз в день: «Вот чего я нашёл, хозяин!»
Говоря о сферическом коне в вакууме (ой, простите, в черной дыре!), идея, наверное, неплоха. Только вот учитывая реальное качество данных (во всяком случае, в сейсмологии), их неоднородность, а также нестационарность практически всех реальных процессов, боюсь, что практическая польза от этого муравья будет не нулевой, а во многих случаях отрицательной. Так как вместо реальных закономерностей он почти наверняка найдет иллюзорные. Который, как сказал один древний, но мудрый преподаватель статистики, "особенно опасны потому, что имеют видимость математической точности и строгости".
Мы можем рендерить только те спаны, которые находятся во вьюпорте пользователя.
Что не просто логично, а я бы даже сказал - напрашивается. Даже странно, что эта идея так редко востребована, и до си пор сохраняет элемент новизны. Лет 20 назад мы решали похожую (но другую) задачу - отобразить на интерактивном рисунке много-много миллионов значений данных. Решение получилось примерно в том же духе: мы отображаем на экране не весь массив, а только то, что видит пользователь. С учетом наложения элементов и рамки просмотра. И динамически пересчитываем картинку при рендеринге. В качестве бонуса это еще и позволяет нам при экспорте рисунка в векторный файл получать картинки вменяемого размера. Только мы тогда не знали тех модных слов, которыми изобилует статья, и по рабоче-крестьянски назвали это
Для хранения и извлечения данных телеметрии мы используем столбчатую базу данных.
Да-да, у нас тоже столбцы, только с временными рядами. И СУБД собственной разработки - родом из 1980-х., но до сих пор в продакте. Хотя и пережила за это время пару модификаций ;-)
Нет, вы явно выражаете неодобрение других точек зрения, говорите, что люди не должны так делать, фразой "Нельзя минусовать".
Да, тут Вы правы. Я хотел выразить свое недоумение, а получилось - неодобрение...
Если мою точку зрения уже написал кто-то другой, и я с ней согласен, зачем я должен писать то же самое еще раз? И читать 20 похожих комментариев вместо 20 минусов мне тоже не хочется.
Согласен, дубли писать - не надо. Можно просто плюсануть комментарий, где мысль хорошо изложена. Тут не поспоришь: к комменту под 20-ю плюсами нельзя не прислушаться ;-)
В остальном же я Вашу точку зрения понял, и рациональное зерно в ней вижу. Но подписаться под ней не готов. Мне все-таки кажется, что те минусы, про которые Вы говорите, больше уместны в комментариях, и в меньшей степени - под статьей.
Лично я исхожу из того, что минусовать надо заведомо пустые статьи. Бессодержательные, сумбурно написанные, когда автор непонятно чего хочет сказать или просто лыка не вяжет. Рекламу ради рекламы. Явные, но не аргументированные наезды на кого-то или на что-то. Ну и конечно прямой (особенно умышленный) обман и фактологические ошибки, которые могут кого-то ввести в заблуждение и даже подставить. Еще можно минуснуть грубость и неуважение к читателю. Короче говоря, я сам минусую те статьи, которые вообще не стоит читать (и даже открывать не стоит).
Если же автор выдвигает спорный, но по-своему обоснованный тезис, то это называется дискуссия. Жаль, на Хабре такого тега нет. "Мнение" - это все же не совсем то. (Кстати, именно в данном случае тег "Мнение" имхо был бы точнее, чем "кейс").
Минус это и есть выражение несогласия. На английском это называется еще более явно - "дизлайк", что означает "не нравится". Если я не согласен, значит по этому критерию статья мне не нравится. Не нравится, значит можно поставить дизлайк.
Разумеется, такая позиция тоже возможна. Но тогда многие потенциальные читатели, которым есть, что добавить к разговору, могут ее вообще не открыть. А мое скромное имхо состоит в том, что чуть ли не в половине случаев дискуссия в комментах - это столь же ценное дополнение к материалу, как и сама статья. Поэтому я стараюсь возвращаться к особо понравившимся статьям через пару дней, чтобы почитать комментарии.
Ну и третье соображение (к Вам не относится!): часто минус ставят вместо комментария (а не в дополнение к нему). Но если я не дока в этом вопросе (а вот здесь я именно что не дока!), и у меня нет своей твердой позиции, то мне крайне интересны именно возражения и контраргументы. Чтобы увидеть всю палитру мнений с разных сторон, а не только позицию автора. Поэтому я бы очень хотел, чтобы несогласные не минусовали, а отвечали и спорили. Понятно, что не у всех есть время/возможность, но тем не менее.
P.S. Я не пытаюсь Вас переубедить, просто объясняю свою точку зрения.
Спасибо за статью! Восхищен стилем - читается легко и доходчиво, хотя именно за него Вас, наверное, и заминусовали. Нельзя же минусовать за аргументированно высказанную позицию, просто потому, что ты с ней не согласен (кстати, мои плюсы всем, кто аргументированно возражает автору в комментариях!).
Компромиссом являются: unsafe в расте, Any в тайпскрипте, и
всякая прочая потребень
Добавлю до кучи common в фортране. Формально
это не совсем то
де-факто с помощью common можно локально, внутри объекта, объявить глобальную переменную или структуру, к которой с помощью аналогичного объявления можгно обратиться из внутренностей другого объекта и вообще любой точки программы
Не, я не против, когда есть какие-то крутые новшества, но как-то у меня ощущение, что каждая новая фича или “язык” создается скорее для того, чтобы держать разработчиков в плену. Вроде бы ты хочешь улучшить код, а на деле тебе просто предлагают еще один набор зависимостей и библиотек, которые нужно изучить, чтобы не остаться за бортом.
Программируйте на фортране ;-))
С 1957 года и до сих пор - жив, курилка ;-) Правда, в 1990-х язык тоже пережил "эпоху крутых новшеств" (добавилось полноценное ООП и др.) , но революция один раз в 40 лет - это еще не так плохо по сравнению с некоторыми ;-)
Шутка, конечно..
но как известно, в каждой шутке есть доля шутки. В своей узкой нише перемалывания чисел фортран до сих пор остается
выбором номер один
в силу исключительной вычислительной эффективности, простоты работы с массивами и огромного количества накопленных библиотек, гарантированно совместимых с любым современным кодом
Если, конечно, вы пишете что-то свое, и вам недостаточно высокоуровневого "клея", который позволяет собрать нужную функциональность из готовых библиотек (написанных, кстати, на том же фортране/Си)
Ну и революция революцией, а все ранее (до 1990-х) написанные фортрановские библиотеки как работали, так и продолжают компилироваться и работать в пост-апокалиптическом мире (т.е. после 1990-х ;-)
А если серьезно, то мне сложно себе представить, что кто-то будет придумывать новый язык исключительно ради того, чтобы улучшить стиль уже существующего кода, переписав все полностью заново. Может, в основе все-таки обычно лежит идея, концепция, которая решает труднопреодолимую концептуальную проблему ранее существовавшего языка? Которую невозможно побороть эволюционным путем?
И успешность/неуспешность нового языка прежде всего определяются тем, насколько эта проблема: 1) действительно актуальна, и 2) насколько хорошо предложенное решение? И лишь во вторую очередь - административной поддержкой и пр.?
1. Я очень далек от этой тематики, статья стала прекрасным ликбезом! Спасибо!
2. А еще мне со стороны кажется немного странным, что мы, люди, сначала 1) собираем данные в базах, потом 2) строим какие-то сводки метрик и оформляем их в виде красивого PDF-документа, а потом 3) парсим это чудовище в надежде 4) опять получить данные в виде пригодной для работы структуры (читай - обратно запихать в сводную базу).
Мне одному кажется, что цепочка (1)-(2)-(3)-(4) содержит какую-то внутреннюю избыточность, и что без промежуточных этапов (2), (3) было бы как-то проще??
То, что у вас написано - это и не юмор, и не пасхалки. Такие вещи никому не нравятся, кроме их авторов. Если это была бы книга - то да, в предисловии или в сносках* можно подобное позволить. В документации, в коде, в комментариях к коду - категорически нет.
Позиция понятна, и в определенной мере я с ней согласен. Юмор в пошаговой инструкции вряд ли уместен. Особенно если она написана на неродном языке, которым ты не владеешь свободно. Например, когда тебе надо загрузить данные, пришедшие в ana-формате, в программу, инструкция к проге должна быть предельно конкретной и четкой.
Что же касается конкретно нашего случая
то он достаточно близок к "книге". Дело в том, что примерно четверть от всего объема документации у нас составляют не пошаговые инструкции, а "философские рассуждения", в которых речь идет скорее про общие принципы построения алгоритмов. Специфика нашей работы в том, что она очень плохо формализована. Программа, как правило, не дает готовых решений, а предоставляет набор примитивов, из которых юзер сам, как из кубиков, собирает нужный ему алгоритм. Каким должен быть целевой алгоритм - не знают ни юзер, ни тем более авторы проги. В справке мы скорее делимся своим опытом в этом плане, причем заранее неизвестно: подойдет ли он юзеру, или нет. И такие рассуждения, отвечающие на вопрос "ЧТО вообще можно сделать в такой ситуации", часто довольно объемны. А главное, было бы совершенно неправильно, чтобы читатель к ним относился, как к догме. Вот в этот момент, как мне кажется, шутка может настроить его на правильный лад.
Что же касается способов "привинчивания" выбранных кубиков друг к другу (когда юзер ищет ответ на вопрос "КАК сделать вот это"), - то тут я с Вами согласен на сто процентов: инструкция должна быть короткой, конкретной и четкой. Буду обращать на это внимание в будущем, так как во время работы со слитным текстом (исходники справки) голова не всегда автоматом переключается на правильный стиль.
Вообще, мне кажется, что стиль инструкции к проге можно сравнить с двумя вариантами путешествия к заданной цели. В первом случае у тебя есть легенда, в которой перечислены повороты, и сказано: сначала направо, потом налево, а дальше три раза прямо. Кому-то так удобней всего. Однако при малейшем изменении местности, или при опечатке в легенде ты попадешь не туда. К тому же такую инструкцию надо составить для каждой возможной цели. А если есть варианты с начальными точками - то для каждой возможной пары "старт-финиш".
Поэтому начиная с какого-то уровня сложности вместо пошаговых списков удобнее карта. Которая не содержит рекомендаций: куда и где повернуть. Все на совести едущего.
Так вот, если Вы работаете в первом, пошаговом стиле, то ирония неуместна. Если же документация больше похожа на дорожную карту, то почему бы и нет? Особенно если авторы сами не очень-то хорошо представляют ее окраины. Вот про эти тропинки нам все достоверно известно - отражаем в документации. А где-то вот в этом районе - болото, предположительно с крокодилами (но говорят, что там собирают хорошую клюкву). В общем, мы сами там не были, пробуйте на свой страх и риск.
Те же спектры, к примеру, нельзя посчитать единственно правильным способом. Если в настройках метода есть четыре параметра, в справке можно раскрыть, что делает каждый из них. А вот какую их комбинацию следует выбрать в каждом конкретном случае - не ответит никто. Так как этих "конкретных случаев" - миллионы, в зависимости от особенностей данных, шумов, целевой функции и т.п. Даже если бы авторы знали ответы, в справке их изложить невозможно. А мы их вдобавок еще и не знаем (собственно, в этом научная работа и состоит)
.
P.S. Потрясающе. Вашему комментарию кто-то поставил минус. Я понимаю, когда минусуют за очевидную токсичность, за хамство, за грубую фактическую ошибку (которая кого-то введет в заблуждение). Но за корректно высказанное альтернативное мнение, с которым ты не согласен?! А как же тогда совершенствовать свое понимание, если всегда
слушать только приятное?!
Наверно, тут будет уместным упомянуть мое любимое следствие из третьего закона Ньютона: Опираться можно только на то, что оказывает сопротивление!
Я бы, наоборот, предложил не убирать эту ссылку, а сохранить, но обязательно пояснить, что Б.Д.Борисов по-своему (нестандартно)
трактует понятие ФШ
Я открыл его публикацию, и там видно, что это не опечатка, а свой особый подход. Просто не поясняется, что он отличается от общепринятого.
Иначе его читатели могут остаться в недоумении. А так они смогут найти ответ на свои вопросы хотя бы на Хабре.
Вообще, в таких случаях имхо полезно вступать в дискуссию, - это как раз такой вид спора, который к истине приближает. Не хочу проводить аналогию между двумя ситуациями (это было бы некорректно по отношению к Б.Д.Борисову), но просто хочу пояснить свою мысль на примере одной истории, в которой
я поучаствовал лет пятнадцать назад
А именно, в один российский журнал пришла статья известного зарубежного автора (что нечасто бывает). Основное открытие автора было уровня "Менделеев". А именно, он разработал "гармоническую модель Вселенной", и создал на этой основе собственную систему прогнозирования техногенных и природных катастроф. Статьи о фантастической эффективности этой системы, изложенные превосходным с литературной точки зрения зыком, пересыпанным научной терминологией, были опубликованы в десятках статей во всем мире (правда, в журналах далеко не первого квартиля почему-то). Проблема была только в одном. Основным методом доказательства статистической значимости этой модели был тезис: "я еще ...надцать лет назад предсказал (ссылка), что 2013 год будет особо опасным. Проверяем: и да, действительно, все в точности так и есть! В 2013 году произошла авиакатастрофа в ХХХ и засуха в YYY! Моя гипотеза (причем прогноз давался вперед) блестяще подтверждена!!!"
Этот тезис героически повторялся из публикации в публикацию практически в неизменном виде. Менялись лишь годы (список "опасных" лет автор опубликовал задолго до этого, причем без конкретизации видов опасности) и разновидности фактически случившихся бедствий.
Мы сперва думали - автор искренне заблуждается. Даже пробовали ему намекнуть, что сам факт наличия катастрофы еще ничего не доказывает. И что для доказательства особой опасности перечисленных лет надо бы показать, что в 2013г (и в другие объявленные "опасными" годы) катастрофы происходили чаще, чем в прочее время. В ответ автор забросал редакцию требованиями отстранить безграмотных рецензентов, которые своими идиотскими придирками мешают спасать жизни людей. А когда редакция намекнула, что хорошо бы и автору сделать шажок навстречу, он заявил: "Хорошо, 2013 год из публикации убираем. Давайте лучше напишем про 2011-й. Он, по моей модели, тоже опасный. А главное, в 2011 году было наводнение в ZZZ, причем с жертвами!
Так вот.
Проще всего было бы эту статью отклонить. Автор легко бы нашел другое издание. Ведь ссылки на такую работу, причем зарубежные, практически гарантированы (а для журналов это существенно). И автору тоже бонус: ведь на основе этой модели он осваивал миллионные гранты, консультировал соответствующие министерства в нескольких странах, а теперь к ним добавилось бы и МЧС.
Но ГПиБ поступил иначе. Поступившая статья была напечатана в авторском варианте - но рядом с ней были напечатаны отзывы рецензентов. После чего безумное пиршество панегириков этой модели оказалось разбавлено парой десятков критических замечаний, не оставивших камня на камне от каждого (без каких-либо исключений) тезиса первоначальной статьи.
Конечно, одному журналу трудно "сделать погоду" на мировом уровне. Однако теперь любой, кто читает фантазии этого Б.Л.Берри, хотя бы потенциально может открыть наш журнал и обнаружить там альтернативный взгляд на проблему, изложенный менее распиаренными, но гораздо более грамотными специалистами.
Не знаю, нужно ли тут оставлять подробные ссылки, так как сейчас все упомянутые статьи, к сожалению, за пейволом. Но для желающих покопаться все же оставлю:
2. Но все-таки, у Б.Д.Борисова явная опечатка. Такое:
где "альфа" - безразмерный параметр, реальные значения которого лежат примерно в пределах от минус двух до двух, [1].
еще можно было бы простить в 1955г, года понятие ФШ только формировалось, и каждый мог предлагать собственное определение. Но примерно с 1980-х годов общепринятая трактовка состоит в том, что под ФШ понимаются процессы с <альфа> от 0.5 до 2.0. Ссылок, где упоминается этот диапазон, можно привести множество, а вот про -2..+2 я сомневаюсь, что такой вариант предлагал еще кто-нибудь. В Википедии, кстати, приводится диапазон от 0.6 до 2.0. Такой вариант я тоже однажды встречал. Но вот у Рытова, насколько я помню (сейчас книжки нет под рукой) было вроде бы от 0.5. И у подавляющего большинства англоязычных авторов, которых я читал в 1990-е, тоже было от 0.5.
А определяется эта граница тем, что при альфа менее 0.5 процесс еще можно в каком-то приближении рассматривать, как квазистационарный, а вот начиная с 0.5 (0.6) - уже точно нет.
Впрочем, для некоторых применений даже и 0.3 -
слишком много.
Например, если мы хотим оценить значимость корреляции между двумя переменными, но вместо случайных величин будем рассматривать два временных ряда с альфа=0.3, то неожиданно можем ошибиться с доверительными границами на порядок. То есть, истинный 95%-ный порог будет равен не 2/sqrt(N), а примерно в десять раз больше. Или даже в 100, если ряд достаточно длинный.
Вопрос только в длине рядов. При альфа > 1 катастрофические ошибки в доверительных уровнях возникают уже при длине рядов в тысячи точек (подробности и примеры можно найти вот тут). А при альфа =0.3 аналогичная катастрофа произойдет лишь при длине рядов в миллионы и миллиарды отсчетов.
В общем, порог, за которым нестационарностью можно уже пренебречь, зависит от длины тех сигналов, которые мы рассматриваем. Сейчас 0.5 или 0.6 - вполне приемлемая оценка. Но по мере того, как практики будут сталкиваться со все более длинными реализациями ФШ, граничное значение альфа (начиная с которого уже придется учитывать разницу в свойствах БШ и ФШ) неизбежно придется снижать ;-))
@Vdm_ro, спасибо за критику! Понятно, что шутки должны быть не вместо инфы, а в дополнение к ней. И в соотношении примерно 1:100, иначе смешно не будет. Но вот для меня это скорее вопрос хорошего вкуса (хотя понятно, что он у всех разный), чем категорическое "нельзя".
P.S. Ну и еще наверно есть разница между массовыми продуктами (когда между юзером и разработчиком стоит несколько промежуточных звеньев) и узконишевыми, как в нашем случае. Когда с половиной пользователей авторы знакомы лично, и шутки направлены в хорошо понятную аудиторию. А в крайнем случае можно написать авторам в почту и через сутки (в среднем) получить конструктивный ответ. А через месяц - исправленную документацию, куда этот ответ будет вписан.
P.P.S. Но вообще - ставлю плюсик Вашему комментарию за полезную (для меня) обратную связь.
Сам я, кстати, люблю добавлять в объемную документацию
всякие невинные шутки
Например, раздел справки про спектры у нас начинается с пояснения: зачем нужно так много спектральных методов? Почему нельзя обойтись парой-тройкой стандартных? Суть пояснения изложена одной фразой: "Если от некоторой болезни существует очень много разных лекарств, - это значит, что ни одно из них не лечит по-настоящему!"
А раздел про методы заполнения пропусков данных предваряется честным признанием авторов программы, что они изучали этот вопрос много лет. Но так и не смоги подсчитать, сколько же разных алгоритмов заполнения пропусков можно построить, комбинируя стандартные опции нашей программы. Поэтому про некоторые их этих алгоритмов (до которых авторы проги не докопались) рассказа в справке не будет...
Хотя и знаю, что здесь есть много блюстителей строгости, которые нещадно минусуют сарказм и юмор, вставленный в серьезное обсуждение. Возможно потому, что они иногда "покупаются" на такие шутки, после чего испытывают обиду, вместо чтоб рассмеяться?
> Разлом, о котором идет речь - это его курильско-японско-филиппинская часть плюс ответвление в Индийский океан.
Можете все-таки прислать PDF? А то разговор беспредметный. Я не геолог, поэтому спорить о терминах не возьмусь. Но геологи в моем окружении почему-то различают зоны субдукции (которыми в основном и сформировано ТОК) и разломы. А еще они между собой постоянно спорят, что можно считать разломом, а что нет ;-) В общем, я готов согласиться с Вашей терминологией, но мне нужно ее понять для начала. Желательно - поглядев на статью и на карту.
> Не помню точно, сколько, но значительная часть мировых толчков там и происходит
Ну да. Но Вы же писали о конкретном разломе? Я конечно уже заранее дал карт-бланш на терминологию, но все-таки мысль о том, что все ТОК целиком - это единый разлом, для меня чересчур революционна ;-) Если же Вы имели в виду какой-то фрагмент ТОК, то согласитесь, что там происходит лишь малая часть от всех мировых событий. Особенно с малыми магнитудами (ведь их пишут преимущественно отдельные плотные сети).
В общем, давайте я сперва все-таки прочитаю Вашу статью, посмотрю на географические границы этого региона и графики повторяемости для него для разных эпох. Иначе со мной тут просто не о чем разговаривать.
> У меня такое ощущение, то вы математик по образованию, поэтому мы с вами разговариваем в разных парадигмах восприятия мира.
Не угадали: я строго физик, и до смертоубийства
спорю со своими друзьями-математиками о том, что первично: яблоки или абстракции.
То есть, первична ли формула 1+1=2 (вне зависимости от наличия физического носителя), или же она все-таки вытекает из эмпирического опыта. Пока что мой крайний аргумент состоит в том, что сложение двух половинок критической массы может дать неожиданный для чистого математика результат ;-)
Однако, физическое понимание мира вовсе не исключает логическую проверку моделей, которые мы строим по эмпирическим фактам. Обращаясь к некоторым вопросам, физика просто вынуждена на языке математики говорить :-(((
> Мы проверяли значимость эффектов на самых разных интервалах магнитуды, и если нижняя шкала указана в 3.0, то это вовсе не означает, что эффект там сидит, он обычно сидит на самых сильных и частых точках из интервала.
Ну так в описанном случае непредставительны не только события с М=3, а вообще все вплоть до М=4.8, как минимум. А если ограничиться более локальным регионом, то в силу пространственной неоднородности 4.8 может превратиться и в 5.8, и даже в 6+. Если взять такой каталог, и перейти к временным рядам, то сравнительно небольшое изменение эффективности регистрации в таком регионе даст вполне заметное изменение не только локального, но и общего потока событий. Которое при использовании статистических методов АВР обнаруживается очень четко. Именно в этот момент и возникает риск неправильной интерпретации результата.
> Если у нас есть две кривые с числом толчков в каждой точке в много сотен, то рассуждения о недостаточности статистики, с точки зрения физика, решен.
В том-то и дело, что нет. Нам же нужно не просто установить факт, что толчков стало значимо больше (это как раз не проблема). Но и связать этот рост с причиной такого увеличения. И вот в этот момент вопрос о представительности каталога становится ключевым.
> Я не хочу входить в детали ваших замечаний, очень занят, но там много подводных камней, которые вы проскакиваете.
Ну разумеется, я не мог за сутки разобрать три работы подробно. Для начала давайте все же обсудим наиболее очевидные алогичности, которые там допущены. Я старался читать Ваши тексты дословно. Возможно, на самом деле Вы написали одно, а подразумевали что-то другое, но это не ясно без чтения предыдущих работ? Поэтому я и задаю те вопросы, которые сразу приходят в голову мало-мальски эрудированному в предметной области человеку. Это же научная публикация, а не религиозный догмат. Поэтому на каждый такой вопрос должен быть разумный ответ. Включая как вариант, что читатель чего-то не понял, так и случай, что авторы где-то ошиблись.
> Например, в каталоге США не шкала Рихтера, поэтому утверждения про то, что фиксируется только 3% толчков выглядят неубедительно.
???
Вы тут точно ничего не напутали?
Закон Гуттенберга-Рихтера от выбора магнитудной шкалы вообще не зависит. Например, если заменить ее классами по Раутиан, там изменится только угловой коэффициент наклона прямой на лог-графике повторяемости. И все. У Вас на рисунке 1 [2009] по оси X отложены магнитуды. Если Вы вдруг просуммировали там не N(М), а яблоки с тапочками, то, извините, это вопрос не ко мне. А мне все-таки разрешите исходить из того, что рисунок в Вашей статье аккуратный и подпись правильная. Мой вывод про 3% жестко и однозначно следует из среднего графика на этой Вашей картинке + закона ГР. Никакая другая информация (в том числе и о каталоге США) для этого вывода про 3% вообще не нужна.
Конечно, я смотрел только на графики, а не на таблицы, поэтому цифры оценил с какой-то погрешностью. На самом деле там вполне может быть не 3%, а 1% или даже 4%. Но на общий вывод это никак не влияет. Он остается в силе вне зависимости от того, пропущено ли в этом каталоге 96% событий с M<5 или же все 98%.
> (...) утверждения про то, что фиксируется только 3% толчков выглядят неубедительно.
> Если сомневаетесь - пишите опровержение.
Так я уже написал все подробно. Куда уж дальше разжевывать?
А впрочем, давайте все-таки разжую. Так как беглый поиск по интернету, к моему удивлению, ничего адекватного не дает. Наверно и правда информация очевидна лишь для сейсмологов... а остальным "заглянувшим на огонек" будет не очевидно.
Итак, пошаговая инструкция для тех, кто действительно хочет понять суть проблемы и самостоятельно вычислить - почему и как получается "три процента".:
1) Перерисуйте средний график с рисунка 1 [2009] в логарифмической шкале по Y, как это общепринято в сейсмологии. У Вас должно получиться что-то похожее вот на эту картинку:
2) Найдите на получившемся графике участок, где зависимость можно считать линейной. На моих графиках левая граница линейного участка для отдельных кривых показана стрелочкой. У Вас она пройдет где-то в районе M=4.7 или больше
3) Аппроксимируйте график справа от перегиба прямой линией. Это называется линейный участок графика повторяемости (ГП). Считается, что в пределах этого участка данные соответствуют Гуттенбергу-Рихтеру. То есть, мы регистрируем подавляющее большинство реально произошедших событий.
4) Закон ГР гласит, что эта зависимость начинается с М=8 (для М=9 есть небольшие нюансы) и пролонгируется в область малых энергий вплоть до микротрещин. Лабораторные эксперименты на образцах это уверенно подтверждают. Нет абсолютно никаких сомнений, что для больших интервалов времени и территорий закон ГР выполняется в области магнитуд от 0 и выше с очень хорошей точностью. Это дает нам право экстраполировать полученную прямую линию влево вплоть самого края графика. В Вашем случае это будет М=3.0 (см. рис.1[2009]).
5) После того, как мы эту линию провели, мы твердо знаем, что фактическое количество событий в рассматриваемом фазовом объеме соответствует этой линии (закон ГР!). Чтобы перейти к числам, в Вашем случае достаточно проинтегрировать эту зависимость от М=3.0 до М=5.0. Именно так я и получил общее число событий
более миллиона
На самом деле я конечно не логарифмировал мысленно Ваш рисунок, так как есть способ проще. Для грубых оценок можно принять, что угловой коэффициент прямой в законе ГР близок к 1 (для большинства реальных каталогов это так, отличия минимальны). Это значит, что при уменьшении М на 1 число событий растет в 10 раз. Соответственно, если у Вас имеется 5000 событий с М=5.0, то в пределах этой же области и за то же самое время должно было произойти примерно 50 тыс. событий с М=4.0 и около 500 тыс. событий с М=3.0. Тупое суммирование от М=3.0 до М=5.0:
N=N(3.0)+N(3.1)+N(3.2)+...+N(5.0)
дает нам число, значительно большее миллиона. Какое именно - посчитайте сами, данные для этого есть у Вас, а не у меня. Я же считал по порядку величины и просто округлил результат в Вашу пользу.
6) Теперь считаем, сколько таких событий (с М от 3.0 до 5.0) фактически присутствует в Вашем каталоге. Для этого надо просуммировать все столбики гистограммы на Вашем рисунке. Навскидку у меня получилось около 30 тысяч. У Вас есть точные данные, так что можете просто поправить мою оценку.
7) Осталось разделить второе число (= число событий в каталоге) на первое (= число фактически произошедших событий, включая как зарегистрированные, так и пропущенные). Это и даст Вам тот результат,
в котором Вы усомнились
Кстати, мне самому было бы интересно узнать точную цифру. Учитывая то округление, которое я сделал при интегрировании ГР, оценка в 3% действительно, вероятно неточная. Больше похоже, что там должен быть 1%. С другой стороны, я наверняка немного ошибся в ту же сторону при оценке числа фактически зарегистрированных событий. Так что вполне может получиться не 1%, а все-таки 1.5%.
Впрочем, на мой итоговый вывод это практически не влияет. Ну получим мы требуемое изменение эффективности регистрации не с 3.0% до 3.5%, а с 1.0% до 1.2%, и что? Сама цифра (0.5% или 0.2%) не столь уж и важна. Важно, что даже ничтожное изменение эффективности регистрации может полностью перекрыть все эффекты, обнаруженные в статье.
Надеюсь, с "тремя процентами" теперь все понятно?
.
> Я же уверен, что мы вскрыли целый ряд интересных закономерностей, не замеченных ранее,
Это вполне возможно. Я спорю только со словом "вскрыли". В моем понимании, слово "вскрыли" означает "заметили в данных закономерность, которая ранее была неизвестна". И которую нельзя объяснить тривиально. Проблема в том, что в тех данных, которые представлены в трех приведенных выше работах, нет чего-то такого, что нуждается в объяснении. Есть лишь обычные факты, логично понятные в рамках тривиальной модели. К которым в виде надстройки прилажена уже гораздо более накрученная модель. Однако чем она лучше тривиального объяснения - не очень понятно.
Разумеется, это вовсе не означает, что предложенные Вами гипотезы неверны. Но в представленных трех работах просто нет никаких эмпирических подтверждений этих гипотез. (Буду рад обнаружить такие подтверждения в остальных, пока не прочитанных Ваших статьях).
Я ведь не так уж и много прошу. Докажите, что наблюдательная селекция объясняет не все. Это и будет весомый аргумент, что нам действительно необходима "новая сущность". Что она не излишняя. В тех трех работах, ссылки на которые Вы выложили, я такого доказательства, к сожалению, не увидел.
> и более тщательные исследования лишь подтвердят их, а не опровергнут - по крайней мере, большинство из них.
Выше я предложил целый ряд очевидных идей -
что именно можно попробовать сделать для ответа на эти вопросы
При наличии инструментов и подготовленных данных все те неясности, на которые я обратил внимание выше, можно снять очень просто. Цена вопроса - это месяц расчетов. И-да, у меня действительно есть "комбайн", который хотя и не совсем соответствует тем идеям, о которых Вы написали в исходной статье, но в каком-то смысле позволяет "просеивать" временные ряды. Просто берите программу, настраивайте
и считайте
Базовые функции для работы с каталогами там есть (расчеты для абсолютно всех моих публикаций сделаны в этом пакете). А сам он свободно доступен (условие использования - ссылка на авторов).
> Боюсь вы плохо представляете реалии начала 90-х
Претензия принимается.
Действительно, реалии "нормального мира" тех времен я представляю плохо. Во второй половине 1980-х и в начале 1990-х я сидел в горной экспедиции в Таджикистане, и там все было по-своему. К моменту моего появления в экспедиции там уже несколько лет, как стояла СМ-4 (читай - PDP-11), сменившая СМ-3. А более-менее нормальные персоналки (сперва 8086, потом 80286) у нас в горах появились в 1987-89, т.е. почти сразу же после моего приезда туда. Спасибо американским и европейским коллегам, которые к нам в Гарм частенько заглядывали. Правда, персоналки достались не каждому, а в коллективное пользование ;-).
А еще у нас там был один очень почтенный зам.по науке, который относился к "Компьютеру" с таким пиететом, что считал страшным кощунством
набор на нем текстов статей
Это же ЭВМ!!! Она - ДЛЯ - РАС - ЧЕ - ТОВ !!!!!
Так что молодые сотрудники занимались этим преимущественно по ночам, делая вид, что уединились с сотрудницами на ВЦ совсем для другого, причем в Лексиконе ;-)
> когда персоналок и интернета не было - какие там пдф из редакции!
К нам из российских редакций тогда попадали оттиски. Которые так и лежали в бумажном виде примерно до середины 2000-х, когда мы стали их активно сканировать. С современными PDF, конечно же, не сравнить (это просто картинки), но читать можно.
> Вы невнимательны. Эффект асимметрии сейсмической активности северного и южного полушарий мы не связываем с разной скоростью их вращения.
Разумеется, про разную скорость вращения земных полушарий я написал в порядке шутки. Простите великодушно, если переборщил. По сути претензия в том, что инерционные эффекты, возникающие из-за неравномерности вращения Земли, должны приводить к идентичным механическим аномалиям в двух полушариях. А не наоборот. Хотя вопрос, понятно, сложнее (о чем я и написал чуть ниже в обсуждении работы 2007г).
> Мы вполне детально в одной из работ разобрали, что корень - в тройном субдукционном разломе между Тихим и Индийским океаном. Тройной разлом - которых довольно много между плитами - ведет себя как клин, вбиваемый в полено: клин двигается вперед и на его краях напряжения растут, а напряжение в полене - наоборот падает. Клин убирается назад - обратная картина. И это игра напряжений проявляется в землетрясениях средней силы разных полушарий, потому что тройник так расположился - одна ветка в Северном, а две - в Южном полушарии.
Извините, но вот тут не поверю. Что один разлом или блок, даже очень хитрой конфигурации, может влиять на сейсмичность во всем полушарии? Каким образом? Есть вязкость и релаксация напряжений. Механическая передача усилий на значительные расстояния с такой постоянной времени в коре попросту невозможна. Впрочем, подробно спорить не буду, пока сам не прочитаю эту статью. Возможно, Вы сейчас для краткости половину конструкции опустили, а на самом деле там предложены физически реалистичные механизмы. А я просто "с наскока" идею не понял.
> Почему плиты двигаются неравномерно? А почему столь неровные и неоднородные плиты должны двигаться (заползать друг под друга или сталкиваться) равномерно?
Ну вообще-то сейчас есть ГНСС-данные, которые более-менее надежно отвечают на этот вопрос (как именно движутся плиты). И неравномерность движения действительно есть. Но вот именно подтверждений предложенной Вами концепции мне пока что в ГНСС-обработке не попадалось (впрочем. я за этой темой не особо слежу). Было бы интересно взглянуть на такие статьи.
> Мы практически доказали, что у них есть неоднородность движения с вариабельностью 2-3 года. Физика более-менее понятна, но конкретных моделей построить нельзя - что мы знаем о неровностях плит в зоне субдукции - только то, что последние точки там замирают на 700 км.
Давайте этот вопрос обсудим, когда я Ваши статьи посмотрю? Какие данные обработаны, какими методами, и что именно получилось. Но предварительно свою позицию могу пояснить. Я считаю, что наличие гармоник в фурье-разложении доказательством являться не может, пока не установлена значимость этих эффектов. А вот с этим у нас (не у Вас!) есть ну очень большие проблемы, учитывая свойства сейсмичности.
> Мы, конечно, проверяли качество используемых каталогов - и не стали работать с более многочисленными данными Международного центра именно потому, что там были очевидные нефизические скачки и пустоты. Но сомневаться в представительности огромной статистики землетрясений по целым полушариям у нас нет оснований.
Извините, но вот тут Вы пишете что-то странное. Похоже, Вы что-то неточно сформулировали в предложении выше. Слово "представительность" в этом контексте ну просто ни в какие ворота не лезет. Особенно с учетом контекста моих вопросов.
С одной стороны, Вы рассматриваете события с М от 3.0 (см. например рис.2 из статьи 2007 года). С другой стороны, Вы утверждаете, что у нас нет оснований "сомневаться в представительности огромной статистики землетрясений по целым полушариям".
Но, из рис.2 [2007] однозначно следует, что Вы имеете дело с непредставительными событиями. Мне даже не нужно лезть в каталог USGS, чтобы это продемонстрировать. Я буду апеллировать
исключительно к тем картинкам, которые приведены в Ваших статьях.
А именно, из рисунка 1 в статье 2009г с очевидностью следует, что лог-линейность графика повторяемости для всего каталога в целом наблюдается лишь для М>4.8 (на рисунке использована линейная шкала вместо обычной логарифмической, поэтому я мог ошибиться на +-0.1 при оценке). Далее рассмотрим вариант графика для 1964-1990 (заштрихованный). Мысленное интегрирование этого графика от М=3.0 до М=5.0 показывает, что всего в рассмотренном Вами каталоге присутствует не более 30 тыс. событий с M<5.0. В то же время простая экстраполяция закона Гуттенберга-Рихтера показывает, что за рассматриваемый интервал времени на рассматриваемой территории произошло порядка миллиона событий с M от 3.0 до 5.0. Таким образом, в рассматриваемом Вами каталоге присутствует лишь три процента от всех фактически произошедших событий. Я говорю про выбранный Вами для анализа объем фазового пространства, естественно.
Попросту говоря, 97% от фактически произошедших за 1964-1990 гг событий с М=3.0..5.0 в каталог не включены (= не зарегистрированы).
Для второго графика (данные за 1964-2007) картина чуть лучше. Навскидку, процент зарегистрированных событий там приближается к 10-20%. Но тем не менее, это значит, что Вы работаете с каталогом, в котором отсутствует не менее 80% фактически произошедших событий.
И это я еще не завел свою шарманку про пространственную неоднородность. Которая четко указывает, что порог представительных магнитуд при анализе больших территорий обычно различается на разных участках на одну, иногда на две единицы М. То есть, получив график повторяемости с перегибом в районе M=5, можно почти автоматически сделать вывод, что в некоторых субрегионах этого каталога Mrep=6 или даже 7. Тем не менее, для анализа в такой ситуации часто берут Mrep=5. Иногда это можно делать (если хорошо понимаешь, что делаешь!), а иногда - совершенно недопустимо. Например, если речь идет о зависимости от времени - это в точности второй случай. Эту ошибку даже неплохие сейсмологи иногда совершают, поскольку при анализе только общего графика повторяемости
факт пространственной неоднородности каталога совершенно не очевиден
Фишка тут в том, что наибольший вклад в общее число событий и, соответственно, в этот график дают регионы с хорошей представительностью. А чтобы увидеть специфику субрегионов, надо построить графики повторяемости для каждого из субрегионов отдельно. Мы эту работу неоднократно проделывали для региональных каталогов: раз, два, три. Там же, кстати, продемонстрировано - как построить однородные выборки сейсмических событий для анализа, чтобы избежать тех ляпов, об опасности которых я предупреждал в своих первых постах.
Кстати, раз уж мы вспомнили о пространственной неоднородности поля Mrep, могу порекомендовать Вам и Вашим коллегам программу Complete Mag от В.Б.Смирнова, которая все это считает. С любезного разрешения ее автора, я могу выслать Вам
эту программу со своими плагинами к ней
О программе подробнее тут: Смирнов В.Б.Вулканология и сейсмология. 1997. № 4. С. 93. ОПЫТ ОЦЕНКИ ПРЕДСТАВИТЕЛЬНОСТИ ДАННЫХ КАТАЛОГОВ ЗЕМЛЕТРЯСЕНИЙ
Далее мы переходим к анализа данных и обнаруживаем, что
число событий
Подчеркну - не произошедших, а включенных в каталог
в некотором суб-боксе фазового пространства периодически (квазисезонно) меняется на 10%-15%. Элементарный расчет показывает, что в эпоху 1964-1990 такое изменение может быть обеспечено изменением эффективности регистрации с 3.0% до 3.5%. Другими словами, если предположить, что при благоприятных условиях мы регистрируем 3.5% от всех произошедших событий указанной силы (М от 3 до 5), а при неблагоприятных - лишь 3.0%, то этого с лихвой хватает для объяснения всех эффектов, которые обсуждаются в Ваших статьях. Подчеркну: достаточно, чтобы эффективность регистрации менялась на 0.5%.
Именно поэтому при анализе результатов такого рода я настоятельно прошу в качестве нулевой гипотезы рассмотреть возможную причинную связь обнаруженных вариаций с эффектами наблюдательной селекции. И сделать это, по-хорошему, надо было бы до того, как переходить к построению красивых и в каком-то смысле даже изысканных моделей интерпретации. В противном случае (пока мы не доказали, что это НЕ наблюдательная селекция) все этим модели, извините за грубость, очень напоминают натягивание совы на глобус. То есть представляют собой прекрасных сфероконей, которые, однако, совершенно не вытекают из эмпирического материала.
> Вы много претензий высказали к нашим работам, я же выскажу только одну: вы очень торопитесь. За несколько часов - раз! - разобрали и раскритиковали многолетнюю работу целой группы. Торопливость чревата везде, а тем более - в науке.
Ну вот извините, так получилось. Если группа публикует какие-то результаты, то тем более столь интересные, то ужасно хочется,
чтобы они были хорошо обоснованы
Вообще, я с большим интересом и уважением читаю Ваши статьи здесь, на Хабре. И Вашу последнюю книжку на одном дыхании прочитал. Поэтому и требования к другим Вашим работам предъявляю по Гамбургу. Я ведь воспитан в советское время, и от науки жду не каких-либо выгод, а удовлетворения личного любопытства за государственный счёт. Попросту говоря, очень хочется знать: как же оно происходит на самом деле? И если мы для этого анализируем данные, то это надо делать корректно и аккуратно. Поэтому критика, даже жесткая, это вовсе не способ "продавить" оппонента, а всего лишь попытка внести свой вклад в спрямление путей к Истине. На неинтересные мне работы я бы и время тратить не стал...
Эти все статьи - изначально на русском.
Да, но и ДАН, и ФЗ - переводные. По этой причине многие авторы сохраняют и английские, и русские PDF. А иногда даже только английские :-((
...есть в библиотеках (пдф у меня нет)
Понятно. Жаль, что без PDF. Я, к сожалению, работаю удаленно, и в библиотеку физически попадаю очень нечасто. А вот Известия КрАО глянул. Скажу честно - если бы эти работы 2005-2009гг попали ко мне на рецензию в 2025 году, я бы попросил их серьезно подкорректировать.
Начнем с работы 2005 года.
Во-первых, Вы там пишете про события с М<5 за 1964-1990г. Но такие события заведомо не являются представительными по всей территории в этот период. Это значит, что поиск причин любого обнаруженного там эффекта надо начинать (принцип Оккама) с проверки тривиальной гипотезы: не наблюдательная ли это селекция? В статье об этом - ни слова. Хотя все три базовых факта, что эффект обнаруживается для:
1) слабых (непредставительных) событий, причем
2) мелкофокусных и
3) в полосе широт 38-61
идеально согласуются с гипотезой наблюдательной селекции
Во-вторых, по моим представлениям, скорость вращения северного и южного полушарий Земли (в отличие от Солнца) практически одинакова ;-) Во всяком случае, в последнее время (т.е. уже примерно 4.5E+9 лет). По этой причине априори можно было бы ожидать, что эффекты в Земле, причинно связанные с неравномерностью ее вращения, также должны быть синфазны в двух полушариях. Но Вы получили обратный эффект.
Как известно (принцип Поппера), в науке наиболее интересны те результаты, которые противоречат общепринятой парадигме (по Т.Куну). Именно с этой точки зрения обнаруженный Вами эффект следовало бы проанализировать в первую очередь. Однако Вы об этом даже не упоминаете. Вместо этого в качестве "модели по умолчанию" рассматривается гипотеза, предполагающая, что в разные сезоны года литосферные плиты движутся по-разному. Какие физические причины могут быть у такого эффекта - загадка. Это даже не обсуждается.
В работе 2007 года к этим результатам добавлена детализация по глубинам и географическим зонам. Также рассматривается механизм перераспределения момента импульса между атмосферой и твердой Землей. Но, на перечисленные выше обстоятельства (1)-(3) это никак не влияет. А направление пассатов (с запада на восток) в обоих полушариях одинаковое. И хотя тут
есть повод для размышлений
Момент количества движения (МКД) атмосферы в разных полушариях может изменяться по-разному, что влечет разницу в нагрузках на литосферу при его изменении. Но, по-видимому, асимметричная часть этого эффекта все же не доминирует над симметричной. Особенно с учетом того, что в перераспределении МКД также участвует и океан, причем его вклад и вклад атмосферы сравнимы. Вдобавок анализ осложняется тем, что даже лучшие базы данных атмосферных параметров (например, БД реанализа ERA5) содержат явные глюки (см., например, вот эту статью). Это я к тому, что любая методика должна учитывать, что исходные данные не идеальны. Иначе можно долго обсуждать аномалии и закономерности, которые могут оказаться псевдоэффектами.
я бы не назвал эту тему раскрытой.
В общем, несомненное достоинство работы 2007г - что в ней вопрос о причинах асимметрии годового хода сейсмичности в двух полушариях хотя бы ставится. Однако уровень анализа этого вопроса не выдерживает критики. Так, на рис.2 показана величина, которая не имеет физического смысла в силу тех причин, о которых я написал в двух прошлых постах. Если она о чем-то и говорит, то лишь о неравномерности распределения сейсмичности по широтам. Больше того, есть сильное подозрение, что если аккуратно (с учетом неоднородности данных) отнормировать эту оценку на число событий в широтной полосе (кстати, вводили ли Вы эту поправку при публикации, и как именно?), то мы получим эффект, идеально соответствующий наблюдательной селекции. Ну и вдобавок лично я вообще никакого согласия между широтными зависимостями на рис.1 и рис.2 не вижу.
Ну и что касается рис.3. По моим представлениям, сдвиг фаз на два-три месяца между сезонными вариациями (полупериод = 6 месяцев!) - это веский аргумент против той модели (о причинном влиянии перераспределения МКД на сейсмичность), которую Вы предлагаете. И наоборот, он прекрасно согласуется с "тривиальной" моделью, предполагающей, что мы видим наблюдательную селекцию.
С учетом этого, постановка финальных вопросов работы 2007г (на с.123) мне представляется, как минимум, преждевременной. Так как эти вопросы приобретают физический смысл лишь при условии истинности нескольких предварительных тезисов, которые в процитированной работе почему-то считаются доказанными, хотя это совершенно не так.
Ну и теперь про работу 2009 года. В ней наконец-то появилась возможность использовать данные по 2007 год. Лично я бы в такой ситуации прежде всего разбил каталог на эпохи, и проанализировал зависимость всех эффектов от времени. Ведь сейсмическая сеть развивается, представительность каталога растет. Такой анализ критически важен, чтобы продемонстрировать отсутствие (или наличие) наиболее тривиального эффекта, объясняющего все замеченные Вами закономерности. Я имею в виду наблюдательную селекцию.
Однако в работе такой вопрос даже не ставится. Наоборот, на рис.1-5 по-прежнему приводятся данные за 1964-1990гг. Не потому ли, что в 1991-2007г порог представительности смещается на меньшие магнитуды, и все зависимости от М (которые на самом деле привязаны к этому порогу) при объединении эпох размываются?
Второй вопрос - почему на рис.6-7 показаны кумулятивные зависимости за 1964-2007, а не два отдельные варианта за 1964-1990 и 1991-2007? Продолжительность первого интервала 27 лет, второго - 17. Понятно, что если какой-то эффект был сильным до 1990г, а потом он ослаб, изменился или даже исчез, то он все равно будет заметен и по объединенной эпохе. По этой причине гораздо интереснее было бы провести анализ и сравнить результаты до и после 1990г. Данных для этого хватает. Почему Вы этим пренебрегли - для меня загадка.
В общем, я совершенно не хочу сказать ничего плохого
про КрАО и про Известия КрАО
Наоборот, о моем отношении к КрАО может сказать тот факт, что книжка Б.М.Владимирского и коллег 1994 года до сих пор стоит у меня на полке со справочниками. Вообще, в год своего выхода она произвела на меня довольно сильное впечатление. Мы даже напечатали пару работ по ее мотивам, предложив при этом собственный метод анализа скрытых периодичностей (раз, два). И лишь в 2010-11гг, после детального разбора "Гармонической модели Вселенной" от Б.Л.Берри (раз, два), мне стало понятно, что с этими периодичностями все не так просто, как может показаться на первый взгляд.
Но как мне кажется, три обсуждавшиеся выше публикации в Известиях КрАО сейчас могут представлять лишь исторический интерес.
P.S. И напоследок. Если Вы или Ваши коллеги еще не утратили интерес к этой теме
то мне это тоже было бы интересно. Я как-то начинал расчеты по поиску влияния горизонтальных градиентов давления на сейсмичность, а также искал эффект динамического давления ветра на линейный горный хребет (естественно, в прилегающей к нему зоне). Но до публикации не довел: проекты, в рамках которых это все затевалось, закончились, и соавторы были вынуждены переключиться на другие задачи.
В общем, пишите в личку,
обсудим конкретнее
кто что может сделать, в какие сроки, и куда будем потом "продавать" результаты ;-) Единственное условие - при таком поиске я всегда стараюсь опираться на данные. То есть, сначала искать там значимые (в моем понимании) закономерности, и только потом их "прикладывать" к разным гипотезам (а не только к какой-то одной, заранее сформулированной).
А вот самостоятельно я этим заниматься, извините, не буду. Во-первых, не факт, что работая независимо, я смог бы аккуратно учесть и обсчитать все идеи-задумки, подразумевавшиеся в Ваших работах. А во-вторых, у меня есть серьезные опасения, что многим ранее полученным результатам в итоге придется дать дать
совсем другую интерпретацию
Только, пожалуйста, не поймите этот намек, как критику или наезд! Жизнь развивается, появляются новые данные и методики, поэтому уточнение или даже исправление ранее полученных результатов - это, имхо, совершенно нормально. Например, однажды мы обнаружили, что наши изначальные результаты (раз, два) были ошибочными, и честно написали об этом в отдельной работе с подробным разбором причин ошибки
И хотя, по моим представлениям, исправлять предыдущие результаты - это нормально, но делать это надо ВМЕСТЕ с авторами исходных работ. А не вопреки им.
Спасибо за ссылки! Но ведь у Вас наверняка сохранились PDF-ы этих статей? Можете их где-нибудь выложить? Буду особенно благодарен за русскоязычные варианты, так как с другими языками (не считая фортрана) у меня почти катастрофа :-((
P.S.
Что же касается моих публикаций, на которые я ссылался выше, то у себя на сайте я, наоборот, обычно выкладываю только русские варианты. Английские, если кому-то это удобнее, обычно можно найти на RG. Ну или пишите в личку - пришлю.
Согласен, что публикация статьи в научном журнале - это определенный критерий качества. Однако надо различать два случая:
1) Есть физическая идея, и мы проверяем: согласуются ли с ней данные, или нет
2) Есть комбайн, который просеивает данные, и ищет там любые закономерности. Если закономерность формально найдена - придумываем гипотезу и пишем статью.
Так вот. Я сам изначально попал в группу, которая придерживалась второго подхода. И долгое время как раз и занимался таким вот "поиском закономерностей". Только не в каталогах, а во временных рядах. Пока не пришел к твердому выводу, что с нашей методикой что-то не так.
Собственно, что касается классических предвестников землетрясений,
то это стало ясно уже в 1990-х
Вы ведь знаете, сколько таких работ вышло после развертывания самых разнообразных систем мониторинга. Люди успешно рисовали графики, показывали там запредельные вариации, украшали их стрелочками землетрясений. И все закончилось пшиком. Единичные случаи успешных прогнозов к ранее выявленным аномалиям (перед прошлыми событиями) прямого отношения не имели. Как и попытки прогноза вперед в подавляющем большинстве случаев.
Причина стала очевидной лишь после признания факта неоднородности (нестационарности) этих временных рядов. Оказалось, что практически все эти "запредельные аномалии" - это просто нормальный фон. Что наши ряды именно так и должны себя вести в "обычное" время, т.е. вне какой-либо связи с сейсмичностью. Другими словами, "корреляция" с сейсмичностью оказалась ложной (=иллюзорной).
Ошибка состояла в том, что мы посчитали факт совпадения "аномальной" вариации и момента землетрясения доказательством значимости. Но, значимое событие по определению должно быть редким. В рамках проверяемой гипотезы оно не должно наблюдаться почти никогда. И если оно все-таки обнаружено в данных, то мы вправе такую гипотезу (предсказывающую почти-невозможность события) отклонить. Глядя на "аномальную вариацию", все были уверены, что это и есть та самая "редкость".
А потом оказалось, что такие "запредельные аномалии" происходят чуть ли не регулярно. И что выбрав случайный момент времени, мы почти всегда обнаружим подобную "аномалию" либо во время события, либо за какое-то время до него. Именно отсюда "растут ноги" у кучи "предвестников", наблюдавшихся за годы и за сотни километров от будущего очага. При том, что в более ближней зоне (по расстоянию и по времени) никаких предвестников либо не было, либо они были меньшей амплитуды.
Чего только не придумывали для объяснения этого факта! А на самом деле все было проще - события, которые казались высокозначимыми, на самом деле вовсе не были таковыми. Это были случайные аномалии, не связанные с землетрясениями от слова вообще.
Второе направление нашей работы состояло в поиске связей (корреляций) между разными геодинамическими процессами. Оказалось, здесь та же шарманка. Все стандартные критерии значимости корреляций, которые безупречно работают для случайных величин, совершенно неприменимы для временных рядов. В типичных случаях смещение уровней значимости составит не пару процентов, а пару порядков. Если, конечно, мы рассматриваем фликкер-шум со степенным параметром более единицы. А наши ряды - именно таковы. Отсюда сразу же следует, что
большинство из найденных тогда корреляций (не только нами) - суть ложные.
Я вполне понимаю, что при чтении этого утверждения первая мысль у любого нормального человека - да автор свихнулся! Проблема, однако, в том, что Вам совершенно не нужно соглашаться со мной. Надо просто сделать небольшой численный эксперимент. Сгенерируйте сотню реализаций ФШ со степенным параметром между 1 и 2. Желательно подлиннее (миллиона отсчетов хватит). Только обязательно используйте тот ГСЧ, которому Вы полностью доверяете. И который гарантирует, что на выходе именно случайные числа, а не псевдослучайные. Ну или псевдослучайные, но с таким большим периодом повторения, что в рамках рассматриваемого эксперимента их можно считать независимыми.
Ну а теперь посчитайте корреляцию между сгенерированными (гарантированно независимыми!) ФШ-рядами. Вроде бы, 99% корреляций (три сигма) не должны превышать по модулю 0.003 (= 3/SQRT(N), где N-длина ряда). Для случайных величин это именно так. Однако, проделав этот несложный эксперимент, Вы обнаружите, что для ФШ картина ровно обратная. Лишь порядка процента от всех корреляций действительно будут по модулю меньше, чем 0.003. Чаще всего коэффициент корреляции будет не просто больше, а много больше. Точные цифры зависят от того, какой степенной параметр вы выберете при генерации ФШ. Если, к примеру, задать там n=2, то чуть ли не половина всех корреляций будет по модулю больше 0.3. То есть, в сто раз больше, чем мы ожидаем для случайной величины или БШ. Обратите еще внимание, что 0.3 - это ТРИСТА сигма. Кстати, сколько сигма там сейчас "золотой стандарт" в космологии?
Единственная (но достаточная!) причина этого результата в том, что мы взяли нестационарные (=неоднородные) данные вместо случайных величин. Подробнее я об этом написал вот в этих статьях: раз, два (PDF здесь). Лет двадцать назад об этом стоило бы сделать отдельную научную публикацию... но тогда я это сам еще не понимал до конца. А сейчас этот факт уже стал, в моем представлении, общим местом, так что писать в научном журнале только об этом - стыдно. Поэтому я написал на примерах конкретных данных. А общий обзор вопроса сделал в формате научпопа на Хабре.
Но что касается итогового вывода, то он, с одной стороны, вполне тривиален, а с другой - абсолютно алогичен интуитивно. А именно, значимость любых корреляций, которые мы считаем по временным рядам, нельзя оценивать стандартными способами. Если, конечно, эти ряды не являются белым шумом (чего на практике почти не бывает).
В общем, что касается именно временных рядов, то спорить тут просто не о чем. Если временной ряд нестационарен, то это не случайная величина, а случайный процесс. И это вовсе не терминологическая тонкость, влекущая незначительные поправки, а ключевое свойство, кардинально меняющее интерпретацию всех корреляций. Этот вывод относится к любым временным рядам, у которых степенной параметр спектра n превышает 1 (геодинамические сюда попадают практически все).
Если n > 1, то вся логика обработки и все алгоритмы должны строиться с учетом этой особенности. Собственно, не я первый это придумал. Просто раньше, когда соответствующих временных рядов еще не было, на этом факте не особо акцентировали внимание. А потом, когда ряды появились, "по инерции" к ним какое-то время применяли статистики, построенные для случайных величин. Несмотря на то, что это совершенно недопустимо (и это во всех учебниках сказано). Но вот почему-то обычный человек в это верить не хочет. Настолько не хочет, что об этом
даже пишут статьи на Хабре
В которых показано, что свойства ФШ-сигналов ну очень нетривиальны. См., например, вот эту статью от @sci_nov. Или вот эту, которую движок Хабра уже перестал нормально отображать, но @TVSобещал обновить
Ну и теперь про сейсмичность. Я не работал с глобальным каталогом - он для наших задач слишком неоднородный. Но для тех рядов чисел землетрясений, которые я рассматривал, значение n было порядка 1 или больше. Примеры таких рядов и спектров можно посмотреть вот тут или вот тут (PDF здесь). Ну или возьмите и посчитайте эти спектры для своих данных. Ручаться не буду, но мне кажется, что стационарности там точно не будет. Но если это действительно так, то обычный подход к интерпретации корреляций, посчитанных по таким рядам, является некорректным.
А практический вывод отсюда следующий. Если мы рассматриваем задачу (1):
1) Есть физическая идея, и мы проверяем: согласуются ли с ней данные, или нет
то все хорошо. Так как мы в этом случае ищем опровержение конструктивной гипотезы, а не нулевой. Но вот если вопрос поставлен в формулировке (2):
2) Есть комбайн, который просеивает данные, и ищет там любые закономерности. Если закономерность формально найдена - придумываем объяснение и пишем статью.
то тогда как раз "опа". Так как "просеивание" сразу выдаст массу "ложноположительных" результатов. Причина этого в том, что мы сплошь и рядом примем за значимые совершенно случайные корреляции.
> Почему неоднородность убивает возможность анализа?
Разумеется, саму возможность анализа - не убивает. Наоборот, в своих последних работах я как раз и пытаюсь использовать корреляционный анализ, акцентируя при этом
вопрос об оценке значимости корреляций
Однако критерии значимости корреляций я при этом построил свои, и они кардинально отличаются от общепринятых (еще раз ссылки на те же статьи: раз, два, PDF здесь). Причем, я вовсе не утверждаю, что мои критерии хороши. Наоборот, я сам вижу у этих критериев тьму недостатков...
просто не знаю, как их исправить
Отдаваясь журналам, я надеялся, что рецензенты что-нибудь посоветуют... но они отнеслись к работе поверхностно и по критериям вообще никаких советов не дали
Кстати, если вдруг у кого-то руки дойдут упомянутые статьи посмотреть, буду особенно благодарен за замечания по предложенным там критериям значимости корреляций.
Но как только у нас появляется неоднородность/нестационарность, проблема оценки значимости внезапно превращается из технической в творческую. Если Вы знаете, как ее аккуратно решить - замечательно. Я вот - не знаю, хотя и пытаюсь (см. прошлый спойлер).
А вот на чем я твердо настаиваю - так это на том, что стандартные критерии значимости корреляций при работе с такими сигналами полностью непригодны. Собственно, это и было главной причиной, сподвигшей меня на "велосипедостроение". А при построении такого "комбайна", о котором Вы пишете, эта проблема (оценка значимости) становится ключевой. Пока она не решена аккуратно, все остальное просто бессмысленно.
Ведь в чем разница между экспертом и этим комбайном? Пока Вы работаете вручную, Вы можете каждый случай покурить в индивидуальном порядке. Отсеивая при этом всякую очевидную ерунду по критериям здравого смысла. Но комбайн-то этого не умеет! Он формально получит значимость 10 сигма, и скажет: Вот Вам ответ! Поэтому крайне важно, чтобы оценивалась реальная, а не иллюзорная значимость. Но для нестационарных сигналов (в том числе и сейсмичности) эта задача (аккуратная оценка значимости эффектов) - на два порядка сложнее, чем собственно наладка "комбайна", просеивающего данные. Возможно, кстати, что именно поэтому он до сих пор и не создан ;-)
> Я как раз был таким "муравьем", который ползал по двум каталогам землетрясений (лучший - Геологической службы США) и нашел там, с помощью коэффициента корреляции, кучу ранее неизвестных временных и пространственных закономерностей (например, антикорреляцию сейсмической активности Северного и Южного полушарий на интервале, помнится, 27 лет с вариабельностью на шкале 2-3 года), которых хватило на несколько научных статей в солидных журналах, начиная от ДАН СССР. Это было 30 лет назад, сейчас база данных увеличилась в два раза. И не вижу никаких проблем, чтобы не сделать ИИ-поисковик, может, с набором указаний, чего искать.
К моему сожалению, я почти не занимался анализом сейсмичности (работал с временными рядами). А если что-то и делал, то обзор всегда составляли соавторы. Поэтому если можно, я бы попросил у Вас PDF-ы упомянутых выше статей. Если там обсуждается, как оценивать значимость в нестационарном случае - с интересом их почитаю. Так как проблема отсутствия стационарности для двух прикладных областей (временные ряды и сейсмичность) фактически общая.
UPD. Заметил Ваше второе сообщение. Похоже, я слишком долго писал это письмо ;-) Сейчас отвечу отдельно, т.к. время редактирования этого сообщения истекает.
Если взять большую базу данных – например, землетрясений, то она образует, как минимум, пространство пяти измерений (...)
Вот именно с каталогом землетрясений такие задачи полным перебором не решаются. И вовсе не из-за чрезмерного количества вариантов. А из-за бессмысленности такого перебора. Дело в том, что перебор подразумевает однородность пространства событий (=каталога). А по факту ее заведомо нет даже в нулевом приближении.
Представительность абсолютно любого сейсмического каталога
Формально каталог считается представительным, если там присутствуют абсолютно все землетрясения данной энергии и сильнее, фактически произошедшие в рассматриваемом фазовом объеме. На практике обычно задается некая минимальная магнитуда, начиная с которой в каталоге есть почти все события такой силы и более сильные. Но по факту какая-то часть событий всегда бывает пропущена И хотя их общий процент может быть небольшим (золотой стандарт современной сейсмологии = 10% ;-), но в некоторых пространственных областях (на окраинах регионального каталога, или в зонах с малой плотностью станций у глобального) этот процент может быть кратно выше. Вплоть до 50%. А еще сеть сейсмостанций меняется во времени, и
не всегда в одну сторону
1) бывают временные станции, которые изначально рассчитаны на короткий срок службы. А
2) многие стационарные долго работают, но потом закрываются
Это приводит к неоднородности каталога во времени. Причем она зависит от времени совершенно по-разному в разных географических зонах - даже в пределах одного каталога. Неспециалисты просто не знают, какой там ужас на самом деле ;-) Я тут имею в виду самые лучшие каталоги, естественно. Про худшие и говорить нечего... Впрочем, у "плохих" каталогов есть одно бесспорное преимущество: в этом случае у пользователей хотя бы нет иллюзий насчет однородности каталога ;-)))
меняется одновременно и в пространстве, и во времени, причем по разным и немонотонным законам. Эти изменения на много порядков превышают те пороги, которые мы можем выявить статистическими методами. Поэтому формальное применение предлагаемых Вами методов повлечет лишь открытие немеряного числа
высокозначимых, но тем не менее ложных (кажущихся) корреляций
Обычно про них говорят в контексте временных рядов, но там число измерений гораздо меньше. Поэтому обычный человек, глянув на результаты анализа,
может хотя бы заподозрить, что что-то пошло не так
И задаться вопросом: почему же железобетонно надежные статистические критерии (которые напрямую выводятся из базовых аксиом современной математики), вдруг обнаруживают ультравысокозначимую (50 сигма - запросто!) статистическую связь между безупречно подготовленными временными рядами (к качеству измерений не придерешься!), несмотря полное отсутствие физически правдоподобных механизмов появления такой связи.
А чуть более заинтересовавшийся - может открыть вот эту статью и прочитать там во всех подробностях, где же подвох.
Но в предлагаемой Вами задаче измерений не одно, а гораздо больше. Поэтому честный, но наивный исследователь запросто может принять все найденные роботом корреляции за чистую монету. Подобно тому, как некоторые Ваши коллеги не так давно обнаружили связь между ядерными испытаниями и мегаземлетрясениями (см. статью в УФН). О том, почему обнаруженная ими корреляция является кажущейся, подробно написано вот в этом комменте на Хабре. Сразу после выхода упомянутой статьи в УФН мы хотели изложить основную идею этого комментария в научном журнале, но нам тогда намекнули, что по некоторым причинам публиковать ее нежелательно.
Которые почти наверняка будут неправильно проинтерпретированы из-за того, что внутренности модели (комбайном просеивающей сейсмический каталог в поисках корреляций) де-факто скрыты от получателей результата. Не потому, что этот комбайн от нас действительно что-то скрывает, а просто в силу обилия внутренней информации, необозримой человеческим взглядом.
Как говорится,
хочешь спрятать надежно - положи на самом виду, но насыпь рядом побольше похожего мусора
А еще есть такая штука, как пространственно-временная неоднородность (нестационарность) сейсмичности. Из-за которой при box-to-box-анализе все уровни значимости летят в тартар со скоростью, на 146% превышающей скорость света ;-) Причем, чем сложнее наша комбинированная статистика, оценивающая box-to-box-связь (т.е. чем больше измерений в нее вошло), тем сложнее вычислить, какой именно вклад в итоговое смещение этих уровней дает неоднородность данных вдоль этого исходного измерения. Тут ситуация
полностью аналогична нестационарности временного ряда
только гораздо хуже из-за обилия измерений. Ведь в случае временных рядов у нас неоднородность (нестационарность) лишь по одной из координат (=времени). И все равно целая куча довольно умных людей оказалась введена в заблуждение. А Вы хотите справиться сразу с пятью? Боюсь, тут даже сильный ИИ не спасет ;-)
И это мы еще даже не начинали про
наблюдательную селекцию ;-)
Там фишка в том, что чувствительность сейсмической сети зависит от уровня шума. Когда шум выше - вероятность пропустить событие больше. Например, в горах летом и/или днем воды в реках больше, и поэтому регистрируется меньше событий. А на морском побережье может мешать сильный ветер во время циклонов (деревья гнутся, земля трясется). Плюс микросейсмы. И т.д. и т.п. А ты потом угадай: если землетрясений днем стало меньше, то
это чистая наблюдательная селекция, или там есть и реальный эффект?
Мы вот однажды гадали ;-) Правда, обычную колоду в горах найти не смогли, а карты таро в то время были еще не в моде. Поэтому мы гадали на перфокартах и перфолентах. В итоге мне пришел в голову довольно занимательный трюк с выходными и рабочими днями, благодаря которому мы смогли определить процент засорения одного из типичных региональных сейсмических каталогов взрывами. Там этих взрывов в отдельных выборках оказалось до 50 (кто б мог подумать!) процентов.
Потом, много позже, эти результаты и метод даже были опубликованы. А вот ответ на первый вопрос (наблюдательная селекция или реальный эффект) мы до сих пор так и не знаем. Да и вся мировая наука не очень уверена...
А еще есть аналогичный вопрос про приливы. Они на сейсмичность влияют или не очень? Тут даже физика более-менее проработана. Вплоть до анализа векторных деформаций (прилив) и сейсмических механизмов (т.е. куда там что сдвинулось в очаге).
А ответа все равно нет
Так как подход на основе статистики упирается в ту самую неоднородность данных, про которую я только что написал (в силу чего доверие к таким результатам лично у меня очень низкое). А подход на основе анализа единичных событий не исключает возможность случайного совпадения. Да и совпадения там, если честно, не особо хорошие. А главное, мы даже априори не знаем: оно (совпадение) вообще должно быть, или нет? Ведь каждое сильное событие всегда в чем-то индивидуально (различия в механизмах, геологии, НДС и т.д.).
Короче, Вы сейчас со своими идеями разворошите такое
осиное(зачеркнуто) сейсмическое гнездо, что они покусают всех заглянувших, включая меня ;-)А если немного серьезнее, то предложенный чисто статистический метод будет нормально работать только при условии достаточной однородности данных по всем измерениям фазового пространства. В случае сейсмического каталога таких вариантов лишь два: либо мы ограничиваем магнитуду самой верхушкой (которая точно представительная всегда и везде), либо мы берем самый минимальный временной срез.
В первом случае объем выборки сжимается на столько порядков, что нам не просто AI не нужен - мы даже самые обычные статистические методы не применим из-за нехватки данных. Так как число оставшихся событий (в безупречно однородном каталоге) будет измеряться первыми тысячами, максимум десятками тысяч. Что немедленно сводит задачу box-to-box перебора к одному измерению. Ибо количество событий в боксе для сколько-нибудь устойчивого статистического анализа должно измеряться
минимум сотнями
Иначе там даже представительность по-нормальному не оценишь. Более менее адекватные результаты получаются только при общем числе событий порядка тысячи (лучше больше), из которых представительных несколько сотен
Короче, даже для двумерного боксинга однородных событий уже не хватит
А во втором случае нам придется забыть про временную динамику. Ныряйте с вышки в пространственные закономерности! А там, неожиданно, в бассейне нету воды. Так как пространственное распределение сейсмичности - это сложный нерегулярный фрактал, нанизанный на тектонические структуры. Благодаря чему анализ пространственных корреляций хотя и возможен, но не очень-то продуктивен. Особенно без знания
геологии
где, как известно, при наличии двух геологов вы получите три абсолютно надежных и достоверных, безупречно подтвержденных фактическим материалом, но совершенно несовместимых друг с другом модели строения. Если же
геологов больше трех (как это обычно бывает)
то при попытке обратиться к любому профессору комбинаторики с вопросом об ожидаемом количестве несовместимых моделей среды Вы, скорее всего, сразу получите пулю в лоб. Впрочем, на это я уже намекал в соседней статье ;-)
Ну и еще один бонус-фактор: практически все геологические границы наклонны. Работая на поверхности, мы стараемся это не замечать, но бурение и многие другие методы однозначно показывают, что вертикальная граница в геологи - это нонсенс. Ну или точнее, очень редкое исключение. В отдельных особо благоприятных условиях (зоны субдукции или полигоны по типу Гармского) это и по сейсмическим данным читается. Но если брать среднее по больнице (т.е. земному шару),
то точность определения глубины событий обычно сравнима с их глубиной ;-)
Исключение - те районы, где горизонтальное расстояние от трех ближайших сейсмостанций до гипоцентра меньше, чем глубина очага. Среди сейсмологов до сих пор ходят слухи, что они видели человека, который лично знает коллегу, который с именно такой сетью работал и даже с хорошей точностью глубину очагов вычислял. Но по моим впечатлениям, данные от таких сейсмологов в открытые источники просто не пропускают ;-) А для запудривания мозгов в каталогах пишут стандартное отклонение оценки глубин, которое в 90% случаев имеет лишь весьма косвенное отношение к фактам реальности...
В общем, при такой точности оценки глубин строить трехмерное облако малоосмысленно. Изредка можно раскрутить картину в каком-то вертикальном сечении, но лишь для особо благоприятных районов с хорошей сетью. Все остальное - это плоская карта. Только вот ее мы и так уже знаем без всяких AI...
Ну и теперь резюме:
Хоть бы кто сделал самостоятельный анализатор данных – пусть с интеллектом муравья, — который бы мог круглосуточно ползать по заданной рыхлой куче чисел в поисках жемчужин закономерностей и докладывать человеку раз в день: «Вот чего я нашёл, хозяин!»
Говоря о сферическом коне в вакууме (ой, простите, в черной дыре!), идея, наверное, неплоха. Только вот учитывая реальное качество данных (во всяком случае, в сейсмологии), их неоднородность, а также нестационарность практически всех реальных процессов, боюсь, что практическая польза от этого муравья будет не нулевой, а во многих случаях отрицательной. Так как вместо реальных закономерностей он почти наверняка найдет иллюзорные. Который, как сказал один древний, но мудрый преподаватель статистики, "особенно опасны потому, что имеют видимость математической точности и строгости".
Увы.
Мы можем рендерить только те спаны, которые находятся во вьюпорте пользователя.
Что не просто логично, а я бы даже сказал - напрашивается. Даже странно, что эта идея так редко востребована, и до си пор сохраняет элемент новизны. Лет 20 назад мы решали похожую (но другую) задачу - отобразить на интерактивном рисунке много-много миллионов значений данных. Решение получилось примерно в том же духе: мы отображаем на экране не весь массив, а только то, что видит пользователь. С учетом наложения элементов и рамки просмотра. И динамически пересчитываем картинку при рендеринге. В качестве бонуса это еще и позволяет нам при экспорте рисунка в векторный файл получать картинки вменяемого размера. Только мы тогда не знали тех модных слов, которыми изобилует статья, и по рабоче-крестьянски назвали это
генерализацией изображения
Кстати, этот проект - программа для анализа временных рядов геодинамического мониторинга - до сих пор жив. Правда, там куча кода, поэтому если кому-то интересны подробности, проще не копаться в исходниках, а посмотреть основные идеи в справке программы. Файл называется WinABD_Help.chm , там подразделы 3.2.1.9, 3.2.6.1 (a) и др.
Для хранения и извлечения данных телеметрии мы используем столбчатую базу данных.
Да-да, у нас тоже столбцы, только с временными рядами. И СУБД собственной разработки - родом из 1980-х., но до сих пор в продакте. Хотя и пережила за это время пару модификаций ;-)
Нет, вы явно выражаете неодобрение других точек зрения, говорите, что люди не должны так делать, фразой "Нельзя минусовать".
Да, тут Вы правы. Я хотел выразить свое недоумение, а получилось - неодобрение...
Если мою точку зрения уже написал кто-то другой, и я с ней согласен, зачем я должен писать то же самое еще раз? И читать 20 похожих комментариев вместо 20 минусов мне тоже не хочется.
Согласен, дубли писать - не надо. Можно просто плюсануть комментарий, где мысль хорошо изложена. Тут не поспоришь: к комменту под 20-ю плюсами нельзя не прислушаться ;-)
В остальном же я Вашу точку зрения понял, и рациональное зерно в ней вижу. Но подписаться под ней не готов. Мне все-таки кажется, что те минусы, про которые Вы говорите, больше уместны в комментариях, и в меньшей степени - под статьей.
... уже и не вспомню, был тогда common или еще нет :)
Ого! Неужели еще в 1960-х?
В фортране 4, по моим детским воспоминаниям, он уже был ;-))))
А за что тогда можно минусовать?
Лично я исхожу из того, что минусовать надо заведомо пустые статьи. Бессодержательные, сумбурно написанные, когда автор непонятно чего хочет сказать или просто лыка не вяжет. Рекламу ради рекламы. Явные, но не аргументированные наезды на кого-то или на что-то. Ну и конечно прямой (особенно умышленный) обман и фактологические ошибки, которые могут кого-то ввести в заблуждение и даже подставить. Еще можно минуснуть грубость и неуважение к читателю. Короче говоря, я сам минусую те статьи, которые вообще не стоит читать (и даже открывать не стоит).
Если же автор выдвигает спорный, но по-своему обоснованный тезис, то это называется дискуссия. Жаль, на Хабре такого тега нет. "Мнение" - это все же не совсем то. (Кстати, именно в данном случае тег "Мнение" имхо был бы точнее, чем "кейс").
Минус это и есть выражение несогласия. На английском это называется еще более явно - "дизлайк", что означает "не нравится". Если я не согласен, значит по этому критерию статья мне не нравится. Не нравится, значит можно поставить дизлайк.
Разумеется, такая позиция тоже возможна. Но тогда многие потенциальные читатели, которым есть, что добавить к разговору, могут ее вообще не открыть. А мое скромное имхо состоит в том, что чуть ли не в половине случаев дискуссия в комментах - это столь же ценное дополнение к материалу, как и сама статья. Поэтому я стараюсь возвращаться к особо понравившимся статьям через пару дней, чтобы почитать комментарии.
Ну и третье соображение (к Вам не относится!): часто минус ставят вместо комментария (а не в дополнение к нему). Но если я не дока в этом вопросе (а вот здесь я именно что не дока!), и у меня нет своей твердой позиции, то мне крайне интересны именно возражения и контраргументы. Чтобы увидеть всю палитру мнений с разных сторон, а не только позицию автора. Поэтому я бы очень хотел, чтобы несогласные не минусовали, а отвечали и спорили. Понятно, что не у всех есть время/возможность, но тем не менее.
P.S. Я не пытаюсь Вас переубедить, просто объясняю свою точку зрения.
Спасибо за статью! Восхищен стилем - читается легко и доходчиво, хотя именно за него Вас, наверное, и заминусовали. Нельзя же минусовать за аргументированно высказанную позицию, просто потому, что ты с ней не согласен (кстати, мои плюсы всем, кто аргументированно возражает автору в комментариях!).
Компромиссом являются: unsafe в расте, Any в тайпскрипте, и
всякая прочая потребень
Добавлю до кучи
common
в фортране. Формальноэто не совсем то
де-факто с помощью common можно локально, внутри объекта, объявить глобальную переменную или структуру, к которой с помощью аналогичного объявления можгно обратиться из внутренностей другого объекта и вообще любой точки программы
но по сути - такой же крах всех надежд ;-)
Не, я не против, когда есть какие-то крутые новшества, но как-то у меня ощущение, что каждая новая фича или “язык” создается скорее для того, чтобы держать разработчиков в плену. Вроде бы ты хочешь улучшить код, а на деле тебе просто предлагают еще один набор зависимостей и библиотек, которые нужно изучить, чтобы не остаться за бортом.
Программируйте на фортране ;-))
С 1957 года и до сих пор - жив, курилка ;-) Правда, в 1990-х язык тоже пережил "эпоху крутых новшеств" (добавилось полноценное ООП и др.) , но революция один раз в 40 лет - это еще не так плохо по сравнению с некоторыми ;-)
Шутка, конечно..
но как известно, в каждой шутке есть доля шутки. В своей узкой нише перемалывания чисел фортран до сих пор остается
выбором номер один
в силу исключительной вычислительной эффективности, простоты работы с массивами и огромного количества накопленных библиотек, гарантированно совместимых с любым современным кодом
Если, конечно, вы пишете что-то свое, и вам недостаточно высокоуровневого "клея", который позволяет собрать нужную функциональность из готовых библиотек (написанных, кстати, на том же фортране/Си)
Ну и революция революцией, а все ранее (до 1990-х) написанные фортрановские библиотеки как работали, так и продолжают компилироваться и работать в пост-апокалиптическом мире (т.е. после 1990-х ;-)
А если серьезно, то мне сложно себе представить, что кто-то будет придумывать новый язык исключительно ради того, чтобы улучшить стиль уже существующего кода, переписав все полностью заново. Может, в основе все-таки обычно лежит идея, концепция, которая решает труднопреодолимую концептуальную проблему ранее существовавшего языка? Которую невозможно побороть эволюционным путем?
И успешность/неуспешность нового языка прежде всего определяются тем, насколько эта проблема:
1) действительно актуальна, и
2) насколько хорошо предложенное решение?
И лишь во вторую очередь - административной поддержкой и пр.?
Или это слишком поверхностный взгляд?
Я понимаю, что у некоторых конкретных людей его сейчас нет ;-)
Я переживаю за человечество в целом. У него-то доступ к ним есть?
Или... Или все идет к тому, что у человечества его тоже скоро не будет?! ;-))
1. Я очень далек от этой тематики, статья стала прекрасным ликбезом! Спасибо!
2. А еще мне со стороны кажется немного странным, что мы, люди, сначала
1) собираем данные в базах, потом
2) строим какие-то сводки метрик и оформляем их в виде красивого PDF-документа, а потом
3) парсим это чудовище в надежде
4) опять получить данные в виде пригодной для работы структуры (читай - обратно запихать в сводную базу).
Мне одному кажется, что цепочка (1)-(2)-(3)-(4) содержит какую-то внутреннюю избыточность, и что без промежуточных этапов (2), (3) было бы как-то проще??
З.Ы. Если что, я не LLM! См. аватарку ;-))
То, что у вас написано - это и не юмор, и не пасхалки. Такие вещи никому не нравятся, кроме их авторов. Если это была бы книга - то да, в предисловии или в сносках* можно подобное позволить. В документации, в коде, в комментариях к коду - категорически нет.
Позиция понятна, и в определенной мере я с ней согласен. Юмор в пошаговой инструкции вряд ли уместен. Особенно если она написана на неродном языке, которым ты не владеешь свободно. Например, когда тебе надо загрузить данные, пришедшие в ana-формате, в программу, инструкция к проге должна быть предельно конкретной и четкой.
Что же касается конкретно нашего случая
то он достаточно близок к "книге". Дело в том, что примерно четверть от всего объема документации у нас составляют не пошаговые инструкции, а "философские рассуждения", в которых речь идет скорее про общие принципы построения алгоритмов. Специфика нашей работы в том, что она очень плохо формализована. Программа, как правило, не дает готовых решений, а предоставляет набор примитивов, из которых юзер сам, как из кубиков, собирает нужный ему алгоритм. Каким должен быть целевой алгоритм - не знают ни юзер, ни тем более авторы проги. В справке мы скорее делимся своим опытом в этом плане, причем заранее неизвестно: подойдет ли он юзеру, или нет. И такие рассуждения, отвечающие на вопрос "ЧТО вообще можно сделать в такой ситуации", часто довольно объемны. А главное, было бы совершенно неправильно, чтобы читатель к ним относился, как к догме. Вот в этот момент, как мне кажется, шутка может настроить его на правильный лад.
Что же касается способов "привинчивания" выбранных кубиков друг к другу (когда юзер ищет ответ на вопрос "КАК сделать вот это"), - то тут я с Вами согласен на сто процентов: инструкция должна быть короткой, конкретной и четкой. Буду обращать на это внимание в будущем, так как во время работы со слитным текстом (исходники справки) голова не всегда автоматом переключается на правильный стиль.
Вообще, мне кажется, что стиль инструкции к проге можно сравнить с двумя вариантами путешествия к заданной цели. В первом случае у тебя есть легенда, в которой перечислены повороты, и сказано: сначала направо, потом налево, а дальше три раза прямо. Кому-то так удобней всего. Однако при малейшем изменении местности, или при опечатке в легенде ты попадешь не туда. К тому же такую инструкцию надо составить для каждой возможной цели. А если есть варианты с начальными точками - то для каждой возможной пары "старт-финиш".
Поэтому начиная с какого-то уровня сложности вместо пошаговых списков удобнее карта. Которая не содержит рекомендаций: куда и где повернуть. Все на совести едущего.
Так вот, если Вы работаете в первом, пошаговом стиле, то ирония неуместна. Если же документация больше похожа на дорожную карту, то почему бы и нет? Особенно если авторы сами не очень-то хорошо представляют ее окраины. Вот про эти тропинки нам все достоверно известно - отражаем в документации. А где-то вот в этом районе - болото, предположительно с крокодилами (но говорят, что там собирают хорошую клюкву). В общем, мы сами там не были, пробуйте на свой страх и риск.
Те же спектры, к примеру, нельзя посчитать единственно правильным способом. Если в настройках метода есть четыре параметра, в справке можно раскрыть, что делает каждый из них. А вот какую их комбинацию следует выбрать в каждом конкретном случае - не ответит никто. Так как этих "конкретных случаев" - миллионы, в зависимости от особенностей данных, шумов, целевой функции и т.п. Даже если бы авторы знали ответы, в справке их изложить невозможно. А мы их вдобавок еще и не знаем (собственно, в этом научная работа и состоит)
.
P.S. Потрясающе. Вашему комментарию кто-то поставил минус. Я понимаю, когда минусуют за очевидную токсичность, за хамство, за грубую фактическую ошибку (которая кого-то введет в заблуждение). Но за корректно высказанное альтернативное мнение, с которым ты не согласен?! А как же тогда совершенствовать свое понимание, если всегда
слушать только приятное?!
Наверно, тут будет уместным упомянуть мое любимое следствие из третьего закона Ньютона:
Опираться можно только на то, что оказывает сопротивление!
Тогда ссылаться на эту публикацию не буду.
Я бы, наоборот, предложил не убирать эту ссылку, а сохранить, но обязательно пояснить, что Б.Д.Борисов по-своему (нестандартно)
трактует понятие ФШ
Я открыл его публикацию, и там видно, что это не опечатка, а свой особый подход. Просто не поясняется, что он отличается от общепринятого.
Иначе его читатели могут остаться в недоумении. А так они смогут найти ответ на свои вопросы хотя бы на Хабре.
Вообще, в таких случаях имхо полезно вступать в дискуссию, - это как раз такой вид спора, который к истине приближает. Не хочу проводить аналогию между двумя ситуациями (это было бы некорректно по отношению к Б.Д.Борисову), но просто хочу пояснить свою мысль на примере одной истории, в которой
я поучаствовал лет пятнадцать назад
А именно, в один российский журнал пришла статья известного зарубежного автора (что нечасто бывает). Основное открытие автора было уровня "Менделеев". А именно, он разработал "гармоническую модель Вселенной", и создал на этой основе собственную систему прогнозирования техногенных и природных катастроф. Статьи о фантастической эффективности этой системы, изложенные превосходным с литературной точки зрения зыком, пересыпанным научной терминологией, были опубликованы в десятках статей во всем мире (правда, в журналах далеко не первого квартиля почему-то). Проблема была только в одном. Основным методом доказательства статистической значимости этой модели был тезис: "я еще ...надцать лет назад предсказал (ссылка), что 2013 год будет особо опасным. Проверяем: и да, действительно, все в точности так и есть! В 2013 году произошла авиакатастрофа в ХХХ и засуха в YYY! Моя гипотеза (причем прогноз давался вперед) блестяще подтверждена!!!"
Этот тезис героически повторялся из публикации в публикацию практически в неизменном виде. Менялись лишь годы (список "опасных" лет автор опубликовал задолго до этого, причем без конкретизации видов опасности) и разновидности фактически случившихся бедствий.
Мы сперва думали - автор искренне заблуждается. Даже пробовали ему намекнуть, что сам факт наличия катастрофы еще ничего не доказывает. И что для доказательства особой опасности перечисленных лет надо бы показать, что в 2013г (и в другие объявленные "опасными" годы) катастрофы происходили чаще, чем в прочее время. В ответ автор забросал редакцию требованиями отстранить безграмотных рецензентов, которые своими идиотскими придирками мешают спасать жизни людей. А когда редакция намекнула, что хорошо бы и автору сделать шажок навстречу, он заявил: "Хорошо, 2013 год из публикации убираем. Давайте лучше напишем про 2011-й. Он, по моей модели, тоже опасный. А главное, в 2011 году было наводнение в ZZZ, причем с жертвами!
Так вот.
Проще всего было бы эту статью отклонить. Автор легко бы нашел другое издание. Ведь ссылки на такую работу, причем зарубежные, практически гарантированы (а для журналов это существенно). И автору тоже бонус: ведь на основе этой модели он осваивал миллионные гранты, консультировал соответствующие министерства в нескольких странах, а теперь к ним добавилось бы и МЧС.
Но ГПиБ поступил иначе. Поступившая статья была напечатана в авторском варианте - но рядом с ней были напечатаны отзывы рецензентов. После чего безумное пиршество панегириков этой модели оказалось разбавлено парой десятков критических замечаний, не оставивших камня на камне от каждого (без каких-либо исключений) тезиса первоначальной статьи.
Конечно, одному журналу трудно "сделать погоду" на мировом уровне. Однако теперь любой, кто читает фантазии этого Б.Л.Берри, хотя бы потенциально может открыть наш журнал и обнаружить там альтернативный взгляд на проблему, изложенный менее распиаренными, но гораздо более грамотными специалистами.
Не знаю, нужно ли тут оставлять подробные ссылки, так как сейчас все упомянутые статьи, к сожалению, за пейволом. Но для желающих покопаться все же оставлю:
Оригинальный авторский труд Б.Л.Берри: "Гелиогеофизические и другие процессы, периоды их колебаний и прогнозы"
Рецензии и отклики на него:
Музыка сфер и проза статистических критериев...
Музыка сфер и музыка людей...
О необходимой самозащите научного сообщества в связи со статьей Б.Л. Берри...
1. @sci_nov, спасибо за статью!
2. Но все-таки, у Б.Д.Борисова явная опечатка. Такое:
где "альфа" - безразмерный параметр, реальные значения которого лежат примерно в пределах от минус двух до двух, [1].
еще можно было бы простить в 1955г, года понятие ФШ только формировалось, и каждый мог предлагать собственное определение. Но примерно с 1980-х годов общепринятая трактовка состоит в том, что под ФШ понимаются процессы с <альфа> от 0.5 до 2.0. Ссылок, где упоминается этот диапазон, можно привести множество, а вот про -2..+2 я сомневаюсь, что такой вариант предлагал еще кто-нибудь. В Википедии, кстати, приводится диапазон от 0.6 до 2.0. Такой вариант я тоже однажды встречал. Но вот у Рытова, насколько я помню (сейчас книжки нет под рукой) было вроде бы от 0.5. И у подавляющего большинства англоязычных авторов, которых я читал в 1990-е, тоже было от 0.5.
А определяется эта граница тем, что при альфа менее 0.5 процесс еще можно в каком-то приближении рассматривать, как квазистационарный, а вот начиная с 0.5 (0.6) - уже точно нет.
Впрочем, для некоторых применений даже и 0.3 -
слишком много.
Например, если мы хотим оценить значимость корреляции между двумя переменными, но вместо случайных величин будем рассматривать два временных ряда с альфа=0.3, то неожиданно можем ошибиться с доверительными границами на порядок. То есть, истинный 95%-ный порог будет равен не 2/sqrt(N), а примерно в десять раз больше. Или даже в 100, если ряд достаточно длинный.
Вопрос только в длине рядов. При альфа > 1 катастрофические ошибки в доверительных уровнях возникают уже при длине рядов в тысячи точек (подробности и примеры можно найти вот тут). А при альфа =0.3 аналогичная катастрофа произойдет лишь при длине рядов в миллионы и миллиарды отсчетов.
В общем, порог, за которым нестационарностью можно уже пренебречь, зависит от длины тех сигналов, которые мы рассматриваем. Сейчас 0.5 или 0.6 - вполне приемлемая оценка. Но по мере того, как практики будут сталкиваться со все более длинными реализациями ФШ, граничное значение альфа (начиная с которого уже придется учитывать разницу в свойствах БШ и ФШ) неизбежно придется снижать ;-))
@Vdm_ro, спасибо за критику! Понятно, что шутки должны быть не вместо инфы, а в дополнение к ней. И в соотношении примерно 1:100, иначе смешно не будет. Но вот для меня это скорее вопрос хорошего вкуса (хотя понятно, что он у всех разный), чем категорическое "нельзя".
P.S. Ну и еще наверно есть разница между массовыми продуктами (когда между юзером и разработчиком стоит несколько промежуточных звеньев) и узконишевыми, как в нашем случае. Когда с половиной пользователей авторы знакомы лично, и шутки направлены в хорошо понятную аудиторию. А в крайнем случае можно написать авторам в почту и через сутки (в среднем) получить конструктивный ответ. А через месяц - исправленную документацию, куда этот ответ будет вписан.
P.P.S. Но вообще - ставлю плюсик Вашему комментарию за полезную (для меня) обратную связь.
Эта статья будет неполной без ссылки на статью про пасхалки в документации.
Сам я, кстати, люблю добавлять в объемную документацию
всякие невинные шутки
Например, раздел справки про спектры у нас начинается с пояснения: зачем нужно так много спектральных методов? Почему нельзя обойтись парой-тройкой стандартных? Суть пояснения изложена одной фразой: "Если от некоторой болезни существует очень много разных лекарств, - это значит, что ни одно из них не лечит по-настоящему!"
А раздел про методы заполнения пропусков данных предваряется честным признанием авторов программы, что они изучали этот вопрос много лет. Но так и не смоги подсчитать, сколько же разных алгоритмов заполнения пропусков можно построить, комбинируя стандартные опции нашей программы. Поэтому про некоторые их этих алгоритмов (до которых авторы проги не докопались) рассказа в справке не будет...
Хотя и знаю, что здесь есть много блюстителей строгости, которые нещадно минусуют сарказм и юмор, вставленный в серьезное обсуждение. Возможно потому, что они иногда "покупаются" на такие шутки, после чего испытывают обиду, вместо чтоб рассмеяться?
del