caveeagle 19 сен 2016 в 19:17

Как делать научные предсказания

5 мин

18K

Научно-популярное

+46

Комментарии 68

daiver19 19 сен 2016 в 19:29

Ввиду явного несоответствия двух картинок – предсказанных и фактических землетрясений, дальнейший анализ проводить не вижу смысла, можно переходит к выводам.

Это очень научный подход, не хватает только слова «очевидно».

А вообще нужно понимать, что предсказание характеризуется точностью. Понятно, что иметь стопроцентную точность в предсказании землетрясний весьма сложно.

Краткий анализ качества наших прогнозов землетрясений с оправдываемостью около 70% (точно 69.8% )

Цитата с их же сайта. Я понятия не имею, врут они или нет, но говорить о статистике не подкрепив результат достаточным количеством данных (статистика хотя бы за несколько месяцев-год) просто смешно.

-3

caveeagle 19 сен 2016 в 19:42

Я там табличные данные привёл, чуть ниже кратинок. Чтобы действительно было очевидно. Если из 13 предсказаний — предсказнием не является ни одно (вероятность меньше 8% при заявленной 70%), какой смысл тратить силы? Я проверил прогноз за 17 сентября — там та же картина. А чтобы проверить всё подробно — нужна таблица, автор не выкладывает данные в csv.

И да, предсказания я могу проверять только те, которые сделаны после 15 — так как я должен быть уверен в том, что это именно прогноз.

BigBeaver 19 сен 2016 в 19:47

Просто прикиньте вероятность того, что при средней успешности в 70-80% в случайно выбранный автором день было верно угадано всего 8%. Все сразу ясно станет.

Rikkitik 19 сен 2016 в 20:26

Ну, справедливо говоря, теория вероятности вполне допускает такое антисовпадение, поэтому нужно проводить анализ на большом интервале, а не за один день. Автор статьи тоже пожертвовал обработкой статистики и научностью анализа, соблазнившись очевидностью и эффектностью выводов.

BigBeaver 19 сен 2016 в 20:43

Так я и не отрицаю, что допускает. Но согласитесь, он довольно мал. Шанс НЕ угадать хотя бы 1 из 4 (25% точность, а мы тут о 8% говорим) уже менее процента. Думаю, любой, кто ценит свое время забил бы после такого результата.

p.s. методика полностью изложена, данные открыты — любой сомневающийся может добавить еще 1-2 дня в выборку. Если результат будет такой же — можно смело ставить крест.

Rikkitik 19 сен 2016 в 21:41

Тем не менее, в статье о пользе научного метода не стоит пренебрегать им самому.

geisha 19 сен 2016 в 22:51

Я всеми руками за и влепил бы вам плюс. Именно такая мысль об отсутствии временной выборки осталась после прочтения. Я, если честно, вообще не понимаю, что оправдывает существование этой статьи. Чистое лицемерие в тексте.

sHaggY_caT 20 сен 2016 в 05:39

Я всеми руками за и влепил бы вам плюс.

поставила вам обоим

caveeagle 20 сен 2016 в 01:16

То, что я делал — это оценочный анализ данных, и это не противоречит научному методу. Нас учили, что не имеет смысла вычислять точные данные, если оценочный анализ показывает несостоятельность гипотезы.

На примере: могут ли обезьяны случайно напечатать Шекспира за время человеческой жизни? Можно подсчитывать точное количество знаков в тексте, и подсчитать точную вероятность того, что это может произойти. А можно оценить её как заведомо меньшую одной миллиардной даже для одной страницы текста, и не проводить дальнейший анализ, посчитав это «практически невероятным». И это будет вполне научным методом.

geisha 20 сен 2016 в 13:10

Я, с вашего позволения, процитирую то, что вы написали ниже.

Она [выборка] мала — но с учётом большой разницы между ожидаемым и наблюдаемым значением она достаточна

Во-первых, это не объясняет, почему она мала (т.е., фактически, время там отсутствует как степень свободы). Во-вторых, доверять или нет

один из 200.000

это, пока что, личное дело каждого. Кроме того, лично вы в самой статье никаких оценок не проводили (спасибо LeonidI). Вы даже толком не опровергли ни это

Из 1118 прогнозов 978 случаев оправдались в тот день, на который они прогнозировались

ни это:

Успешность данных прогнозов составляет около 70 – 80 %.

Вам на будущее: «Если ты сделаешь что-то быстро и плохо, то никто в последствии не вспомнит о том, что ты это сдеал быстро.» (с) не-помню-кто

geisha 20 сен 2016 в 13:35

Во, придумал как понятнее сформулировать. Ваши оценки вероятностей и опровержения без временного домена очень неустойчивы по отношению к корреляциям в этом временном домене о которых мы не знаем или делаем вид, что не знаем. Если бы я жил в средней полосе и предсказывал ежедневно пасмурную погоду, а вы бы взяли и наложили мои предсказания на один, два, три солнечных дня, заявив, что с вероятностью 1 к 200000 я неправ, то сами бы угодили в вероятностную ловушку.

Чтобы я вам поверил при данных условиях вы должны заявить, что характерное время для процессов стоящих за землетрясениями гораздо меньше одного дня.

-1

caveeagle 20 сен 2016 в 14:03

Э… что-то не понял ваших утверждений. Давайте пользоваться всё-таки устоявшимися терминами теории вероятностей и матстатистики.

Я взял выборку из генеральной совокупности, и по ней опроверг нулевую гипотезу, которая состояла в том, что «вероятность успешного предсказания порядка 70%».

Вероятность этой нулевой гипотезы оказалась меньше уровня значимости. В науке уровень значимости принимают обычно 5% или 1%. Если уровень значимости меньше, гипотеза считается опровергнутой.

К чему именно из этого есть претензии?

geisha 20 сен 2016 в 14:29

Именно из этого? Ок. Но я, если честно, не увидел ни одного устоявшегося термина теории вероятностей в самой статье. Кроме того, я считаю, что наша дискуссия может быть интересна более широкому кругу ~~срывающих покровы~~ лиц.

Ваша выборка не случайна («невероятностная» тыц). Т.е. вы (на самом деле, опять же, не вы) сделали правильную оценку вероятности в предположении, что выборка случайна, но она не случайна. :) Мы уже знаем, что все 13 событий произошли в один день. Единственное, что здесь случайно — выбор дня для выборки. Все остальное вполне себе детерминированно: выбраны все события этого дня. Может ли быть такое при случайной выборке? Может. Но вы сами специально написали то, что один день для всех событий был выбран, полагаю, в качестве примера:

Для оценки было взято 15 сентября 2016 года

-1

caveeagle 20 сен 2016 в 14:55

Да, это действительно может быть — неслучайность выборки (а может и не быть, доказательств неслучайности тоже нет). Но я исходил из статей авторов — там ни слова не сказано о том, что точность предсказаний может зависить от дня в году.

Точность зависит, по их словам, от силы предсказнных землетрясений, и от точности метеоданных (у нас нет данных о том, что точность метеоданных зависит от конкретного дня, метеоспутнки летают равномерно). Так что моё предположение основано на их статьях.

geisha 20 сен 2016 в 15:15

Да, это действительно может быть — неслучайность выборки

За что я люблю специалистов по теорверу — так это за такие фразы. Ну действительно, существует вероятность того, что все, что гипотетический я написал — ложь. Бывает с каждым, это же теория вероятности. Главное — сильно не углубляться и считать все случайным.

а может и не быть, доказательств неслучайности тоже нет

Там в википедии вторым пунктом идет «извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц». Давайте сюда вашу таблицу, мы все над ней посмеемся. Хоть какой-то прок будет.

Но я исходил из статей авторов — там ни слова не сказано о том, что точность предсказаний может зависить от дня в году.

Тут я вижу определенное непонимание. Точность — да, не зависит. Было бы глупо если бы она заведомо зависела — мы бы тогда использовали этот факт и улучшили бы наш прогноз. А вот сами события — зависят от дня в году. У вас есть сомнения? Вы же сами пишете в статье о том, что в (42.82, 13.19) уже неделю как трясёт. Ну давайте, продемонстрируйте свои умения в счете и оцените вероятность того, что случайное пространственно-временное пятно размером 100x100 квадратных км на один день образует последовательность из 9 элементов.

Xaliuss 20 сен 2016 в 16:27

То, что выбран конкретный день на выводы принципиально не влияет, так как сама исходная модель от дней особо не зависит (в любой день должна быть примерно одинаковая точность). Если бы специально выбирался день с худшей/лучшей точностью в году — другое дело, но для начальной одного дня достаточно, на результат он существенно не влияет. По сути мы здесь имеем дело не с выборкой, а сужением модели. Аналогом будет то, что если какое-то утверждение справедливо для млекопитающих, то оно должно быть справедливо для кошек. Это классический этап проверки любой теории — рассмотрение частного случая, и этот этап теория предсказания землетрясений не прошла.

geisha 20 сен 2016 в 16:43

Как сказал автор, «К чему именно из этого есть претензии?». Судя по «принципиально не влияет», «особо не зависит» и «сужением модели» я был «в принципе, прав».

У меня к вам много замечаний и большую их часть я осветил ранее. Оставлю самое вопиющее:

Аналогом будет то, что если какое-то утверждение справедливо для млекопитающих, то оно должно быть справедливо для кошек.

Утверждение: с вероятностью в 1% случайно выбранное животное является собакой.

Xaliuss 20 сен 2016 в 17:02

Утверждение: с вероятностью в 1% случайно выбранное животное является собакой.

Подразумеваются утверждения, для которых сужение данных не существенно. В исходной модели для предсказаний нет существенных отличий одного дня от другого.

Особо не зависит — точность предсказаний от дня меняется мало, и не может быть такого, что на некоторые дни точность 95%, но изредка встречается 5%. Соответственно выбор дня принципиально (с точки зрения опровержения гипотезы) на картину влиять не будет, так как разница между ожидаемым и фактическим слишком велика. Для работы автора этой статьи достаточно, чтобы предсказания в рамках одного дня были независимыми, или близкими к этому. Любые погрешности закрываются p-значением менее 0,01% (считая вероятность попадания 70% и фактическим 1/11).

geisha 20 сен 2016 в 20:15

Подразумеваются утверждения, для которых сужение данных не существенно.

Сформулируйте полностью: такие утверждения верны и для «суженных данных»? Если A=B то B=A? В чем мудрость-то?

Для работы автора этой статьи достаточно, чтобы предсказания в рамках одного дня были независимыми, или близкими к этому.

Это просто неправда. Предсказания в рамках одного дня основаны на одних и тех же данных:

данных по атмосфере, геодезическим показателям и геомагнитным

Погода, к примеру, вполне себе коррелирует на расстояниях масштаба всей планеты тем более в один и тот же день. Любая производная этих данных тоже будет коррелировать.

Но, опять же, дело не в этом. :) Дело в том что -->статистическая выборка не случайна<--. Ведь нам могли бы дать предсказания в виде черной коробки, без каких-либо объяснений. И чтобы проверить качество коробки мы заботимся именно о том, что наш тестовый набор не имеет корреляций.

BigBeaver 20 сен 2016 в 20:29

Если бы корреляции были сщественными, то и предсказания не были бы проблемой, не? Мы бы просто на основе НЕ независимости событий получали бы вероятность землетрясений на завтра из знаний об уже произошедших.

geisha 20 сен 2016 в 20:58

Так все и работает, да: исторические данные -> модель -> предсказания. К примеру, сейчас мы уже знаем где опасно строить высотки, а где — нет.

BigBeaver 20 сен 2016 в 21:12

Вы ведь не читаете, что вам пишут, верно?
Или как, по-вашему, связано распределение вероятности по площади с корреляцией между разными землетрясениями?

geisha 20 сен 2016 в 21:29

А вот оно. Я правда очень ждал. :) То, что вы называете вероятностью зависящей от координат и времени и есть корреляции. Не верите? Корреляция — синоним зависимости. Если что-то начинает зависеть от времени или координаты, в том числе вероятность события, это означает, что оно коррелирует во времени или пространстве. Так-то. Возвращаясь к изначальному вопросу о хорошей, некоррелирующей выборке нам бы неплохо иметь события, которые настолько разнесены во времени и пространстве, что эти ваши вероятности событий сильно напоминают случайные числа.

BigBeaver 20 сен 2016 в 22:32

Как-то слишком толсто.

Xaliuss 20 сен 2016 в 20:44

Сформулируйте полностью: такие утверждения верны и для «суженных данных»? Если A=B то B=A? В чем мудрость-то?

Если В подмножество А, то факт верный для всех элементов из А, будет верен и для В. В случае статистических характеристик достаточно, чтобы принцип разделения А на подгруппы не коррелировал с соответствующей характеристикой.

Погода, к примеру, вполне себе коррелирует на расстояниях масштаба всей планеты тем более в один и тот же день. Любая производная этих данных тоже будет коррелировать.

Но, опять же, дело не в этом. :) Дело в том что -->статистическая выборка не случайна<--. Ведь нам могли бы дать предсказания в виде черной коробки, без каких-либо объяснений. И чтобы проверить качество коробки мы заботимся именно о том, что наш тестовый набор не имеет корреляций.

Корреляций в реальных данных в любом случае полностью не избежать (и в статистике есть методы, как работать с корреляцией данных). Но рамках этой статьи нас интересует одна характеристика — точность прогноза, и в рамках предсказаний на один день корреляцией (только попаданий прогнозов) можно пренебречь (попарная корреляция даже в 5%-10% принципиально общую картину не изменит, а больше вряд ли может быть), так как землетрясения происходят достаточно далеко друг от друга.

Для подтверждения гипотезы одного дня конечно мало, но для опровержения уже достаточно, никакие погрешности так сильно на результат повлиять не могут.

geisha 20 сен 2016 в 21:08

Если В подмножество А, то факт верный для всех элементов из А, будет верен и для В.

Угу, но у нас другое: мы, пока что, знаем, что факт верен для элементов из B. Верен ли он для элеметнов из A? (уже готовлю попкорн).

корреляция даже в 5%-10% принципиально общую картину не изменит, а больше вряд ли может быть

Угу, там в Италии 9 дней подряд трясло а потом внезапно перестало. Давайте сюда расчеты ваших процентов.

Xaliuss 20 сен 2016 в 21:21

Угу, но у нас другое: мы, пока что, знаем, что факт верен для элементов из B. Верен ли он для элеметнов из A? (уже готовлю попкорн).

Не, мы получаем, что если факт неверен для В, то он не верен для А.

Угу, там в Италии 9 дней подряд трясло а потом внезапно перестало. Давайте сюда расчеты ваших процентов.

Я же сказал, что прогноз на один день, с землетрясениями расположенными далеко друг от друга. В этом случаи корреляция между точного попаданиями прогнозов (с учетом погрешности по расстоянию и времени) будет малой.

Dronton2 20 сен 2016 в 16:19

Вероятно, имеется ввиду недостаточность объёма выборки.
Если бы прогноз давался с точностью 99%, то для его проверки, может быть, было достаточно взять период в 1 день. Но заявленная точность прогноза — 70-80%. Дисперсия достаточно велика. И в течение проверяемого вами дня могло не случиться ни одного из предсказанных событий.
Вспомните историю с Пуанкаре и булочником. Вряд ли Пуанкаре поверили бы в полиции, если бы он собрал статистику всего за неделю или около того.

BigBeaver 20 сен 2016 в 10:04

В целом, я с вами согласен, но автор указывает все используемые допущения и его подход более, чем логичен при текущей доступности исходных данных.

Разумеется, выводы стоило сформулировать более аккуратно, но при шансе ошибки порядка одной статтысячной искушение слишком велико. Зато, это хорошо демонстрирует нам, как даже изначально очень серьезно настроенный человек может косячить… и напоминает о необходимости посмотреть разделы «Methods» при анализе любой работы даже самого авторитетного автора, каким бы симпатичным не выглядел «Abstract»))

geisha 19 сен 2016 в 20:40

В каких приближениях изволите прикинуть? Это не случайные и не независимые события.

BigBeaver 19 сен 2016 в 20:48

Да в любых. Просто, надо их указать.

Это не случайные и не независимые события.

Землетрясения-то?
Раскройте пожалуйста мысль, а то я уже начинаю думать, что у кого-то есть детерминированная модель.

geisha 20 сен 2016 в 16:20

Я выше написал, что я имею ввиду. Землетрясения случаются в сейсмоопасных зонах и могут длится неделями, как показал автор статьи. Если взять за событие наличие или отсутствие землетрясения в определенном квадрате в определенный день, то это не независимые события.

BigBeaver 20 сен 2016 в 19:18

Землетрясения случаются в сейсмоопасных зонах и могут длится неделями, как показал автор статьи.

Это ошибка игрока. Автор ошибся скорее в этом, чем в своих выводах по статье, в целом.

Если где-то трясет 5 дней подряд, то на вероятность того, что будет трясти завтра, это никак не влияет. В конце он приводит как раз материалы по этому поводу. С другой стороны, матожидание будет выше в сейсмоактивных районах, и это автор, вроде, упоминает (если нет — то косяк, но на общие выводы тоже не влияющий).

geisha 20 сен 2016 в 20:26

Если где-то трясет 5 дней подряд, то на вероятность того, что будет трясти завтра, это никак не влияет

В общем, я так не считаю. Давайте посмотрим на эту же Италию в 2014 году: тыц. Одиночные землетрясения несколько раз в месяц. Теперь так: тыц. Огромный кластер с земелтрясеними до 15 числа. В вашем предположении о независимости событий получить обе таких выборки при постоянной вероятности землетрясения маловероятно.

BigBeaver 20 сен 2016 в 20:36

Не так уж и маловероятно в геологических масштабах аремени (сколько уже существует италия?), имхо. Но если у вас есть конкретные рассчеты, я бы посмотрел. Кроме того, я не могу судить, это по землятресению каждый день, или одно длинное — я не сейсмолог. Как такие вещи определяются вообще?

geisha 20 сен 2016 в 20:56

Хз как. Но, если будет время, попробую спарсить данные и построить пару графиков корреляций для статьи сюда. Может это вас убедит. Ну как, убедит со значительной вероятностью. :)

LeonidI 20 сен 2016 в 00:33

Очень грубая и очень примитивная оценка. Просто чтобы оценить порядок величин.
Берем: предсказано 13 событий, предсказание верно с вероятностью 70%, из событий верно предсказано одно, 12 — ошибочные. Предполагаем, что автор статьи не пытался нас обмануть и не ошибся, определяя количество верно угаданных (возможна ошибка в понимании методики — предсказание не на календарные сутки, ошибка с переводом координат в километры и т.п.). Предполагаем что это случайно выбранный день, а автор не пытался выбрать худший из дней за какой-то период. Предполагаем события независимыми (что почти верно для землетрясений, но может оказаться неверным для метода обработки данных, выдающего предсказания). Считаем вероятность: двенадцать неудач дают 0,3^12; один успех *0,7; Число перестановок из 13 событий одно неправильное — 13. Перемножаем:
0,3^12*0.7*13 = 0.000005

Возможно, есть факторы которые обуславливают удачные или неудачные дни для предсказания землетрясений. Но шанс получить такую (или худшую) выборку из 13 взятых наугад событий — один из 200.000. Ну, если вероятность верного предсказания действительно 70%.

alexisneverlate 19 сен 2016 в 20:33

del

geisha 19 сен 2016 в 20:37

TL;DR: Автор взял прогноз каких-то людей из Питера о землетрясениях. Он в тот день не совпал ну прям совсем. Автор поглумился, сказал что и как надо было делать и, конечно же, экстраполировал один такой день на все время сколько у этой вселенной осталось.

Нет, что вы, я не защищаю псевдоученых (от этого и в карму можно хватануть, хех), но если вы проводите такое разоблачение в пространственном домене, то почему бы не провести во временном? Ведь

Опишем предсказываемое событие, ограничив его временным и пространственным интервалом.

P.S. уже обсуждается выше в ветке.

caveeagle 20 сен 2016 в 00:49

Это не экстраполяция, это выборка из генеральной совокупности. Она мала — но с учётом большой разницы между ожидаемым и наблюдаемым значением она достаточна для оценочного анализа. Если бы совпадения были бы более значимыми, я бы не поленился оценить доверительный интервал для этой выборки.

Впрочем, если хотите — можете сделать это сами, все данные и методики открыты. Либо можете просто перевести предсказания (начиная с 15 сентября) в табличную форму и прислать мне — я проведу дополнительный анализ.

LeonidI 19 сен 2016 в 21:09

На этом сайте ссылок на публикации нет, а на старом — есть. Вот только там несколько десятков докладов на конференциях, Вестник РГГМУ, научпоп — и все.
Да, я не проводил мероприятий по поиску где-то ещё. И данные не полны — я беру 10 лет от последней записанной на сайте статьи, а это 2013 год. Но те публикации, которые приводят авторы сайта, сложно назвать публикациями в серьезных и уважаемых научных журналах. А это звоночек — отсутствие хороших публикаций за последние 10 лет.

alexisneverlate 20 сен 2016 в 16:38

Публикаций полно, в том числе в научных изданиях ака институт физики земли.

Но вот почему они не выложены на сайтах — большой вопрос к коллективу ученых. :)

alexisneverlate 20 сен 2016 в 09:39

Думаю оценка по одному дню вызвана тем, что было чтобы сравнивать на основании периода нужно время, которого всегда жаль.
Мне лично было бы интересно узнать откуда такая разница в точности — возможно мы чего то не знаем. Попробую провентилировать этот вопрос и отписаться. (ну кроме «врут!»)

Вот тут куча данных от самих ученых, возможно для удачных дней, и, если предположить отсутсвие намеренного искажения, — совпадений больше http://www.forecast-center.com/statistic

1. из графика точности предсказаний видно – авторы рассматривают в качестве успешных предсказания событий, случившихся за 1000 км. от предсказанной точки.
Ваша цитата: Из 13 событий (одно из них – сильное), всего 4 произошли в пределах 1000 км. от указанной точки
не то чтобы 1к км это мало, но тем не менее. Тогда вписываются 4ре а не одно.

2. Из статей понятно что речь о +-13 часах т.е. т.к. данных по времени нет — то что отмечено на конкретный день может быть как за предыдущий так и за следующий день (т.к. у нас мало данных так «с ходу»)

3. А чтобы проверить всё подробно — нужна таблица, автор не выкладывает данные в csv.
Думаю такие данные вполне можно было бы запросить, включая временные показатели и тогда за больший период у оценки появится не оценочная а именно статистическая значимость.

Еще раз спасибо за статью. :)

caveeagle 20 сен 2016 в 10:40

Немного уточню: авторы рассматривают (скорее всего, так как в статьях я не нашел этих методов) вообще все события. На графике точности по координатам видно, что на этот график попадают события, находящиеся в 15 градусах от точки. Но всё-таки, исходя из графика, видно что большинство точек попадает в отклонение один градус (поэтому я и взял именно его).

Если бы я взял интервал в 15 градусов (который имеется на графике) то да, событий попало бы больше (собственно, четыре). Но тогда у нас была бы высокая вероятность случайного совпадения.

Насчёт времени — увы, на сайте такой информации нет, у меня есть из данных только дата.

Да, насчёт этого можно просто спросить у автора, и действительно, если будут таблицы (за вторую половину сентября) — я могу пересчитаь данныые. Более ранние трогать не хотелось бы — так как я не был свидетелем их появления.

LeonidI 20 сен 2016 в 16:36

Очень (реально, очень) интересно было бы посмотреть на такую статистику хотя бы за неделю. Потому что если авторы могут предсказывать землетрясение с вероятностью 70% и точностью примерно 100км за сутки — это очень интересно, полезно, перспективно и по моим оценкам стоит много денег. А вот если это точность 1000км или вероятность 30% — то нет.
а) Потому что десяток кругов радиусом 1000км перекрывают почти все сейсмически опасные зоны. И потому что зону 100км можно предупреждать или эвакуировать, а 1000 км — нет.
б) потому что вероятность 30% — это «может быть», а 70% — это «скорее всего», и можно реализовать планы типа «подготовка к ЧС».

P.S. Если это 70% и 100км — надо срочно публиковаться в приличном иностранном журнале и патентовать технологию.

alexisneverlate 20 сен 2016 в 16:49

Технология патентованная довольно много лет как.
По этой же причине многие исходные данные не в открытом доступе — и так много сайтов разных методов землятресений перепечатывает

Как получена цифра в 70% (мы давайте предполжим что они намеренно данные исследований не искажали) —
Думаю что там есть нюансы в методологии в которых имеет смысл разобраться.
Т.е. не обличать по одному дню и прогнозу «шарлатаны» а, как вариант — написать, спросить, почитать что ответят, насколько это вообще адекватно.

>>с вероятностью 70% и точностью примерно 100км за сутки
Утверждают что за ДВОЕ суток, за сутки — уточненный

В общем, мне кажется надо провести более детальный анализ верности того утверждения про 70% на основании современных и открытых данных. Только вот где его публиковать? :) Думаете посетителям GT такое интересно?

LeonidI 20 сен 2016 в 17:14

Да, я думаю что это было бы интересно.
Особенно если методология, удобная авторам конкретного метода, будет обсуждена и доработана — так, чтобы показать реальную эффективность метода.

Xaliuss 20 сен 2016 в 17:17

Не верится во всё это. Против этого говорит статистика последствий крупных землетрясений, которые предсказать для предварительной эвакуации/подготовки удалось только один раз, после серии форшоков. Если бы существовала надежная модель, предсказывающая с точностью 70% крупные землетрясения (6+ баллов), и она сработала бы хотя пару раз (так что прогноз появился до землетрясения), то на дальнейшее её уточнение ушли бы сразу миллионы и миллиарды. А пока происходят такие трагедии как в Италии, существование надежных краткосрочных прогнозов невозможно. По ссылке выше можно проследить текущее состояние дел в прогнозировании, и далее определения сеймсоопасных зон и среднесрочных/долгосрочных прогнозов дело не идёт. Это позволяет выдвигать соответствующие требования к зданиям, и проводить подготовку к действиям. в случае ЧП в опасных зонах, но пока не более того.

alexisneverlate 20 сен 2016 в 22:16

Ну вот в том то и дело что не верится. если полноценную оценку проведем с автором статьи — статью опубликуем, там и посмотрим независимый анализ.

Ну так по моему опыту — всё так. Мне говорилось про отдельные крупные землетрясения заранее.(Фукусима, Цунами 2004го), без шуток.

Денег в этом пока не обнаружено c 2001 года. (везде свои бюджеты «осваивают», большие).
тем не менее — пока непонятно кому это нужно могло быть в достаточной степени чтобы деньги платились.

Как думаете почему изначальный мой дико заминусованный коментарий появился в теме «когда ты изменил мир а никто это не заметил», в контексте того что задумался сколкько исследований которые могут иметь большой смысл осталось «в столах»

Xaliuss 20 сен 2016 в 23:04

Говорить заранее о землетрясениях многие могли, вопрос был ли это пригодный для действий прогноз или нет. И в любом случае постфактум это не так значимо, и вопрос о ложных прогнозах остаётся. В ссылке выше указывается, что сотни миллионов уже вкладывают. Удачные прогнозы могут спасти много жизней и много денег.

Патентованность технологии тоже вызывает большие вопросы. Её закрытость затрудняет проверку и уточнение методики, а зарабатывать на этом нельзя. Может я чего-то не понимаю, но почему не сделать всю возможную информацию по землетрясениям открытой, ведь в случае реального прогресса выигрывают все?

DarkChemist 20 сен 2016 в 10:40

Если P_случ>>P_пред не значит ли это что возможно есть противоположная зависимость и стоит проверить ее?

geisha 20 сен 2016 в 13:24

Это не бинарные предсказания (вы, вероятно, имели ввиду «будет сегодня дождь или нет?»). Если сделать их бинарными (т.е. рассматривать default city в качестве подопытного), и инвертировать, то получится, что Москву трясет ежедневно. Это, конечно, гораздо менее вероятно.

caveeagle 20 сен 2016 в 13:52

Это было бы, если бы я рассматривал всю выборку данных. Тогда действительно, можно было бы предположить, что авторы нашли «антипризнак» — характерный признак отсутсвия событий.

Но я рассматриваю лишь частичную выборку из генеральной совокупности данных. Поэтому я лишь опровергаю нулевую гипотезу. В нашем случае нулевая гипотеза — это «вероятность успешного предсказания порядка 70%».

Но опровержение нулевой гипотезы не означает доказательство гипотезы, обратной нулевой (то есть гипотезу Pслуч>>Pпред надо доказывать отдельно). И для её доказательства нужна как раз генеральная совокупность, а не выборка.

alexisneverlate 20 сен 2016 в 16:29

Получил занятный комментарий от человека, который чуть ближе к этому коллективу чем я. (но не из этих ученых, если что. :))

1) если автор статьи внимательно прочитал бы труды и статьи, на которые он ссылается, он бы увидел, что отсчёт статистики ведётся с 2001 года.
Землетрясения прогнозируются только по северному полушарию (точнее его определенным районам), поэтому учитывать все землетрясения за сутки смысла нет. И статистика «оправдываемости» считается по-другому.
(прим. думаю речь о том показателе в 70% — т.е. он считался совсем иначе)

2)опять-таки если статья прочитана, то из статьи ясно, что временной промежуток указан таковым не из-за попытки шарлатанить, а из-за промежутка поступления данных по атмосфере, геодезическим показателям и геомагнитным. Про атмосферные данные и их точность все мы можем судить по прогнозам погоды

3) если читать статьи, а не просто брать цифры, становится ясно, что при прогнозе учитываются конкретные сейсмически активные районы, по которым уже ведутся столетние наблюдения и статистика возникновения событий (землетрясений) при определённых условиях. Все данные по километражу — опять-таки учитываются показания датчиков, многие из которых расположены на расстояниях, достаточно великих друг от друга.
Кроме того сам эпицентр и волна распространения землетрясения могут достигать расстояний, превышающие тысячи км.

Данные с датчиков начинают поступать и обрабатываться за несколько суток, их качество, скорость поступления напрямую влияют на качество прогноза.

4)этот коллектив ведёт учёт землетрясений с магнитудой более 4 баллов, цифра 70-80 выведена от количества прогнозов по землетрясений с такой магнитудой и по факту попадающих в этот ± 13 чамов временной промежуток.

Повторюсь, что Землю трясет ежедневно в районах, которых это даже не регистрируется. Трясет неделями без перерыва
Общая уверенность в невозможности прогнозирования и ведёт к тому, что данная область исследования не продвигается никак.

Ещё повторюсь, что метод запатентован, активно используется. И приносит реальную пользу.

caveeagle 20 сен 2016 в 17:03

И да, давайте проверим их архивные выкладки со статистикой:
Вот их картинка (в виде ссылки)
Выглядит красиво, верно? Вроде бы всё совпало?

А вот реальная картина за этот период:

Ссылка на google maps

Видно, что несовпасть оно просто не могло — в предсказанных районах трясёт постоянно.

alexisneverlate 20 сен 2016 в 17:11

Трясет постоянно да, но на Google Maps — накопленные данные.

А пометки — не за период а те, которые успешно предсказаны за 1-2 суток именно в тех местах где они были в эти +- 13 часов.
(понимаю что это можно проверить только фактической независимой оценкой т.к. нужно самому видеть, но в своих комментариях исхожу из того что намеренно данные не искажались)

caveeagle 20 сен 2016 в 17:18

Пусть присылают табличные данные (хоть с завтрашнего дня) — напишу статью-опровержение, если был не прав. Но именно прогнозные данные. Потмоу что на их сайте (и то, что они выкладывают в фейсбук) это только координаты, и сутки. Другой информации в открытом доступе нет.

BigBeaver 20 сен 2016 в 19:33

поэтому учитывать все землетрясения за сутки смысла нет. И статистика «оправдываемости» считается по-другому.

Так в статье не говорится же «было N землятресений, из них M предсказано» — там как раз и написано «было предсказано K, из них L сбылось». Или я что-то не так понимаю?

caveeagle 20 сен 2016 в 19:41

Да. Из них L сбылось. Но вероятность сбывшихся землетрясений близка к 1 (это я про статью).

Предположим, у нас есть точка, где трясёт постоянно — например, завод перфораторов. Добавляя эту точку в статистику, мы повышаем число правильных предсказаний.

По поводу архивных данных — это действительно могут быть накопленные данные — тогда я не прав. Но анализировать их смысла нет, до тех пор пока я не буду уверен, что это действительно прогноз, и что его никто не менял с момента предсказания.

BigBeaver 20 сен 2016 в 19:50

Это-то понятно, с этим всем я согласен. Я не понял претензий по поводу «мы анализируем не все районы, потому критика неправильная» — в анализ же не входят случившиеся, но не предсказанные землетрясения?..

caveeagle 20 сен 2016 в 19:51

Да, так и есть.

caveeagle 20 сен 2016 в 16:56

Автор прочитал. Но — цифры там можно нарисовать любые, поэтому автор доверяет лишь тем цифрам, которые может проверить сам. Проверить могу только недавние.

И да, повторю кратко идею статьи: выполните предсказания с учётом двух пунктов. Это произойдёт в таком-то диапазоне координат и в таком-то диапазоне времени, с такой-то вероятностью. Всё. Тогда это будет научный подход.

И я нигде не говорил, что надо предсказывать всё, это никак не влияет на точность.

alexisneverlate 20 сен 2016 в 17:16

Конструктивные вопросы и как всё это выглядит со стороны очень ценны и я лично очень благодарен за поднятые вопросы.

На мой взгляд тоже имеет смысл выкладывать больше данных и не бояться что их какие-то сайты себе заберут как «свои» (хотя это уже много лет происходит даже без более точных данных. :))

alexisneverlate 20 сен 2016 в 17:03

Получил комментарий и от самого коллектива.

>
Не профессионально использовать для оценки качества прогнозов результаты только ОДНОГО прогностического дня, поскольку заявленная оценка в 75% получена по многолетним данным.

Действительно, 15 сентября оказался не очень удачным прогнозом, на что есть свои объективные причины.
Это является естественным процессом, поскольку в один день могут оправдаться 50% сейсмических событий, а на следующий день 95%.
В основном это определяется качеством поступающей информации.
На сайте и фейсбуке, на последнем выкладываются бесплатные прогнозы, указано, что нужно учитывать ±13 час.
Если учесть это, то результаты прогноза за 15 сентября будут следующими:

Прогноз Фактические
1509 36,0 4,0 4,0
>1509 42,0 13,0 4,0 42,8 13,2 4,3 z=10
>1509 36,5 22,0 4,0 37,7 21,2 2,7 z=2
>1509 36,0 70,0 4,0 36,4 70,9 4,2 z=195 сдвиг — 6h 33M(16.09)
>1509 6,0 126,0 4,0 5,8 124,5 5,5 z=210 сдвиг — 7h 50M(16.09)
kor. 24,0 121,0 5,0
1509 -42,0 172,0 4,0
>1509 55,0 164,0 4,0 50,0 156,3 4,4 z=80
>1509 39,0 -122,0 4,0 42,2 -121,8 2,5 z=0
1509 31,0 -115,0 4,0
1509 47,0 — 67,0 4,0
>1509 -0,5 — 78,5 4,0 0,5 — 79,9 4,7 z=10 сдвиг + 8h 10M(14.09)
1509 39,0 — 28,0 4,0

Тогда из 13 сейсмических событий оправдались 7, т.е. чуть более 50% и максимальное отклонение до 800 км наблюдается только для района Камчатки.

Зачем писать не разобравшись или даже не запросив точные данные?
График отклонения по широте, которым спекулируют в качестве претензий, как раз и показывает, какие отклонения по координатам могут возникнуть в процессе работы и какими причинами они вызваны, что нужно предпринять, чтобы увеличить точность прогнозов.

P.S. Прошу прощения за отсутсвие верстки — таблицу не нашел как вставить

caveeagle 20 сен 2016 в 17:16

Не, так не пойдёт =) Погноз — это информация, которую я получаю до события. То, что они написали сейчас про 15 сентября, это не прогноз.

Спросите их — если им будет интересно, я готов написать ещё одну статью, и публично опровергнуть мои выводы, сделанные здесь.

Для этого мне надо: заранее в течении нескольких дней давать прогноз в табличном виде. В прогнозе указывать прогнозируемое время (я приму интервал +-13 часов, но тогда сам прогноз должен даваться за 13 часов до события) Также сказать диапазон по координатам (например, 2 градуса, или 1 градус — любой диапазон, но он должен быть). Ещё можно сказать вероятность прогноза (если они хотят).

Если они вдруг согласятся — пишите в личку. Свяжемся, и я проведу такой анализ.

.

alexisneverlate 20 сен 2016 в 17:35

Спасибо я поговорю с ними. Мне такой формат был бы очень интересен и, надеюсь, не мне одному.
(примерно это и предлагал изначально организовать)

Как будет ответ — напишу в ЛС.

LeonidI 20 сен 2016 в 19:04

1. Я считаю что ± 13 часов от суток — это ок и кажется это где-то указывалось, т.е. готов считать еще три события условно «успешными»
2. Но считаю точность 1000км неприемлемой для практических применений. Ну, представьте что в пообещали землетрясение в Москве, в произошло оно в Питере :)
3. Если будете писать статью, было бы интересно оценить вероятность успешно предсказать землетрясение, выбрав как предсказание: а) 10 точек, область в 1000км от которых максимально перекрывает сейсмически опасные зоны. б) эпицентры 10 самых сильных землетрясений за последние сутки

alexisneverlate 20 сен 2016 в 22:57

>Но считаю точность 1000км неприемлемой для практических применений. Ну, представьте что в пообещали землетрясение в Москве, в произошло оно в Питере :)
По данным ученых заметно менее 1000км.
Надеюсь получится сделать более полную независимую оценку чтобы это оценить на большем числе параметров и прогнозов

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Как делать научные предсказания

Комментарии 68

Публикации

Истории