Все, конечно, слышали про утёкший в интернет архив метрологического почтового сервера, на хабре даже было обсуждение.
Когда у меня наконец выбрался свободный вечер я решил изучить содержимое этого архива, причём специально не искал аналогичных исследований, чтобы они не могли повлиять на ход моих рассуждений (да и не нашлось, по итогам).
Чего там внутри только нет, какие-то pdf, программы на фортране, юниксовые ELF-исполняемые файлы, русские имена/фамилии и даже кириллические комментарии внутри некоторых файлов. Так любопытно мне не было ни в одной компьютерной игре.
Первым делом меня заинтересовали каталоги в духе «yakutia», но остановился я на архиве mbh98-osborn.zip. Внутри него есть каталог TREE и уже в нём – VAGANOV, звучит дружелюбно, правда? Им я и заинтересовался вплотную.
Оговорюсь сразу, что разного рода далеко идущие выводы и моральный аспект вопроса или отложены в постскриптум или вынесены за рамки статьи и не рассматриваются вовсе. Туда же вынесены соображения о тоне переписки и вообще о её содержимом. Всякие любопытные мелочи, на которые я натыкался по ходу дела, я собрал в конце статьи, чтобы они не портили структуру изложения.
Итак архив mbh98-osborn.zip, каталог VAGANOV. Кроме каких-то странных файлов воде eof04.out (27 байт), пары программ на фортране и какого-то совсем мусора там был каталог с говорящим названием ORIG, с чем-то уже более осознанным внутри.
Файл 1.txt.gz
Содержит примерно следующее:
Это ж метеорологи, что первое в голову приходит? Конечно же это данные о температуре. Только не ясно какой: от 50 до 145, в фаренгейтах блин что ли? Было бы странно для Ваганова. В каждой строке явно закодированы данные за десятилетие. Таких файлов там от 1 до 61, все заканчиваются строкой про 1990, ничем другим кроме года это быть ну никак не может, тем более, что написано же по-русски: «Хронология».
Странным показалось то, что данные идут аж с 1700, чё-то рановато для ежегодных наблюдений за температурой, да ещё и в 61-м городе. Ещё непонятно что за код: на названия русских городов не очень похоже: SCH, KHA, KHD, JAH и так далее. Зато есть файл sib.dat, в котором по каждому файлу и соответствующему коду дано следующее:
Вот что такое 69.17 66.49? Похоже на широту и долготу. Места живописнейшие.
Собственно я уже не помню как, из каких-то сопроводительных файлов в соседних каталогах, я нашёл упоминания деревьев, колец и словосочетание «Dendroclimatic reconstruction». То есть, судя по всему, эти данные – измерение годовых колец деревьев, что может являться некой мерой оценки температуры в прошлом. Это вообще много чего объясняет, например то, что в некоторых файлах присутствуют данные аж за 15-й век.
Умозаключения на этот счёт я решил отложить, потому что уже давно в голове застряла мысль, разложить эти данные на плоскости и посмотреть их динамику, ведь самое интересное, что только бывает – это статистика. Первые попытки я сделал в Excel’е, из которых сразу следовало, что посмотреть будет на что. Поэтому я решил всё-таки загрузить все эти данные в СУБД и понастроить всевозможных графиков. Товарищ Ваганов или его коллеги упростили, кстати, задачу и специально для загрузки подготовили данные в файлах типа vag01.dat, где они даны в виде пар «год – значение», так что не понадобилось возиться с разбором этих матриц. Всего записей загружено: 26031.
Графики
Первый график это просто сырые данные из первого файла (ссылка ведёт на саму картинку).
Выглядит шумновато, особенно если пытаться выводить данные по нескольким файлам, поэтому далее я показываю усреднённые значения.
Далее период времени я сократил только до прошлого века, выглядит не менее показательно. Два графика рядом:
Сдвиг по вертикали между ними искусственный, просто чтобы не было тучи пересечений, порядок значений там совершенно одинаковый. Второе дерево, кстати, было взято недалеко от первого (69.5, 67.12). То, что графики похожи – очевидно, а с 1960-го года вообще практически совпадают. Это означает что расстояния между кольцами на разных деревьях (удалённых друг от друга на сотни километров) очень похожи и зависят от неких внешних условий. Упрощая – от климата, ещё упрощая – от температуры.
Строим график по десятку деревьев, все примерно в этом районе:
Наше дерево – первое снизу, и далее наверх. Если заглянуть в sib.dat, то деревья собраны примерно на одной широте, с последовательным продвижением на восток от 69.17 (нижний график) до 93.5 (верхний график). Конечно, есть разные отклонения, но и очевидная зависимость между графиками тоже присутствует. Второй и четвёртый так похожи, что я задумался, не ошибка ли это. Удивительно похожи между собой верхние пять графиков, особенно если вспомнить что это за данные.
Затем я дополнил картину ещё двумя графиками, красный – это среднее по всей выборке, зелёный – среднее по отображённому десятку графиков.
Как и следовало ожидать:
а) усреднённые графики более спокойные;
б) средний по всему региону наиболее пологий и не всегда отражает колебания отдельных графиков и даже колебания среднего по широте.
Уже в процессе написания отчёта пришла мысль взять половину выборки из другой части региона, что я и сделал:
Здесь пять первых деревьев, нижние, те же, что и на предыдущих рисунках, это долгота: 69.17 — 71.4. Другие пять с восточного края страны: 130.5 — 160.46.
Пункт первый: заметно, что первые пять графиков похожи между собой, так же как и вторые пять. Но вот явных зависимостей между графиками первой и второй пятёрок практически не заметно.
Пункт второй: Среднее, построенное по этому десятку графиков во-первых гораздо более пологое и во-вторых имеет явные черты среднего по всей выборке.
Сто одна мелочь
— в большей части файлов архива конец строки – 0x0a, значит какие-то юниксы;
— в файле с описанием мест сбора (sib.dat) данные даны в фиг вообще знает в каком порядке, хотя в итоге есть по всем пунктам;
— широту и долготу я поменял местами, иначе то африка, то океан оказываются, да и не бывает широт больше 90°;
— в нескольких файлах есть пересечения значений по датам, наткнулся на это при загрузке;
— файл с данными №55 – вообще отсутствует, хотя в sib.dat он упомянут и указывает туда;
— самая ранняя запись датируется 1325-м годом, это за двести лет до Ивана Грозного;
— очень похоже, что аналогичные данные доступны ещё по Канаде;
— я ведь возился практически с первым, что попалось под руку, всего там 60 Мб данных в архиве;
— в архиве содержится pdf с отображением оценки изменения температур за последние несколько веков (одна из диаграмм).
Типа выводы
Можно вернуться и посмотреть на первый-второй рисунки: явной тенденции к росту или падению на глаз не видно. Зато отлично видно, что разброс значений в рамках ста лет может быть такой бешеный, что даже явная тенденция в какую-либо из сторон в соседние, скажем, 10-20 лет совершенно ничего не значит и за ростом всегда идёт спад, а за спадом — рост. Кроме того, если посмотреть на график по пяти деревьям за 300 лет (картинка), то там можно чёрта в ступе найти. Например, при желании можно рассмотреть 10-20-ти или более крупные 50-ти летние циклы, свидетельства перемены динамики изменений температуры в последний век, аномалии в год падения тунгусского метеорита и следы присутствия марсиан.
Однако в процессе работы с этими данными я узнал, что с возрастом дерева, динамика зависимости ширины годовых колец от температуры изменяется. В какую сторону и каким образом – я пока не разобрался. Чтобы убрать это изменение существует некая процедура стандартизации данных (Regional Curve Standardization), про которую в интернете можно кое-что найти. Хотя бы по одной этой причине, совершенно очевидно, что никакие существенные выводы относительно температур и климата на основе этих данных делать нельзя. Ещё, например, надо понимать, что размер колец не означает среднегодовой температуры, даже среднюю температуру за лето отражает как-то нелинейно.
Главное, что из этой истории вынес лично я: имея доступ к архиву с такими данными надо не переписку изучать, и тем более не разбор этой переписки на форумах, а смотреть на сами данные, ведь это куда интереснее. Ещё 10-15 лет назад такой возможности ни у кого быть не могло, а сегодня я могу вечером, так вот запросто, посмотреть на данные от 1400-го года. Это же даже представить невозможно как из тех мест надо было добывать эти данные (о чём, кстати в переписке упоминается). И это сегодня, а завтра кто ещё знает чего там кто где добудет.
Когда у меня наконец выбрался свободный вечер я решил изучить содержимое этого архива, причём специально не искал аналогичных исследований, чтобы они не могли повлиять на ход моих рассуждений (да и не нашлось, по итогам).
Чего там внутри только нет, какие-то pdf, программы на фортране, юниксовые ELF-исполняемые файлы, русские имена/фамилии и даже кириллические комментарии внутри некоторых файлов. Так любопытно мне не было ни в одной компьютерной игре.
Первым делом меня заинтересовали каталоги в духе «yakutia», но остановился я на архиве mbh98-osborn.zip. Внутри него есть каталог TREE и уже в нём – VAGANOV, звучит дружелюбно, правда? Им я и заинтересовался вплотную.
Оговорюсь сразу, что разного рода далеко идущие выводы и моральный аспект вопроса или отложены в постскриптум или вынесены за рамки статьи и не рассматриваются вовсе. Туда же вынесены соображения о тоне переписки и вообще о её содержимом. Всякие любопытные мелочи, на которые я натыкался по ходу дела, я собрал в конце статьи, чтобы они не портили структуру изложения.
Итак архив mbh98-osborn.zip, каталог VAGANOV. Кроме каких-то странных файлов воде eof04.out (27 байт), пары программ на фортране и какого-то совсем мусора там был каталог с говорящим названием ORIG, с чем-то уже более осознанным внутри.
Файл 1.txt.gz
Содержит примерно следующее:
Хронология 1 (SCH)
Годы 0 1 2 3 4 5 6 7 8 9
1710 00 00 00 00 59 125 90 90 85 98
1720 76 140 87 79 133 152 103 143 142 122
1730 84 140 96 145 72 111 94 86 60 143
<...>
1980 81 113 133 122 100 75 84 111 95 113
1990 88 00 00 00 00 00 00 00 00 00
Это ж метеорологи, что первое в голову приходит? Конечно же это данные о температуре. Только не ясно какой: от 50 до 145, в фаренгейтах блин что ли? Было бы странно для Ваганова. В каждой строке явно закодированы данные за десятилетие. Таких файлов там от 1 до 61, все заканчиваются строкой про 1990, ничем другим кроме года это быть ну никак не может, тем более, что написано же по-русски: «Хронология».
Странным показалось то, что данные идут аж с 1700, чё-то рановато для ежегодных наблюдений за температурой, да ещё и в 61-м городе. Ещё непонятно что за код: на названия русских городов не очень похоже: SCH, KHA, KHD, JAH и так далее. Зато есть файл sib.dat, в котором по каждому файлу и соответствующему коду дано следующее:
1,SCH,69.17,66.49
2,KHA,69.5,67.12
3,KHD,69.54,67.07
4,JAH,70.58,67.25
…
Вот что такое 69.17 66.49? Похоже на широту и долготу. Места живописнейшие.
Собственно я уже не помню как, из каких-то сопроводительных файлов в соседних каталогах, я нашёл упоминания деревьев, колец и словосочетание «Dendroclimatic reconstruction». То есть, судя по всему, эти данные – измерение годовых колец деревьев, что может являться некой мерой оценки температуры в прошлом. Это вообще много чего объясняет, например то, что в некоторых файлах присутствуют данные аж за 15-й век.
Умозаключения на этот счёт я решил отложить, потому что уже давно в голове застряла мысль, разложить эти данные на плоскости и посмотреть их динамику, ведь самое интересное, что только бывает – это статистика. Первые попытки я сделал в Excel’е, из которых сразу следовало, что посмотреть будет на что. Поэтому я решил всё-таки загрузить все эти данные в СУБД и понастроить всевозможных графиков. Товарищ Ваганов или его коллеги упростили, кстати, задачу и специально для загрузки подготовили данные в файлах типа vag01.dat, где они даны в виде пар «год – значение», так что не понадобилось возиться с разбором этих матриц. Всего записей загружено: 26031.
Графики
Первый график это просто сырые данные из первого файла (ссылка ведёт на саму картинку).
Выглядит шумновато, особенно если пытаться выводить данные по нескольким файлам, поэтому далее я показываю усреднённые значения.
Далее период времени я сократил только до прошлого века, выглядит не менее показательно. Два графика рядом:
Сдвиг по вертикали между ними искусственный, просто чтобы не было тучи пересечений, порядок значений там совершенно одинаковый. Второе дерево, кстати, было взято недалеко от первого (69.5, 67.12). То, что графики похожи – очевидно, а с 1960-го года вообще практически совпадают. Это означает что расстояния между кольцами на разных деревьях (удалённых друг от друга на сотни километров) очень похожи и зависят от неких внешних условий. Упрощая – от климата, ещё упрощая – от температуры.
Строим график по десятку деревьев, все примерно в этом районе:
Наше дерево – первое снизу, и далее наверх. Если заглянуть в sib.dat, то деревья собраны примерно на одной широте, с последовательным продвижением на восток от 69.17 (нижний график) до 93.5 (верхний график). Конечно, есть разные отклонения, но и очевидная зависимость между графиками тоже присутствует. Второй и четвёртый так похожи, что я задумался, не ошибка ли это. Удивительно похожи между собой верхние пять графиков, особенно если вспомнить что это за данные.
Затем я дополнил картину ещё двумя графиками, красный – это среднее по всей выборке, зелёный – среднее по отображённому десятку графиков.
Как и следовало ожидать:
а) усреднённые графики более спокойные;
б) средний по всему региону наиболее пологий и не всегда отражает колебания отдельных графиков и даже колебания среднего по широте.
Уже в процессе написания отчёта пришла мысль взять половину выборки из другой части региона, что я и сделал:
Здесь пять первых деревьев, нижние, те же, что и на предыдущих рисунках, это долгота: 69.17 — 71.4. Другие пять с восточного края страны: 130.5 — 160.46.
Пункт первый: заметно, что первые пять графиков похожи между собой, так же как и вторые пять. Но вот явных зависимостей между графиками первой и второй пятёрок практически не заметно.
Пункт второй: Среднее, построенное по этому десятку графиков во-первых гораздо более пологое и во-вторых имеет явные черты среднего по всей выборке.
Сто одна мелочь
— в большей части файлов архива конец строки – 0x0a, значит какие-то юниксы;
— в файле с описанием мест сбора (sib.dat) данные даны в фиг вообще знает в каком порядке, хотя в итоге есть по всем пунктам;
— широту и долготу я поменял местами, иначе то африка, то океан оказываются, да и не бывает широт больше 90°;
— в нескольких файлах есть пересечения значений по датам, наткнулся на это при загрузке;
— файл с данными №55 – вообще отсутствует, хотя в sib.dat он упомянут и указывает туда;
— самая ранняя запись датируется 1325-м годом, это за двести лет до Ивана Грозного;
— очень похоже, что аналогичные данные доступны ещё по Канаде;
— я ведь возился практически с первым, что попалось под руку, всего там 60 Мб данных в архиве;
— в архиве содержится pdf с отображением оценки изменения температур за последние несколько веков (одна из диаграмм).
Типа выводы
Можно вернуться и посмотреть на первый-второй рисунки: явной тенденции к росту или падению на глаз не видно. Зато отлично видно, что разброс значений в рамках ста лет может быть такой бешеный, что даже явная тенденция в какую-либо из сторон в соседние, скажем, 10-20 лет совершенно ничего не значит и за ростом всегда идёт спад, а за спадом — рост. Кроме того, если посмотреть на график по пяти деревьям за 300 лет (картинка), то там можно чёрта в ступе найти. Например, при желании можно рассмотреть 10-20-ти или более крупные 50-ти летние циклы, свидетельства перемены динамики изменений температуры в последний век, аномалии в год падения тунгусского метеорита и следы присутствия марсиан.
Однако в процессе работы с этими данными я узнал, что с возрастом дерева, динамика зависимости ширины годовых колец от температуры изменяется. В какую сторону и каким образом – я пока не разобрался. Чтобы убрать это изменение существует некая процедура стандартизации данных (Regional Curve Standardization), про которую в интернете можно кое-что найти. Хотя бы по одной этой причине, совершенно очевидно, что никакие существенные выводы относительно температур и климата на основе этих данных делать нельзя. Ещё, например, надо понимать, что размер колец не означает среднегодовой температуры, даже среднюю температуру за лето отражает как-то нелинейно.
Главное, что из этой истории вынес лично я: имея доступ к архиву с такими данными надо не переписку изучать, и тем более не разбор этой переписки на форумах, а смотреть на сами данные, ведь это куда интереснее. Ещё 10-15 лет назад такой возможности ни у кого быть не могло, а сегодня я могу вечером, так вот запросто, посмотреть на данные от 1400-го года. Это же даже представить невозможно как из тех мест надо было добывать эти данные (о чём, кстати в переписке упоминается). И это сегодня, а завтра кто ещё знает чего там кто где добудет.