Добрый день Хабр. Пишу сюда, потому что некоторым может быть интересен метод Dynamic Time Warping
не только в распозновании речи и временных рядов, но как применение и в сугубо научных методах.
В далеких 50-х годах 20 века радиолог Симон Шноль из Пущинского Института теоретической и экспериментальной биофизики и МГУ в попытках уменьшить разброс результатов при возможно более точном выполнении измерений скорости гидролиза АТФ катализируемой белками актомиозинового коплекса натолкнулся на необъяснимою сходность гистограмм (графики плотности вероятности) одновременных, но находящихся в разных точках лаборатории измерений.
Как плотности вероятности могут быть похожи? Очень просто, если представить, что любое реальное измерение обладает помехами по отношению к любым проектированиям гипотез распределения.
Пример нормального распределения
Пример искаженнного
Пример сравнения двух гистограмм.
Человеческое зрение легко может увидеть все эти горбы и равнины. Задача как для распознавания почерка человека.
Продолжим рассказ:
Оказалось что при сохраняемости амплитуды флуктуаций величины в постоянном диапазоне, гистограммы могут сильно различаться и каждая формировать
уникальную картинку, хорошо видимую глазом. Эти картинки можно относить к нескольким динамическу формируемым классам.Или сравнивать каждую с каждой
Ученые шли долгим путем через исследование влияние электромагнитной изоляции, арктических и антарктических экспедиций, перехода от биохимическим реакциям
к электромагнитным шумам и радиоактивным распадам.
Поочередно проверялось сохранение эффекта формы
— на фибриллярных белках актомиозина в водном растворе
— глобулярных белков креатинкиназы в водном растворе
— реакция аскорбиновой кислоты с дихлорфенолиндофенолом (синяя краска)
— опыты с гомологичным рядом спиртов и с D2O
— проверялось влияние видимого света
— проверялась зависимость амплитуды конфромационных колебаний от формы сосудов
— проверялось влияние исскуственных электромагнитных полей
— при защите электромагнитным экраном
— изменение амплитуды химических реакций коррелирует лив с солнечной активностью
— альфа распад 239 плутония
— превращения железа 55 в магний 55
— бета распад углерода 14
Более подробно это описано в книге
и статьях на Успехах физических наук
http://ufn.ru/ru/articles/1998/10/e/
http://ufn.ru/ru/articles/2000/2/o/
А также легкие ролики
Академия
Гордон
Выводы этих исследований
— Форма гистограмм неслучайна и зависит от космофизических причин
— Неслучайность повторения формы гистограмм во времени
— Форма гистограмм с высокой вероятностью повторяется с периодичностью сутки, месяц, солнечный и звездный год
— Форма гистограмм сходна в ближайшие промежутки времени
— Формы гистограмм с высокой вероятностью бывают хирально симметричными
Каким методом можно получить математическое доказательство этого эффекта?
Все сходится если применить Dynamic time warping(DTW) — один из методов статистической дистанции
Самый тривиальный случай для статистической дистанции исползовать евклидово расстояние:
DTW — это предварительное комбинаторное сравнение всех элементов со всеми для формирования матрицы расстояний и
последующее вычисление минимального пути по которому из точки начала графика можно попасть в конец при минимальных перестановках.
Хорошее представление это столбики гистограммы представить в виде куч земли. И тогда дистанция между столбиком номер 2 и 7:
(7-2)*(высота столбика 1 — высота столбика 2) или для матрицы это будет просто (высота столбика 1 — высота столбика 2).
Шаг влево, шаг вправо для поиска минимума
Ссылка на файл рядов количества радиоактивного распада в секунду за два дня 2*86400 значений
https://www.dropbox.com/s/fhroi3vt04tw5xl/28-08-2004.txt
Пример суточного ритма по сравнению с случайным сравнением. 120 точек на график.
Считал сумму всех dtw дистанций 1 гистограммы 1 суток и 1 гистограммы вторых суток +2 гистограмма 1 суток 2 гистограмма 2 суток…
Чем ближе к 0 тем похожее.
Рандом это сравнение 2 случайных гистограмм и сумма n таких= гистограмм в сутках
10 Итераций рандомом:
0 итерация 175151
1 итерация 173674
2 итерация 177803
3 итерация 173606
4 итерация 170081
5 итерация 163283
6 итерация 168616
7 итерация 171315
8 итерация 172237
9 итерация 174893
Для суточного ритма 27857
Каждый шаг это на 120 секунд в сторону от суточного ритма.
+ 0 шаг 27857.0
+ 1 шаг 28236.0
+ 2 шаг 28390.0
+ 3 шаг 28627.0
+ 4 шаг 28670.0
+ 5 шаг 28817.0
+ 6 шаг 29241.0
+ 7 шаг 29174.0
+ 8 шаг 29498.0
+ 9 шаг 29607.0
+ 10 шаг 29897.0
+ 11 шаг 29882.0
+ 12 шаг 30004.0
+ 13 шаг 30519.0
+ 14 шаг 30724.0
Самое замечательное что формула дистанции для DTW может быть любая к примеру расчет суток для формулы
Для формулы выше рандом 42627
Суточный ритм 6027
Или такую
Итог: Мы имеем дело с флуктуациями пространства времени, обусловленными неоднородностью пространства.
Возможно это и есть недостающий кубик для термоядерного синтеза и причина неполноты знаний в этой области.
github.com/smagikern/radioactivity — Код для поиска ритмов на гитхабе
не только в распозновании речи и временных рядов, но как применение и в сугубо научных методах.
В далеких 50-х годах 20 века радиолог Симон Шноль из Пущинского Института теоретической и экспериментальной биофизики и МГУ в попытках уменьшить разброс результатов при возможно более точном выполнении измерений скорости гидролиза АТФ катализируемой белками актомиозинового коплекса натолкнулся на необъяснимою сходность гистограмм (графики плотности вероятности) одновременных, но находящихся в разных точках лаборатории измерений.
Как плотности вероятности могут быть похожи? Очень просто, если представить, что любое реальное измерение обладает помехами по отношению к любым проектированиям гипотез распределения.
Пример нормального распределения
Пример искаженнного
Пример сравнения двух гистограмм.
Человеческое зрение легко может увидеть все эти горбы и равнины. Задача как для распознавания почерка человека.
Продолжим рассказ:
Оказалось что при сохраняемости амплитуды флуктуаций величины в постоянном диапазоне, гистограммы могут сильно различаться и каждая формировать
уникальную картинку, хорошо видимую глазом. Эти картинки можно относить к нескольким динамическу формируемым классам.Или сравнивать каждую с каждой
Ученые шли долгим путем через исследование влияние электромагнитной изоляции, арктических и антарктических экспедиций, перехода от биохимическим реакциям
к электромагнитным шумам и радиоактивным распадам.
Поочередно проверялось сохранение эффекта формы
— на фибриллярных белках актомиозина в водном растворе
— глобулярных белков креатинкиназы в водном растворе
— реакция аскорбиновой кислоты с дихлорфенолиндофенолом (синяя краска)
— опыты с гомологичным рядом спиртов и с D2O
— проверялось влияние видимого света
— проверялась зависимость амплитуды конфромационных колебаний от формы сосудов
— проверялось влияние исскуственных электромагнитных полей
— при защите электромагнитным экраном
— изменение амплитуды химических реакций коррелирует лив с солнечной активностью
— альфа распад 239 плутония
— превращения железа 55 в магний 55
— бета распад углерода 14
Более подробно это описано в книге
и статьях на Успехах физических наук
http://ufn.ru/ru/articles/1998/10/e/
http://ufn.ru/ru/articles/2000/2/o/
А также легкие ролики
Академия
Гордон
Выводы этих исследований
— Форма гистограмм неслучайна и зависит от космофизических причин
— Неслучайность повторения формы гистограмм во времени
— Форма гистограмм с высокой вероятностью повторяется с периодичностью сутки, месяц, солнечный и звездный год
— Форма гистограмм сходна в ближайшие промежутки времени
— Формы гистограмм с высокой вероятностью бывают хирально симметричными
Каким методом можно получить математическое доказательство этого эффекта?
Все сходится если применить Dynamic time warping(DTW) — один из методов статистической дистанции
Самый тривиальный случай для статистической дистанции исползовать евклидово расстояние:
DTW — это предварительное комбинаторное сравнение всех элементов со всеми для формирования матрицы расстояний и
последующее вычисление минимального пути по которому из точки начала графика можно попасть в конец при минимальных перестановках.
Хорошее представление это столбики гистограммы представить в виде куч земли. И тогда дистанция между столбиком номер 2 и 7:
(7-2)*(высота столбика 1 — высота столбика 2) или для матрицы это будет просто (высота столбика 1 — высота столбика 2).
Шаг влево, шаг вправо для поиска минимума
Ссылка на файл рядов количества радиоактивного распада в секунду за два дня 2*86400 значений
https://www.dropbox.com/s/fhroi3vt04tw5xl/28-08-2004.txt
Пример суточного ритма по сравнению с случайным сравнением. 120 точек на график.
Считал сумму всех dtw дистанций 1 гистограммы 1 суток и 1 гистограммы вторых суток +2 гистограмма 1 суток 2 гистограмма 2 суток…
Чем ближе к 0 тем похожее.
Рандом это сравнение 2 случайных гистограмм и сумма n таких= гистограмм в сутках
10 Итераций рандомом:
0 итерация 175151
1 итерация 173674
2 итерация 177803
3 итерация 173606
4 итерация 170081
5 итерация 163283
6 итерация 168616
7 итерация 171315
8 итерация 172237
9 итерация 174893
Для суточного ритма 27857
Каждый шаг это на 120 секунд в сторону от суточного ритма.
+ 0 шаг 27857.0
+ 1 шаг 28236.0
+ 2 шаг 28390.0
+ 3 шаг 28627.0
+ 4 шаг 28670.0
+ 5 шаг 28817.0
+ 6 шаг 29241.0
+ 7 шаг 29174.0
+ 8 шаг 29498.0
+ 9 шаг 29607.0
+ 10 шаг 29897.0
+ 11 шаг 29882.0
+ 12 шаг 30004.0
+ 13 шаг 30519.0
+ 14 шаг 30724.0
Самое замечательное что формула дистанции для DTW может быть любая к примеру расчет суток для формулы
Для формулы выше рандом 42627
Суточный ритм 6027
Или такую
Итог: Мы имеем дело с флуктуациями пространства времени, обусловленными неоднородностью пространства.
Возможно это и есть недостающий кубик для термоядерного синтеза и причина неполноты знаний в этой области.
github.com/smagikern/radioactivity — Код для поиска ритмов на гитхабе