P.S. Вот привел бы автор хоть какой-нибудь содержательный пример, где его идеология моделирования смоделировала бы хоть какой-нибудь объект лучше, чем «стандартный» подход. Т.е., предсказала бы что-нибудь новое?
Пространственно — допустим (хотя я не уверен в корректности рассмотрения времени, как пространственного измерения).
Ну, посмотрите на формулы перехода из одной системы отсчета в другую в СТО, где инвариантом оказываются не расстояние и время по отдельности, а так называемый интервал с^2*t^2-r^2
У меня на Windows 7.1 64 bit/i7 3770K@3.7 ггц/Geforce 1080/2560x1600 60 гц frame rate в игре WarThunder упал. До MS патча, с отключенной вертикальной синхронизацией было ~150 на максимальных настройках (в игре, а не во встроенном benchmark'е), причем загрузка видеокарты была под 100% (что позволяло играть на «fast» синхронизации с 120 гц «развертки»). А теперь все уперлось в процессор при frame rate чуть меньше 120 гц и загрузке видеокарты в 65-70%. Или процессор скальпировать и еще разгонять, или с настройками игры экспериментировать, или, что проще всего, отказаться от «fast» вертикальной синхронизации — тогда нагрузка на процессор (ядро) падает до ~70-80%, на видеокарту — до 55-60%.
Извините, но зачем Вам всякие квадратурные функции для приближенного интегрирования, если у Вас все фунции кусочно-линейные на треугольниках (и их границах)?
На всякий случай, на известной страничке www.lfd.uci.edu/~gohlke/pythonlibs уже собранный pywin32 имеется для всех (не сильно устаревших) вариантов питона.
Если Галилей проделает очень много опытов и построит общую гистограмму (по вертикали число опытов, по горизонтали время скатывания), то получит чистый гаусс.
Нет. Гаусс получается, когда «работает» центральная предельная теорема. А вашем гипотетическом эксперименте есть некоторый неслучайный (квази)периодический эффект, который вылавливается, например, спектральным анализом временного ряда.
Если бы вместо одной гистограммы он построил бы множество, гистограммы получились бы серьёзно отличные от гаусса
Именно. И друг от друга тоже отличные. Все правильно Вы говорите — нужно доказать, что распределения в разные периоды времени — разные. А вот автор обсуждаемой публикации ищет и пытается показать наличие сходства распределений с использованием весьма неестественной метрики, да еще такой, что иногда distance(x,y) != distance(y,x). Вот взял бы он критерий Колмогорова-Смирнова (максимальное различие между кумулятивными распределениями), спорить было бы сложнее. Фокус только в том, что на маленьких выборках большие значения критерия статистически не значимы… Та же фигня творится, кстати, и с точностью оценки/сравнения параметров распределений на малых выборках. Ну, Вы же должны понимать, что это фундаментальная проблема, т.е. как данные не обрабатывай, а точности не будет? Только хуже может стать.
А потому такие «несостоятельные» гистограммы, которые приводит автор статьи, вообще-то говоря имеют полное право на жизнь и представляют отдельный интерес.
Вы можете привести хотя бы еще один пример использования такого подхода? Корректного! Я еще раз повторю, что что для дискретных случайных процессов нельзя выбирать границы и число интервалов для построения гистограмм произвольно, как это сделал автор. А последующее 5-кратное сглаживание с использованием прямоугольного окна длиной 4? Эти параметры откуда взялись?
Ну еще про использование гистограмм, построенных из последовательных выборок, Автор использовал серии по 60 измерений. Ну я я сдублировал его файл и отрезал от дубля первые 30 секунд, А потом посмотрел на кросс-корреляцию минутных гистограмм из обоих файлов. Так-вот — пропала корреляция. Как будто сравнивались два совсем разных файла… И хватит на этом.
Добрался я наконец до моей рабочей станции с двумя 5-ядерными X5650 и проверил ваши данные из обоих массивов на наличие «кросс-корреляций».
Но начну я с того, что ваш код, вычисляющий «расстояние» между сглаженными «гистограммами» (строки 182-204 из вашего кода) часто выдает разный результат в зависимости от порядка, в каком ему «выдаются» данные. Например, если рассмотреть 3-ю и 4-ю выборку (индексация, начиная с нуля) из файла 0505.txt, то:
distance between #3 and #4 = 7.98634661639
distance between #4 and #3 = 18.7975453121
Несимметричная мера, это очень серьезная ошибка, то есть теперь все ваши утверждения про наличие всяких циклов длиной в звездный день, год в процессе радиоктивного распада уже можно считать недоказанными. Исправляйте. Ну а я пока в своем анализе буду использовать полусумму (d(x,y)+d(y,x))/2.
А теперь я приведу результаты анализа, так сказать, кросс-корреляции двух временных рядов. Алгоритм был такой:
Из первого 48 часового массива отсчетов дектектора (0505.txt) были с использованием Вашего алгоритма получены 2880 «минутных» сглаженных «гистограмм» G1[i];
Из второго 48 часового массива отсчетов дектектора (0506.txt) были получены 2880 «минутных» сглаженных «гистограмм» G2[i];
Далее для диапазона временных сдвигов dt от -2880 мин до 2880 мин были получены выборки вида distance(G1[i], G2[i+dt) для максимально возможного диапазона индекса i (чтобы не вылететь за границы массив, т.е. от -2879 до 2879).
Для каждой такой выборки были посчитаны ее минимум, среднее, максимум и 5%, 50% и 95% квантили;
Для этих данных были построены графики их зависимостей от dt
Резюме: с использованием Вашего способа построения «сглаженных гистограмм» и Вашего же (симметризованного, см. выше) способа вычисления «расстояний» между этими «гистограммами» никаких статистически значимых признаков годовой цикличности не выявлено. Подробности — под спойлером.
Графики указанных зависимостей и их обсужение
Первый график — зависимость максимума выборки расстояний между гистограммами из разных годов в зависимости от сдвига времени dt (тут на самом деле, минимум, среднее и максимум — но смотрите только на красную кривую, увы, шкалы сильно различаются). Видно, что максимум максимален там, где размер выборки максимален. Ну и больше ничего…
Если поменять шкалу по оси Y, то становится видна зависимость среднего расстояния между гистограммами из разных годов в зависимости от того же сдвига dt (синий цвет). Опять — никаких следов годовой кросс-корреляции.
Если еще увеличить шкалу, то становится видна зависимость минимума между гистограммами. Выборки большие, нулей (идеально похожих гистограмм из разных годов) много, но они равномерно распределены по сдвигу. Может, там и есть ноль на упоминаемых автором обсуждаемой публикации ± 369 минутах, но это ничего не значит. Ну, и понятно, что и минимум по выборке, и максимум имеют статистически сильный разброс, т.е. я и не ожидал тут ничего интересного увидеть, но уж чего бы этот «лес» не показать.
И, наконец последний график — 5% квантиль (зеленый цвет) и медиана. И снова, кроме зависимости разброса от длины выборки, ничего нет. С моей точки зрения плоский график 5% квантиля — это самое сильное доказательство отсутствия периодичности. Т.е. если хотя бы 5% диаграмм из одного года были сильно похожи на гистограммы другого года на периоде, то график бы имел минимум. Но его нет.
И в заключение — Ваш код на гитхабе годовой периодичности процесса бета-распада на ваших же данных не показывает. Это может проверить любой квалифицированный программист, выдрав нужные куски из вашего кода, оптимизировав его (ну, зачем вы в цикле читаете данные из одного и того же файла?) и реализовав мою «внешнюю» обвязку, описанную выше.
Может быть, вас есть «правильный» код? Покажите его, пожалуйста. Или, хотя бы опубликуйте алгоритм, чтобы его можно было повторить. А иначе окажется, что Вы совсем зря здесь опубликовались…
Для меня было шоком, когда нашелся звездный год. Проверьте его обязательно
Для того, чтобы проверить, хотелось бы понять, что находится в ваших файлах 0505.txt и 0506.txt? В каждом из них 172800 строк, т.е. по 48 часов наблюдений.
Один файл — данные типа за первые 48 часов первого года, второй файл — 48 часов второго года?
Или первые сутки в каждом файле — один год, вторые сутки — другой?
Или еще как-нибудь иначе?
А то я хоть и сделал ваш код более чем в 10 раз быстрее, но все равно, если статистику собирать, не очень быстро получается.
P.S. Вот привел бы автор хоть какой-нибудь содержательный пример, где его идеология моделирования смоделировала бы хоть какой-нибудь объект лучше, чем «стандартный» подход. Т.е., предсказала бы что-нибудь новое?
Ну, посмотрите на формулы перехода из одной системы отсчета в другую в СТО, где инвариантом оказываются не расстояние и время по отдельности, а так называемый интервал с^2*t^2-r^2
e = sum(1/x!, x=0..infinity)
А та сумма, что Вы привели, если Maple не врет, равна:
sum(1/x^2, x=1..infinity) = pi^2/6
P.S. А как микрокоды из deb-файла извлечь?
Пробовал отключить защиту с помощью ключей регистра (требуется перезагрузка!), описанных в: https://support.microsoft.com/en-gb/help/4072698/windows-server-guidance-to-protect-against-the-speculative-execution. Защита (см. Powershell скрипт, указанный в конце указанной страницы), отключается, но быстродействие не восстанавливается :(
P.S. Если интересно, могу показать вывод скрипта до патча, после патча и после отключения защиты.
Именно. И друг от друга тоже отличные. Все правильно Вы говорите — нужно доказать, что распределения в разные периоды времени — разные. А вот автор обсуждаемой публикации ищет и пытается показать наличие сходства распределений с использованием весьма неестественной метрики, да еще такой, что иногда distance(x,y) != distance(y,x). Вот взял бы он критерий Колмогорова-Смирнова (максимальное различие между кумулятивными распределениями), спорить было бы сложнее. Фокус только в том, что на маленьких выборках большие значения критерия статистически не значимы… Та же фигня творится, кстати, и с точностью оценки/сравнения параметров распределений на малых выборках. Ну, Вы же должны понимать, что это фундаментальная проблема, т.е. как данные не обрабатывай, а точности не будет? Только хуже может стать.
Вы можете привести хотя бы еще один пример использования такого подхода? Корректного! Я еще раз повторю, что что для дискретных случайных процессов нельзя выбирать границы и число интервалов для построения гистограмм произвольно, как это сделал автор. А последующее 5-кратное сглаживание с использованием прямоугольного окна длиной 4? Эти параметры откуда взялись?
Ну еще про использование гистограмм, построенных из последовательных выборок, Автор использовал серии по 60 измерений. Ну я я сдублировал его файл и отрезал от дубля первые 30 секунд, А потом посмотрел на кросс-корреляцию минутных гистограмм из обоих файлов. Так-вот — пропала корреляция. Как будто сравнивались два совсем разных файла… И хватит на этом.
Но начну я с того, что ваш код, вычисляющий «расстояние» между сглаженными «гистограммами» (строки 182-204 из вашего кода) часто выдает разный результат в зависимости от порядка, в каком ему «выдаются» данные. Например, если рассмотреть 3-ю и 4-ю выборку (индексация, начиная с нуля) из файла 0505.txt, то:
distance between #3 and #4 = 7.98634661639
distance between #4 and #3 = 18.7975453121
Несимметричная мера, это очень серьезная ошибка, то есть теперь все ваши утверждения про наличие всяких циклов длиной в звездный день, год в процессе радиоктивного распада уже можно считать недоказанными. Исправляйте. Ну а я пока в своем анализе буду использовать полусумму (d(x,y)+d(y,x))/2.
А теперь я приведу результаты анализа, так сказать, кросс-корреляции двух временных рядов. Алгоритм был такой:
Резюме: с использованием Вашего способа построения «сглаженных гистограмм» и Вашего же (симметризованного, см. выше) способа вычисления «расстояний» между этими «гистограммами» никаких статистически значимых признаков годовой цикличности не выявлено. Подробности — под спойлером.
Если поменять шкалу по оси Y, то становится видна зависимость среднего расстояния между гистограммами из разных годов в зависимости от того же сдвига dt (синий цвет). Опять — никаких следов годовой кросс-корреляции.
Если еще увеличить шкалу, то становится видна зависимость минимума между гистограммами. Выборки большие, нулей (идеально похожих гистограмм из разных годов) много, но они равномерно распределены по сдвигу. Может, там и есть ноль на упоминаемых автором обсуждаемой публикации ± 369 минутах, но это ничего не значит. Ну, и понятно, что и минимум по выборке, и максимум имеют статистически сильный разброс, т.е. я и не ожидал тут ничего интересного увидеть, но уж чего бы этот «лес» не показать.
И, наконец последний график — 5% квантиль (зеленый цвет) и медиана. И снова, кроме зависимости разброса от длины выборки, ничего нет. С моей точки зрения плоский график 5% квантиля — это самое сильное доказательство отсутствия периодичности. Т.е. если хотя бы 5% диаграмм из одного года были сильно похожи на гистограммы другого года на периоде, то график бы имел минимум. Но его нет.
И в заключение — Ваш код на гитхабе годовой периодичности процесса бета-распада на ваших же данных не показывает. Это может проверить любой квалифицированный программист, выдрав нужные куски из вашего кода, оптимизировав его (ну, зачем вы в цикле читаете данные из одного и того же файла?) и реализовав мою «внешнюю» обвязку, описанную выше.
Может быть, вас есть «правильный» код? Покажите его, пожалуйста. Или, хотя бы опубликуйте алгоритм, чтобы его можно было повторить. А иначе окажется, что Вы совсем зря здесь опубликовались…
А то я хоть и сделал ваш код более чем в 10 раз быстрее, но все равно, если статистику собирать, не очень быстро получается.