Метод фрактального многообразия в задачах Data Science

Получен критерий (SNR), отличающий функцию Гаусса, распределение случайных величин в отсутствии взаимной корреляции, от других функций, что делает возможным описание коллективных состояний с сильной взаимной корреляцией данных. Определяется отношение сигнала к шуму (SNR) в одномерном пространстве и приводится алгоритм вычисления, основанный на фрактальном многообразии фрактала пыль Кантора в замкнутом контуре. Алгоритм инвариантен относительно любых линейных преобразований исходного набора данных, обладает ренормгрупповой инвариантностью и определяет степень взаимной корреляции данных с учётом окрестности или коллективный эффект. Описание коллективного состояния носит универсальный характер и не зависит от природы корреляции данных, как и универсальность распределения случайных величин в отсутствии корреляции данных. Метод применим для больших наборов негауссовых или странных данных, полученных в информационных технологиях. В подтверждении гипотезы Кошланда, применение метода к данным интенсивности цифровых спектров рентгеноструктурного анализа с вычислением коллективного эффекта позволяет выделить конформер, проявляющий биологическую активность.

1. Введение


Представлен метод, опирающийся на теоретические подходы в понимании наиболее общих закономерностей поведения сложных нелинейных динамических систем, образующих коллективные состояния. Обзор [1] знакомит с рядом нестандартных идей применения фрактальных объектов к описанию нелинейных динамических систем, обнаруживающих самосогласованное стремление к критическим или коллективным состояниям. В окрестности коллективного состояния число степеней свободы становится минимальным. На языке топологии пространства это означает, что уменьшается фрактальная размерность пространства за счёт появления дискретных непроницаемых областей, моделирующих коллективное состояние в простой системе.
Таким образом, сложность нелинейной системы переносится на сложность пространства. При этом проявляется универсальность геометрического подхода в описании нелинейных систем от задач турбулентности до искусственного интеллекта (самоорганизации). В развитие этих идей в данной статье даётся пример построения фрактального многообразия, основанного на фрактале пыль Кантора.
Предлагается вычислительный метод, преобразующий исходные негауссовы данные в гауссовы, что позволяет в дальнейшем сравнивать количественно структурные характеристики больших наборов данных.

2. Вычислительный метод


Преобразованное значение негауссовых данных, допускающее количественное сравнение, должно быть инвариантно относительно любых линейных преобразований значений исходных данных [2]. Задача имеет решение только для упорядоченных странных данных и с учётом окрестности, в которой проявляется нелинейность. Как показано в работе, преобразование должно обладать ренормгрупповой инвариантностью в отношении размера окрестности, в которой происходит количественное сравнение проявлений нелинейности.

Далее приводятся ключевые шаги вывода формулы отношения сигнала к шуму, допускающего количественное сравнение. Фрактал пыль Кантора или геометрическая прогрессия с произвольным значением 0<q<1 (в классическом фрактале множества Кантора q=2/3) имеет вид:

Предлагается следующий способ построения фрактального многообразия. Фрактальное многообразие для n=5 произвольного набора пяти упорядоченных чисел имеет вид:


С каждым фрактальным циклом m, где m→∞, появляется новое число из выборки негауссовых данных n и далее по замкнутому контуру. Различается левое и правое направление обхода контура. В общем виде:


Аналогично для получается:

Здесь и далее формулы в обозначении Mathcad.

Множества и образуют фрактальные многообразия. Определяется выражение для отношения сигнала к шуму:


Уникальность функций Гаусса, Бесселя на которой основано практическое применение метода состоит в том, что отношение сигнала к шуму SNR в определении (5) для этих функций не зависит от значения n. В реальных данных присутствуют как случайные эффекты, так и коллективные эффекты, вызванные взаимной корреляцией. Аппроксимация данных конечным рядом функций Бесселя (приблизительно, от трёх до семи членов ряда) оставляет только вклад случайных вариаций. Аппроксимация данных конечным рядом Фурье с последующим преобразованием SNR позволяет выделить коллективный эффект.

При моделировании негауссовых данных полуволной , что применяется в расчётах с предварительной аппроксимацией данных конечным рядом Фурье, для достаточно больших значений n выражение отношения сигнала к шуму имеет вид:


Потребуем выполнение условия ренормгрупповой инвариантности SNR(n,q), приближающее странные данные к гауссовым: при изменении n→n' происходит преобразование q→q', оставляющее значение SNR(n,q) (8) неизменным в методе ренормализационной группы. Требование ренормгрупповой инвариантности выполняется при условии:


Решение дифференциального уравнения имеет вид:

Выбор постоянной величины μ задаёт масштаб отношения сигнала к шуму.

Для больших значений n, асимптотики параметров длины фрактальных многообразий и в модели полуволны , с учётом ренормгруппового уравнения для q(n) (10) имеют вид:

Хаусдорфова фрактальная размерность по Колмогорову [3] для фрактальных многообразий, построенных с учётом направления обхода замкнутого контура из n чисел:


Среднее как для гауссовых чисел:

отличается от среднего по Колмогорову для D=2/3


В качестве иллюстрации метода фрактального многообразия приводятся вычисления для биномиальных коэффициентов, близких к гауссову множеству, нормированных на асимптотику:

Для достаточно больших значений n выражение отношения сигнала к шуму имеет вид:

Ренормгрупповое уравнение для q(n):

Фрактальная размерность для нормированных биномиальных коэффициентов D=4/5.

Выбор среднего для негауссовых данных как для гауссовых чисел часто применяемый в расчётах, не является однозначным [2]. Не только само значение среднего, но и вид формулы для вычисления среднего значения определяется странными данными. Метод фрактального многообразия позволяет точнее определить такую известную характеристику структуры как среднее значение, используя в качестве инструмента более мелкий масштаб , по сравнению с евклидовым масштабом и выявить качественно новую структурную характеристику – степень взаимной корреляции данных или степень коллективного состояния данных, определяемой SNR.

Таким образом, появление зависимости SNR от числа выборки n для негауссовых данных объясняется наличием взаимной корреляцией негауссовых данных. Внедрение параметра q фрактала пыль Кантора и применение метода ренормгрупповой инвариантности в отношении SNR позволяет перейти к традиционному анализу гауссовых данных – степени корреляции данных в определении SNR (5).

Проводятся предварительные вычисления при q=0 по формулам (24)-(26). На предварительном этапе расчётов, при сравнении различных наборов упорядоченных данных, получаются критические размеры дескрипторов n(кр1), n(кр2) обеспечивающие максимальные коллективные состояния в наборах данных. Тогда принимается значение -3 в формуле (10) и уточняется значение с учётом ренормгрупповой инвариантности (20)-(23). Сравнение значений SNR разных наборов данных является корректным при вычислении, выполненном в одном масштабе μ. Пиковые значения характеризуют наличие структуры в данных переменной x, обозначают окрестность коллективного состояния. Понятие критического или коллективного состояния характерно в подходе странной кинетики, обозначая кластер степеней свободы с сильной корреляцией. Поведение системы в окрестности коллективного состояния носит универсальный характер и не зависит от природы взаимодействия, вызывающего корреляцию [1], как и универсальность распределения случайных величин в отсутствии взаимной корреляции.

Параметры аппроксимации конечного ряда Фурье и размер дескриптора n при прохождении упорядоченных данных с единичным шагом определяются из условия максимума целевой функции – максимального коллективного состояния в системе.

В матричном виде ренорм-инвариантные формулы для отношения сигнала к шуму имеют вид:

где


Результаты вычислений по формулам (11)-(14) эквивалентны результатам исходных вычислений по формулам (3)-(5), при этом позволяют составление алгоритма.
В расчётах из K=n/2+1 уникальных упорядоченных данных спектра строится симметричный вектор:


Для достаточно больших K, когда выполняется условие ренормгрупповой инвариантности, и q=0, с учётом симметрии матриц S и N, формулы для отношения сигнала к шуму приобретают вид:


При сопоставлении значений SNR со шкалой упорядочивания, шкала сдвигается влево на размер дескриптора K. Упорядоченный набор данных, с предварительной аппроксимацией конечным рядом Фурье k, проходят дескриптором, размером K, с единичным шагом. Вычисляется по проходу всех точек в наборе данных. Целевая функция определяется как при переборе параметров K и k. Как уже отмечалось, корректное сравнение структурных характеристик SNR разных наборов данных должно осуществляться в едином масштабе μ с учётом ренормгрупповой инвариантности((20)-(23)). Подобно сравнению измерений, выполненных в сантиметрах и дюймах.

Вычислительный метод применяется для больших наборов данных, полученных в хорошем разрешении, что позволяет увеличить масштаб сравнения μ с сохранением ренормгрупповой инвариантности. По порядку величин, в задаче с конформерами общее число данных в спектре рентгеноструктурного анализа – 2250 значений, оптимальный размер дескриптора для данного разрешения K=585, максимальная гармоника конечного ряда Фурье k=3.

3. Выводы


Метод применим в определении областей с сильной корреляцией степеней свободы между собой и количественном сравнении степени корреляции больших наборов упорядоченных данных. Например, когда неприменимо приближение Хартри-Фока. Интерпретация результатов обработки данных основана на построении фрактального многообразия, которое моделирует коллективное или критическое состояние [1] в одномерном пространстве. Интерпретацию усложняет неоднозначность терминологии, описывающей коллективное состояние в разных задачах.

Коллективным состоянием в химии называют гибкость или подвижность молекулярных фрагментов. Гипотеза Кошланда индуцированного соответствия при проявлении биологической активности, основанная на допущении гибкости активного центра фермента, удовлетворительно объясняет действие ферментов. При приближении субстрата к активному центру фермента, в молекуле фермента синхронно происходит конформационная перестройка, затрагивающая большое число степеней свободы. Применение вычислительного метода к спектру трёх конформеров показывает значительное увеличение коллективного эффекта у конформера, отличающегося биологической активностью. Аналогичный, с проявлением биологической активности, пример коллективного эффекта проявляется в методе термомеханической кривой для полимеров с разной молекулярной массой в области высокой эластичности.

Применение универсальной формулы преобразования к большим наборам негауссовых данным с учётом свойств инвариантности относительно любых линейных преобразований и ренормгрупповой инвариантности, делает возможным количественное сравнение коллективных состояний. Метод применяется при решении задач data science в предварительном преобразовании исходных негауссовых данных и сравнении степени взаимной корреляции данных и в поиске количественных соотношений структура – свойство.
Для четырёх точек SNR совпадает с формулой для перекрёстного оператора Робертса – одного из ранних алгоритмов выделения границ в компьютерном зрении, что делает возможным применение метода в задачах компьютерного зрения и в алгоритмах сжатия изображений.

4. Литература


  1. Зелёный Л.М., Милованов А.В. Успехи физических наук, Фрактальная топология и странная кинетика: от теории перколяции к проблемам космической электродинамики, — 2004, №8, С.809 – 852
  2. Орлов А.И. Прикладная статистика. — М.: Экзамен, 2006. — 574
  3. Колмогоров А.Н., Новый метрический инвариант транзитивных динамических систем и автоморфизмов пространств Лебега, — 1958, Доклады АН СССР, №5, С. 861 — 864
Поделиться публикацией

Комментарии 18

    0
    А что такое «гауссовы наборы числовых данных»?
      0

      Плюсую, поясните. Вы клоните к гауссовым целым числам что ли? Но то, что Вы описываете не очень связано с их свойствами.

      +1
      Вы бы пример реальной задачи привели и ее решение, а не теоретические выкладки.
        0
        Извините конечно. Но статья лютый бред.
          0
          Бывает.
          А можно подробнее?
            0
            Постановка проблемы — невнятная, мысль постоянно мечется от одного к другому, пропуская целые логические блоки. Выводы не логичны. Результаты сомнительны. Приводятся примеры не привязанные ни к чему.
            То что данные можно прогнать через фильтр и так ясно. Почему сигнал aL-aR а шум aL+aR, после взвешивания сингала a с коэф сглаживающего фильтра? Зачем так усложнять, что мешает анализировать энергию сигнала или спектр энергии?
            В качестве «не гаусовых» но упорядоченных данных приводится sin(k*x) или если с линейным преобразованием a[x]=A*sin(k*x)+B. Зачем много шума и оказывается длинна истории 0<q<1 определяет масштаб и её еще надо зачем-то подбирать решая какое-то уравнение. Как его составить для сигнала неизвестной природы?
            Потом вдуг оказывается что еще это применялось для рентгеновского спектра, даже фигурирую какие-то цифры.
            Ни примеров, ни внятного объяснения с чем борются, ни четких определений, ни последовательного изложения, даже полученный результат не понятно куда пристроили.
            В общем в лучших традициях.
              0
              Тема сложная.
              Распределение случайных чисел описывается функцией Гаусса. Если же между данными существенна корреляция (негауссовы данные), тогда применяется метод фрактального многообразия.
              Основной результат работы – найден критерий (SNR) отличающий Функцию Гаусса от других функций.
                0
                Есть центральная предельная теорема. Если же у вас величины коррелируют между собой, то учитывайте эту связь. Причем тут фракталы?
                Вот основной результат-то и не очевиден. Почему именно такой SNR как он отличает случайную величину распределённую нормально, от других распределений.
                Почему просто не построить распределение и не сравнивать его форму?
                  0
                  Таким образом определённый SNR не зависит от числа выборки n для функции Гаусса, а уже для полуволны и других функций появляется зависимость от n.
                  Фрактальное многообразие понадобилось для построения этого критерия отличия. Должен признаться, что способ выглядит экзотическим.
                  Конечно, лучше на конкретном примере показать работу метода. Мог бы оттолкнуться от задач посетителей. У меня были данные ИК-спектров, рентгеноструктурного анализа (это не картинки, а наборы числовых данных), координаты графического планшета в задаче верификации подписей.
                    0

                    А про верификацию подписей можно поподробнее? Я занимаюсь смежной темой. Мне нужно выцепить подписи из доков. Эта тема аще не проработана. Все предполагают, что уже есть готовая подпись, хорошего качества. Хотя на практике это не так.

                      0
                      Скорее всего, у Вас подписи на бумаге, работа с растровой графикой. Действительно, это очень сложная задача. И как долго ещё будут бумажные технологии?
                      Предлагаемый метод работает в векторной графике, когда подпись выполнена на графическом планшете.
                0
                Ну… У меня есть знакомые — «чистые математики» — у них часто так. Но мысль, случается, бУдят, как декабристы Герцена.
            0
            Спасибо за статью.

            Несколько практических вопросов.
            Я допускаю, что что-нить пропустил в тексте.
            Если можно ответить ответ в простых словах.

            1. Переменные с двумя состояниями — это упорядоченные, они сюда подходят? Есть ли смысл делать это с ними? И если есть — то какой?
            2. Как и на что влияет объем выборки?
            3. Во что это выливается вычислительно?

            Если есть примеры приложений — можно ссылочки?
              0
              Метод применялся для ИК-спектров, рентгеноструктурного анализа, в задаче верификации подписей, выполненных на графическом планшете. Возможно применение метода для верификации голоса. Проводится преобразование исходных данных.
              «Переменные с двумя состояниями» — можно пояснить?
              «Гауссовы наборы числовых данных» – описываются нормальным распределением, функцией Гаусса. Распределение случайных величин в отсутствии корреляции между данными описывается функцией Гаусса.
                0
                По отсутствию ссылок на наглоязычные источники, я так понял, разъяснений можно ожидать только на родном языке, так?

                А можно ли ожидать «ликбеза» по совокупности затронутых в статье понятий?

                Я не понял, что здесь называется «данными». Можно аналогии на английском?
                Что есть «данные» в понятии автора?
                — Data set? Тогда, что такое «гаусовый» data set? А что такое он же, но «не гаусовый»? И что такое некорелированные данные?

                Или тут разговор о процессах во времени и пространстве, раз уж про Фурье и прочие векторности упомянуто?..

                В общем, не дайте погибнуть в невежестве или от любопытства!
                  0
                  Мой интерес к этой теме возник после получения результатов измерений, которые не подчиняются нормальному гауссовому распределению. Есть публикации Орлова по теме нечисловой статистике, показательная шкала качественных данных. На английском эту тему не нашёл.
                  Мы часто, не приходя в сознание, вычисляем среднеарифметическое значение от наборов данных, но это сомнительная характеристика структуры данных. Если набор данных подчиняется нормальному гауссову распределению, то между этими данными отсутствует взаимная корреляция, другими словами, это случайные величины и среднее совпадает со среднеарифметическим.
                  Если же существует внутренняя структура данных, некое коллективное состояние данных, то набор данных становится негауссовым или странным, т.е. не подчиняется гауссову распределению. Важный физический пример коллективного состояния это солнечные протуберанцы, что определило актуальность изучения коллективных состояний, негауссовых данных. В физике Ньютона коллективные состояния не описываются. В обзоре Зелёного-Милованова предлагается подход к описанию коллективных состояний, где ключевая роль отводится фрактальному многообразию, но примеров построения фрактального многообразия они не привели.
                  В нашем общении лучше опираться на конкретную задачу. Вы можете назвать свою задачу в достаточно общем виде?
                    0
                    Такой задачи, данными которой я мог бы поделиться у меня нет.

                    А нельзя ли нам попробовать с чем-нить «общеупребимым»?
                    Как насчет nist к примеру?
                    Ну, или что -нить по вашему выбору отсюда?
                      0
                      Метод может применяться к задачам kaggle. Вначале делается SNR преобразование исходных данных. Сравнение происходит не самих исходных данных, а их преобразованных значений.
                      Происходит сравнение коллективных эффектов, которые содержаться в данных. Для случайных величин (в отсутствии взаимной корреляции данных) коллективный эффект отсутствует.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое