Изображение создано автором с помощью искусственного интеллекта
У многих из нас в старших классах отношения с геометрией напоминали несчастную любовь, переходящую в ненависть. Особенно нелегко было, когда речь зашла о координатах и объёме. Даже расчёты с использованием геометрии вызывали отторжение. А впереди ждал бум информационных технологий и шумиха вокруг машинного обучения, ИИ и науки о данных. Всё это побудило многих нырнуть в тёмные глубины математики, где среди прочих дисциплин нас снова ждала геометрия. Информационная геометрия применима в статистическом многомерном обучении (statistical manifold learning), которое недавно зарекомендовало себя в обучении на высокоразмерных наборов данных без учителя. Также информационная геометрия позволяет вычислять расстояние между двумя вероятностными мерами, что находит применение при подборе шаблонов, построении альтернативных функций потерь для обучения нейронной сети, сети распространения убеждений и решении задач оптимизации. Подробности — к старту нашего флагманского курса по Data Science.
Информационная геометрия — это математический инструмент для исследования мира данных с помощью геометрии. Информационную геометрию также называют фишеровской (Fisherian Geometry).
Информационная геометрия — это геометрический подход к принятию решений, который также может включать сопоставление шаблонов, моделирование и не только. Но почему именно геометрический подход? Геометрия позволяет изучать инвариантность в рамках, свободных от координат, даёт инструмент для интуитивного мышления и позволяет изучать эквивариантность. Например, центроид треугольника эквивариантен при аффинном преобразовании.
Давайте обсудим некоторые основы, чтобы понять сущность информационной геометрии.
Основы
Чтобы понять дифференциальную геометрию, а следовательно, и информационную геометрию, нам нужно понять, что такое многообразие. В своей предыдущей статье выравнивание многообразия я уже рассказывал, что такое многообразие (manifold), но повторюсь:
n-мерное многообразие — это наиболее общее математическое пространство с пределами, непрерывностью и правильностью, допускающее также существование непрерывной обратной функции с n-мерными евклидовыми пространствами. Многообразия локально напоминают евклидово пространство, но могут и не быть таковым. По сути, многообразие — это обобщенная форма евклидова пространства.
Топологическое пространство
Пусть пространство X задано множеством точек x∈ X и множеством подмножеств X, которые называются окрестностями N (x) для каждой точки. Мы располагаем следующими параметрами:
- Если U — окрестность x, x∈ U, V⊂X и U⊂V, то V тоже является окрестностью x.
- Пересечение двух окрестностей x также является окрестностью x.
- Любая окрестность U для x включает окрестность V для x, и при этом U является окрестностью всех точек V.
Любое пространство X, удовлетворяющее указанным свойствам, мы можем назвать топологическим.
Гомоморфизм
В статье про выравнивание многообразий (manifold alignment) я касался вопроса гомоморфизма, которую, как аксиома, можно представить так:
Рассмотрим f X→Y как функцию двух топологических пространств, тогда X и Y гомоморфны при условии, что f непрерывна, взаимно однозначна, и обратная функция f также непрерывна. Рассмотрим многообразие ?. Во всех точках x ∈ ?, где U является окрестностью x, и для целочисленных значений n, где U гомоморфна ℝⁿ, малая n является размерностью многообразия.
Диаграмма
Гомоморфизм, обозначаемый функцией κ U→ κ (U), называется картой (chart), где U может быть открытым подмножеством ?. Построить график для определения ? можно разными способами. Коллекция таких карт называется атласом (atlas). Графически эта идея представлена на рисунке 1. Математически атлас определяется уравнением 1. Конкретным примером графика является система координат, которая может быть функцией, отображающей точки на многообразии.
Рис. 1. Многообразие и карты (изображение создано автором)
Уравнение 1. Атлас
На этом этапе легко определить дифференцируемое многообразие как многообразие, для которого переходные карты (transition maps) дифференцируются.
Вот и всё, что можно сказать о многообразиях в абстрактной математике. А как быть с пониманием статистики и науки о данных? Как мы помним, вы статистике мы имеем дело с вероятностями. Это приводит к понятию статистического многообразия (statistical manifold). В статистическом многообразии каждая точка p ∈ ? соответствует распределению вероятности в области ?. Это можно пояснить на конкретном примере многообразия, которое образовано семейством нормальных распределений.
Векторы и касательные на многообразии, их определение в искривлённых пространствах
В обычной геометрии вектором называют прямую, соединяющую две точки. Но не для искривлённого пространства. Здесь векторы — касательные к кривой в определенной точке на многообразии. Если параметр u меняется по всей длине кривой, кривую можно определить как x (u). При этом u часто опускается, и мы просто пишем x. Вектор в искривлённых пространствах выражается так:
Уравнение 2. Вектор в искривлённых пространствах
Вектор определён локально в точке p, где u = 0. Заметим, что сам вектор не живёт в многообразии. Он пришёл сюда евклидовой геометрии. Как и в случае карт, в точке p можно построить много касательных. Да, на двухмерной плоскости это уже трудно себе представить, однако и у трёхмерного объекта вроде сферы, есть множество касательных в точке. Поэтому мы можем говорить о касательной плоскости (tangent plane) в точке сферы (Рис. 3). Подобным образом мы можем говорить и о касательной плоскости в точке p многообразия.
Уравнение 3. Сфера с касательной плоскостью (изображение создано автором)
Переход от одной карты к другой равносилен переходу, например, из декартовой в полярную систему координат. Пусть, у нас есть функция преобразования ϕ для перевода x с одной карты на другую. Тогда её можно записать как x′ = ϕ(x).
Двойственное пространство
Двойственное пространство (dual space) V пространства векторов V содержит все линейные функционалы (linear functionals) V. То есть, для всех карт T V↦F, где F — поле пространства векторов V. Тогда двойственное пространство содержит все линейные преобразования из V в F. В поисках лучшего объяснения модального пространства я наткнулся в сети на такой пример³
Представим себе 2-мерное вещественное векторное пространство (2D real vector space). Зададим две функции: одна возвращает координату любого вектора по оси x, а другая — по оси y. Назовём первую функцию f1, а вторую — f2. Но давайте смотреть на вещи шире.
Рассмотрим эти две функции как векторы. Пусть это базисные векторы в каком-нибудь смехотворном векторном пространстве. Эти векторы можно сложить и считать f1 + f2 функцией, которая возвращает сумму значения любого вектора по x и y. Их можно и умножать на числа. Например, мы можем считать 7 * f1 функцией, которая возвращает семикратное значение любого вектора по оси x. Вы можете создать линейную комбинацию подобных действий, например, функция 3.5 × f1 — 5 * f2 возвращает 3.5 значений вектора по x за вычетом 5 значений по y. Именно так работает двойственное пространство._
Тензор
Тензоры — ключевое понятие в математике многообразий. Итак, что это за звери и что они едят? Звери это многолинейные, и едят они векторы из касательных пространств и их двойственного пространства, а выплёвывают вещественные числа. Общее число съеденных векторов касательного пространства и его двойственного пространства называют рангом (rank) тензора. Число съеденных векторов из двойственного пространства называют контравариантным рангом (contravariant rank), а из касательного — ковариантным (covariant rank).
Опустим более формальное описание тензоров. Если честно, я и сам его пока что до конца не понимаю. Но по сути, многообразия — построения геометрические, а тензоры — соответствующие им алгебраические построения.
Метрика
Метрикой (metric) называют тензорное поле, которое индуцирует внутреннее произведение на касательном пространстве в каждой точке многообразия. Любое тензорное поле второго ковариантного ранга можно использовать для определения метрики. Некоторые источники называют такую метрику римановой (Riemannian Metric)⁷.
Теперь, после длинного и путанного перечисления терминов, рассмотрим кое-что действительно полезное в информационной геометрии.
Информационная геометрия
Информационная геометрия возникла на стыке статистики и дифференциальной геометрии. С её помощью мы рассматриваем вероятностное распределение с точки зрения геометрии.
Для этого нам понадобится информационная метрика (Information metric). Её также называют информационной метрикой Фишера (Fisher Information metric).
Информационная метрика Фишера
Чтобы найти подходящий метрический тензор в точке θ, где θ — распределение из семейства p (xθ), нам нужно определить расстояние между p (xθ) и его бесконечно малым возмущением (infinitesimal perturbation) p (xθ + dθ). Тогда относительная разность (relative difference) выражается уравнением 3. Очевидно, что:
Уравнение 3. Относительная разность возмущения в точке θ.
Относительное расстояние зависит от случайной величины x. При правильном расчёте, то математическое ожидание Δ, т. е. ?(Δ) = 0. А как насчёт дисперсии? Как оказывается, дисперсия ненулевая. Мы можем определить dl²=?[Δ²]. Из первого принципа длина бесконечно малого смещения между θ* и θ** для метрики ? задаётся как dl² = ?dθdθ. Решение для dl²=?[Δ²] = ?dθdθ даёт следующее выражение:
Уравнение 4. Информационная метрика Фишера
Эту величину называют информационной метрикой Фишера (FIM). Она измеряет, сколько информации несёт наблюдение случайной переменной θ в среднем, если x∼p (x∣θ). Есть и другой способ превратить уравнение 4 вплоть до фактора 12. Подробнее об этом — по ссылке 1. Но если вас это волнует, то бурное развитие квантовой информатики позволило найти применение квантовой метрике Фишера. по этому поводу у меня скоро выйдет новая серия статей. Если хотите узнать об их выходе, подписывайтесь! Другое применение — неаприорная информация в выводе Байеса (uninformative prior in Bayesian inference). Но, возможно, я увлёкся и лезу слишком глубоко в дебри.
В заключение статьи скажу, что информационная матрица Фишера ?, которая является матричным вариантом ?, в случае нескольких параметров может использоваться в оптимизации аналогично градиентному спуску с правилом обновления в виде:
Уравнение 5. Правило обновления для оптимизации на языке дифференциального многообразия
где η — изучаемый параметр, а ∇J — дивергенция скалярного поля J.
В этой статье я попытался сделать краткий обзор информационной геометрии и используемых в ней терминов. Для лучшей ясности я не стал касаться значительной части рабочих материалов в этом обзоре. Поэтому читателю предлагается также обратиться к дополнительным материалам, ссылки на которые я привёл ниже.
Ссылки
- http://www.robots.ox.ac.uk~lsgsposts2019-09-27-info-geom.html
- https://math.stackexchange.comquestions240491what-is-a-covector-and-what-is-it-used-for
- https://qr.aepv34JS
- https://franknielsen.github.ioSPIG-LesHouches2020Geomstats-SPIGL2020.pdf
- https://www.cmu.edubiolphysdesernopdfdiff_geom.pdf
- https://math.ucr.eduhomebaezinformationinformation_geometry_1.html
- https://mathworld.wolfram.comRiemannianMetric.html
Обратите внимание, что ссылки, приведённые в конце, архивированы http://web.archive.org.
Научим вас аккуратно работать с данными, чтобы вы прокачали карьеру и стали востребованным IT-специалистом.
Data Science и Machine Learning
- Профессия Data Scientist
- Профессия Data Analyst
- [Курс «Математика для Data Science»](https://skillfactory.ru/matematika-dlya-data-science#syllabus? utm_source=habr&utm_medium=habr&utm_campaign=article&utm_content=data-science_mat_311222&utm_term=cat)
- Курс «Математика и Machine Learning для Data Science»
- Курс по Data Engineering
- Курс «Machine Learning и Deep Learning»
- Курс по Machine Learning
Python, веб-разработка
- Профессия Fullstack-разработчик на Python
- Курс «Python для веб-разработки»
- Профессия Frontend-разработчик
- Профессия Веб-разработчик
Мобильная разработка
Java и C#
- Профессия Java-разработчик
- Профессия QA-инженер на JAVA
- Профессия C#-разработчик
- Профессия Разработчик игр на Unity
От основ — в глубину
А также