Search
Write a publication
Pull to refresh

Математическая справка для чайников

Level of difficultyEasy

Эта статья является математической справкой серии моих статей по изучению ИИ. На данный момент они еще пишутся, поэтому пока наслаждаемся математикой. Я постараюсь разжевать каждую тему подробнейшим образом, однако сильно в школьную базу погружаться не буду. Основные статьи пока дописываются, но выйдут они в ближайшее время.

Тут будет небольшое оглавление этой статьи:

  1. Линейная алгебра

  2. Математический анализ

  3. Теория вероятностей и статистика

Итак, начнем....

Линейная алгебра

Векторы

Вектор - это информация о перемещении. Его можно представить в виде стрелки. У него есть два главных свойства - длина и направление. Длина показывает, насколько вектор длинный(что в принципе логично), а направление - куда вектор направлен. Почему векторы удобны? Вместо того, чтобы говорить "прошел 10 метров на север, потом 20 на восток" мы можем просто нарисовать стрелку из начальной точки в конечную. Такой вектор называется вектором перемещения:

Синий вектор - вектор перемещения.
назовем вектор длинной 10 a, а длинной 20 - b.

Длинна вектора перемещения равна:

c = \sqrt{(a ^ 2 + b ^ 2)}

Будем считать, что вектор a выходит из точки (0; 0)
Это значит, что

Сложение/вычитание векторов:

a ± b = (a_x ± b_x; a_y ± b_y)

На первом курсе университета на линале и физике я все время путал векторное и скалярное произведние, потому что в школе нормально не объяснили разницу и оно там тупо не надо было.

Так вот: скалярное произведение показывает показывает, насколько вектора сонаправленны(косинус угла между ними), а векторное произведение возвращет новый вектор, перпендикулярный исходным(но только в 3d пространстве)

Скалярное произведение:

a * b = |a||b|cos \alpha

Если a b > 0, то угол в промежутке (0; 90), векторы сонаправленны
Если a
b = 0, то угол равен 90, векторы перпендикулярны
Если a * b < 0, то векторы направленны разные стороны

Векторное произвдение в 3D:

a×b=​ \begin{pmatrix}a_y * b_z​− a_z *​ b_y \\​a_z * ​b_x​− a_x * ​b_ z​ \\ a_x​ * b_y​−a_y * ​b_x\end{pmatrix}

Геометрическая формула:

|a × b| = |a|b|sin\alpha

проекция вектора a на вектор b:

a_n = \frac{a}{|a|}

С векторами как будто бы все, переходим к матрицам

Матрицы

Матрица - упорядочная таблица чисел, которую используют для решения уравнений и работы с линейными преобразованиями.

Что такое матрица?

Матрица размера m × n - это прямоугольная таблица чисел с m строками и n столбцами:

A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}

Пример матрицы 2 × 2:

A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}

Операции с матрицами

Сложение матриц. Каждый член одной матрицы складываем с соответсвующим членом другой

\begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} + \begin{pmatrix} 5 & 6 \\ 7 & 8 \end{pmatrix} = \begin{pmatrix} 6 & 8 \\ 10 & 12 \end{pmatrix}


Умножение на скаляр. Каждый член матрицы умножаем на скаляр:

 3\cdot \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} = \begin{pmatrix} 3 & 6 \\ 9 & 12 \end{pmatrix}

Умножение матриц. Умножаем строчку на столбец:

\begin{pmatrix}1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} 5 & 6 \\ 7 & 8\end{pmatrix} = \begin{pmatrix} 1 \cdot 5 + 2 \cdot 7 & 1 \cdot 6 + 2 \cdot 8 \\ 3 \cdot 5 + 4 \cdot 7 & 3 \cdot 6 + 4 \cdot 8 \end{pmatrix} = \begin{pmatrix} 19 & 22 \\ 43 & 50 \end{pmatrix}


Транспонирование. Столбцы становятся рядами, а ряды столбцами:

\begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}^T = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}

Определитель

Когда я на первом курсе изучал матрицы, мой препод решил не рассказывать на кой оно ваще надо эти определители. Если не вдаваясь в подробности, то определитель матрицы показывает, во сколько раз изменится площадь или объем фигуры, если изменить его параметры. А еще можно решать уравнения. Подробнее расскажу в конце этого раздела со всеми примерами.

Определитель 2 на 2:

A = \begin{bmatrix} a & b \\ c & d \end{bmatrix} = ad - bc

Пример:

A = \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} = 1 \cdot 4 - 2 \cdot 3 = -2

Представим квадрат(параллелограмм). Его стороны состоят из векторов a и b. Представим координаты вектора в виде матриц:

a =\begin{pmatrix} a_x \\ a_y\end{pmatrix}\quad b =\begin{pmatrix} b_x \\ b_y\end{pmatrix}

Составим матрицу:

A =\begin{pmatrix} a_x & b_x\\ a_y & b_y\end{pmatrix}

Вычислим определитель матрицы и получим площадь получившихся фигур.

Обратная матрица 2×2

A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}^{-1} = \frac{1}{ad - bc} \begin{pmatrix} d & -b \\ -c & a \end{pmatrix}

Пример:

A = \det \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} = 1 \cdot 4 - 2 \cdot 3 = -2

Специальные матрицы

Диагональная матрица:

A = \begin{pmatrix} 2 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 5 \end{pmatrix}

Единичная матрица 3 на 3:

B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}

Верхняя треугольная матрица:

C = \begin{pmatrix} 1 & 2 & 3 \\ 0 & 4 & 5 \\ 0 & 0 & 6 \end{pmatrix}

Решение системы линейных уравнений через определитель:

\begin{cases} x + 2y = 5 \\ 3x + 4y = 6 \end{cases} \quad \Rightarrow \quad \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 5 \\ 6 \end{pmatrix}

Составляем матрицу коэффициентов и умножаем на неизвестные переменные и приравниваем к свободным коэфициентам. Решим через обратную матрицу:

\begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}^{-1} \begin{pmatrix} 5 \\ 6 \end{pmatrix} = \begin{pmatrix} -2 & 1 \\ 1.5 & -0.5 \end{pmatrix} \begin{pmatrix} 5 \\ 6 \end{pmatrix} = \begin{pmatrix} -4 \\ 4.5 \end{pmatrix}

Нормы

Норма - линейка для измерения размера вектора. показывает, насколько он большой или маленький.

Линейная независимость

Векторы являются линейно независимыми, если ни один из них нельзя собрать как конструктор из других. Как проверить? Сложить векторы в матричном представлении. Если сумма равна нулю, то векторы линейно независимы.

Базисы

Базисы позволяют собрать любой вектор пространства. Векторы базиса линейно независимы, а количество базисов - размерность пространства.

Представим, что у нас есть 3 кирпичика: красный, синий и зеленый. Нам нужно собрать дом, в котором должно быть 5 красных кирпичей, 4 зеленых и 2 синих. Формула цветных кирпичей равна:

дом = 5 красный кирпичик + 4 зеленный кирпичик + 2 * синий кирпичик

Теперь вернемся к нашим баранам:
Вектор состоит из n-колличества размерностей. Размерности - это те самые кирпичики. Размерности - орты - единичные векторы. Например, рассмотрим двухмерную систему координат. Орт i(1;0), орт j(0;1).

тогда вектор (3;4) можно представить как:
(3;4) = 3i + 4j = 3(1;0) + 4(0;1) = (3;4)

Собственный вектор

Собственный вектор - направление, в котором матрица действует как простое растяжение или сжатие. Пример из жизни: если тянуть кусок резины за два угла, то большинство линий на нем перекосятся, но некоторые останутся неизменными и лишь растянутся. Вот те, линии, что не растянулись - собственные вектора.

Матрица - инструкция, как деформировать пространство
Собственный вектор - вектор, которому по барабану на инструкции матрицы, он всегда направлен как ему по кайфу.
Собственное число - коэффициент удлинения/сжатия вектора.

Сингулярное разложение

Суть заключается в разложении матрицы на простые запчасти.

Формула:

A = U∑V^T

Идет разложение на три части:

  1. Поворачиваем или отражаем результат(ортогональная матрица)

  2. Растягиваем или сжимает данные вдоль осей(матрица с сингулярными числами - показываю растяжение/сжатие)

  3. поворачиваем или отражаем исходные данные

Пример из жизни:

  1. Фотограф проворачивает стол, чтобы сфотографировать яблоко

  2. Он настраивает объектив(ну поняли длину увеличивает, не знаю как по умному это называется)

  3. Поворачивает фотоаппарат, чтобы получить красивый ракурс

Такое разложение используется элементарно в сжатии фотографий.

Математический анализ

Функция нескольких переменных

Показывает зависимость одной величины от нескольких других. Например, температура комнаты зависит от координаты точки измерения:

f(x, y, z) = T

Частные производные

Показывают, как быстро меняется функция при изменении одной переменной.

Как находить частную производную: Предположим есть фукнция:

f(x, y) = x^2y + 2yx + 10

Найти частную производную по х означает найти производную икса в каждом элементе правой части. Перепишем функцию:

f(x, y) = (x^2)y + 2y(x) + 10(x^0)

Находим частную производную по х:

f'_x(x,y) = (2x)y + 2y(x^0) + 10 * 0 = 2xy + 2y

То есть, когда мы находим производную по х, нам абсолютно по барабану, че там с игреком. Его мы выносим как константу и находим производную икса.

Градиент

Это вектор из частных производных функции. Он указывает направление наискорейшего роста функции.

Экстремумы

Это точка, где производная равна нулю. Естественно градиент в этой точке равен нулю или не существует вовсе.

Производная по направлению

Показывает скорость изменения функции в заданном направлении.

D_uf = ∇f *u

где u - орта направления.

Гессиан

Если для того, чтобы узнать кривизну функции на участке мы должны найти двойную производную функции, то для для определения выпуклости(локальной кривизны) в конкретной точке на помощь приходит Гессиан.

Для того, чтобы определить кривизну в точке нужно для начала найти частные производные и составить соответствующую матрицу:

H = \begin{pmatrix} \frac{\partial^2 f}{\partial x^2} & \frac{\partial^2 f}{\partial x \partial y} \\ \frac{\partial^2 f}{\partial y \partial x} & \frac{\partial^2 f}{\partial y^2} \end{pmatrix}

Если определитель гессиана положительный, то функция выпуклая, если отрицательный - вогнутая.

Важно: функция должна быть дважды непрерывно дифференцируемой

Таблица производных

Градиентный спуск

Представьте, что Вы стоите на краю карьера. В каждом карьере есть место, где склон самый крутой. Вот градиентный спуск - это спуск по самому крутому склону карьера.

В контексте машинного обучения он используется для изменения параметров модели, но об этом уже в основных статьях.

Теория Вероятностей

Теория вероятностей изучает случайные события, она помогает нам понять, насколько вероятно, что что-то произойдет.

Основные распределения

Это как разные виды коробок, в которых лежат результаты наших случайных событий

Распределение Бернулли:

Представим, что у нас есть монетка. Мы ее подбрасываем и она может выпасть либо орлом, либо решкой - только два варианта. Фирменное "монетка упала на ребро" Алисы не рассматриваем. Исхода всего 2.

Формула вероятности:

P(X) = p^k(1-p)^{1-k}

p - вероятность успеха
X - какое-либо событие
k - исход

Распределение Пуассона

Представим, что мы сидим и считаем количество звонков телефона за час. Распределение Пуассона помогает нам предсказать, сколько редких событий произойдет за определенный период времени

Формула:

P(X) = \frac {\lambda^k * e^{-\lambda}}{{k!}}

Лямбда означает среднее количество событий за пройденный период, k - количество событий, которые мы хотим чтобы произошли

Гауссово распределение

Представим, что мы измеряем IQ всех своих одноклассников. Большинство из них глупые, а очень умных и очень тупых мало. Если нарисовать график наших замеров, то он будет похож на колокол, от сюда название - колоколообразное распределение. Также его называют нормальным. Оно описывает множество явлений в природе и обществе, где значения группируются вокруг среднего.

Формула:

f(x) = \frac {1}{\sigma * \sqrt{2\pi})} * e^{-\frac{1}{2} (\frac {x - \mu}{\sigma})^2}

где μ - среднее значение, центр колокола, σ - отклонение, показывающее насколько данные разбросанны вокруг среднего.

Математическое ожидание

Представим, что мы играем в игру в гуманную игру кальмара, где иногда выигрываем 10 рублей, а иногда проигрываем 5. Если мы будем играть много раз, то сколько в среднем будем терять за одну игру? Для этого и нужно математическое ожидание. Математическое ожидание это среднее значение, которое мы ожидаем получить, если повторим случайный эксперимент много раз.

Для дискретной случайной величины:

E(X) = \sum_{i=1}^{n}x_iP(X)

Для непрерывной случайно величины:

E(X) = \int\limits_{-\infty}^{\infty}x_if(X)dx

f(x) - плотность вероятности

Дисперсия

Дисперсия показывает, насколько данные разбросаны вокруг среднего значения. Чем больше дисперсия, тем сильнее разбросаны данные.

V_{ar}(X) = E \begin{bmatrix} (X - E(X))^2 \end{bmatrix}

Ковариация

Представим, что у нас ест два друга, и ты - карлик - следишь за их ростом. Если один растет и второй тоже растет, то их рост движется в одном направлении. Если один растет, а другой к земле клонится, то в разных. И вот Ковариация показывает, как две случайные величины меняются вместе. Если ковариация положительна, то обе величины имеют тенденцию к увеличению, если отрицательна, то одна величина увеличивается, другая уменьшается. Если ковариация близка к нулю, то величины не связаны между собой

С_{ov}(X, Y) = E \begin{bmatrix} (X - E(X))(Y - E(X)) \end{bmatrix}

Корреляция

Корреляция показывает направление связи между двумя величинами. Кроме того, показывает силу этой связи. Значение корреляции всегда находится между -1 и 1.

Если корреляция равна 1, то связь прямая
Если корреляция равна -1, то связь обратная
Если корреляция равно 0, то нет связи

Формула Пирсона для определения корреляции

ρ_{X, Y} = \frac {C_{ov}(X, Y)}{\sigma_x\sigma_y}

Где сигмы - стандартные отклонения X и Y соответственно.

Теорема Байеса

Представим, что мы в своей айтишной засратой комнате потеряли носок и ищем его, потому что остальные с дырками. Мы знаем, что чаще всего он оказывается под кроватью, рядом с пачкой съеденных чипсов. Но если его там нет, то будем искать его на люстре. Теорема Байеса помогаем нам обновлять наши убеждения о чем-то, когда мы получаем новую информацию.

Формула:

P(A|B) = \frac {P(B|A)P(A)}{P(B)}

P(A|B) - вероятность события A, если выполнилось событие B
P(B|A) — вероятность события B, если произошло событие A
P(A) — начальная вероятность события A.
P(B) — полная вероятность события B.

Статистика

Статистика - наука о сборе данных.

Оценка параметров - способ угадать или найти наиболее вероятные значения характеристик большой группы, используя данные небольшой выборки.

Оценка максимального правдоподобия(MLE - Maximum Likelihood Estimation)

Представим, что у нас есть несколько монет, и мы знаем, какая из них нормальная - в ней с одинаковой вероятностью выпадают орел или решка. Мы подбрасываем каждую монету несколько раз. MLE находит параметры, которые наилучшим образом опишут имеющиеся данные, делая их наиболее вероятными

Оценка максимального апостериорного распределения(MAP - Maximum A Posteriori Estimation)

MAP похожа на MLE, но она учитывает наши предварительное убеждение. Если мы считаем, что большинство монет честные, то MAP будет склонятся к такому мнению, даже если наблюдения этому противоречат

Проверка Гипотез

Проверка гипотез помогает нам решить, есть ли достаточные доказательства, чтобы поддержать или опровергнуть наше предположение (гипотезу). Мы обычно формулируем две гипотезы:

Нулевая гипотеза (H0​): Нет никакого эффекта или различия (например, новая обувь не влияет на силу удара по мячу).

Альтернативная гипотеза (H1​): Есть эффект или различие (например, новая обувь делает удары по мячу сильнее).

Мы собираем данные и смотрим, насколько они соответствуют нулевой гипотезе. Если данные не соответсвуют ей, мы отвергаем ее.

Tags:
Hubs:
You can’t comment this publication because its author is not yet a full member of the community. You will be able to contact the author only after he or she has been invited by someone in the community. Until then, author’s username will be hidden by an alias.