О том, как правильно понимать определитель матрицы / Хабр

Помните байку про интеграл, который пригодился в жизни? Так вот, у определителя тоже есть замечательное применение - пугать детей формулой Лейбница. А давайте даже перепишем ее куда-нибудь в середину, чтобы всем было хорошо видно.

$\det A = \sum_{\sigma \in S_n} \operatorname{sgn(\sigma)}\prod_{i = 1}^na_{i\sigma(i)}$

Расшифровывается это дело следующим образом: если у нас есть матрица

$A = \begin{pmatrix} a_{11} & ... & a_{1n}\\ ... & & ... \\ a_{n1} & ... & a_{nn} \end{pmatrix}$

над некоторым полем $\operatorname{F}$ , то определителем этой матрицы называют сумму всевозможных произведений, состоящих из $\operatorname{n}$ элементов этой матрицы, взятых по одному из каждой строки и из каждого столбца, причем каждое произведение входит в эту сумму с тем знаком, который имеет соответствующая перестановка индексов этих элементов в этом произведении.

Возникает естественный вопрос: зачем нужна такая навороченная конструкция. Можно конечно сказать, что смысл проявится позже, пока просто запомните и не задавайте лишние вопросы и т.д., но если быть откровенным, то стоит признать - такое определение определителя не мотивировано ничем. А между прочим именно оно является самым общеизвестным.

Другой способ введения определителя связан с его характеристическим свойством. Напомним, полилинейной формой называется функция $f:V_1 \times ... \times V_m \to F$ , определенная на декартовом произведении некоторых векторных пространств V_i (заданных над одним и тем же полем), принимающая значения в поле и линейная по каждому аргументу: $f(\vec{v_1}, ... ,\vec{v_i} + \vec{v_j} ,... ,\vec{v_m}) = f(\vec{v_1}, ... ,\vec{v_i} ,... ,\vec{v_m}) + f(\vec{v_1}, ... , \vec{v_j} ,... ,\vec{v_m})$ $f(\vec{v_1}, ... ,\lambda \vec{v_i} ,... ,\vec{v_m}) = \lambda f(\vec{v_1}, ... ,\vec{v_i} ,... ,\vec{v_m})$ . Форма называется кососимметрической, если при инверсии любых двух (не обязательно соседних) аргументов она меняет знак.

С кососимметричностью есть одна небольшая проблема. Возьмем для определенности обычное поле $\mathbb{R}$ действительных чисел и рассмотрим какую-нибудь -местную кососимметрическую формунад ним. Посмотрим, чему может быть равно $f(\vec{v_1}, ... ,\vec{v_i} ,..., \vec{v_i}, ... \vec{v_m})$ , т.е. чему может равняться эта форма на наборе векторов, содержащем 2 равных вектора. При инверсии этих двух векторов форма с одной стороны не меняется, а с другой стороны, меняет знак. Единственное действительное число, не меняющееся при изменении знака - это ноль. Зададимся теперь вопросом, а будет ли справедливым это свойство (равенство формы нулю на наборе, содержащем пару равных векторов) в случае произвольного поля. Если a = -a , то a + a = 0 , следовательно a(1+1) = 0 . Т.к. в полях нету делителей нуля, то в случае поля характеристики $\ne$ 2 получаем, что a = 0 . Но что будет в случае, если характеристика равна 2? А будет то, что из равенства a = -a не следует, что a = 0 . В самом деле, возьмем поле $\mathbb{F_2}$ вычетов по модулю 2 (2 простое число, так что это действительно поле, а не просто кольцо). В этом поле единица обратна сама себе (т.к. $1 + 1 = 2 \equiv 0 (\operatorname{mod 2})$ ), т.е. 1 = -1 . Вместе с этим единица, очевидно, не равна нулю (это свойство выполняется в любом поле наряду с тем фактом, что в любом же поле всегда существуют ноль и единица; требование нетривиальности кольца входит в определение поля). Предыдущие рассуждения показывают, что из "наивной" кососимметричности (определение которой написано выше) в случае поля характеристики 2 еще не вытекает равенство нулю соответствующей формы на наборе, содержащем равные вектора.

Можно конечно всюду далее рассматривать исключительно поля характеристики $\ne$ 2 и пользоваться "слабым" определением кососимметричности, а можно поступить умнее и немного усилить определение кососимметричности специально для полей характеристики 2 так, чтобы обычная кососимметричность следовала из "сильной". Для этого достаточно потребовать 2 вещи: во-первых, форма должна быть полилинейна, а во-вторых она должна принимать значение ноль всегда, когда среди ее аргументов есть равные. Свойство, которое вытекало из "наивной" кососимметричности для полей характеристики $\ne$ 2 само теперь является составной частью определения кососимметричности (правда только для полей характеристики 2).

Доказательство

Из полилинейности и равенства формы нулю на строках с равными аргументами следует, что если к одному вектору прибавить другой, умноженный на число, то значение формы не изменится. При умножении какого-либо вектора на число $\ne$ 0 сама форма умножается на это число (в частности, если обратить знак какого-либо вектора из набора, то знак самой формы тоже поменяется.

Произвести инверсию векторов в наборе аргументов можно с помощью преобразований этих двух типов. И если внимательно проследить цепочку преобразований, то в конце концов окажется, что форма поменяла знак.

Далее под кососимметричностью будем понимать кососимметричность в "сильном" смысле.

Определение

Определитель матриц- это единственная кососимметрическая полилинейная форма строк матрицы, нормированная единицей на единичном наборе векторов.

Надо сказать, это не самое плохое определение. Но и оно не лишено недостатков. Основные вопросы здесь возникают по поводу кососимметричности. В первую очередь непонятно, почему это свойство вообще важно. Ну меняет функция знак при перестановке двух аргументов и пусть меняет, почему мы так стремимся исследовать именно это свойство, а не какое-нибудь другое. Но здесь все еще хуже. Мы хотим, чтобы форма еще и принимала нулевое значение на наборе, содержащем равные вектора. И в некотором смысле для нас это даже важнее самой кососимметричности, раз мы стали подгонять определение последней под выполнение этого свойства. Все эти экзерсизы с характеристиками выглядят довольно искусственно.

Критикуешь - предлагай

В действительности есть очень простой и естественный пусть построения определителя, при котором все эти вопросы отпадают сами собой. И я постараюсь по возможности максимально последовательно описать этот способ.

Начнем с некоторых предварительных замечаний. Основным объектом изучения линейной алгебры являются конечномерные векторные пространства. Неформально говоря, на любое - мерное векторное пространство над полемможно смотреть как на "координатное" пространство F^n , состоящее из упорядоченных наборов длины элементов поля. Более строго, пусть у нас есть- мерное векторное пространство над полем . Выбор (упорядоченного) базиса $(\vec{e_1}, ... , \vec{e_n})$ этого пространства индуцирует изоморфизм $I : V \to F^n$ , ставящий в соответствие каждому вектору $\vec{v} \in V, \vec{v} = \lambda_1\vec{e_1}+ ... +\lambda_n\vec{e_n}$ набор $(\lambda_1, ... ,\lambda_n) \in F^n$ его координат в базисе $(\vec{e_1}, ... , \vec{e_n})$ . Таким образом, во всех дальнейших построениях речь пойдет по большей части про вектора координатного пространства.

Очевидно, некоторый набор $(\vec{v_1}, ... , \vec{v_n})$ векторов пространства является линейно (не)зависимым, тогда и только тогда, когда соответствующий ему набор векторов пространства F^n будет линейно (не)зависимым.

Свойство линейной зависимости/независимости действительно очень важно. Дело в том, что система из n>1 векторов пространства будет линейно зависимой тогда и только тогда, когда найдется вектор в этой системе, который можно линейно выразить через остальные.

Довольно естественным выглядит желание иметь некоторую функцию- индикатор линейной зависимости векторов. Учитывая, что любое векторное пространство "оцифровывается" своим координатным пространством, достаточно иметь такую функцию, определенную на декартовом произведениикопий пространства F^n и принимающую значения в поле. Таким образом, мы предъявляем к функциивсего лишь 2 очень естественных требования:

Полилинейность.
Она должна принимать нулевое значение на любой линейно зависимой системе векторов.

На аргументы этой функции удобно смотреть как на строки матрицы

$A = \begin{pmatrix} a_{11} & ... & a_{1n}\\ ... & & ... \\ a_{n1} & ... & a_{nn} \end{pmatrix} = \begin{bmatrix} \vec{v_1}\\ ...\\ \vec{v_n} \end{bmatrix}$

Заметим, на данном этапе мы еще даже не знаем, существует ли такая функция или нет. Но мы можем в предположении ее существования посмотреть на ее поведение.

$D(\vec{v_1}, ... ,\vec{v_i} ,..., \vec{v_i}, ... \vec{v_n}) = 0$ . Действительно, строка аргументов, содержащая пару равных значений, очевидно, линейно зависима, а значит функциябудет принимать на ней нулевое значение.
кососимметрична (в любом смысле, учитывая полилинейность + п.1). Доказательство абсолютно аналогично тому, которое находится выше под спойлером.
Рассмотрим, чему равнана некотором наборе строк $(\vec{v_1}, ... ,\vec{v_n})$ :

$D(\vec{v_1}, ... ,\vec{v_n})= D(a_{11}\vec{e_1} + ... + a_{1n}\vec{e_n}, ... , a_{n1}\vec{e_1} + ... + a_{nn}\vec{e_n}) =$ $= \sum_{\sigma \in S_n}a_{1\sigma(1)}\cdot ... \cdot a_{n\sigma(n)}\cdot D(\vec{e_{\sigma(1)}}, .... , \vec{e_{\sigma(n)}}) =$ $=\sum_{\sigma \in S_n}\operatorname{sgn}(\sigma)\cdot a_{1\sigma(1)}\cdot ... \cdot a_{n\sigma(n)}\cdot D(\vec{e_1}, .... , \vec{e_n})$

Здесь мы просто выразили векторы $\vec{v_i}$ через единичные, затем по полилинейности получили сумму по всем упорядоченным наборам соответствующих произведений, выкинули из них те, которые содержат повторяющиеся аргументы (тем самым получив сумму по всем перестановкам), а затем применили обратные перестановки к единичным векторам.

Смотрим на последнюю строчку в получившейся формуле и видим множитель $D(\vec{e_1}, ... , \vec{e_n})$ . Чтобы упростить формулу и не таскать лишний множитель, добавим к тем 2 требованиям к функциитретье требование: $D(\vec{e_1}, ... , \vec{e_n}) = 1$ .

Таким образом, если интересующая нас функциясуществует, то она имеет вид:

$D(\vec{v_1}, ... ,\vec{v_n})= \sum_{\sigma \in S_n} \operatorname{sgn}(\sigma) \cdot a_{1\sigma(1)} \cdot ... \cdot a_{n\sigma(n)} = \sum_{\sigma \in S_n} \operatorname{sgn(\sigma)}\prod_{i = 1}^na_{i\sigma(i)}$

Нарисовалась знакомая нам формула Лейбница. Самое замечательное то, что в ней нет свободных переменных, а это значит, что мы бесплатно получили единственность интересующей нас функции.

Осталось лишь доказать существование. Капитан намекает, что для этого достаточно взять ту функцию, которая у нас получилась.

А дальше дело техники. Проверяем, что получили мы действительно, что хотели и даже больше. Полученную функцию называем определителем и спокойно приступаем к доказательству основных его свойств.