Monotirg Nov 30 2022 at 18:02

Почему умножение матриц такое

Easy

3 min

67K

Наверное, каждый задавался вопросом, почему умножение матриц такое. В этой статье мы разберём из каких соображений оно вводится именно так.

Маленькое предисловие

В дальнейшем нам понадобится такая структура, как векторное пространство, а точнее его частный случай $\mathbb{R}^n$ — пространство столбцов высотынад $\mathbb{R}.$ Кратко напомню, что под этим понимается.

Во-первых, $\mathbb{R}^n$ — это следующее множество

$\mathbb{R}^n=\{[x_1,\ldots,x_n] \,|\,x_i\in\mathbb{R}\},$

где таким образом $[x_1,\ldots,x_n]$ обозначен вектор-столбец высотыто есть

$[x_1,\ldots,x_n]=\left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array}\right).$

Во-вторых, для любых векторов $x,y \in \mathbb{R}^n$ определено сложение

$x+y = [x_1,\ldots,x_n]+[y_1,\ldots,y_n]=[x_1+y_1,\ldots,x_n+y_n]$

и для любого вектора $x \in \mathbb{R}^n$ определено умножение на скаляр $\lambda \in \mathbb{R}$

$\lambda x = \lambda[x_1,\ldots,x_n] = [\lambda x_1,\ldots,\lambda x_n].$

В-третьих, каждый вектор $x \in \mathbb{R}^n$ единственным образом представим в следующем виде

$x=x_1e_1+\ldots+x_ne_n,$

где $x_1,\ldots,x_n$ — скаляры, а $(e_1,\ldots,e_n)$ — следующая система векторов

$e_1=[1,0,\ldots,0],\,e_2=[0,1,\ldots,0],\ldots,\,e_n=[0,0,\ldots,1].$

Такая система векторов называется базис, а скаляры, участвующие в разложение вектора, называются координатами этого вектора в данном базисе. Стоит отметить, что в $\mathbb{R}^n$ это не единственный базис, но везде далее под «зафиксируем базис» можно понимать именно эту систему векторов.

Умножение матрицы на вектор

Прежде чем переходить к умножению матриц, посмотрим, из каких соображений вводится умножение матрицы на вектор. Для этого рассмотрим линейное отображение $\mathcal{A}$

$\mathcal{A}:\mathbb{R}^n \rightarrow \mathbb{R}^m.$

То, что $\mathcal{A}$ — линейное отображение, означает, что для любых векторов $x,y \in \mathbb{R}^n$ и любого скаляра $\lambda \in \mathbb{R}$ выполняются следующие два условия:

$\begin{array}{l} \mathcal{A}(x+y)=\mathcal{A}x + \mathcal{A}y.\\ \mathcal{A}(\lambda x)=\lambda\mathcal{A}x. \end{array}$

Или их можно объединить в одно

$\mathcal{A}(\lambda_1 x + \lambda_2 y)=\lambda_1\mathcal{A} x + \lambda_2 \mathcal{A}y.$

Нас интересует, как линейное отображение $\mathcal{A}$ действует на произвольный вектор $x \in \mathbb{R}^n.$ Для этого зафиксируем в $\mathbb{R}^n$ базис $(e_1,\ldots,e_n),$ а в $\mathbb{R}^m$ базис $(f_1,\ldots,f_m).$ Теперь мы можем разложить векторпо базису

$x = x_1e_1+\ldots+x_ne_n$

и представить $\mathcal{A}x$ в следующем виде

$\mathcal{A}x=\mathcal{A}(x_1e_1+\ldots+x_ne_n)=x_1\mathcal{A}e_1+\ldots+x_n\mathcal{A}e_n.$

Заметим, что $\mathcal{A}e_1,\ldots,\mathcal{A}e_n \in \mathbb{R}^m,$ а поскольку в $\mathbb{R}^m$ зафиксирован базис, то эти векторы также можно разложить по базису

$\mathcal{A}e_1 = a_{11}f_1+a_{21}f_2+\ldots+a_{m1}f_m, \\ \mathcal{A}e_2 = a_{12}f_1+a_{22}f_2+\ldots+a_{m2}f_m, \\ \ldots \\ \mathcal{A}e_n = a_{1n}f_1+a_{2n}f_2+\ldots+a_{mn}f_m.$

или тоже самое в векторной записи

$\begin{array}{cccc} \mathcal{A}e_1 = \left( \begin{array}{c} a_{11}\\ \vdots \\ a_{m1} \end{array} \right), & \mathcal{A}e_2 = \left( \begin{array}{c} a_{12}\\ \vdots \\ a_{m2} \end{array} \right), & \ldots &, & \mathcal{A}e_n = \left( \begin{array}{c} a_{1n}\\ \vdots \\ a_{mn} \end{array} \right) \end{array}.$

Подставляем в равенство выше и получаем

$x_1\mathcal{A}e_1+\ldots+x_n\mathcal{A}e_n= x_1 \left( \begin{array}{c} a_{11}\\ \vdots \\ a_{m1} \end{array} \right) + \ldots + x_n \left( \begin{array}{c} a_{1n}\\ \vdots \\ a_{mn} \end{array} \right) = \left( \begin{array}{c} x_1a_{11} + \ldots + x_na_{1n}\\ \vdots \\ x_1a_{m1} + \ldots + x_na_{mn} \end{array} \right)$

Но правая часть равенства есть не что иное, как формула умножения матрицы на вектор-столбец

$\left( \begin{array}{ccc} a_{11} & \ldots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \ldots & a_{mn} \end{array} \right) \left( \begin{array}{c} x_{1} \\ \vdots \\ x_n \end{array} \right),$

где столбцы матрицы есть векторы $\mathcal{A}e_1,\ldots,\mathcal{A}e_n$

Получается, можно ввести умножение матрицы на вектор по следующему правилу

$\small \left( \begin{array}{ccc} a_{11} & \ldots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} & \ldots & a_{mn} \end{array} \right) \left( \begin{array}{c} x_{1} \\ \vdots \\ x_n \end{array} \right) = x_1 \left( \begin{array}{c} a_{11}\\ \vdots \\ a_{m1} \end{array} \right) + \ldots + x_n \left( \begin{array}{c} a_{1n}\\ \vdots \\ a_{mn} \end{array} \right) = \left( \begin{array}{c} x_1a_{11} + \ldots + x_na_{1n}\\ \vdots \\ x_1a_{m1} + \ldots + x_na_{mn} \end{array} \right).$

И такое определение умножения будет согласовано с тем, как линейное отображение $\mathcal{A}$ действует на вектор

Если теперь обозначить $y= \mathcal{A}x,$ то координаты вектора выражаются через координаты вектора следующим образом

$y_i = \sum_{i=1}^{n}a_{ij}x_j,\quad i = 1,\ldots,m,$

Кроме того, мы получили и другой важный результат, вернёмся к выражению для $\mathcal{A}x$

$\mathcal{A}x=\mathcal{A}(x_1e_1+\ldots+x_ne_n)=x_1\mathcal{A}e_1+\ldots+x_n\mathcal{A}e_n.$

Из него следует, что линейное отображение $\mathcal{A}$ полностью определяется своими значениями на базисных векторах, то есть, если нужно найти $\mathcal{A}x,$ то достаточно знать $\mathcal{A}e_1,\ldots,\mathcal{A}e_n.$

Далее, мы поместили эти векторы в матрицу и определили умножение так, что $\mathcal{A}x$ есть произведение соответствующей матрицынаПолучается, что линейному отображению можно поставить в соответствие матрицу, которая полностью его определяет

$\forall x \in \mathbb{R}^n: \mathcal{A}x = Ax.$

Такая матрица называется матрицей линейного отображения $\mathcal{A}$ в выбранных базисах пространств $\mathbb{R}^n$ и $\mathbb{R}^m.$

Если говорить более строго, то существует взаимно однозначное соответствие между линейными отображениями из $\mathbb{R}^n$ в $\mathbb{R}^m$ и матрицами размера $m \times n.$

Теперь мы можем перейти к умножению матрицы на матрицу.

Умножение матрицы на матрицу

Рассмотрим линейные отображения $\mathcal{A}$ и $\mathcal{B}$

$\mathcal{A} : \mathbb{R}^m \rightarrow \mathbb{R}^s, \quad \mathcal{B} : \mathbb{R}^n \rightarrow \mathbb{R}^m,$

и их композицию $\mathcal{C}$

$\mathcal{C} = \mathcal{A} \circ \mathcal{B}.$

Легко проверяется, что $\mathcal{C}$ будет линейным отображением

$\mathcal{C}(\lambda_1x+\lambda_2y)= (\mathcal{A} \circ \mathcal{B})(\lambda_1x+\lambda_2y)= \mathcal{A}(\mathcal{B}(\lambda_1x)+\mathcal{B}(\lambda_2y))=\mathcal{A}(\lambda_1\mathcal{B}x+\lambda_2\mathcal{B}y)= \\ = \lambda_1\mathcal{A}(\mathcal{B}x)+\lambda_2\mathcal{A}(\mathcal{B}y)=\lambda_1\mathcal{C}x+\lambda_2\mathcal{C}y.$

Поэтому, если зафиксировать в $\mathbb{R}^n, \mathbb{R}^m$ и $\mathbb{R}^s$ базисы, то каждому линейному отображению можно поставить в соответствие его матрицу

$\mathcal{A} \mapsto A, \quad \mathcal{B} \mapsto B, \quad \mathcal{C} \mapsto C.$

Нас теперь интересует, как между собой они связаны. Для этого рассмотрим следующее равенство

$(\mathcal{A} \circ \mathcal{B})x =\mathcal{A}(\mathcal{B}(x)) = \mathcal{A}y = z$

и найдём координаты вектора через координаты вектора

Так как $\mathcal{A}y=z,$ то

$z_i=\sum_{k=1}^{m}a_{ik}y_k, \quad i =1,\ldots,s.$

Но из равенства $y= \mathcal{B}x$ следует, что

$y_k=\sum_{j=1}^{n}b_{kj}x_j, \quad k = 1,\ldots,m.$

Подставляем в равенство выше и получаем

$z_i=\sum_{k=1}^{m}a_{ik}y_k= \sum_{k=1}^{m}a_{ik}\sum_{j=1}^{n}b_{kj}x_j=\sum_{j=1}^{n}(\sum_{k=1}^{m}a_{ik}b_{kj})x_j, \quad i =1,\ldots,s.$

С другой стороны, $(\mathcal{A} \circ \mathcal{B})x = \mathcal{C}x=z,$ то есть

$z_i= \sum_{j=1}^{n}c_{ij}x_j, \quad i = 1,\ldots,s.$

Сравнивая первое и второе равенство для координатполучаем такое соотношение

$c_{ij}=\sum_{k=1}^{m}a_{ik}b_{kj} \quad (i=1,\ldots,s;\,j=1,\ldots,n),$

которое является формулой умножения матрицы на матрицу.

Таким образом, умножение матрицы на матрицу вводится исходя из того, как действует композиция линейных отображений.

Другими словами, если линейным отображениям $\mathcal{A}$ и $\mathcal{B}$ поставить в соответствие их матрицыито композиции этих отображений $\mathcal{A} \circ \mathcal{B}$ ставится в соответствие матрица, которая является произведением матриц

Отсюда, кстати, следует, что матрицыиможно умножить только тогда, когда число столбцов матрицыравно числу строк матрицы

Пусть — матрица размера $m \times n,$ а — матрица размера $s\times k.$ Тогда, если в пространствах $\mathbb{R}^n,\mathbb{R}^m,\mathbb{R}^k$ и $\mathbb{R}^s$ зафиксировать базисы, то этим матрицам ставятся в соответствие линейные отображения $\mathcal{A}$ и $\mathcal{B}$