УказательРазделыОбозначенияАвторО проекте


§

Для понимания материалов этого раздела рекомендуется просмотреть материалы раздела ЛИНЕЙНОЕ ПРОСТРАНСТВО.


Евклидово пространство

Одной из важнейших задач геометрии является задача измерения расстояния между двумя объектами. В произвольном линейном пространстве мы пока не можем определить насколько «близки» между собой объекты. В настоящем разделе понятие расстояния между двумя векторами — элементами линейного пространства — будет вводиться посредством скалярного произведения векторов. Насколько обоснован такой порядок введения понятий:

скалярное произведение \to длина ?

Ведь в аналитической геометрии последовательность кажется более «естественной»: скалярное произведение двух векторов X_{} и Y_{} определялось как произведение длин этих векторов на косинус угла между ними: (X,Y) = |X| \cdot |Y| \cdot \cos (\widehat{X,Y}). Тем не менее, формально непротиворечива и обратная схема: если допустить, что скалярное произведение любых двух векторов может быть как-то вычислено (например, в \mathbb R^{3} по формуле (X,Y) = x_1y_1+x_2y_2+x_3y_3 при заданных прямоугольных координатах (x_1,x_2,x_3) и (y_1,y_2,y_3) векторов X_{} и Y_{}), то и длину векторов и угол между ними можно выразить через подходящие скалярные произведения:

|X|=\sqrt{(X,X)},\qquad \widehat{X,Y}=\arccos \frac{(X,Y)}{\sqrt{(X,X)(Y,Y)}} \ .

Определения

Линейное пространство \mathbb E_{} называется евклидовым, если в этом пространстве определена операция, ставящая в соответствие паре векторов \{X,Y\}\subset \mathbb E вещественное число, называемое скалярным произведением векторов1) X_{} и Y_{}, и обозначаемое (X,Y)_{} или \langle X,Y \rangle_{}; при этом операция подчиняется аксиомам:

1. (X,Y)=(Y,X) для \{ X,\, Y\} \subset \mathbb E;
2. (X_1+X_2,Y)=(X_1,Y) +(X_2,Y) для \{ X_1,\, X_2,\, Y \} \subset \mathbb E;
3. (\lambda\, X,Y)=\lambda\,(X,Y) для \{ X,Y\}\subset \mathbb E,\ \lambda \in \mathbb R;
4. (X,X)>0 для \forall X\ne \mathbb O, (\mathbb O,\mathbb O)=0.

Из аксиом 1 и 2 вытекает свойство линейности скалярного произведения и по второму вектору:

2'. (X,Y_1+Y_2)=(X,Y_1) +(X,Y_2) для \{X, Y_1,\, Y_2 \} \subset \mathbb E.

П

Пример 1. Пространство \mathbb R_{}^{n}.

(X,Y) = \sum_{j=1}^n x_jy_j \quad npu \quad X=[x_1,\dots,x_n]{^{\top}},\ Y=[y_1,\dots,y_n]{^{\top}} \ ;

здесь векторы \mathbb R_{}^{n} рассматриваются как столбцы, а {}^{\top} означает транспонирование. Будем называть это скалярное произведение стандартным. Легко проверить выполнимость аксиом 1 - 4 .

Однако стандартное определение скалярного произведения вовсе не является единственно допустимым; формально скалярное произведение можно ввести и другим способом. Рассмотрим (пока произвольную) вещественную квадратную матрицу A_{} порядка n_{} и положим

\begin{array}{cccr} (X,Y) = X^{\top} A Y & = & a_{11}x_1y_1+a_{12}x_1y_2+ \dots + a_{1n}x_1y_n &+ \\ &+&a_{21}x_2y_1+a_{22}x_2y_2+ \dots + a_{2n}x_2y_n &+ \\ &+& \dots &+ \\ &+&a_{n1}x_ny_1+a_{n2}x_ny_2+ \dots + a_{nn}x_ny_n & \ . \end{array}

(Здесь векторы X_{} и Y_{} из \mathbb R_{}^{n} снова рассматриваются как столбцы.) Если матрица A_{} является положительно определенной, то все аксиомы скалярного произведения будут удовлетворены.

Зачем нужна такая возможность в неоднозначности определения скалярного произведения в одном и том же пространстве? — Ответ на этот вопрос откладывается до следующего пункта. А пока приведу одно замечание2).

§

Введенное — по любому из допустимых алгоритмов — скалярное произведение в \mathbb R^{n}_{} является функцией от 2\,n аргументов — координат векторов X_{} и Y_{}:

(X,Y) = F(x_1,\dots,x_n,y_1,\dots,y_n) \ .

Что это за функция? — Очевидно, это — полином, причем однородный второй степени. Однако по каждой переменной из набора x_{1},\dots,x_n он является линейным. Именно, аксиомы 2 и 3 можно объединить в одно свойство линейности:

F(\lambda_1X_1+ \lambda_2X_2,Y)=\lambda_1 F(X_1,Y)+ \lambda_2 F(X_2,Y) \ npu \quad \{\lambda_1,\lambda_2 \} \subset \mathbb R,\ \{X_1,X_2 \} \subset \mathbb R^n \ .

Аналогичное утверждение справедливо и относительно координат вектора Y_{}. Наличие подобных свойств позволяет выделить во множестве произвольных однородных полиномов второй степени (квадратичных форм) от 2\, n переменных подмножество билинейных форм. Это определение допускает обобщение на произвольное количество наборов переменных из \mathbb R^{n}_{}: полилинейная форма. В частности, полилинейной формой является определитель матрицы порядка n_{} как функция от n^{2} элементов этой матрицы, объединенных в наборы строк или столбцов (см. ЗДЕСЬ ).

П

Пример 2. Пространство \mathbb P_{n} полиномов одной переменной степеней \le n_{} с вещественными коэффициентами. Скалярное произведение полиномов

p(x)=a_{0}x^n+a_1x^{n-1}+\dots + a_n \quad и \quad q(x)=b_{0}x^n+b_1x^{n-1}+\dots + b_n

введем формулой

\left(p(x), q(x) \right) = \sum_{j=0}^n a_j b_j.

Легко проверить справедливость всех аксиом.

В том же пространстве укажем еще один способ задания скалярного произведения

\left(p(x), q(x) \right) = \int_{a}^b p(t)q(t) d\,t

при некоторых фиксированных вещественных константах a_{} и b_{}, a_{}<b. Аксиомы 1 - 3 следуют из свойств определенного интеграла. Проверка выполнения аксиомы 4 более кропотлива и проводится ЗДЕСЬ.

?

В том же пространстве \mathbb P_{n} можно ли определить скалярное произведение формулой

(p(x),q(x)) = \sum_{k=1}^m p(x_k) q(x_k) \quad npu \ \{x_k\}_{k=1}^m \subset \mathbb R \ ?

П

Пример 3. Линейное пространство квадратных матриц порядка n_{} с вещественными элементами. Скалярное произведение введем формулой

(A,B) = \operatorname{Sp} \left(A\cdot B^{\top} \right) = \sum_{j,k=1}^n a_{jk}b_{jk} \ ;

здесь \operatorname{Sp} означает след матрицы, т.е. сумму элементов ее главной диагонали.

На основании аксиом скалярного произведения, его вычисление для произвольных векторов X_{} и Y_{} может быть сведено к вычислению скалярных произведений векторов произвольного базиса. В самом деле, если система \{X_1,\dots,X_{n}\} составляет базис пространства \mathbb E, то, разложив оба вектора по этому базису

X=x_1X_1+ \dots +x_nX_n \quad u \quad Y=y_1X_1+ \dots +y_nX_n \ ,

получаем:

(X,Y)=(x_1X_1+ \dots +x_nX_n , y_1X_1+ \dots +y_nX_n)=
= \left\{ \begin{array}{ccc} &&x_1y_1(X_1,X_1) + x_1y_2(X_1,X_2) + \dots + x_1y_n(X_1,X_n)+ \\ &+&x_2y_1(X_2,X_1) + x_2y_2(X_2,X_2) + \dots + x_2y_n(X_2,X_n)+ \\ &+ & \dots \qquad + \\ &+&x_ny_1(X_n,X_1) + x_ny_2(X_n,X_2) + \dots + x_ny_n(X_n,X_n) \end{array} \right\} =
=(x_1,x_2,\dots,x_n)\left( \begin{array}{cccc} (X_1,X_1) & (X_1,X_2) & \dots & (X_1,X_n) \\ (X_2,X_1) & (X_2,X_2) & \dots & (X_2,X_n) \\ \dots & & & \dots \\ (X_n,X_1)& (X_n,X_2) & \dots &(X_n,X_n) \end{array} \right) \left(\begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \end{array}\right) \ .

Итак, при изменении векторов X_{} и Y_{} в последней формуле изменятся лишь строка и столбец координат, а промежуточная матрица останется неизменной. Задание этой матрицы, следовательно, полностью определит скалярное произведение в \mathbb E_{}. Фактически задание скалярного произведения в разобранном выше примере пространства \mathbb R^{n} по формуле (X,Y)=X^{\top}AY можно рассматривать именно как частный случай этого при подходящем подборе базисных векторов. Согласно рассуждениям из примера 1_{}, матрица

\left( \begin{array}{cccc} (X_1,X_1) & (X_1,X_2) & \dots & (X_1,X_n) \\ (X_2,X_1) & (X_2,X_2) & \dots & (X_2,X_n) \\ \dots & & & \dots \\ (X_n,X_1)& (X_n,X_2) & \dots &(X_n,X_n) \end{array} \right)

должна обладать некоторыми принципиальными свойствами. Так оно и окажется, см. НИЖЕ.

Матрицей Грама системы векторов3) \{X_1,\dots,X_{m} \} называется квадратная матрица

G(X_1,\dots,X_m)=\left( \begin{array}{cccc} (X_1,X_1) & (X_1,X_2) & \dots & (X_1,X_m) \\ (X_2,X_1) & (X_2,X_2) & \dots & (X_2,X_m) \\ \dots & && \dots \\ (X_m,X_1) & (X_m,X_2) & \dots & (X_m,X_m) \end{array} \right) = \left[ (X_j,X_k) \right]_{j,k=1}^m \ .

Ее определитель называется определителем Грама4) (или грамианом) системы векторов \{X_1,\dots,X_{m} \}:

{\mathfrak G}(X_1,\dots,X_m)=\left| \begin{array}{cccc} (X_1,X_1) & (X_1,X_2) & \dots & (X_1,X_m) \\ (X_2,X_1) & (X_2,X_2) & \dots & (X_2,X_m) \\ \dots & && \dots \\ (X_m,X_1) & (X_m,X_2) & \dots & (X_m,X_m) \end{array} \right| = \det \left[ (X_j,X_k) \right]_{j,k=1}^m \ .

С помощью матрицы Грама формула скалярного произведения записывается в виде

(X,Y)=[x_1,\dots,x_n] G(X_1,\dots,X_n) \left[ \begin{array}{c} y_1 \\ \vdots \\ y_n \end{array} \right]\ .
П

Пример 4. В пространстве \mathbb R^{n} столбцов из n_{} элементов при стандартном способе задания скалярного произведения

(X,Y) = \sum_{j=1}^n x_jy_j \quad npu \quad X=[x_1,\dots,x_n]{^{\top}},\ Y=[y_1,\dots,y_n]{^{\top}}

матрицу Грама системы векторов \{X_j=[x_{j1},x_{j2},\dots,x_{jn}]^{\top} \}_{j=1}^m можно представить в виде произведения матриц

G(X_1,\dots,X_{m})=\left( \begin{array}{llll} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \dots & & & \dots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{array} \right) \left( \begin{array}{llll} x_{11} & x_{21} & \dots & x_{m1} \\ x_{12} & x_{22} & \dots & x_{m2} \\ \vdots & & & \vdots \\ x_{1n} & x_{2n} & \dots & x_{mn} \end{array} \right) \ .

Произведение имеет вид M\cdot M^{\top} и, согласно теореме Бине-Коши, определитель этого произведения равен 0_{} при m>n_{} и неотрицателен при m \le n. НИЖЕ будет установлено, что обнаруженные свойства определителя Грама являются универсальными: они выполняются в произвольном евклидовом пространстве. См. также, «обращение» этого результата — задача 4 ЗДЕСЬ.

Свойства

Т

Теорема. Имеет место неравенство Коши–Буняковского:

(X,Y)^2 \le (X,X)(Y,Y) \quad npu \ \forall \ \{X,Y \}\subset \mathbb E \ .

Доказательство для случая \mathbb R^{n}_{} приведено ЗДЕСЬ. Для доказательства общего случая используем одну вспомогательную конструкцию. Из аксиомы 4 следует, что для \forall \lambda \in \mathbb R будет выполнено (\lambda\, X - Y,\, \lambda\, X - Y) \ge 0. Имеем:

0 \le (\lambda\, X - Y,\, \lambda\, X - Y)\le \lambda^2 (X,X) - 2\,\lambda (X,Y) +(Y,Y) \ .

Квадратное относительно \lambda_{} неравенство будет выполнено при всех вещественных значениях этого параметра тогда и только тогда, когда дискриминант квадратного трехчлена будет отрицателен:

\mathcal D=(X,Y)^2 - (X,X)(Y,Y) \le 0 \ .

=>

С помощью скалярного произведения, введенного в предыдущем пункте, можно доказать справедливость интегральной формы неравенства:

\left(\int_a^b p(t)q(t) d\,t \right)^2 \le \int_a^b p^2(t) d\,t \cdot \int_a^b q^2(t) d\,t

для произвольных полиномов5) \{p(x),q(x) \} \subset \mathbb R [x].

Длиною вектора X_{} в евклидовом пространстве \mathbb E_{} называется число

|X| = \sqrt{(X,X)} \ ;

здесь квадратный корень понимается как корень арифметический: |X| \ge 0. Расстоянием между векторами X_{} и Y_{} называется число |X-Y|.

§

Это формальное определение немедленно входит в противоречие со здравым смыслом: длина вектора в линейном пространстве оказывается не фиксированной, раз и навсегда, величиной — как мы привыкли в геометрии, — но зависящей от способа задания скалярного произведения в этом пространстве. На самом деле это противоречие не мешает нам даже в повседневной жизни. Так, никому и в голову не приходит, что расстояние между двумя городами фактически вычисляется «нечестно»: не по прямой, их соединяющей (и, следовательно, проходящей сквозь Землю), а по дуге, проходящей по поверхности земного эллипсоида… Вопрос о том, какое расстояние является более истинным подменяется другим: какое из расстояний позволяет решить ту или иную практическую задачу.

П

В \mathbb R^{n}_{} при скалярном произведении, заданном стандартным способом формулой

(X,Y) = \sum_{j=1}^n x_jy_j \quad npu \quad X=[x_1,\dots,x_n]{^{\top}},\ Y=[y_1,\dots,y_n]{^{\top}} \ ,

длина вектора X_{} определяется естественным (с точки зрения геометрии) способом: |X|=\sqrt{x_1^2+\dots+x_n^2}.

§

В пространстве полиномов со скалярным произведением

\left(p(x), q(x) \right) = \int_{a}^b p(t)q(t) d\,t

для избежания путаницы не используют словосочетание «длина полинома p_{}(x)»; вместо этого величину

\sqrt{\int_a^b p^2(t) d\,t}

называют нормой этого полинома и обозначают \| p(x) \|. Это же название распространяется и в линейное пространство квадратных матриц со скалярным произведением заданным формулой (A,B) = \operatorname{Sp} \left(A\cdot B^{\top} \right) = \sum_{j,k=1}^n a_{jk}b_{jk}: величина

\|A\| = \sqrt{\operatorname{Sp} \left(A\cdot A^{\top} \right)}=\sqrt{\sum_{j,k=1}^n a_{jk}^2}

называется (евклидовой) нормой матрицы6) A=\left[a_{jk} \right]_{j,k=1}^n. Это же определение распространяется и на векторы пространства \mathbb R^{n}, как частный случай матриц: говорят о норме вектора X_{}, имея в виду его длину: \|X\| = \sqrt{(X,X)}. Нигде далее в настоящем разделе я не буду использовать этот термин.

С помощью введенного определения неравенство Коши-Буняковского можно переписать в виде

|(X,Y)| \le |X| \cdot |Y| \quad npu \ \forall \{X,Y \}\subset \mathbb E \ ,

где | \cdot | в левой части означает модуль, а в правой части — длину.

Т

Теорема. Имеет место неравенство треугольника

|X+Y| \le |X|+|Y| \quad npu \ \forall \{X,Y \}\subset \mathbb E \ .

Доказательство. На основании неравенства Коши-Буняковского, имеем:

0 \le (X+Y,\, X+Y)=(X,X)+2(X,Y)+(Y,Y) \le |X|^2+2\, |X| \cdot |Y| +|Y|^2=\left(|X|+|Y| \right)^2 \ .


Углом между векторами X_{} и Y_{} называется угол

\varphi = \widehat{X,Y} = \arccos \frac{(X,Y)}{|X|\cdot |Y|} \ .

Ввиду неравенства Коши-Буняковского это определение непротиворечиво: дробь под знаком арккосинуса не превосходит 1 по абсолютной величине. Векторы X_{} и Y_{} называются ортогональными: X \bot Y если угол между ними равен \pi/2, или, что то же, (X,Y)=0.

Введенное таким определением понятие является естественным обобщением понятия угла на плоскости и в трехмерном пространстве. Хотя в пространствах размерностей больших 3_{} человеческие мозги думать не приучены, тем не менее, абстракция находит практическое применение в задаче информационного поиска.


Косинусное расстояние

Пусть задача заключается в сравнении двух текстовых документов «на похожесть». Имеются некоторые наборы ключевых слов, описывающих каждый из этих документов. Составим объединение этих наборов, упорядочим получившийся набор (пронумеруем слова), посчитаем частоты вхождений каждого из слов в каждый из документов. Получим два вектора:

X_1=(f_{11},f_{12},\dots), \ X_2=(f_{21},f_{22},\dots) \ ,

описывающие каждый из документов. Здесь f_{jk} \in \{0,1,2,\dots, \} — количество вхождений k_{}-го слова в j_{}-й документ. Для оценки близости векторов, на первый взгляд, кажется естественным вычислить расстояние между ними стандартным способом:

|X_1-X_2| = \sqrt{ \sum_{k} (f_{1k}-f_{2k})^2} \ .

Однако, по здравому размышлению, понимаем, что при таком способе, документы различные по объему (общему количеству слов) будут слишком сильно отличаться друг от друга, при том, что могут оказаться близкими по сути (как будет отличаться большая статья от собственного реферата). Поэтому имеет смысл усреднить частоты в обоих текстах, т.е. рассматривать расстояние между векторами X_1/|X_1| и X_2/|X_2| единичной длины:

\left|\frac{X_1}{|X_1|}-\frac{X_2}{|X_2|}\right| = \sqrt{2\left( 1- \frac{(X_1,X_2)}{|X_1|\cdot |X_2|} \right)} \ ;

скалярное произведение под знаком корня вычисляется стандартным способом: (X_1,X_2)=\sum_{k} f_{1k}f_{2k}. Отсюда и возникает понятие косинусного расстояния: величина

\frac{(X_1,X_2)}{|X_1|\cdot |X_2|}

неотрицательна (поскольку компоненты векторов X_1,X_2 неотрицательны), и чем ближе она к 1_{} тем меньше расстояние между между нормированными векторами. Эта величина называется также похожестью или cходством7) векторов (документов) X_{1} и X_{2}.


Т

Теорема [Пифагор]. Если X \bot Y, то |X+Y|^2=|X|^2+|Y|^2.

=>

Если векторы X_1,\dots,X_k попарно взаимно ортогональны, то

|X_1+\dots +X_k|^2=|X_1|^2+\dots +|X_k|^2 \ .

П

Пример. Найти расстояние между полиномами

p(x)=x^{100}-1/2\,x^{85}-1/2\,x^{64}+5\,x^{34}-5\,x^{32}+5\,x^2+1 \quad u \quad q(x)=5\,x^2+1

если скалярное произведение задается формулой а) \displaystyle \left(p(x), q(x) \right) = \sum_{j=0}^{100} a_j b_j ; б) \displaystyle \left(p(x), q(x) \right) = \int_{-1}^1 p(t)q(t) d\, t.

Решение. Для случая а) нам достаточно просто вычислить сумму квадратов коэффициентов разности p(x)-q(x): расстояние равно \sqrt{103/2}.

Для случая б) нам придется иметь дело с интегралом

\int_{-1}^1 \left(p(t)-q(t) \right)^2 d\, t = \int_{-1}^1 \left(t^{100}-1/2\,t^{85}-1/2\,t^{64}+5\,t^{34}-5\,t^{32} \right)^2 d\, t \ ,

который, несмотря на свой громоздкий вид, может быть вычислен элементарными приемами математического анализа. В этом случае расстояние будет равно \sqrt{95965413818\,\big/ 16503052280715}.

Ответ. а) \approx 7.176 ; б) \approx 0.076.

§

Теперь прокомментируем последний пример. В разделе, посвященном полиному одной переменной, имеется теорема о непрерывной зависимости корней полинома от его коэффициентов. Смысл этого результата в следующем: если коэффициенты полиномов

f(x)=x^n+a_1x^{n-1}+\dots+a_n \quad u \quad {\tilde f}(x)=x^n+{\tilde a}_1x^{n-1}+\dots+{\tilde a}_n

из \mathbb C[x] близки, то и корни этих полиномов (при соответствующей нумерации) будут близки на комплексной плоскости. В этой теореме мера близости полиномов оценивается по формуле

\sqrt[n]{\sum_{k=1}^n|a_k-{\tilde a}_k| \gamma^{n-k} } \quad npu \quad \gamma = \max_{j\in \{1,\dots,n\}} \left( \sqrt[j]{|a_j|} \ , \sqrt[j]{|{\tilde a}_j|} \right) \ ,

которая, хоть и не совпадает с формулой

\sqrt{\sum_{k=1}^n \left(a_k-{\tilde a}_k \right)^2} \ ,

определяющей расстояние в пространстве полиномов, но идейно ей близка. Вычисленное в предыдущем примере расстояние между полиномами p_{}(x) и q_{}(x) по формуле а) оказывается достаточно большим в том смысле, что если для полинома p_{}(x) искать полином, имеющий почти такое же расположение корней на \mathbb C_{}, то полином q_{}(x) окажется неподходящим кандидатом.8)

Другое дело, если ставится задача приближения полинома p_{}(x) только на интервале [-1,1] — тогда полином q_{}(x) может оказаться вполне полезным. Выясним сначала природу интеграла, возникшего при решении. Пусть сначала p_{}(x) и q_{}(x) — произвольные, но (для простоты рассуждений) неотрицательные на интервале [a_{},b] полиномы. Геометрический смысл интеграла \int_a^b p(t) d\, t — площадь криволинейной трапеции на плоскости (x_{},y), ограниченной прямыми x=a_{},\,x=b,\,y=0 и графиком y=p(x). Следовательно, геометрический смысл интеграла

\int_a^b \left| p(t)-q(t) \right| d\, t

— площадь фигуры, ограниченной прямыми x=a,\,x=b_{} и графиками y=p(x), y=q(x) (заштрихована коричневым на рисунке). Чем меньше эта площадь, тем «теснее» друг к другу на отрезке [a_{},b] расположены графики y=p(x) и y=q(x). Величина

\sqrt{\int_a^b \left( p(t)-q(t) \right)^2 d\, t} \ ,

вообще говоря, не совпадает с предыдущей, но смысл ее тот же: она позволяет оценивать близость графиков на всем отрезке [a_{},b]. Ответ в примере для варианта б) позволяет заключить, что на отрезке [-1,1] полином p_{}(x) неплохо приближается своими младшими одночленами, т.е. на указанном отрезке график y=p(x) не должен слишком сильно отличаться от параболы y=5\,x^2+1.

Подводя итог приведенным рассуждениям, можно только повторить: метод, выбираемый для оценки близости между объектами, может зависеть от поставленной задачи. Микроскоп не пригоден для наблюдения за большими объектами, а телескоп — за малыми.

Следующий результат также имеет название, взятое из планиметрии, где этот результат формулируется так: сумма квадратов длин диагоналей параллелограмма равна сумме квадратов длин его сторон.

Т

Теорема. В евклидовом пространстве имеет место равенство параллелограмма

|X+Y|^2+|X-Y|^2 =2(|X|^2+|Y|^2) \quad npu \ \forall \{X,Y \}\subset \mathbb E \ .

Ортогонализация

Пусть \dim \mathbb E=n и векторы \{X_1,\dots,X_n\} составляют базис \mathbb E_{}. Этот базис называется ортогональным если векторы попарно ортогональны: X_j\bot X_k; базис называется нормированным если каждый его вектор имеет единичную длину: |X_j|=1; базис называется ортонормированным если он ортогонален и нормирован, т.е.

(X_j,X_k)=\delta_{jk} ,\quad npu \quad \{j,k\} \subset \{1,\dots,n \} \ .

Здесь \delta_{jk}^{}символ Кронекера.

Ортогональный базис будем обозначать {\mathfrak E}_1,\dots, {\mathfrak E}_n.

В пространстве \mathbb R_{}^{n} стандартным ортогональным базисом является базис, состоящий из векторов

{\mathfrak e}_j = \big[\underbrace{0,\dots,0,1}_{j},0,\dots,0\big]^{\top} \quad npu \quad j \in \{1,\dots,n\} \ .

Существование же ортогонального базиса в произвольном евклидовом пространстве еще требует доказательства. Предварительно установим следующий результат.

Т

Теорема. Если ненулевые векторы X_1,\dots, X_{n} попарно ортогональны, то они линейно независимы.

Доказательство. В самом деле, если

\lambda_1 X_1 + \dots + \lambda_n X_n = \mathbb O \ ,

то, домножив это равенство скалярно на X_{1}, получим

\lambda_1 (X_1,X_1) + \dots + \lambda_n (X_1,X_n) = 0 \ .

Поскольку (X_1,X_j)=0 для j\in \{2,\dots,n\}, то \lambda_1 (X_1,X_1)=0, откуда \lambda_1=0. Аналогично показывается, что и все остальные \lambda_j равны 0.

Задача. Пусть имеется произвольная система \{X_1,\dots,X_k\} линейно независимых векторов. Требуется построить систему ортогональных векторов \left\{{\mathfrak E}_1,\dots, {\mathfrak E}_k \right\} такую, чтобы линейные оболочки любых подсистем совпадали:

{\mathcal L}\left(X_1,\dots,X_m \right) ={\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_m \right) \quad npu \quad m\in \{1,\dots,k\} \ .

Иными словами, вектор {\mathfrak E}_1 должен линейно зависеть от X_{1}, вектор {\mathfrak E}_2 должен линейно выражаться через X_1,X_2, {\mathfrak E}_3 — через X_1,X_2,X_3 и т.д.


Алгоритм ортогонализации Грама - Шмидта 9)

В случае m_{}=1 возьмем {\mathfrak E}_1=X_1: поскольку вектор X_{1} входит в линейно независимую систему , то {\mathfrak E}_1 \ne \mathbb O. Далее, будем искать {\mathfrak E}_2 в виде

{\mathfrak E}_2=X_2 + \alpha_{21} {\mathfrak E}_1

при пока неопределенном коэффициенте \alpha_{21}. Очевидно, что при таком выборе {\mathfrak E}_2 условие {\mathcal L}(X_1,X_2)={\mathcal L}({\mathfrak E}_1,{\mathfrak E}_2) будет выполнено. Подберем \alpha_{21} так, чтобы выполнялось {\mathfrak E}_2 \bot {\mathfrak E}_1.

0=({\mathfrak E}_1,{\mathfrak E}_2)=({\mathfrak E}_1,X_2)+\alpha_{21} ({\mathfrak E}_1,{\mathfrak E}_1) \ \Rightarrow \ \alpha_{21}=-({\mathfrak E}_1,X_2)\big/ ({\mathfrak E}_1,{\mathfrak E}_1) \ .

Таким образом, коэффициент \alpha_{21}, а вместе с ним и вектор {\mathfrak E}_2 определяются единственным образом. При этом {\mathfrak E}_2\ne \mathbb O, ибо, в противном случае, векторы X_2 и {\mathfrak E}_1=X_1 были бы л.з., что противоречит предположению о л.н.з. системы \{X_1,\dots,X_k\}. Продолжаем процесс далее: вектор {\mathfrak E}_3 ищем в виде

{\mathfrak E}_3=X_3 + \alpha_{31} {\mathfrak E}_1 + \alpha_{32} {\mathfrak E}_2

при пока неопределенных коэффициентах \alpha_{31} и \alpha_{32}. Условие {\mathcal L}(X_1,X_2,X_3)={\mathcal L}({\mathfrak E}_1,{\mathfrak E}_2,{\mathfrak E}_3) выполняется поскольку

\alpha_{31} {\mathfrak E}_1 + \alpha_{32} {\mathfrak E}_2 \in {\mathcal L}(X_1,X_2) \subset {\mathcal L}(X_1,X_2,X_3) \ .

Подберем скаляры \alpha_{31} и \alpha_{32} так, чтобы выполнялось {\mathfrak E}_3 \bot {\mathfrak E}_1 и {\mathfrak E}_3 \bot {\mathfrak E}_2. Два этих условия задают систему линейных уравнений

\left\{ \begin{array}{cc} (X_3,{\mathfrak E}_1) + \alpha_{31} ({\mathfrak E}_1, {\mathfrak E}_1) + \alpha_{32} ({\mathfrak E}_2 , {\mathfrak E}_1) &=0 ,\\ (X_3,{\mathfrak E}_2) + \alpha_{31} ({\mathfrak E}_1, {\mathfrak E}_2) + \alpha_{32} ({\mathfrak E}_2 , {\mathfrak E}_2) &=0 , \end{array} \right. \ \iff \begin{array}{c} \alpha_{31}=-(X_3,{\mathfrak E}_1) \big/ |{\mathfrak E}_1|^2 \\ \alpha_{32}=-(X_3,{\mathfrak E}_2) \big/ |{\mathfrak E}_2|^2 \end{array}

Процесс продолжается далее аналогично. Допустим, что векторы {\mathfrak E}_1,\dots,{\mathfrak E}_{k-1} уже построены, они ненулевые, попарно ортогональные и

{\mathcal L}\left(X_1,\dots,X_{k-1} \right)= {\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_{k-1} \right) \ .

Вектор {\mathfrak E}_{k} ищем в виде:

{\mathfrak E}_{k} =X_k+\alpha_{k1} {\mathfrak E}_1 + \alpha_{k2} {\mathfrak E}_2 +\dots + \alpha_{k,k-1} {\mathfrak E}_{k-1}

при пока неопределенных коэффициентах \alpha_{k1},\dots ,\alpha_{k,k-1}. Условие {\mathcal L}\left(X_1,\dots,X_{k-1},X_k \right)= {\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_{k-1},{\mathfrak E}_{k} \right) выполнено и, кроме того, {\mathfrak E}_{k}\ne \mathbb O (в противном случае X_k \in {\mathcal L}\left({\mathfrak E}_1,\dots, {\mathfrak E}_{k-1} \right) ={\mathcal L}\left(X_1,\dots,X_{k-1} \right), т.е. система \{X_1,\dots,X_{k-1},X_k \} л.з. Коэффициенты \alpha_{k1}, \dots ,\alpha_{k,k-1} подбираются из условий {\mathfrak E}_{k} \bot {\mathfrak E}_1,\dots, {\mathfrak E}_{k} \bot {\mathfrak E}_{k-1}. Получающаяся система линейных уравнений имеет единственное решение

\alpha_{k1}=- (X_k,{\mathfrak E}_1) \big/ |{\mathfrak E}_1|^2 ,\dots, \alpha_{k,k-1}=-(X_k,{\mathfrak E}_{k-1}) \big/ |{\mathfrak E}_{k-1}|^2 \ ,

это решение определяет единственный вектор {\mathfrak E}_{k}.


П

Пример. Ортогонализовать систему векторов

X_1=\left[1,0,0,0,1 \right],\ X_2=\left[1,1,0,1,1 \right],\ X_3=\left[1,1,1,1,1 \right]

при стандартном способе задания скалярного произведения в \mathbb R^5.

Решение. Имеем:

\begin{array}{lcll} {\mathfrak E}_{1}&=&X_1,\, & \Rightarrow {\mathfrak E}_{1} =\left[1,0,0,0,1 \right] , \\ {\mathfrak E}_{2}&=&X_2+\alpha_{21} {\mathfrak E}_{1}, \ & \\ & &\qquad \alpha_{21}=-(X_2,{\mathfrak E}_{1})/|{\mathfrak E}_{1}|^2=-1 & \Rightarrow {\mathfrak E}_{2}= \left[0,1,0,1,0 \right] , \\ {\mathfrak E}_{3}&=&X_3+\alpha_{31} {\mathfrak E}_{1} +\alpha_{32} {\mathfrak E}_{2}, & \\ & & \qquad \alpha_{31}=-(X_3,{\mathfrak E}_{1})/|{\mathfrak E}_{1}|^2=-1, & \\ & & \qquad \alpha_{32}=-(X_3,{\mathfrak E}_{2})/|{\mathfrak E}_{2}|^2=-1 & \Rightarrow {\mathfrak E}_{3}= \left[0,0,1,0,0 \right] \ . \end{array}

Ответ. {\mathfrak E}_{1}=\left[1,0,0,0,1 \right],\ {\mathfrak E}_{2}=\left[0,1,0,1,0 \right],\ {\mathfrak E}_{3}=\left[0,0,1,0,0 \right].

П

Пример. Пусть в пространстве полиномов скалярное произведение задается формулой

(p(x),q(x))=\int_{-1}^{1} p(t)q(t) d\, t \ .

Построить ортогональный базис этого пространства.

Решение. Искомый базис строится ортогонализацией канонического базиса 1,x,x^2,\dots, x^n. В результате получаем систему полиномов:

1,\ x,\ x^2-\frac{1}{3},\ x^3-\frac{3}{5}\, x,\ x^4-\frac{6}{7}\, x^2+\frac{3}{35},\dots

Полиномы, получающиеся из этих нормированием:

P_0(x)=1,\ P_1(x)= x,\ P_2(x)=\frac{1}{2}(3\,x^2-1),\ P_3(x)= \frac{1}{2}( 5\,x^3-3\, x),
P_4(x)= \frac{1}{8}(35\,x^4-30\, x^2+3),\dots
P_n(x)=\frac{1}{2^n} \sum_{k=0}^{\lfloor n/2 \rfloor} \frac{(-1)^k(2n-2k)!}{k!(n-k)!(n-2k)!} x^{n-2k}

известны как полиномы Лежандра. Здесь \lfloor \rfloor означает целую часть числа. Рекуррентное соотношение

kP_{k}(x)-(2k-1)\,xP_{k-1}(x)+(k-1)\,P_{k-2}(x) \equiv 0, \quad k\ge 2 \ ;

позволяет найти полином P_{k}(x) если уже вычислены P_{k-1}(x) и P_{k-2}(x).

В ортонормированном базисе пространства \mathbb E_{} матрица Грама из формулы скалярного произведения

(X,Y)=(x_1,\dots,x_n) G(X_1,\dots,X_n) \left( \begin{array}{c} y_1 \\ \vdots \\ y_n \end{array} \right)

становится единичной и в таком базисе скалярное произведение становится стандартным :

(X,Y)=\sum_{j=1}^n x_jy_j \ .

Следующая теорема устанавливает связь между двумя ортонормированными базисами в одном и том же пространстве.

Т

Теорема. Матрица перехода от одного ортонормированного базиса к другому является ортогональной.

=>

В пространстве \mathbb R^{n}_{} матрица, составленная из столбцов произвольного ортонормированного базиса, является ортогональной.

Матричный формализм алгоритма Грама-Шмидта: QR-разложение

§

Материал настоящего пункта может быть пропущен при первоначальном чтении.

Рассмотрим пример из предыдущего пункта об ортогонализации системы векторов в \mathbb R^5; только векторы будем рассматривать столбцами:

X_1=\left[\begin{array}{c} 1 \\ 0 \\ 0 \\ 0 \\ 1 \end{array} \right],\ X_2=\left[ \begin{array}{c} 1 \\ 1 \\ 0 \\ 1 \\ 1 \end{array} \right],\ X_3=\left[ \begin{array}{c} 1 \\ 1 \\ 1 \\ 1 \\ 1 \end{array} \right] \, .

Составим из них матрицу

A_{5\times 3} = \left[ X_1,X_2,X_3 \right] \, .

Алгоритм Грама-Шмидта означает некоторые действия со столбцами этой матрицы, и эти действия могут быть записаны на языке матричного формализма, а именно — с помощью операции умножения этой матрицы на последовательность матриц определенного вида. В самом деле, на первом шаге алгоритма, «все остается на месте»: столбец {\mathfrak E}_1 совпадает с X_{1}, а оставшиеся столбцы мы пока не трогаем. Формально это «бездействие» можно записать с помощью умножения матрицы A_{} на единичную матрицу порядка 3_{}.

A\cdot E_{3} = \left[{\mathfrak E}_1,X_2,X_3 \right] \, .

Следующий шаг алгоритма уже менее тривиален: в получившейся матрице производятся действия над первыми двумя столбцами. При этом первый столбец остается неизменным, последний — тоже, а изменяется лишь второй:

{\mathfrak E}_2 = X_2 + \alpha_{21} {\mathfrak E}_1 \, .

Для получившейся на первом шаге матрицы, это действие эквивалентно домножению ее справа на матрицу

R_2 = \left( \begin{array}{ccc} 1 & \alpha_{21} & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right) \, .

Если значение \alpha_{21} вычисляется как указано в алгоритме:

\alpha_{21}=-({\mathfrak E}_1,X_2)\big/ ({\mathfrak E}_1,{\mathfrak E}_1)=-(X_1,X_2)\big/ (X_1,X_1) \, ,

то получившаяся матрица

A\cdot E_{3} R_2 = \left[{\mathfrak E}_1,{\mathfrak E}_2,X_3 \right]

имеет первые два столбца ортогональными. Следующее преобразование получившейся системы столбцов равносильно домножению получившейся матрицы справа на матрицу вида

R_3 = \left( \begin{array}{ccc} 1 & 0 & \alpha_{31} \\ 0 & 1 & \alpha_{32} \\ 0 & 0 & 1 \end{array} \right) \, .

Если значения \alpha_{31} и \alpha_{32} вычисляются как указано в алгоритме, то получившаяся матрица

A\cdot E_{3} R_2 R_3 = \left[{\mathfrak E}_1,{\mathfrak E}_2,{\mathfrak E}_3 \right]

имеет систему своих столбцов ортогональной. Можно произвести еще одно дополнительное домножение

A\cdot E_{3} R_2 R_3 \cdot \left( \begin{array}{ccc} 1/({\mathfrak E}_1,{\mathfrak E}_1) & 0 & 0 \\ 0 & 1/({\mathfrak E}_2,{\mathfrak E}_2) & 0 \\ & 0 & 1/({\mathfrak E}_3,{\mathfrak E}_3) \end{array} \right) \, ,

превратив полученную матрицу в матрицу с ортонормированной системой столбцов.

Теперь обдумаем полученный результат. Матрицы, на которые производились домножения матрицы A_{} имеют довольно специфическую форму: они — либо диагональные, либо же отличаются от единичной матрицы в одном их своих столбцов. Эти матрицы могут быть отнесены к типу матриц элементарных преобразований системы столбцов произвольной матрицы A_{}. Все они являются верхнетреугольными, и их произведение R_{} относится к тому же типу. Обратная к верхнетреугольной также является верхнетреугольной. В результате, можно получить разложение матрицы A_{} в произведение

A=Q_{5\times 3}R^{-1} \, ,

где вторая матрица в произведении является верхнетреугольной, а первая имеет свои столбцы ортонормированными.

Т

Теорема [о QR-разложении]. Для любой вещественной матрицы A_{m\times n}^{} ранга n< m существует вещественная матрица Q_{m\times n} c ортонормированными столбцами и верхнетреугольная вещественная матрица10) \tilde R_{n\times n}, такие, что

A=Q \tilde R \, .

П

Пример. Для матрицы из предыдущего примера имеем:

\left( \begin{array}{ccc} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \\ 0 & 1 & 1 \\ 1 & 1 & 1 \end{array} \right) =
=\left( \begin{array}{ccc} 1/\sqrt{2} & 0 & 0 \\ 0 & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \\ 0 & 1/\sqrt{2} & 0 \\ 1/\sqrt{2} & 0 & 0 \end{array} \right) \left\{ \left( \begin{array}{rrr} 1 & -1 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right) \left( \begin{array}{rrr} 1 & 0 & -1 \\ 0 & 1 & -1 \\ 0 & 0 & 1 \end{array} \right) \left( \begin{array}{ccc} 1/\sqrt{2} & 0 & 0 \\ 0 & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \end{array} \right) \right\}^{-1}
= \left( \begin{array}{ccc} 1/\sqrt{2} & 0 & 0 \\ 0 & 1/\sqrt{2} & 0 \\ 0 & 0 & 1 \\ 0 & 1/\sqrt{2} & 0 \\ 1/\sqrt{2} & 0 & 0 \end{array} \right)\left( \begin{array}{rrr} \sqrt{2} & \sqrt{2} & \sqrt{2} \\ 0 & \sqrt{2} & \sqrt{2} \\ 0 & 0 & 1 \end{array} \right) \, .

=>

Для квадратной неособенной вещественной матрицы A_{} матрица Q_{} в QR-разложении будет ортогональной.

Последний результат имеет уже самостоятельное значение, не относящееся к материалам настоящего раздела. Например, его можно использовать для обращения матрицы A_{}. Дело в том, что ортогональная матрица обращается достаточно просто: Q^{-1} = Q^{\top}.

Расстояние от точки до многообразия

Задача. Найти расстояние от заданного вектора X_{} до заданного множества \mathbb S\subset \mathbb E.

Такая постановка требует немедленного уточнения: что такое расстояние от вектора до множества? Обратясь за помощью к геометрии, мы можем ввести это понятие, основываясь на понятии расстояния между точками: например, расстояние от точки X\in \mathbb R^2 до множества \mathbb S \subset \mathbb R^2 определить как минимальное из возможных расстояний между точками X_{} и Y_{}, где Y\in \mathbb S. Следующий пример показывает, что наше определение оказывается ущербным.

П

Пример. Множество \mathbb S=\{(x,y)\in \mathbb R^2 \mid x^2+y^2<1 \} не содержит своих граничных точек; требуемый минимум расстояний от точки X=(2,0) до точек круга не достигается так как при любом выборе точки Y_1 \in \mathbb S найдется более близкая к точке X_{} точка Y_2 \in \mathbb S.

Расстоянием от вектора X\in \mathbb E до множества \mathbb S\subset \mathbb E назовем число

\inf_{Y\in \mathbb S} |X-Y| \ .
§

По традиции, идущей из геометрии, в алгебре также говорят о «расстоянии от конца вектора X_{}…» или о «расстоянии от точки X_{}…» Кроме удобства ассоциативного восприятия, этим словам не придается никакого формального смысла: понятие конец вектора отсутствует в аксиоматике евклидова пространства.

В случае произвольного множества \mathbb S поставленная задача весьма сложна. В настоящем пункте мы будем решать ее только для частного случая расстояния от точки до плоскости, т.е. от вектора X\in \mathbb E до линейного многообразия \mathbb M \subset \mathbb E.

Ортогональное дополнение

Говорят, что вектор X_{} ортогонален множеству \mathbb S \subset \mathbb E, если X_{} ортогонален любому вектору Y_{} из \mathbb S.

Т

Теорема 1. Для того, чтобы вектор X_{} был ортогонален линейному подпространству \mathbb E_1 необходимо и достаточно, чтобы X_{} был ортогонален произвольному базису этого подпространства.

Т

Теорема 2. Множество векторов X_{} ортогональных подпространству \mathbb E_{1} \subset \mathbb E образует подпространство. Оно называется ортогональным дополнением подпространства \mathbb E_1 в \mathbb E_{ } и обозначается \mathbb E_1^{^{\bot}}. Справедливо равенство

\mathbb E=\mathbb E_1 \oplus \mathbb E_1^{^{\bot}} \ ,

т.е. пространство \mathbb E_{ } раскладывается в прямую сумму своего произвольного подпространства \mathbb E_1 и ортогонального дополнения \mathbb E_1^{^{\bot}} этого подпространства.

П

Пример. Пусть в \mathbb R^4 скалярное произведение задано стандартным способом: (X,Y)= x_1y_1+\dots+x_ny_n. Построить \mathbb E_1^{^{\bot}} для

\mathbb E_1 ={\mathcal L} \left( \left[ \begin{array}{r} 1 \\ 0 \\ 1 \\ 0 \end{array} \right], \left[ \begin{array}{r} 0 \\ 1 \\ 1 \\ -2 \end{array} \right], \left[ \begin{array}{r} 2 \\ -1 \\ 1 \\ 2 \end{array} \right] \right) \ .

Решение. Будем искать произвольный — т.е. не обязательно ортогональный — базис \mathbb E_1^{^{\bot}}. Вектор X=[x_1,x_2,x_3,x_4]^{^{\top}}, принадлежащий \mathbb E_1^{^{\bot}}, должен быть ортогонален всем векторам из \mathbb E_1, и, в частности, тем, на которые натянуто это подпространство. Из полученных равенств составляем систему

\left\{ \begin{array}{rrrrl} x_1&&+x_3&&= 0, \\ &x_2&+x_3&-2\,x_4 &=0, \\ 2\,x_1&-x_2&+x_3&+2\,x_4 &=0, \end{array} \right.

не заботясь о том, что некоторые уравнения могут оказаться зависимыми от других. Множество решений этой системы как раз и будет совпадать с \mathbb E_1^{^{\bot}}. Нам остается лишь найти базис этого множества, т.е. фудаментальную систему решений:

\iff \ \left\{ \begin{array}{rrrrl} x_1&&+x_3&&= 0, \\ &x_2&+x_3&-2\,x_4 &=0 \end{array} \right. \ \Rightarrow \ \begin{array}{cc|cc} x_1 & x_2 & x_3 & x_4 \\ \hline -1 & -1 & 1 & 0 \\ 0 & 2 & 0 & 1 \end{array}

Ответ. \mathbb E_1^{^{\bot}}={\mathcal L}\left([-1,-1,1,0]^{\top},[0,2,0,1]^{\top} \right).

П

Пример. Пусть в \mathbb R^4 скалярное произведение задано стандартным способом: (X,Y)= x_1y_1+\dots+x_ny_n. Построить \mathbb E_1^{^{\bot}} для

\mathbb E_1= \left\{ X\in \mathbb R^4 \left| \begin{array}{rrrrl} 3\,x_1&+2\,x_2&-x_3&-x_4 &= 0, \\ x_1&+x_2&-3\,x_3&-2\,x_4 &=0, \\ 2\,x_1&+x_2&+2\,x_3&+x_4 &=0 \end{array} \right. \right\} \ .

Решение этого примера можно было бы провести сведением к предыдущему случаю. Однако базисные векторы \mathbb E_1^{^{\bot}} легко определяются из следующих соображений. Заметим, что каждое из уравнений системы, задающей \mathbb E_1, можно «перевести на язык» скалярного произведения

3\,x_1+2\,x_2-x_3-x_4=0 \ \iff \ \left([3,2,-1,-1]^{^{\top}}, [x_1,x_2,x_3,x_4]^{^{\top}} \right)=0 .

Формально это соотношение означает, что произвольный вектор X_{} из \mathbb E_1 должен быть ортогонален вектору [3,2,-1,-1]^{^{\top}}. Но последний факт как раз и означает, что [3,2,-1,-1]^{^{\top}}\in \mathbb E_1^{^{\bot}}. Аналогичные рассуждения справедливы и для других уравнений системы. Имеем:

\mathbb E_1^{^{\bot}}= {\mathcal L} \left( \left[ \begin{array}{r} 3 \\ 2 \\ -1 \\ -1 \end{array} \right], \left[ \begin{array}{r} 1 \\ 1 \\ -3 \\ -2 \end{array} \right], \left[ \begin{array}{r} 2 \\ 1 \\ 2 \\ 1 \end{array} \right] \right)= {\mathcal L} \left( \left[ \begin{array}{r} 3 \\ 2 \\ -1 \\ -1 \end{array} \right], \left[ \begin{array}{r} 1 \\ 1 \\ -3 \\ -2 \end{array} \right] \right)

?

Доказать следующие свойства операции \perp: а) \left(\mathbb E_1^{^{\bot}} \right)^{^{\bot}}=\mathbb E_1; б) \left(\mathbb E_1 +\mathbb E_2 \right)^{^{\bot}}=\mathbb E_1^{^{\bot}} \cap \mathbb E_2^{^{\bot}}; в) \left(\mathbb E_1 \cap \mathbb E_2 \right)^{^{\bot}}=\mathbb E_1^{^{\bot}}+\mathbb E_2^{^{\bot}}.

?

Доказать, что в пространстве квадратных матриц со скалярным произведением, заданным формулой

(A,B) = \operatorname{Sp} \left(A\cdot B^{\top} \right) = \sum_{j,k=1}^n a_{jk}b_{jk} \ ,

подпространство кососимметричных матриц является ортогональным дополнением подпространства симметричных матриц.

Вычисление расстояния

Теорема 2 из предыдущего пункта позволяет сформулировать результат, на котором и будет основано решение задачи вычисления расстояния.

Т

Теорема 1. Для любого вектора X\in \mathbb E существует единственное представление его в виде

X=X^{^{\parallel}}+X^{^{\bot}} \quad npu \ X^{^{\parallel}}\in \mathbb E_1, X^{^{\bot}} \in \mathbb E_1^{^{\bot}} .

В этом разложении вектор X^{^{\parallel}} называется ортогональной проекцией вектора X_{} на \mathbb E_1, а вектор X^{^{\bot}}ортогональной составляющей вектора X_{} относительно \mathbb E_1 или же перпендикуляром, опущенным из точки X_{} на подпространство \mathbb E_1.

§

Используемые обозначения X^{^{\parallel}} и X^{^{\bot}} не являются общеупотребительными. Я их придумал сам — показались наглядными, но впоследствии встретил в одной статье Википедии; только там они записаны в вариантах X_{\parallel} и X_{\bot}.

Т

Теорема 2. Длина перпендикуляра, опущенного из точки X_{} на подпространство \mathbb E_1 , равна расстоянию от этой точки до подпространства:

\left|X^{^{\bot}}\right|=\min_{Y\in \mathbb E_1} |X-Y| \ .

Доказательство.

X^{^{\bot}}=\left( X-X^{^{\parallel}} \right) \perp \mathbb E_1 \ \Rightarrow \ X^{^{\bot}} \perp \left( -Y+X^{^{\parallel}} \right) \quad npu \ \forall Y \ \in \mathbb E_1 \ .

По теореме Пифагора:

\left|X^{^{\bot}} \right|^2+ \left|X^{^{\parallel}} -Y \right|^2 =\left|X^{^{\bot}}+ X^{^{\parallel}} -Y \right|^2 = |X-Y|^2 \ \Rightarrow
\ \Rightarrow \ \left|X^{^{\bot}} \right|^2\le |X-Y|^2 \ \Rightarrow \ \left|X^{^{\bot}} \right|\le \min_{Y\in \mathbb E_1} |X-Y| \ .

С другой стороны, указанный минимум достигается при Y=X^{^{\parallel}} поскольку \left|X^{^{\bot}} \right|=\left|X-X^{^{\parallel}}\right|.

Итак, задача, поставленная в начале ПУНКТА, решается вычислением \left|X^{^{\bot}} \right|. Для нахождения последнего числа сначала найдем базис \{X_1,\dots,X_k \} подпространства \mathbb E_1. Далее, ищем X^{^{\parallel}}, принадлежащий \mathbb E_1, в виде линейной комбинации базисных векторов:

X^{^{\parallel}}=\alpha_1 X_1 + \dots + \alpha_k X_k \ .

Для нахождения скаляров \alpha_1,\dots , \alpha_k используем тот факт, что вектор X^{^{\bot}}=X-X^{^{\parallel}} должен быть ортогонален \mathbb E_1, а значит, ортогонален каждому X_j:

(X-X^{^{\parallel}}, X_j)=0 \ \iff \ (X^{^{\parallel}}, X_j)=(X,X_j) \ .

Получаем систему линейных уравнений:

\left\{ \begin{array}{ccccc} \alpha_1 (X_1,X_1) &+ \alpha_2 (X_1,X_2) &+ \dots &+ \alpha_k (X_1,X_k) &= (X,X_1), \\ \alpha_1 (X_2,X_1) & + \alpha_2 (X_2,X_2) &+ \dots &+ \alpha_k (X_2,X_k) &= (X,X_2), \\ \dots & & & & \dots \\ \alpha_1 (X_k,X_1) & + \alpha_2 (X_k,X_2) &+ \dots &+ \alpha_k (X_k,X_k) &= (X,X_k). \end{array} \right.

с матрицей, которая нам уже известна как матрица Грама системы векторов: G(X_1,\dots,X_k). Для однозначной разрешимости относительно \alpha_1,\dots , \alpha_k необходимо и достаточно (см. теорема Кронекера-Капелли ), чтобы определитель этой матрицы — т.е. определитель Грама \mathfrak G(X_1,\dots,X_k) — был отличен от нуля.

Матрица Грама обращается в единичную если векторы X_1,\dots,X_k входят в состав ортонормированного базиса пространства \mathbb E_{}. Следовательно, по крайней мере в этом частном случае, система уравнений будет иметь единственное решение. В одном из последующих ПУНКТОВ будет установлен и более общий факт:

\mathfrak{G}(Y_1,\dots,Y_k)=0 \ \iff \quad система векторов \quad \{Y_1,\dots,Y_k\} \quad линейно зависима.

Этот факт позволяет нам заключить, что, поскольку векторы \{X_1,\dots,X_k\} — базисные для подпространства \mathbb E_1, то система уравнений имеет единственное решение относительно \alpha_1,\dots , \alpha_k:

\alpha_1=\alpha_1^{*},\dots , \alpha_k=\alpha_k^{*} \ .

Теперь может быть найдена проекция вектора X_{} на \mathbb E_1:

X^{^{\parallel}}=\alpha_1^{*} X_1 + \dots + \alpha_k^{*} X_k \ ,

а затем и составляющая: X^{^{\bot}}=X-X^{^{\parallel}}.

П

Пример. Найти расстояние от точки X=[1,1,2,2,2] до подпространства

\mathbb E_1= \left\{ X\in \mathbb R^5 \left| \begin{array}{rrrrrl} x_1&-x_2&-x_3&+x_4 & &= 0, \\ 2\,x_1&-x_2&-x_3&+2\,x_4 &-x_5 &=0 \end{array} \right. \right\} \ ,

если скалярное произведение определяется стандартно: (X,Y)=\sum_{j=1}^5 x_jy_j.

Решение. Базис \mathbb E_1 составляет фундаментальная система решений системы линейных уравнений, например:

X_1=[0,-1,1,0,0],\ X_2=[-1,0,0,1,0],\ X_3=[1,1,0,0,1] \ .

Составляем матрицу Грама этой системы векторов и выписываем систему уравнений:

\left( \begin{array}{rrr} 2 & 0 & -1 \\ 0 & 2 & -1 \\ -1 & -1 & 3 \end{array} \right) \left( \begin{array}{r} \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{array} \right) = \left( \begin{array}{r} 1 \\ 1 \\ 4 \end{array} \right) \ \Rightarrow \ \alpha_1=\frac{7}{4},\, \alpha_2=\frac{7}{4},\, \alpha_3=\frac{5}{2} \ .

Ортогональная проекция вектора X_{} на \mathbb E_1:

X^{^{\parallel}}= \frac{7}{4} X_1 + \frac{7}{4} X_2 + \frac{5}{2} X_3=\left[\frac{3}{4},\, \frac{3}{4},\, \frac{7}{4},\, \frac{7}{4},\, \frac{5}{2} \right] \ ,

а ортогональная составляющая вектора X_{} относительно \mathbb E_1:

X^{^{\bot}}=X-X^{^{\parallel}}= \left[\frac{1}{4},\, \frac{1}{4},\, \frac{1}{4},\, \frac{1}{4},\, - \frac{1}{2} \right] \quad \Rightarrow \ \left|X^{^{\bot}}\right| =\frac{1}{\sqrt{2}} \ .

Ответ. 1/\sqrt{2}.

§

Альтернативный способ вычисления расстояния от точки до линейного многообразия, заданного системой линейных уравнений ЗДЕСЬ.

=>

Расстояние от точки X_{} до линейного подпространства, базисными векторами которого являются X_1,\dots,X_k, вычисляется по формуле:

d=\sqrt{\frac{{\mathfrak G}(X_1,\dots,X_k, X)}{{\mathfrak G}(X_1,\dots,X_k)}} \ .

Доказательство ЗДЕСЬ.

П

Пример. В пространстве полиномов с вещественными коэффициентами степеней не выше 5_{} со скалярным произведением, заданным формулой

\left(p(x),q(x) \right) = \int_{-1}^1 p(t)q(t) d\,t

найти расстояние от полинома p(x)= -x^5+x^3-3\,x+1 до линейного подпространства четных полиномов.

Решение. Базис подпространства четных полиномов состоит, например, из 1,x^2,x^4. Имеем:

{\mathfrak G}(1,x^2,x^4)=\left| \begin{array}{ccc} \int_{-1}^1 1 \cdot 1 d\,t & \int_{-1}^1 1 \cdot t^2 d\,t & \int_{-1}^1 1 \cdot t^4 d\,t \\ \int_{-1}^1 1 \cdot t^2 d\,t & \int_{-1}^1 t^2 \cdot t^2 d\,t & \int_{-1}^1 t^2\cdot t^4 d\,t \\ \int_{-1}^1 1 \cdot t^4 d\,t & \int_{-1}^1 t^2 \cdot t^4 d\,t & \int_{-1}^1 t^4 \cdot t^4 d\,t \end{array} \right|=\left| \begin{array}{ccc} 2 & 2/3 & 2/5 \\ 2/3 & 2/5 & 2/7 \\ 2/5 & 2/7 & 2/9 \end{array} \right|=\frac{2048}{496125} \ ;
{\mathfrak G}(1,x^2,x^4,p(x))=\left| \begin{array}{cccc} 2 & 2/3 & 2/5 & 2 \\ 2/3 & 2/5 & 2/7 & 2/3 \\ 2/5 & 2/7 & 2/9 & 2/5 \\ 2 & 2/3 & 2/5 & 3632/495 \end{array} \right|=\frac{5410816}{245581875} \ .

Отношение полученных определителей даст квадрат расстояния:

d^2=2642/495 \ .

К этому же ответу можно было придти и быстрее если заметить, что при заданном скалярном произведении любой четный полином ортогонален любому нечетному полиному. Следовательно для выделения у p(x) ортогональной составляющей относительно подпространства четных полиномов достаточно оставить в его каноническом виде только нечетные одночлены. Расстояние равно норме полинома p(x)-1.

Подводя итог: определители Грама полностью решают задачу о вычислении расстояния от точки до линейного подпространства в любом евклидовом пространстве; этот результат легко обобщается на произвольное линейное многообразие.

Т

Теорема 3. Расстояние от точки X_{} до линейного многообразия \mathbb M=X_0+\mathbb E_1 равно длине ортогональной составляющей вектора X-X_0 относительно подпространства \mathbb E_1.

Доказательство.

Геометрический смысл понятен из рисунков, иллюстрирующих решение проблемы в \mathbb R^{3}: надо свести задачу к случаю из предыдущей теоремы с помощью сдвига всей конструкции на вектор (-X_0).













Формальности:

\min_{Y\in \mathbb M} |X-Y| =\min_{Z\in \mathbb E_1} |X-(X_0+Z)|= \min_{Z\in \mathbb E_1} |(X-X_0)-Z)| \ .

Последняя величина — это расстояние от точки X-X_0 до \mathbb E_1 ; согласно теореме 2 оно равно длине ортогональной составляющей вектора X-X_0 относительно \mathbb E_1.

=>

Расстояние от точки X_{} до линейного многообразия, заданного параметрически

\mathbb M=\left\{X_0+\lambda_1 X_1+\dots+\lambda_k X_k \quad \mid \quad (\lambda_1,\dots,\lambda_k) \in {\mathbb R}^k \right\}

при фиксированных линейно независимых \{X_0,X_1,\dots,X_k \}\subset {\mathbb E} вычисляется по формуле:

d=\sqrt{\frac{{\mathfrak G}(X_1,\dots,X_k, X-X_0)}{{\mathfrak G}(X_1,\dots,X_k)}} \ .

§

Вычисление расстояния между линейными многообразиями (и некоторыми другими объектами, заданными алгебраическими уравнениями) ЗДЕСЬ.

Угол между вектором и линейным многообразием

§

Материал настоящего пункта может быть пропущен при первоначальном чтении.

Углом между вектором X\in \mathbb E и линейным подпространством \mathbb E_1 \subset \mathbb E назовем число точную нижнюю грань множества углов между X_{} и всевозможными векторами Y \in \mathbb E_1. Углом между вектором X\in \mathbb E и линейным многообразием \mathbb M=X_0+\mathbb E_1 называется угол между X_{} и \mathbb E_1.

Т

Теорема. Угол между вектором X\in \mathbb E и линейным подпространством \mathbb E_1 \subset \mathbb E равен углу между этим вектором и его ортогональной проекцией X^{^{\parallel}} на \mathbb E_1.

Эта теорема сводит задачу к решенной в предыдущих пунктах задаче вычисления расстояния от вектора до подпространства, только теперь интерес смещается от ортогональной составляющей вектора к его ортогональной проекции.

П

Пример. Определить угол между вектором X_0=[1,0,3,0] и линейной оболочкой

\mathcal L([5,3,4,-3],[1,1,4,5],[2,-1,1,2]) \ .

Решение. Воспользуемся результатом, приведенным ЗДЕСЬ (для правильной стыковки рассматриваем все векторы как столбцы):

X_{\ast}=L(L^{\top}\cdot L_{})^{-1} L^{\top} X_0 \, .

Здесь

L=\left(\begin{array}{rrr} 5 & 1 & 2 \\ 3 & 1 & -1 \\ 4 & 4 & 1 \\ -3 & 5 & 2 \end{array} \right), \qquad L^{\top} L = \left(\begin{array}{rrr} 59 & 9 & 5 \\ 9 & 43 & 15 \\ 5 & 15 & 10 \end{array} \right), \qquad (L^{\top} L )^{-1} = \left(\begin{array}{rrr} 41/2312 & -3/2312 & -2/289\\ -3/2312 & 113/2312 & -21/289\\ -2/289 & -21/289 & 307/1445 \end{array} \right)
L(L^{\top}\cdot L_{})^{-1} L^{\top}= \left(\begin{array}{rrrr} 9/10 & -1/5 & 1/5 & -1/10 \\ -1/5 & 3/5 & 2/5 & -1/5 \\ 1/5 & 2/5 & 3/5 & 1/5\\ -1/10 & -1/5 & 1/5 & 9/10 \end{array} \right), \quad X_{\ast}= \left(\begin{array}{r} 3/2 \\ 1 \\ 2 \\ 1/2 \end{array} \right) \, .
\widehat{X_0,X_{\ast}}=\arccos \frac{(X_0,X_{\ast})}{\sqrt{(X_0,X_0)(X_{\ast},X_{\ast})}}= \arccos \frac{\sqrt{3}}{2}= \frac{\pi}{6} \, .

Свойства матрицы Грама

Т

Теорема. {\mathfrak G}(X_{1},\dots,X_m)=0 тогда и только тогда, когда система векторов \{X_{1},\dots,X_m \} линейно зависима.

Доказательство. Если система векторов \{X_{1},\dots,X_m\} линейно зависима, то имеет место равенство

\alpha_1 X_1+\alpha_2 X_2+\dots+\alpha_{m} X_{m}=\mathbb O

при некотором нетривиальном наборе скаляров \alpha_1=\alpha_1^{*},\dots,\alpha_m=\alpha_m^{*}. Домножим это соотношение (скалярно) на векторы X_1,X_2,\dots,X_m, получим систему уравнений, которую перепишем в матричном виде:

\left( \begin{array}{cccc} (X_1,X_1) & (X_1,X_2) & \dots & (X_1,X_m) \\ (X_2,X_1) & (X_2,X_2) & \dots & (X_2,X_m) \\ \dots & & & \dots \\ (X_m,X_1) & (X_m,X_2) & \dots & (X_m,X_m) \end{array} \right) \left( \begin{array}{c} \alpha_1 \\ \alpha_2 \\ \vdots \\ \alpha_m \end{array} \right)= \left( \begin{array}{c} 0 \\ 0 \\ \vdots \\ 0 \end{array} \right) \ .

Если рассмотреть эту систему относительно переменных \alpha_{1},\dots,\alpha_m, то она оказывается однородной и, по предположенному, будет иметь нетривиальное решение \alpha_1=\alpha_1^{*},\dots,\alpha_m=\alpha_m^{*} . Следовательно (см. ТЕОРЕМА КРОНЕКЕРА-КАПЕЛЛИ ) ее определитель равен нулю: {\mathfrak G}(X_{1},\dots,X_m)=0.

Обратно, если определитель Грама равен нулю, то предыдущая система имеет нетривиальное решение относительно \alpha_{1},\dots,\alpha_m. Пусть \alpha_1=\alpha_1^{\star},\dots,\alpha_m=\alpha_m^{\star} — какое-то из этих решений. Составим вектор

X^{\star}= \alpha_1^{\star} X_1+\alpha_2^{\star} X_2+\dots+\alpha_{m}^{\star} X_{m}

и вычислим скалярное произведение его на самого себя:

(X^{\star},X^{\star}) =
= (\alpha_1^{\star} ,\alpha_2^{\star} ,\dots,\alpha_m^{\star} )\underbrace{\left( \begin{array}{cccc} (X_1,X_1) & (X_1,X_2) & \dots & (X_1,X_m) \\ (X_2,X_1) & (X_2,X_2) & \dots & (X_2,X_m) \\ \dots & & & \dots \\ (X_m,X_1)& (X_m,X_2) & \dots &(X_m,X_m) \end{array} \right) \left(\begin{array}{c} \alpha_1^{\star} \\ \alpha_2^{\star} \\ \vdots \\ \alpha_m^{\star} \end{array}\right)}_{=\mathbb O_{m\times 1}}=0 \ .

Таким образом длина вектора X^{\star} равна нулю, и, следовательно, по аксиоме 4 , сам вектор X^{\star} — нулевой. Но тогда система векторов \{X_{1},\dots,X_m\} линейно зависима.

=>

Ранг матрицы Грама совпадает с рангом системы порождающих ее векторов:

\operatorname{rank} (G(X_1,\dots,X_m))= \operatorname{rank} \{X_1,\dots,X_m \} \ .

=>

Если какой-то главный минор матрицы Грама обращается в нуль, то и все главные миноры бóльших порядков обращаются в нуль.

Т

Теорема. {\mathfrak G}(X_{1},\dots,X_m) \ge 0 для любого набора векторов \{X_{1},\dots,X_m \}.

Доказательство ЗДЕСЬ

=>

Матрица Грама линейно независимой системы векторов является положительно определенной.

§

Дальнейшие свойства матрицы и определителя Грама ЗДЕСЬ

Задачи

ЗДЕСЬ.

Источник

Материалы этого раздела составлены на основе книги

Шилов Г.Е. Математический анализ. Конечномерные линейные пространства. М.Наука.1969

1) Dot product, inner product, scalar product (англ.)
2) Несущественно для дальнейшего изложения, можно пропустить.
3) Число m_{} никак не связано с размерностью пространства n_{}.
4) Грам Йoрген Педерсен (Gram Jørgen Pedersen, 1850 – 1916) — датский математик. Биография ЗДЕСЬ
5) Впрочем, неравенство справедливо не только для полиномиальных функций.
6) Норму в пространстве матриц определяют аксиоматически, евклидова норма — лишь один из способов задания; но поскольку мне в ближайшее время другая норма не потребуется, слово евклидовый буду опускать.
7) cosine similarity (англ.)
8) Да и графики этих функций сильно различаются, если рассматривать их на достаточно большом интервале вещественной переменной.
9) Хотя, по-видимому, процесс использовался уже Лапласом и Коши.
10) Обычно в записи этого результата знак \tilde {} над матрицей не ставится; делают переобозначение матриц.

2017/05/08 12:35 редактировал au