УказательРазделыОбозначенияАвторО проекте


§

Для понимания материалов настоящего раздела крайне желательно просмотреть материалы раздела ПОЛИНОМ ОДНОЙ ПЕРЕМЕННОЙ.


Полином нескольких переменных

Будем обозначать через \mathbb A_{} какое-либо из множеств \mathbb Z, \mathbb Q, \mathbb R_{} или \mathbb C_{}.

Общая информация

Функция от переменных x_{1},x_2,\dots,x_{\ell} называется мономом относительно этих переменных, если она представима в виде произведения степенных функций этих переменных:

x_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} = \prod_{j=1}^{\ell} x_j^{k_j} \ ,

где k_{1},k_2,\dots,k_{\ell} — неотрицательные целые числа. Число k_{j} называется степенью монома по переменной x_{j}:

\deg_{ x_j} \left( x_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \right) =k_j \ ,

а число

\deg \left( x_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \right) = k_1+k_2+\dots+k_{\ell}= \sum_{j=1}^{\ell} k_j

степенью монома. При a\in \mathbb A_{} функция

ax_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}}

называется одночленом переменных x_1,x_{2},\dots,x_{\ell} над множеством \mathbb A_{}, число a_{} тогда называется коэффициентом одночлена. Если a_{}\ne 0, то степень одночлена определяется как степень его монома

\deg \left(a x_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \right) =\sum_{j=1}^{\ell} k_j \ ;

в случае a_{}=0 степень одночлена не определяется. Два одночлена, имеющие одинаковые мономы, называются подобными. Полиномом (или многочленом) от переменных x_1,x_{2},\dots,x_{\ell} над множеством \mathbb A_{} называется формальная сумма одночленов над множеством \mathbb A_{}. Как и для случая полиномов от одной переменной, будем записывать полином с помощью строчных латинских букв: f(x_1,x_{2},\dots,x_{\ell}), g(x_1,x_{2},\dots,x_{\ell}), \dots Условимся не выписывать в полиноме одночлены с нулевыми коэффициентами и приводить подобные одночлены: сумму

ax_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}}+ bx_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}}

считать равной

(a+b)x_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \ ,

а произведение

cx_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \times dx_1^{j_1}x_2^{j_2} \times \dots \times x_{\ell}^{j_{\ell}}

— равным

cd x_1^{j_1+k_1}x_2^{j_2+k_2} \times \dots \times x_{\ell}^{j_{\ell}+k_{\ell}} \ .

Сумма и произведение полиномов нескольких переменных определяются по аналогии со случаем одной переменной. Множество всех полиномов от переменных x_{1},\dots,x_{\ell} с коэффициентами из \mathbb A_{} обозначается \mathbb A [x_{1},\dots,x_{\ell}].

П

Пример. Полиномы

2\, x + y -1,\ y^2+\sqrt{3}\, x + \pi xy, \ {\mathbf i} x_1x_2^2

являются полиномами от двух переменных над множествами \mathbb Z , \mathbb R_{} и \mathbb C_{} соответственно. Мы также уже встречались с симметрическими полиномами от n_{} переменных.

\sum_{j=1}^n x_j \ , \ \sum_{1\le j <k \le n} x_jx_k \ , \sum_{j=1}^n x_j^3,\dots

Линейные полиномы рассматриваются ЗДЕСЬ

Степенью полинома f(x_1,x_{2},\dots,x_{\ell}) называется максимальная степень составляющих его одночленов.

Порядок следования степеней переменных в мономах несуществен: x^{2}y^3z=zx^2y^3. Однако имеет смысл договориться записывать мономы, располагая переменные в определенном порядке: например, считать, что всегда cтепени x_{} предшествуют степеням y_{}, а степени y_{} — степеням z_{}. Это позволяет нумеровать коэффициенты полинома. Так, произвольный полином от x_1,x_{2},\dots,x_{\ell} можно записать в виде

f(x_1,x_2,\dots,x_{\ell})=\sum a_{k_1,k_2,\dots,k_{\ell}} x_1^{k_1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \ ,

где суммирование производится по всем различным упорядоченным наборам (иногда называемым мультииндексами) (k_1,k_{2},\dots,k_{\ell}):

0 \le k_1+k_2+\dots+k_{\ell} \le n= \deg f, \quad k_1\ge 0,\dots, k_{\ell} \ge 0 \ .
П

Пример. Произвольный полином второй степени от x,y_{} и z_{} имеет вид

a_{2,0,0}x^2+a_{1,1,0}xy+a_{1,0,1}xz+a_{0,2,0}y^2+a_{0,1,1}yz+a_{0,0,2}z^2+
+a_{1,0,0}x+a_{0,1,0}y+a_{0,0,1}z+a_{0,0,0} \ .

Каждый полином f(x_1,x_{2},\dots,x_{\ell}) можно формально записать как полином от какой-то одной из его переменных, в этом случае его коэффициенты будут полиномами от оставшихся переменных:

f(x_1,x_2,\dots,x_{\ell}) =a_0(x_2,\dots,x_{\ell})x_1^{n_1} +a_1(x_2,\dots,x_{\ell})x_1^{n_1-1}+\dots+a_{n_1}(x_2,\dots,x_{\ell}) \ .

В этом случае будем говорить, что полином f_{} разложен по степеням (переменной) x_{1}. Если a_0(x_{2},\dots,x_{\ell})\not\equiv 0, то n_{1} называется степенью f_{} по x_{1}: \deg_{x_1}f=n_{1}.

?

Верно ли равенство:

\deg f=\deg_{x_1}f+\deg_{x_2}f+\dots + \deg_{x_{\ell}}f \ ?

Т

Теорема [Безу]. Полином n_{}-й степени от \ell_{} переменных имеет1)

C_{n+\ell}^{\ell}

коэффициентов.

Мономы полинома нескольких переменных можно переставлять произвольным образом, упорядочивая их по определенному правилу. Например, можно считать, что переменная x_{1} всегда «имеет преимущество» перед переменной x_{2}, а x_{2} — перед x_{3} и т.д. Таким образом, моном x_1^2x_2^2x_{3} будет поставлен в сумме перед мономом x_1x_2^2x_3^{3}. В ситуации x_1^2x_2^2x_{3} и x_1^2x_2^2x_3^2 на первое место поставим второй моном, как имеющий — при одинаковых степенях первых двух переменных — бóльшую степень x_{3}. Само такое упорядочение будем обозначать символами \succ_{} или \prec_{}:

x_2 \succ x_3, \ x_1^2x_2^2x_3 \succ x_1x_2^2x_3^3, \ x_1^2x_2^2x_3 \prec x_1^2x_2^2x_3^2

и называть (чисто) лексикографическим.

П

Пример. Полином

f(x_1,x_2,x_3)=x_1^2x_2-2\,x_1^2x_3-8\,x_1x_2^5x_3^7+x_2^6x_3+x_2^2

приведен в лексикографической записи.

§

Название происходит от широко принятого принципа формирования словарей: слово Аахен предшествует Абба .

?

В чем заключается расхождение с принципом формирования словаря?

Еще один принцип упорядочения мономов полинома — по степени — поясняется НИЖЕ.

Интерполяция

Пусть заданы точки (узлы интерполяции)

(x_{j1},\dots,x_{j\ell}) \in \mathbb C^{\ell} \ npu \ j\in \{1,\dots, N \}

и заданы значения z_{j} функции в этих точках. Требуется построить полином от \ell_{} переменных, принимающий заданные значения в узлах интерполяции. Кажется, что задача должна решаться по аналогии с одномерным случаем: задание узлов интерполяции в количестве равном числу коэффициентов искомого полинома (см. теорему Безу ) N =C_{n+\ell}^{\ell} позволит однозначно определить полином степени, не превышающей \ell_{}.

Однако ситуация оказывается не такой простой. Подробности — в разделе ИНТЕРПОЛЯЦИЯ.

Частные производные

Пусть разложение f(x_1,x_{2},\dots,x_{\ell}) по степеням x_{1} имеет вид:

f=a_0(x_2,\dots,x_{\ell})x_1^{n_1} +a_1(x_2,\dots,x_{\ell})x_1^{n_1-1}+\dots+a_{n_1}(x_2,\dots,x_{\ell}) \ .

Частной производной полинома f_{} по x_{1} называется полином

n_1a_0(x_2,\dots,x_{\ell})x_1^{n_1-1}+ (n_1-1)a_1(x_2,\dots,x_{\ell})x_1^{n_1-2}+\dots+ a_{n_1-1}(x_2,\dots,x_{\ell}) \ ,

т.е. обычная производная полинома f_{} по x_{1}, когда оставшиеся переменные считаются константами. Этот полином обозначается

\frac{\partial f}{\partial x_1} \quad или \ {\partial f}/{\partial x_1} \quad или \ f^{\prime}_{x_1} \ .

Легко показать, что он получается дифференцированием по x_{1} каждого одночлена в полиноме:

\frac{\partial f}{\partial x_1}=\sum a_{k_1,k_2,\dots,k_{\ell}} k_1 x_1^{k_1-1}x_2^{k_2} \times \dots \times x_{\ell}^{k_{\ell}} \ .

Аналогичным образом определяется и вычисляется частная производная по произвольной переменной x_{j}: {\partial f}/{\partial x_{j}}.

П

Пример. Для f(x,y,z)=2\,x^3y^2z+3\,y^{3}-yz^2+4\, x -1 имеем:

\frac{\partial f}{\partial x}=6\, x^2y^2z+4, \ \frac{\partial f}{\partial y}=4\, x^3yz+9\, y^2 - z^2,\ \frac{\partial f}{\partial z}=2\,x^3y^2-2\, y z \ .

Можно определять и частные производные высших порядков. Так, вторую производную по x_{1} можно определить как производную по x_{1} от функции {\partial f}/{\partial x_{1}}:

{\partial^2 f}/{\partial x_1^2} =f^{\prime \prime}_{x_1 x_1} = n_1(n_1-1)a_0(x_2,\dots,x_{\ell})x_1^{n_1-2}+
+(n_1-1)(n_1-2)a_1(x_2,\dots,x_{\ell})x_1^{n_1-3}+\dots+

Можно, однако, определить и производную от {\partial f}/{\partial x_{1}} по переменной x_{2} — переразложив для этого по степеням x_{2}. Такую производную обозначают

\frac{\partial^2 f}{\partial x_2 \partial x_1}=f^{\prime \prime}_{x_1 x_2} \ .

Для полинома, представленного формулой, имеем:

\frac{\partial^2 f}{\partial x_2 \partial x_1}= \sum a_{k_1,k_2,\dots,k_{\ell}} k_1 k_2 x_1^{k_1-1}x_2^{k_2-1} \times \dots \times x_{\ell}^{k_{\ell}} \ .
П

Пример. Для полинома из предыдущего примера:

\frac{\partial^2 f}{\partial x^2}=12\, xy^2z \ , \ \frac{\partial^2 f}{\partial x \partial y}=12\, x^2yz \ , \ \frac{\partial^2 f}{\partial x \partial z}=6\, x^2y^2 \ ,
\frac{\partial^2 f}{\partial y \partial x}=12\, x^2yz \ , \ \frac{\partial^2 f}{\partial y^2}=4\, x^3z+18\, y \ , \ \frac{\partial^2 f}{\partial y \partial z}= \ ,
\frac{\partial^2 f}{\partial z \partial x}= \qquad \ , \ \frac{\partial^2 f}{\partial z \partial y}= \qquad \ , \ \frac{\partial^2 f}{\partial z^2}= \qquad \ .

Продолжая процесс нахождения частных производных, можно составить частные производные третьего порядка

\frac{\partial^3 f}{\partial x_k \partial x_i \partial x_j} = \frac{\partial }{\partial x_k} \left( \frac{\partial^2 f}{\partial x_i \partial x_j} \right) \ ,

четвертого и т.д. Таким образом, у полинома \ell_{} переменных существует \ell_{} производных первого порядка, \ell^{2} производных второго порядка и т.д. На самом деле, число различных производных N_{}-го порядка меньше \ell^N. Во-первых, очевидно, что

{\partial^N f}/{\partial x_j^N}\equiv 0 \quad при \ N>n_j=\deg_{x_j} f \ .

Во-вторых, в предыдущем примере можно было наблюдать одно явление: «смешанные» производные не зависели от порядка дифференцирования:

\frac{\partial^2 f}{\partial x \partial y}= \frac{\partial^2 f}{\partial y \partial x} \ .
Т

Теорема. Для N_{}-й частной производной очередность, в которой производится дифференцирование полинома, не имеет значения:

\frac{\partial^N f}{\partial x_{i_1} \partial x_{i_2} \dots \partial x_{i_N} }= \frac{\partial^N f}{\partial x_{j_1} \partial x_{j_2} \dots \partial x_{j_N} } \ ,

где (не обязательно различные) индексы i_1,i_{2},\dots,i_N представляют перестановку индексов j_1,j_{2},\dots,j_N.

Однородный полином

Полином F(x_{1},x_2,\dots,x_{\ell}) называется однородным полиномом или формой степени (или порядка) m_{}, если все его одночлены имеют степень m_{}. Однородный полином нулевого порядка очевидно является константой. Однородный полином первого, второго или третьего порядков называют также, соответственно, линейной, квадратичной или кубической формой.

П

Пример. Полиномы

x+2\, y -z,\ x^2-xy+y^2,\ x^2y^2+x^4+y^4-2\, x^2yz

— формы, соответственно, линейная, квадратичная и четвертого порядка.

П

Пример. Участвующие в формулах Виета выражения относительно корней полинома одной переменной являются значениями однородных полиномов:

x_1+x_2+\dots+x_n,\ x_1x_2+x_1x_3+\dots + x_jx_k+\dots + x_{n-1}x_n,\ \dots, x_1x_2\dots x_n

соответственно первой, второй и т.д., n-й степени. Эти полиномы называются элементарными симметрическими, что соответствует основному их свойству: значение любого из них не меняется при произвольной перестановке переменных

\Phi(x_1,\dots,x_n) \equiv \Phi(x_{j_1},\dots,x_{j_n}) \ .

П

Пример. Определитель порядка n_{} является однородным полиномом степени n_{} относительно своих элементов.

Т

Теорема. Для однородного полинома F(x_{1},x_2,\dots,x_{\ell}) степени m>0 справедливо тождество

F(tx_1,tx_2,\dots,tx_{\ell}) \equiv t^m F(x_1,x_2,\dots,x_{\ell})

при любом значении t_{}.

Т

Теорема. Для однородного полинома F(x_{1},x_2,\dots,x_{\ell}) степени m_{} справедливо тождество Эйлера:

\frac{\partial F}{\partial x_1}x_1+\frac{\partial F}{\partial x_2}x_2+ \dots + \frac{\partial F}{\partial x_{\ell}}x_{\ell} \equiv m F(x_1,x_2,\dots,x_{\ell}) \ .

П

Пример. Применим эту теоремы к определителю порядка n_{}, рассматривая его элементы как переменные. Заметим, что частная производная определителя по элементу a_{jk}^{} равна алгебраическому дополнению A_{jk}^{} этого элемента в определителе (этот факт можно доказать как следствие общей теоремы о дифференцировании определителя). Рассмотрим j_{}-ю строку определителя. Относительно ее элементов a_{j1},\dots,a_{jn}^{} определитель является линейным однородным полиномом первой степени. Таким образом, тождество Эйлера в этом случае представляет из себя формулу разложения определителя по элементам j-й строки.

Произвольный полином f(x_1,x_{2},\dots,x_{\ell}) степени n_{} может быть представлен в виде суммы своих форм:

f\equiv f_{n} (x_1,x_2,\dots,x_{\ell}) + f_{n-1} (x_1,x_2,\dots,x_{\ell})+\dots + f_{0} (x_1,x_2,\dots,x_{\ell}) \ ;

здесь f_{j}(x_1,x_2,\dots,x_{\ell}) обозначает форму j_{}-го порядка (очевидно, что f_{0} — константа). Форма f_{n}^{} называется старшей формой полинома f_{}. Если каждую форму упорядочить лексикографически, то получим еще один способ упорядочения мономов, он иногда называется упорядочение по полной степени.

П

Пример. При сохранении условия x_1 \succ x_2 \succ x_3 полином f(x_1,x_2,x_3) изложенного ВЫШЕ примера упорядочим по полной степени:

f(x_1,x_2,x_3)=-8\,x_1x_2^5x_3^7+x_2^6x_3+x_1^2x_2-2\,x_1^2x_3+x_2^2 \ .

В некоторых задачах алгебры и многомерной геометрии используется следующая операция превращения произвольного полинома f(x_1,x_{2},\dots,x_{\ell}) степени n_{} в однородный2) :

F(x_0,x_1,x_2,\dots,x_n) \equiv x_0^n f\left(\frac{x_1}{x_0},\frac{x_2}{x_0},\dots, \frac{x_{\ell}}{x_0}\right) \ .
П

Пример. Для f(x,y)=x^2+y^3+xy - 1 результатом операции будет полином F(x,y,z)=x^2z+y^3+xyz-z^3.

§

Квадратичные формы подробно рассматриваются ЗДЕСЬ

Формула Тейлора

По аналогии с полиномом от одной переменной, полином f(x_{1},x_2,\dots,x_{\ell}) можно переразложить по степеням x_1-c_1, x_2-c_2,\dots,x_{\ell}-c_{\ell}, где c_1,c_2,\dots,c_{\ell} — произвольные числа из \mathbb{A}.

Т

Теорема. Для полинома степени n имеет место формула Тейлора в точке (c_1,c_2,\dots,c_{\ell}):

\begin{matrix} f(x_1,x_2,\dots,x_{\ell}) & & \equiv f(c_1,c_2,\dots,c_{\ell})+ \\ +&& \left(\frac{\partial \Box}{\partial x_1} (x_1-c_1) +\frac{\partial \Box}{\partial x_2} (x_2-c_2)+ \dots+ \frac{\partial \Box}{\partial x_{\ell}} (x_{\ell}-c_{\ell})\right) f + \\ +&& \frac{\displaystyle 1}{\displaystyle 2!} \left(\frac{\partial \Box}{\partial x_1} (x_1-c_1) +\frac{\partial \Box}{\partial x_2} (x_2-c_2)+ \dots+ \frac{\partial \Box}{\partial x_{\ell}} (x_{\ell}-c_{\ell})\right)^2 f + \\ +&& \dots + \\ +&& \frac{\displaystyle 1}{\displaystyle n!} \left(\frac{\partial \Box}{\partial x_1} (x_1-c_1) +\frac{\partial \Box}{\partial x_2} (x_2-c_2)+ \dots+ \frac{\partial \Box}{\partial x_{\ell}} (x_{\ell}-c_{\ell})\right)^n f \ . \end{matrix}

Здесь выражение в правой части следует понимать в следующем смысле:

  • \Box означает свободное, пустое место;
  • выражение
\left(\frac{\partial \Box}{\partial x_1} (x_1-c_1) +\frac{\partial \Box}{\partial x_2} (x_2-c_2)+ \dots+ \frac{\partial \Box}{\partial x_{\ell}} (x_{\ell}-c_{\ell})\right)^N

вычисляется именно как N-я степень суммы;

  • после этого всякое выражение
\left( \frac{\partial \Box}{\partial x_1} \right)^{k_1} \left( \frac{\partial \Box}{\partial x_2} \right)^{k_2} \times \dots \times \left( \frac{\partial \Box}{\partial x_{\ell}} \right)^{k_{\ell}} f

считается равным

\frac{\partial^{N} f}{\partial x_1^{k_1} \partial x_2^{k_2} \dots \partial x_{\ell}^{k_{\ell}}} \ .

Все частные производные от функции f_{} вычисляются в точке (c_1,\dots,c_{\ell}).

П

Пример. Разложить полином

f(x_1,x_2,x_3)=2\,x_2^4\,x_3+x_1^3-x_3^2+2\,x_1x_2-x_1x_3+5\,x_1-x_2+4\,x_3-3

по степеням x_1-1,x_2+1,x_3-2.

Решение. Используем формализм из теоремы:

f(x_1,x_2,x_3)\equiv f(c_1,c_2,c_3)+\left(\frac{\partial f}{\partial x_1}\Bigg|_{_{(1,-1,2)}}(x_1-c_1)+\frac{\partial f}{\partial x_2}\Bigg|_{_{(1,-1,2)}}(x_2-c_2)+ \frac{\partial f}{\partial x_3}\Bigg|_{_{(1,-1,2)}}(x_3-c_3)\right)+
+\frac{1}{2} \Bigg( \frac{\partial^2 f}{\partial x_1^2}\Bigg|_{_{(1,-1,2)}}(x_1-c_1)^2+2\frac{\partial^2 f}{ \partial x_1 \partial x_2}\Bigg|_{_{(1,-1,2)}}(x_1-c_1)(x_2-c_2)+
+2\frac{\partial^2 f}{ \partial x_1 \partial x_3}\Bigg|_{_{(1,-1,2)}}(x_1-c_1)(x_3-c_3)+ \frac{\partial^2 f}{\partial x_2^2}\Bigg|_{_{(1,-1,2)}}(x_2-c_2)^2+
+2\frac{\partial^2 f}{ \partial x_2 \partial x_3}\Bigg|_{_{(1,-1,2)}}(x_2-c_2)(x_3-c_3)+\frac{\partial^2 f}{\partial x_3^2}\Bigg|_{_{(1,-1,2)}}(x_3-c_3)^2 \Bigg)+\dots

Вычисляем значения полинома и его частных производных:

f(1,-1,2)=8,
\partial f / \partial x_1 \big|_{_{(1,-1,2)}} =4,\ \partial f / \partial x_2 \big|_{_{(1,-1,2)}} =-15,\ \partial f / \partial x_3 \big|_{_{(1,-1,2)}} = 1,

все последующие производные также вычислены в точке (1,-1,2):

\frac{\partial^2 f}{\partial x_1^2}=6,\ \frac{\partial^2 f}{ \partial x_1 \partial x_2} = 2,\ \frac{\partial^2 f}{\partial x_1 \partial x_3}=-1,\ \frac{\partial^2 f}{\partial x_2^2}= 48,
\frac{\partial^2 f}{\partial x_2 \partial x_3}=-8,\ \frac{\partial^2 f}{\partial x_3^2} =-2, \ \frac{\partial^3 f}{\partial x_1^3}=3, \frac{\partial^3 f}{\partial x_1^2 \partial x_2}=0,\dots

Ответ.

f\equiv 8+4(x_1-1)-15(x_2+1)+(x_3-2)+
+3(x_1-1)^2+2(x_1-1)(x_2+1)-(x_1-1)(x_3-2)+24(x_2+1)^2-
-8\,(x_2+1)(x_3-2)+(x_3-2)^2 +(x_1-1)^3+12(x_2+1)^2(x_3-2)-16(x_2+1)^3-
-8(x_2+1)^3(x_3-2)+4(x_2+1)^4+2(x_2+1)^4(x_3-2) \ .

Перепишем первые три слагаемые в формуле Тейлора с использованием матричного формализма. Вектор-столбец3), составленный из частных производных полинома f_{} первого порядка, т.е.

\left( \begin{array}{l} \partial f / \partial x_1\\ \partial f/ \partial x_2\\ \vdots \\ \partial f/ \partial x_{\ell} \end{array} \right),

где все частные производные вычисляются в точке (c_1,\dots,c_{\ell}), называется градиентом полинома f в точке (c_1,\dots,c_{\ell}) и обозначается \operatorname{grad} \, (f) \mid_{_{(c_1,\dots,c_{\ell})}} или, с использованием искусственно определяемого вектора набла4)

\nabla = \left( \begin{array}{c} \partial / \partial x_1\\ \partial / \partial x_2\\ \vdots \\ \partial / \partial x_{\ell} \end{array} \right),

в виде \nabla f \mid_{_{(c_1,\dots,c_{\ell})}}.

Матрица, составленная из частных производных полинома f_{} второго порядка

H (f) = \left( \begin{array}{cccc} {\partial^2 f}/{\partial x_1^2} & {\partial^2 f}/{\partial x_1 \partial x_2} & \dots & {\partial^2 f}/{\partial x_1 \partial x_{\ell}} \\ {\partial^2 f}/{\partial x_2 \partial x_1} & {\partial^2 f}/{\partial x_2^2} & \dots & {\partial^2 f}/{\partial x_2 \partial x_{\ell}} \\ \dots & && \dots \\ {\partial^2 f}/{\partial x_{\ell} \partial x_1} & {\partial^2 f}/{\partial x_{\ell} \partial x_2} & \dots & {\partial^2 f}/{\partial x_{\ell}^2} \end{array} \right)= \left[ \frac{\partial^2 f}{\partial x_j \partial x_k} \right]_{j,k=1}^{\ell}

где все частные производные вычисляются в точке (c_1,\dots,c_{\ell}), называется матрицей Гессе полинома f_{} в точке (c_1,\dots,c_{\ell}). Она является симметричной, что следует из равенства производных

{\partial^2 f}/{\partial x_j \partial x_k}={\partial^2 f}/{\partial x_k \partial x_j} \ .

Ее определитель называется гессианом полинома f_{} в точке (c_1,\dots,c_{\ell}).

Обозначим

Y=\left( \begin{array}{c} x_1-c_1 \\ x_2-c_2 \\ \vdots \\ x_{\ell} - c_{\ell} \end{array} \right) .

Тогда разложение по формуле Тейлора можно переписать в виде:

f(x_1,x_2,\dots,x_{\ell}) =
=f(c_1,c_2,\dots,c_{\ell})+ \left(\operatorname{grad} \, (f) \mid_{_{(c_1,\dots,c_{\ell})}} \right)^{\top} \cdot Y + \frac{1}{2} Y^{\top} H (f)\mid_{_{(c_1,\dots,c_{\ell})}} Y + \dots

Здесь { }^{\top} означает транспонирование.

Экстремумы полинома

Формула Тейлора позволяет найти условия, при которых полином с вещественными коэффициентами будет достигать своего минимального или максимального значения.

Говорят, что полином f(x_1,\dots,x_{\ell})\in \mathbb R[x_1,\dots,x_{\ell}] имеет в точке (c_1,\dots,c_{\ell} ) (локальный) минимум если существует некоторое \delta>0, что при всех значениях аргументов, удовлетворяющих неравенствам5)

|x_1-c_1|<\delta,\dots,|x_{\ell}-c_{\ell}|<\delta

будет выполнено

f(x_1,x_2,\dots,x_{\ell})> f(c_1,\dots,c_{\ell}) \ .

Если последнее неравенство изменить на противоположное, то получим определение (локального) максимума. Говорят, что полином имеет в точке (c_1,\dots,c_{\ell}) (локальный) экстремум если он имеет в этой точке либо максимум либо минимум.

Т

Теорема. Если полином f(x_1,x_{2},\dots,x_{\ell}) имеет в точке (c_1,\dots,c_{\ell}) экстремум, то в этой точке все его частные производные обратятся в нуль:

\frac{\partial f}{\partial x_1}=0, \frac{\partial f}{\partial x_2}=0, \dots , \frac{\partial f}{\partial x_{\ell}}=0 \ .

Или, что то же, градиент функции f_{} в такой точке обращается в нуль.

Доказательство следует из того, что если полином f(x_1,x_{2},\dots,x_{\ell}) имеет в точке (c_1,c_2,\dots,c_{\ell}), скажем, локальный минимум , то и полином одной переменной f(x_1,c_2,\dots,c_{\ell}) имеет в точке x_1=c_1 локальный минимум. Тогда, по теореме Ферма производная этого полинома должна быть равна нулю в этой точке. Но эта производная как раз и совпадает с {\partial f}/{\partial x_1}. Аналогично показывается обращение в нуль и частных производных по остальным аргументам.

Каждое из вещественных решений системы называется стационарной точкой полинома f_{}, значение же полинома в стационарной точке называется критическим значением полинома. Таким образом, множество точек экстремума полинома является подмножеством множества его стационарных точек. Однако, не всякая стационарная точка является точкой экстремума.

П

Пример. Полином f(x,y)=xy не имеет в точке (0,0) ни максимума, ни минимума.

П

Пример. Найти экстремумы полинома f(x,y)= -x^4-1/2\,y^4+4\,x^2+3\,xy+4\,y.

Решение. Система уравнений для определения стационарных точек:

\partial f /\partial x=-4\,x^3+8\,x+3\,y=0,\quad \partial f /\partial y=-2\,y^3+3\,x+4=0 \ .

Она может быть немедленно сведена к более простой: из первого уравнения выражается y_{} и подставляется во второе. В результате получаем эквивалентную систему

\left\{ \begin{array}{l} -128\,x^9+768\,x^7-1536\,x^5+1024\,x^3+81\,x+108=0,\\ y=4/3\,x^3-8/3\,x \ , \end{array} \right.

в которой первое уравнение имеет корнями x_{}-координаты стационарных точек:

\alpha_1 \approx -1.524616,\ \alpha_2 \approx -0.458794,\ \alpha_3 \approx 1.657221 \ ,

а второе позволяет по найденной x_{}-координате определить соответствующую y_{}-координату:

\beta_1\approx -0.659563,\ \beta_2 \approx 1.094687,\ \beta_3 \approx 1.6492291 \ .

Из этих трех стационарных точек точки (\alpha_1, \beta_1) и (\alpha_3, \beta_3) являются точками экстремума , а точка (\alpha_2, \beta_2) — не является. Этот факт мы пока подтвердим только ссылкой на графики поверхности z=f(x,y) в двух разных проекциях:

Видим, что действительно, в двух точках наблюдаются «вершины горной системы», а одна из точек определяет «седло» — при движении из нее в одном направлении мы будем «подниматься» (увеличивать значения полинома), а в другом — «спускаться» (уменьшать их). Критические значения функции:

f_1 \approx 4.178595 ,\ f_2 \approx 2.951692 ,\ f_3 \approx 14.540160 \ .

Еще один способ визуального представления поведения функции f_{}(x,y) заключается в построении сечений поверхности z=f(x,y) плоскостями параллельными плоскости Oxy — с проектированием их всех на ту же плоскость Oxy. Можно сказать, что строится «топографическая карта»: по оси Oz_{} откладывается высота и рассматриваются срезы поверхности на дискретном наборе высот z\in \{ c_j\}. На рисунке

голубым цветом изображен «уровень моря», т.е. кривая f(x,y)=0; остальные кривые соответствуют возрастающим значениям z_{}. Точками обозначена кривая f(x,y)=2.7 —она еще состоит из одной «ветви», а вот следующая за ней кривая f(x,y)=3 — уже из двух (подъем над уровнем моря превысил высоту «точки перевала»). Сечение z=4 еще «срезает» обе вершины (тонкая зеленая линия), но все последующие z\in \{ 6,8,10, 12, 14 \} — только одну: самую высокую.

Теперь перейдем от картинок к более формальному анализу тех задач, которые мы затронули при решении последнего примера.

1. Установить количество стационарных точек полинома f_{} и определить их координаты.

Система уравнений для определения точек экстремума является алгебраической и может быть решена методами теории исключения6). Методы этой теории дают возможность оценить и количество этих точек. В самом деле, на основании теоремы Безу, общее число комплексных решений системы как правило равно (n-1)^{\ell}; в общем же случае, если число решений конечно, то оно не превосходит этой оценки. В исключительных случаях возможно и бесконечное множество решений ( f(x,y)=(x-y)^2 ). Нас, однако же, интересуют не все решения системы, а только вещественные, т.е. принадлежащие \mathbb R^{\ell}. Их точное число также можно определить чисто алгебраическими методами.

2. По известным координатам стационарной точки определить будет ли она точкой экстремума.

Эта задача имеет достаточно конструктивное решение. На основании теоремы, в стационарной точке (c_1,c_2,\dots,c_{\ell}) все частные производные первого порядка должны обращаться в нуль. Тогда из формулы Тейлора следует, что

f(x_1,x_2,\dots,x_{\ell}) - f(c_1,c_2,\dots,c_{\ell})= \frac{1}{2} Y^{\top} H (f)\mid_{_{(c_1,\dots,c_{\ell})}} Y + \dots
npu \quad Y^{\top}=\left(x-c_1,x-c_2,\dots,x-c_n \right).

Здесь многоточия в правой части последнего равенства означают полином относительно Y_{}, степени мономов которого выше второй. В достаточно малой окрестности стационарной точки знак разности f(x_1,x_2,\dots,x_{\ell}) - f(c_1,c_2,\dots,c_{\ell}) полностью определяется знаком первого слагаемого, т.е. квадратичной формы

Y^{\top} H (f)\mid_{_{(c_1,\dots,c_{\ell})}} Y \ .

Если при любых значениях Y_{}, отличных от тривиального, знак этой квадратичной формы положителен, то в точке (c_1,c_2,\dots,c_{\ell}) полином имеет локальный минимум; если знак квадратичной формы всегда отрицателен — то стационарная точка определяет точку локального максимума. Наконец, квадратичная форма может принимать значения разных знаков — в этом случае стационарная точка не будет являться точкой экстремума. Мы пришли к свойству знакоопределенности квадратичной формы; для простоты следующий результат сформулируем в терминах матрицы этой квадратичной формы.

Т

Теорема. Если в стационарной точке (c_1,c_2,\dots,c_{\ell}) полинома его матрица Гессе

H (f)\mid_{_{(c_1,\dots,c_{\ell})}}

является знакопеременной, то стационарная точка не является точкой локального экстремума. Если эта матрица является положительно определенной, то стационарная точка является точкой локального минимума, если эта матрица является отрицательно определенной, то стационарная точка — точка локального максимума.

Конструктивные критерии проверки свойства положительной определенности, отрицательной определенности или неопределенности можно сформулировать в терминах главных миноров матрицы Гессе (см. ЗДЕСЬ ).

П

Пример. Установить тип стационарных точек полинома из разобранного выше примера: f(x,y)= -x^4-1/2\,y^4+4\,x^2+3\,xy+4\,y.

Решение. Вычислим матрицу Гессе в каждой точке плоскости (x_{},y):

H(f)=\left( \begin{array}{cc} -12\, x^2 +8 & 3 \\ 3 & -6\, y^2 \end{array} \right) .

Необходимое условие знакоопределенности (положительной или отрицательной) квадратичной формы от двух переменных — определитель ее матрицы (ее дискриминант) должен быть положителен. В случае матрицы H(f) мы имеем дело с гессианом функции f_{}:

\det H(f)=72\,x^2y^2 -48\, y^2 -9 > 0 .

Подставляя в этот полином координаты найденных выше стационарных точек, убеждаемся, что это равенство удовлетворяется при (x,y)=(\alpha_1,\beta_1) и (x,y)=(\alpha_3,\beta_3), но не удовлетворяется при (x,y)=(\alpha_2,\beta_2). Следовательно, последняя точка не является точкой экстремума7). Для двух остальных точек следует ( в соответствии с критерием Сильвестра ) оценить знак главного минора первого порядка матрицы Гессе, т.е. -12\, x^2 +8. Можно проверить, что в обоих случаях этот знак будет отрицателен.

Ответ. Точки (-1.524616,-0.659563) и (1.657221, 1.6492291) являются точками локального максимума; точка (-0.458794,1.094687 ) не является точкой экстремума.

§

Критическим при исследовании на экстремум является случай, когда матрица Гессе задает квадратичную форму, которая не является ни знакоопределенной, ни неопределенной. Возможны и случаи, когда матрица Гессе станет нулевой. В этом случае для исследования на экстремум приходится привлекать формы более высокой степени в формуле Тейлора, и анализ может весьма усложниться (см. пример 2 ЗДЕСЬ ).

3. Определить достигается ли глобальный максимум или минимум полинома в его точке экстремума.

4. Определить геометрию кривых f(x,y) = const при полиномиальной функции f_{}(x,y) и различных значениях константы.

Такие кривые относятся к типу алгебраических. Их называют также линиями уровня полинома f_{}(x,y) — с очевидным «топографическим» смыслом.

Алгебраические уравнения

Так называются уравнения вида

f(x_1,\dots,x_{\ell})=0

где f_{} — полином с коэффициентами из \mathbb Q_{} или \mathbb R_{} или \mathbb C_{}. Задача ставится о нахождении множества решений этого уравнения — обычно также как подмножества одного из указанных множеств. Эта задача оказывается значительно более сложной, чем аналогичная для уравнения от одной переменной. Фактически, известно полное ее решение для случая \deg f \le 2, но уже для случая полиномов от двух переменных произвольных степеней она до конца не решена.

Рассмотрим, прежде всего, вопрос о приводимости полинома нескольких переменных, т.е. о возможности его разложения в произведение полиномов меньших степеней — хотя бы над \mathbb C_{}. В случае полинома одной переменной поле комплексных чисел оказалось «универсальным решателем» алгебраического уравнения: по основной теореме высшей алгебры, любой полином f(x)=a_0x^n+\dots +a_n \in \mathbb C[x], n\ge 1 раскладывается в произведение линейных полиномов. Может быть и для полинома двух переменных это «большое поле» позволит разбить сложное уравнение f(x_{},y)=0 в набор менее сложных — ну, хотя бы, меньших степеней? — К сожалению, ответ отрицателен.

П

Пример. Полином y^2-x неприводим над \mathbb C_{}.

П

Пример. Однородный полином (форма) произвольной степени двух переменных приводим над \mathbb C_{}.

П

Пример. Квадратичная форма x_1^2+x_2^2+x_3^2 неприводима над \mathbb C_{}.

П

Пример. Определитель матрицы любого порядка — как полином от ее элементов — неприводим над \mathbb C_{}.

Рассмотрим полином f_{}(x,y) \in \mathbb C[x,y] степени n_{} и предположим, что его коэффициент при y^{n} отличен от нуля, для определенности будем считать a_{0n}= 1. Разложим f_{}(x,y) по степеням y_{}:

f(x,y)\equiv y^n+A_{1}(x)y^{n-1}+A_{2}(x)y^{n-2}+\dots+ A_{n-1}(x)y + A_n(x) \ ;

здесь \{A_j(x)\}_{j=1}^n — полиномы по x_{}. При любом значении x_{} уравнение f_{}(x,y)=0 имеет n_{} корней y_1(x),\dots,y_n(x), причем каждый корень учитывается в соответствии со своей кратностью. Как уже упоминалось выше, не стоит ожидать, что функции \{ y_j(x) \}_{j=1}^n будут полиномами по x_{}. Но хотя бы в виде «полиномов бесконечных степеней», т.е. в виде рядов можно ли их построить?

Случай двух переменных

Т

Теорема 1. Пусть y_j(0)простой корень уравнения f(0,y)=0. Тогда найдется число \delta_j>0 такое, что существует простой корень уравнения f_{}(x,y)=0 представимый в виде ряда

y_j(x)=y_j(0)+p_{j1}x+p_{j2}x^2+\dots ,

причем ряд в правой части сходится при |x|<\delta_j.

§

Условие простоты корня y_j(0) эквивалентно условию \partial f / \partial y \ne 0 при x_{}=0, y=y_j(0). В случае полинома f_{}(x,y) с вещественными коэффициентами и вещественного корня y_j(0) фактически получаем условие существования неявной функции y=y(x) в окрестности точки x_{}=0. Теорема гарантирует возможность построения этой функции в виде сходящегося степенного ряда по x_{} (с вещественными коэффициентами).

Практические способы нахождения коэффициентов \{p_{jk} \} проиллюстрируем на примере.

П

Пример. Найти корни уравнения f(x,y)= -x^4-1/2\,y^4+4\,x^2+3\,xy+4\,y=0, рассматриваемого относительно переменной y_{}.

Решение. Имеем:

f(0,y)\equiv -\frac{1}{2}y^4+4\,y \equiv -\frac{1}{2} y(y-2)(y-(-1- \mathbf i \sqrt{3}))(y-(-1+ \mathbf i \sqrt{3})) \ .

Выполняем формальную подстановку ряда

y_1(x)=0+p_{11}x+p_{12}x^2+\dots

в уравнение f_{}(x,y)=0, получаем уравнение

4\,p_{11}x+(3\,p_{11}+4\,p_{12}+4)\,x^2+(3\,p_{12}+4\,p_{13})x^3+(-1-1/2\,p_{11}^4+4\,p_{14}+3\,p_{13})x^4+
+(4\,p_{15}+3\,p_{14}-2\,p_{11}^3\,p_{12})x^5 +(4\,p_{16}-2\,p_{11}^2p_{12}^2-2\,p_{11}^3p_{13}+3\,p_{15})x^6 + \dots = 0 ,

которое рассматриваем как тождество по x_{}. Приравнивая в ряде все коэффициенты при степенях x_{} нулю, получаем систему уравнений для определения коэффициентов \{p_{1j}\}. Эта система — нелинейная, но последовательно разрешая ее, начиная с младших коэффициентов, на каждом шаге будем решать линейное уравнение. В результате получим

y_1(x)=-x^2+\frac{3}{4}\,x^3-\frac{5}{16}\,x^4+\frac{15}{64}x^5-\frac{45}{256}\,x^6+\frac{135}{1024}\,x^7+\frac{107}{4096}\,x^8+\dots

Для поиска разложения y_2(x) применим другой метод. Мы разыскиваем функцию y=y_2(x), такую что y_2(0)=2 и подстановка которой в уравнение f_{}(x,y)=0 должна превратить его в тождество по x_{}:

f(x,y_2(x))\equiv 0 \ .

Предположим, что требуемую функцию мы уже построили. Тогда тождество останется справедливым и после его дифференцирования по x_{}:

\frac{d\,}{d\, x} f(x,y_2(x))\equiv 0 \quad \iff \quad \frac{\partial f}{\partial x} + \frac{\partial f}{ \partial y} \cdot \frac{d\,y_2(x)}{d\, x} \equiv 0 \ ;

здесь предполагается, что после вычисления частных производных в их выражения произведена подстановка y=y_2(x). Переписываем последнее тождество:

\frac{d\,y_2(x)}{d\, x} \equiv - \frac{\partial f /\partial x}{\partial f / \partial y} \bigg|_{_{y=y_{_2}(x)}} \ .

В результате получили: неизвестная функция обязана удовлетворять обыкновенному дифференциальному уравнению

\frac{d\,y}{d\, x} \equiv \underbrace{- \frac{\partial f /\partial x}{\partial f / \partial y}}_{\equiv G(x,y)} \ ,

где G(x,y) — рациональная функция по x_{} и y_{}. Вспоминая, что нас интересует решение этого уравнения, удовлетворяющее условию y(0)=y_2(0)=2, получаем классическую задачу Коши. Как построить требуемое решение в виде ряда? — Составим формальный ряд Тейлора функции y(x):

y(x)=y(0) + \frac{y^{\prime}(0)}{1!}x+\frac{y^{\prime \prime}(0)}{2!}x^2+\frac{y^{\prime \prime \prime}(0)}{3!}x^2+\dots

Для величины производной y^{\prime}(0) мы имеем выражение из дифференциального уравнения: y^{\prime}(0)=G(0,y(0)), так что два коэффициента разложения мы получаем «практически даром». Как определить y^{\prime \prime}(0)? — Да из того же дифференциального уравнения!

\frac{d^2 y}{d\, x^2} \equiv \frac{d\, }{d\, x} \left( \frac{d\,y(x)}{d\, x} \right) \equiv \frac{d G(x,y(x))\,}{d\, x} \equiv \frac{\partial G}{\partial x} + \frac{\partial G}{\partial y} \cdot \frac{d\,y(x)}{d\, x} \ ,

и для определения y^{\prime \prime}(0) достаточно осуществить в последнем выражении формальную замену x=0,y=y(0),y^{\prime}= y^{\prime}(0). В нашем конкретном примере получаем

G(x,y)=-\frac{-4\,x^3+8\,x+3\,y}{-2\,y^3+3\,x+4}

и y^{\prime}(0)=G(0,2)=1/2.

y^{\prime \prime}(0) = \partial G/\partial x \Bigg|_{_{x=0,y=2}} + \partial G/\partial y \Bigg|_{_{x=0,y=2}} y^{\prime}(0)=5/12 \ .

Далее продолжаем по аналогии:

\frac{d^3 y}{d\, x^3} \equiv \frac{\partial^2 G}{\partial x^2} + 2\frac{\partial^2 G}{\partial x \partial y} \frac{d\,y(x)}{d\, x} + \frac{\partial^2 G}{\partial y^2} \left[ \frac{d\,y(x)}{d\, x} \right]^2+\frac{\partial G}{\partial y} \frac{d^2\,y}{d\, x^2}

и y^{\prime \prime \prime}(0)=-19/16. Таким образом,

y_2(x)=2+\frac{1}{2}x+\frac{5}{24}x^2-\frac{19}{96}x^3+\dots

На рисунке голубым цветом изображены приближения кривой f_{}(x,y)=0 приведенными выше выражениями для первых членов рядов y_1(x) и y_2(x). Выражения для мнимых корней y_{3}(x) и y_4(x) не привожу.

Последний пример служит также иллюстрацией для следующего результата:

=>

[Эйзенштейн]. Пусть полином f_{}(x,y) имеет целые коэффициенты: f(x,y) \in \mathbb Z[x,y], f(0,0)=0 и \partial f / \partial y \mid_{_{(0,0)}} \ne 0. Тогда коэффициенты разложения неявной функции

y(x)=p_{11}x+p_{12}x^2+p_{13}x^3+\dots

являются рациональными числами. Можно выбрать такое целое число K_{} чтобы коэффициенты разложения p_{11}Kx+p_{12}(Kx)^2+p_{13}(Kx)^3+\dots стали целочисленными.

Т

Теорема 2. Пусть полином f_{}(x,y) является неприводимым полиномом по x_{} и y_{}. Пусть y_{\ast}(0)кратный корень уравнения f(0,y)=0 кратности m>1. Тогда найдется число \delta>0 такое, что существуют m_{} различных корней уравнения f_{}(x,y)=0 представимых при |x|<\delta в виде сходящихся рядов по дробным степеням переменной x_{}:

y_{j}(x)=y_{\ast}(0)+p_{j1}\sqrt[m_j]{x}+p_{j 2}\left(\sqrt[m_j]{x}\right)^2+\dots .

Здесь m_j \in \mathbb N, \sqrt[m_j]{x} понимается как корень комплексный степени m_{j} из комплексного же числа x_{} (т.е. последняя формула дает m_{j} различных рядов). Выбор чисел m_{j} производится по определенному правилу, и \sum m_j = m.

§

Более подробный разбор последнего результата ЗДЕСЬ.

Во всех результатах настоящего пункта вопрос о существовании решения решался «по умолчанию» над множеством комплексных чисел. Насколько возможно перенесение полученных результатов в \mathbb R_{} ? Если полином f(x,y) \in \mathbb R[x,y], то проблемы построения вещественного решения y=y_j(x) уравнения f_{}(x,y)=0 начнутся с самой первой фразы теоремы 1: число y_j(0) должно быть вещественным. Если все решения уравнения f(0,y)=0 не являются вещественными (а установить этот факт можно алгебраическим критерием — см. раздел ЛОКАЛИЗАЦИЯ КОРНЕЙ ПОЛИНОМА ), то это еще не значит, что уравнение f_{}(x,y)=0 не может иметь вещественных решений: алгебраическая кривая может не пересекать оси ординат. Возникает отдельная

Задача. Найти хотя бы одну точку плоскости \mathbb R^2, лежащую на кривой f_{}(x,y)=0 или гарантировать, что такой точки нет (т.е. что уравнение не имеет решений в вещественных числах).

Задача может быть решена чисто алгебраически, т.е. алгоритмом, состоящим из конечного числа элементарных алгебраических операций над коэффициентами полинома f_{}(x,y). Для пояснения идеи, обратимся к следующему результату — с геометрической точки зрения, вполне очевидному.

Т

Теорема 3. [3]. Пусть f_{}(x,y) \in \mathbb R[x,y]. Если уравнение f_{}(x,y)=0 имеет вещественное решение, то существует вещественное решение этого уравнения ближайшее к началу координат.

Задача вычисления расстояния от начала координат до плоской алгебраической кривой рассматривается ЗДЕСЬ. Фактически она сводится к решению некоторого алгебраического уравнения от одной переменной, или нескольких таких уравнений. Одним из корней этого уравнения обязательно является либо сама величина расстояния, либо квадрат этой величины. Тем самым проблема непустоты множества решений уравнения f_{}(x,y)=0 в \mathbb R^{2} сводится к оценке либо числа вещественных корней либо же числа положительных корней полинома от одной переменной. А уж подобные задачи могут быть решены чисто алгебраическим алгоритмом.

Хорошо, допустим хотя бы одну точку на алгебраической кривой нашли, т.е. кривая не является мнимой. Далее запускаем в этой точке алгоритм из теоремы 1 (или, в общем случае, из теоремы 2) и строим приближение кривой в виде ряда. Кажется, что проблема анализа решений алгебраического уравнения становится обозримой. К сожалению, не все так просто, как кажется :-( Дело в том, что алгебраическая кривая может состоять из нескольких отдельных «кусков», не связанных между собой. Они называются овалами данной алгебраической кривой8). Поэтому при вычислении рядов для разных точек кривых, неплохо было бы сначала установить находятся ли стартовые точки на одном овале (как это было в рассмотренном выше примере) или на разных.

Задача. Установить число и расположение овалов плоской алгебраической кривой.

§

Эта задача известна как 16-я проблема Гильберта; в общей постановке она не решена.

Хорошо, если эта задача пока не имеет решения, то чего, хотя бы, можно ожидать? Какой вид могут иметь овалы алгебраической кривой?

Разобранный в предыдущем ПУНКТЕ пример подсказывает, что в окрестности некоторых стационарных точек полинома f(x,y) кривая f(x,y)=const имеет одним из таких овалов кривую, похожую на эллипс.

Т

Теорема 4. Пусть точка (x_0,y_0) является стационарной точкой полинома f(x,y), такой, что матрица Гессе

H (f) = \left( \begin{array}{cc} {\partial^2 f}/{\partial x^2} & {\partial^2 f}/{\partial x \partial y} \\ {\partial^2 f}/{\partial x \partial y} & {\partial^2 f}/{\partial y^2} \end{array} \right) \, ,

вычисленная в этой точке, является положительно определенной. Тогда при значениях параметра h достаточно близких к f(x_0,y_0) справа (т.е. h>f(x_0,y_0)) кривая f(x,y)=h в окрестности (x_0,y_0) имеет «похожий на эллипс» замкнутый овал, окружающий эту точку (и других стационарных точек внутри этого овала нет). При значениях параметра h достаточно близких к f(x_0,y_0) слева (т.е. h<f(x_0,y_0)) кривая f(x,y)=h не имеет овалов в окрестности (x_0,y_0).

Доказательство. Разложим полином f(x,y) по формуле Тейлора в точке (x_0,y_0). Поскольку эта точка, по предположению, является стационарной для f, то в ней \partial f /\partial x и \partial f /\partial y обращаются в нуль. Следовательно

f(x,y)\equiv f(x_0,y_0)+ [x-x_0,y-y_0] H (f)\bigg|_{_{(x_0,y_0)}} \left[ \begin{array}{c} x-x_0 \\ y-y_0 \end{array} \right]+\dots

Здесь многоточия в правой части тождества означают одночлены по переменным x-x_0 и y-y_0 степеней выше второй. Теорема утверждает, что в достаточной близости от точки (x_0,y_0) поведение кривой f(x,y)=h определяется именно указанными двумя слагаемыми, т.е. линия уровня «хорошо» приближается кривой второго порядка

[x-x_0,y-y_0] H (f)\bigg|_{_{(x_0,y_0)}} \left[ \begin{array}{c} x-x_0 \\ y-y_0 \end{array} \right]=h-f(x_0,y_0),

которая — в условии теоремы — представляет собой при h> f(x_0,y_0) эллипс с центром в точке (x_0,y_0). При h< f(x_0,y_0) вещественных решений последнее уравнение не имеет9).

А вот теперь начинается самое сложное: надо показать, что отброшенные члены в разложении полинома f не «разорвут» замкнутость полученного эллиптического приближения. И я не знаю как это доказывать средствами исключительно математического анализа10). И я не нашел литературы по этому вопросу.

§

Строго говоря, надо определять понятие замкнутой кривой (замкнутого овала), а также внутренности этой кривой. Для этого в математическом анализе вводится понятие жордановой кривой. Которое тут же приводит ко всяким жутким примерам типа кривых Пеано, Осгуда и т.п. Так вот, замечательным свойством кривых алгебраических является то, что подобных «извращений» — с бесконечным числом «извивов» — для них случиться не может. Почему? — Хотя бы потому, что число точек пересечения такой кривой с произвольной прямой может быть только конечным 11). Число вещественных корней полинома одной переменной конечно.

Встречал «доказательства» утверждения подобные следующему. «Для каждой прямой, проходящей через точку (x_0,y_0) можно доказать существование двух точек ее пересечения с кривой f(x,y)=h, лежащих в окрестности (x_0,y_0) и по разные стороны нее. Можно доказать (например, по теореме о непрерывной зависимости корней полинома от коэффициентов), что кривая, составленная из этих точек будет непрерывной. Следовательно, она замкнута.»

Эти рассуждения тут же опровергаются контрпримером. Алгебраичность нарисованной кривой сомнительна, но пример должен был показать принципиальное противоречие.

=>

Для отрицательно определенной матрицы Гессе формулируется утверждение очевидно аналогичное утверждению теоремы. Для знакопеременной матрицы Гессе из рассуждений теоремы следует, что в окрестности седловой стационарной точки линии уровня полинома ведут себя подобно гиперболам. Исключительным случаем является обращение гессиана \det H(f) в нуль в стационарной точке. Здесь анализ геометрии линий уровня усложняется: такую точку считают точкой слияния нескольких обычных стационарных точек (с невырожденными матрицами Гессе).

Итак, локальную картину линий уровня полинома в окрестности какой-либо точки плоскости можно установить. Какие еще общие выводы можно сделать относительно этих кривых? — Как правило, можно установить их асимптотику, т.е. правило «ухода на бесконечность».

Т

Теорема 5. Рассмотрим полином f(x,y) степени n_{}>1 и пусть его разложении по степеням x, y имеет вид

f(x,y)=f_0+f_1(x,y)+f_2(x,y)+\dots+ f_{n-1}(x,y) + f_n(x,y)

где f_j (x,y)форма степени j. Пусть в старшей форме

f_n(x,y)=a_{n0}x^n+ a_{n-1,1}x^{n-1}y + a_{n-2,2}x^{n-1}y^2+\dots+a_{0n} y^n

коэффициенты a_{n0}\ne 0, a_{0n} \ne 0. Если полином

f_n(1,y)=a_{n0}+ a_{n-1,1}y + a_{n-2,2}y^2+\dots+a_{0n} y^n

не имеет вещественных корней, то при достаточно больших значениях |h| линии уровня f(x,y)=h при \operatorname{sign} (h)= \operatorname{sign} (a_{n0}) являются замкнутыми овалами . Если полином f_n(1,y) имеет вещественные корни, но они не являются кратными, то при достаточно больших значениях |h| линии уровня f(x,y)=h имеют ветви, стремящиеся в бесконечность вдоль одной из асимптот вида y=Kx+L, где

f_n(1,K)=0,\ L=- \frac{f_{n-1}(1,K)}{\partial f_n /\partial y \bigg|_{_{(1,K)}} } \, .

§

Условие наличия вещественных и отсутствия кратных корней полинома одной переменной выражаются алгебраическими неравенствами относительно коэффициентов этого полинома ЗДЕСЬ.

Градиент и его значение

Предположим, что мы установили непустоту множества вещественных решений алгебраического уравнения f(x,y)=0: это уравнение определяет — неявным образом — хотя бы одну кривую на плоскости. Рассмотрим произвольную точку (x_0, y_0) на этой кривой. Уравнение касательной прямой к данной кривой в рассматриваемой точке имеет вид

\frac{\partial f}{\partial x} \Bigg|_{_{(x_0,y_0)}} (x-x_0)+ \frac{\partial f}{\partial y} \Bigg|_{_{(x_0,y_0)}} (y-y_0) =0

если только хотя бы одна из частных производных отлична от нуля, т.е. точка (x_0,y_0) не является стационарной точкой функции f_{}. Это означает, что градиент функции f(x,y)

\operatorname{grad} (f)=\left(\partial f/\partial x,\ \partial f/\partial y \right) ,

вычисленный в точке (x_0,y_0), перпендикулярен кривой f(x,y)=0 в этой точке. Кривая служит границей двух областей на плоскости: в одной из них f положительна, в другой — отрицательна. В какую сторону направлен вектор нормали — в положительную область или в отрицательную? Оказывается, именно в положительную. Вычислим значения функции в точке с координатами

x_1= x_0+ \delta \frac{\partial f}{\partial x} \Bigg|_{_{(x_0,y_0)}}, \ y_1= y_0+ \delta \frac{\partial f}{\partial y} \Bigg|_{_{(x_0,y_0)}} \, .

По формуле Тейлора получаем

f(x_1,y_1)=0+ \delta \left[(\partial f/\partial x)^2+(\partial f/\partial y)^2 \right]\Bigg|_{_{(x_0,y_0)}}+ \frac{\delta^2}{2} \left[(\operatorname{grad} (f))^{\top} H(f) \operatorname{grad} (f) \right]\Bigg|_{_{(x_0,y_0)}} + \dots

При достаточно малом \delta знак f(x_1,y_1) определяется первым слагаемым, и этот знак положителен если \delta>0, т.е. вектор (x_1-x_0,y_1-y_0) сонаправлен градиенту. Это означает, что \operatorname{grad} (f), вычисленный в точке кривой f=0, указывает в направлении положительных значений функции f. Справедливо и более общее утверждение: вычисленный в произвольной точке (x_0,y_0) плоскости \operatorname{grad} (f) направлен в сторону увеличения значений f, причем из всех возможных направлений движения из точки (x_0,y_0):

x_1= x_0+ \Delta_x, y_1=y_0+ \Delta_y

максимальная скорость возрастания функции достигается именно в направлении градиента.

Из этого утверждения следуют далеко идущие выводы. Если выбирать длину вектора \delta \operatorname{grad} (f)\bigg|_{_{(x_0,y_0)}} достаточно малой, то в точке (x_1,y_1) можно достичь выполнения неравенства f(x_1,y_1)> f(x_0,y_0)=0. Перейдем в точку (x_1,y_1) и пересчитаем градиент. Предположим, что \operatorname{grad} (f)\bigg|_{_{(x_1,y_1)}} является ненулевым вектором. Двигаемся из точки (x_1,y_1) в его направлении достаточно малым шагом:

x_2= x_1+ \delta_1 \frac{\partial f}{\partial x} \Bigg|_{_{(x_1,y_1)}}, \ y_2= y_1+ \delta_1 \frac{\partial f}{\partial y} \Bigg|_{_{(x_1,y_1)}} \, .

Значение функции в точке (x_2,y_2) должно вырасти: f(x_2,y_2)> f(x_1,y_1). Продолжаем процесс далее — сколько сможем. В результате получаем последовательность точек на плоскости, которой соответствует возрастание значений функции f:

f(x_0,y_0)< f(x_1,y_1)< f(x_2,y_2) < \dots

Куда может сойтись последовательность (x_0,y_0),(x_1,y_1),(x_2,y_2),\dots ?

Ответ на этот вопрос принципиально зависит от величин выбранных шагов.

П

Пример. Для полинома f(x,y)= -x^4-1/2\,y^4+4\,x^2+3\,xy+4\,y из предыдущего ПУНКТА на рисунке изображены линия уровня f=0 и вычисленные в некоторых точках этой линии векторы 1/20 \operatorname{grad} (f).

Длины получившихся векторов свидетельствуют о скорости возрастания функции в соответствующем направлении. И действительно, если сравнить этот рисунок с рисунком из ПУНКТА, то увидим, что плотность, густота линий уровня f=const в окрестности точки (2.525102,\ 2) гораздо выше, чем в окрестности (0,0). Также очевидно, что если не заботиться о величине шага \delta, то генерируемая последовательности \{(x_j,y_j) \}_{j\in \mathbb N } может вести себя непредсказуемо. Так, если бы вместо масштабирующего множителя \delta=1/20 мы бы взяли \delta=1, то вектор \operatorname{grad} (f), вычисленный в точке (2.525102,\ 2) и отложенный от нее же, «вынес» бы нас далеко за пределы рисунка.

Предположим — чисто теоретически — что мы обладаем чудесной возможностью производить шаги вдоль векторов \operatorname{grad} (f) из любой точки и сколь угодно малые. То есть у нас имеется векторное поле с отложенными в каждой точке плоскости векторами \operatorname{grad} (f) и мы хотим двигаться из любой точки так, чтобы идти в направлении текущего значения этого вектора. Следуя Ньютону, Лейбницу и другим классикам теории исчисления бесконечно малых величин, можем переформулировать эту задачу как задачу построения гладкой кривой, в каждой точке которой касательная сонаправлена вектору \operatorname{grad} (f), вычисленному в этой же точке. Иными словами, каждая такая кривая в каждой своей точке должна пересекать под прямым углом линию уровня f(x,y)=const, также проходящую через эту точку. Как реально построить такую кривую? Забегая вперед, заметим, что, как правило, все семейство таких кривых нельзя задать алгебраическим уравнением: не существует полинома g(x,y) такого, что семейства линий уровня \{f(x,y) =h\}_{h\in \mathbb R} и \{g(x,y)=h \}_{h\in \mathbb R} были взаимно ортогональными.

Если предположить, что неизвестная функция может быть задана явным образом y= \widetilde y_1 (x), то поставленное условие эквивалентно тому, что она должна удовлетворять равенству \widetilde y_1 (x_0)=y_0 и тождеству

\frac{d\, \widetilde y_1}{d\, x} \equiv \frac{\partial f /\partial y}{\partial f / \partial x} \Bigg|_{_{(x,\widetilde y_1(x))}} \ .

При таком задании неизвестной функции она в каждой своей точке имеет касательную сонаправленную с градиентом. Поиск этой функции можно вести тем же способом, что и в предыдущем ПУНКТЕ — в виде ряда по степеням12) переменной x_{}.

§

Фактически же мы сводим задачу к решению задачи Коши для обыкновенного дифференциального уравнения. В нашем случае это уравнение имеет не очень приятный вид: дробно-рациональная функция имеет особые точки в виде нулей знаменателя, что весьма усложняет и построение и анализ решения.

От этой проблемы можно освободиться если искать кривую в параметрическом виде x=\phi(t), y=\psi (t). Функции \phi и \psi должны тогда удовлетворять условиям

\phi(0)=x_0, \psi(0)=y_0

и, вдобавок,

\frac{d\, \phi(t)}{d\, t} \equiv \frac{\partial f}{\partial x}\Bigg|_{_{x=\phi(t), y=\psi (t)}}, \quad \frac{d\, \psi (t)}{d\, t} \equiv \frac{\partial f}{ \partial y}\Bigg|_{_{x=\phi(t), y=\psi (t)}} \, .

Поиск функций, удовлетворяющих этим условиям, можно производить в виде степенных рядов с неопределенными коэффициентами:

\phi(t)=A_0+A_1t+A_2t^2+\dots, \quad \psi(t)=B_0+B_1t+B_2t^2+\dots

— примерно также, как это делалось в предыдущем пункте. Для x_0=0,y_0=2 получим:

\phi(t)= 6\, t+6\, t^2+169\, t^3 -\frac{2447}{2}t^4 +\frac{ 223729 }{20}t^5 +\dots ,
\psi(t)= 2-12\,t+153\,t^2-1794\,t^3+\frac{91083}{4} t^4 -\frac{2959881}{10} t^5+ \dots

Я оставляю без ответов вопросы о сходимости подобных рядов и количестве слагаемых в частичных суммах, обеспечивающих заданные точности приближений. При t\in [0,\ 0.14] решения имеют следующий вид: Тенденции поведения некоторых решений уже очевидны: они достаточно близко подходят к точкам максимума функции f. Эти тенденции становятся более проявленными при возрастании t: Хотя характеры и скорости стремления к пределам у решений различаются: «красные» решения стремятся к точке максимума непосредственно, а «зеленые» большей частью сначала стягиваются к некоторой кривой, которая потом выводит их всех к точке максимума:

Существуют (в точности) две исключительные точки (x_0,y_0)\approx (-0.6,\ 1.802277) и (x_0,y_0)\approx (-0.14,\ -0.021792) такие, что выпущенные из них кривые не уйдут ни к одной из точек максимума полинома f, а подойдут к его седловой точке \approx (-0.458794,\ 1.094687).

Практическое нахождение координат этих двух исключительных точек крайне затруднительно поскольку ошибки вычислений «срывают» кривые с их цели, уводя в сторону какого-либо из экстремумов.

И даже с учетом указанной вычислительной трудности, нахождение этих кривых весьма желательно — поскольку они составляют границу между «зонами влияния» экстремумов. Это свойство определяет и их название: они называются сепаратрисами седловой точки. Кривые, выпущенные из точек (x_0,y_0), лежащих по разные стороны от этих сепаратрис, будут стремиться к разным точкам максимума.

Метод градиентного спуска

А почему, собственно, кривые из примера предыдущего пункта стремились именно к точкам максимума полинома f? — Да потому, что мы их заставили — требованием движения из каждой точки в направлении \operatorname{grad} f, т.е. максимального возрастания полинома. Так что, кажется, что иного сценария и быть не может: возрастающая и ограниченная сверху последовательность… Ну просто обязана она стремиться к точке максимума (хотя бы локального)! К сожалению, не всё так просто. Во-первых, в том же примере случились исключения: две кривые (сепаратрисы) не стремились ни к одной точке максимума. Во-вторых, можно изобрести кривую, вдоль которой значения функции будут непрерывно возрастать, но она не будет иметь какой-либо предельной точки.

В-третьих, ввиду того, что мы не наложили ограничения на величины шагов из каждой точки, мы можем попасть в парадокс Ахиллеса и черепахи: функция f монотонно возрастает вдоль кривой, но шаги бесконечно уменьшаются и мы «упираемся» в некоторую точку, отличную от точки максимума, не достигая её!

Так вот, достаточно кропотливо можно доказать, что при идеальной организации процесса наращивания значений функции, получающаяся кривая может иметь предельной точкой исключительно только стационарную точку полинома. И спиралевидной кривой, подобной приведенной на рисунке, случиться не может. Для доказательства приходится применять результаты из теории дифференциальных уравнений, которых мы коснемся в следующем пункте.

Если характер поведения кривых будет подтвержден, то в нашем распоряжении оказывается метод поиска экстремумов полинома. В случае нашего примера — конкретно максимумов, но легко обобщить этот метод и на минимумы: достаточно поменять знак функции f. Или, что то же, потребовать движения из каждой точки плоскости в сторону (- \operatorname{grad} f), т.е. в сторону наибыстрейшего убывания функции. Именно в такой версии метод обычно и рассматривают; он известен как метод градиентного спуска поиска минимума (не обязательно полиномиальной) функции.

Теперь обсудим практические реализации метода и возникающие при этом проблемы. Ввиду ограниченности вычислительных ресурсов (количества десятичных разрядов, выделяемых для представления чисел) мы не можем обеспечить бесконечно мелкие шаги при движении из точки в точку. Что может произойти при дискретизации процесса построения кривой, в каждой своей точке имеющую касательную параллельную \operatorname{grad} f? Можно ли гарантировать попадание в заданную окрестность точки экстремума точек последовательности

(x_j,y_j)=(x_{j-1},y_{j-1}) - \delta \cdot \operatorname{grad} f \bigg|_{_{(x_{j-1},y_{j-1})}}

при достаточно больших j \in \mathbb N?

Стационарные векторные поля

Произведем некоторые обобщения. Произвольный полином f(x,y) определяет на плоскости \mathbb R^2 два векторных поля: в каждой точке плоскости определены векторы (-\partial f/\partial y, \partial f/\partial x) и \operatorname{grad} f = (\partial f/\partial x, \partial f/\partial y). Эти векторы взаимно перпендикулярны. Второе из этих полей естественно назвать градиентным, хотя чаще его называют потенциальным. Первое же из полей часто называют гамильтоновым. Каждое из этих полей определяет свое семейство кривых, имеющими в каждой своей точке касательные векторы коллинеарными векторам соответствующего поля. В первом случае эти кривые являются линиями уровня функции f, во втором случае — некоторыми линиями, аналитическое представление которых мы получили в более сложном виде — с помощью разложений в ряды. Причем эти ряды задают изменения координат x и y не в виде явной зависимости одной координаты от другой, но независимо друг от друга — посредством введения вспомогательного параметра t.

Каков смысл можно придать этому параметру? — Его можно считать временем. Тем самым в картину векторного поля мы добавляем динамику, движение. Берем материальную точку (или пробный заряд, заряженную частицу) массой (зарядом) равной 1, помещаем в произвольную точку плоскости и считаем, что на эту точку начинает действовать силовое поле — гравитационное, ньютоновское (или электростатическое, кулоновское) — заставляя точку (частицу) двигаться в определенном направлении: направлении, совпадающем с направлением вектора поля, т.е. силы. А какова величина скорости этого движения? — А вот это, как раз, для наших задач не очень существенно. Попозже обсудим это обстоятельство, а пока что подчеркнем существенность другого обстоятельства: векторное поле является стационарным, т.е. не зависящим от времени. Что следует из свойства стационарности? — А то, что траектория движения точки (частицы), выпущенной в момент времени t=0 из (x_0,y_0) идентична траектории движения точки (частицы), выпущенной из (x_0,y_0) в любой другой момент времени. Вторая (по времени выпуска) частица будет идти след в след первой.

Для обоих полей стационарные точки полинома f(x,y) являются точками покоя: поскольку в них обе компоненты вектора обращаются в нуль, то в них движения нет

Задачи

ЗДЕСЬ.

Источники

[1]. Гурса Э. Курс математического анализа. Т.1, Т.2. М.-Л.ГТТИ. 1933

[2]. Уокер Р. Алгебраические кривые. М. ИЛ. 1952

[3]. Jacobson N. Lectures in Abstract Algebra. V. 3. Van Nostrand, NY. 1964

1) Обозначение ЗДЕСЬ
2) Русского названия не встречал, по-английски называется homogenization, гомогенизация.
3) Можно определять и как вектор-строку, это не принципиально.
4) \nu\alpha \beta \lambda \alpha (др.греч.) — род струнного инструмента, прототипа арфы.
5) В математическом анализе о таком множестве говорят, как об окрестности точки (c_1,\dots,c_{\ell}).
6) Эта теория и упомянутая далее теорема Безу изложена пока только для случая \ell =2 ЗДЕСЬ.
7) Что было очевидно из рисунка, но рисунок не давал общего метода исследования.
8) Причем замкнутость этих кусков не обязательна, так что слово овал надо понимать в обобщенном смысле — просто как односвязную кривую.
9) Мнимый эллипс
10) Без привлечения «тяжелой артиллерии» из качественной теории дифференциальных уравнений.
11) Исключая, разумеется, случай когда целый отрезок прямой принадлежит кривой.
12) целым или дробным — как получится

2017/02/13 09:58