Skip to article frontmatterSkip to article content

Полином Тейлора в матричной записи (гессианы)

Higher School of Economics

Мы будем рассматривать функции f:RnRf:\mathbb{R}^n \to \mathbb{R}. При этом мы считаем, что Rn\mathbb{R}^n снабжено евклидовой нормой.

Напомним теорему Theorem 1 Пусть f:RnRf:\mathbb{R}^n \to \mathbb{R} есть m+1m+1 раз дифференцируемая функция в окрестности точки aRn\m{a} \in \mathbb{R}^n, то для всех h\m{h} из окрестности точки 0n\m{0}_n верно

f(a+h)=f(a)+(df)ah+12!(d2f)ah++1m!(dmf)ah+1(m+1)!(dm+1f)a+θhh, f(\m{a} + \m{h}) = f(\m{a}) + (\mathrm{d}f)_\m{a} \m{h} + \frac{1}{2!} (\mathrm{d}^2f)_\m{a}\m{h} + \cdots + \frac{1}{m!} (\m{d}^mf)_\m{a}\m{h} + \frac{1}{(m+1)!} (\m{d}^{m+1}f)_{\m{a}+ \theta \m{h}}\m{h},

где 0<θ<10 < \theta < 1 и она зависит от a,h\m{a}, \m{h} и mm.

Получаем следующее

Proof

По теореме Theorem 1,

f(a+h)=f(a)+(df)ah+12!(d2f)ah++1(m1)!(dm1f)ah+1m!(dmf)a+θhh, f(\m{a} + \m{h}) = f(\m{a}) + (\mathrm{d}f)_\m{a} \m{h} + \frac{1}{2!} (\mathrm{d}^2f)_\m{a}\m{h} + \cdots + \frac{1}{(m-1)!} (\m{d}^{m-1}f)_\m{a}\m{h} + \frac{1}{m!} (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}\m{h},

рассмотрим последний моном (самый правый) этого полинома, имеем

(dmf)a+θh(h)=(dmf)a(h)+((dmf)a+θh(h)(dmf)a(h)). (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}(\m{h})= (\m{d}^{m}f)_{\m{a}}(\m{h}) + \Bigl( (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}(\m{h}) - (\m{d}^{m}f)_{\m{a}} (\m{h}) \Bigr).

Согласно Теореме Theorem 1,

(dmf)b(h)=p1++pn=mm!p1!pn!mfx1p1xnpnbh1p1hnpn, (\mathrm{d}^mf)_{\m{b}}(\m{h}) = \sum_{p_1 + \ldots + p_n = m} \dfrac{m!}{p_1! \cdots p_n!} \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{b}} \cdot h_1^{p_1}\cdots h_n^{p_n},

тогда, получаем

(dmf)a+θh(h)=(dmf)a(h)+((dmf)a+θh(h)(dmf)a(h))=(dmf)a(h)+p1++pn=mm!p1!pn!(mfx1p1xnpna+θhmfx1p1xnpna)h1p1hnpn=(dmf)a(h)+hmp1++pn=mm!p1!pn!(mfx1p1xnpna+θhmfx1p1xnpna)h1p1hp1hnpnhpn.\begin{align*} (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}(\m{h}) &=& (\m{d}^{m}f)_{\m{a}}(\m{h}) + \Bigl( (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}(\m{h}) - (\m{d}^{m}f)_{\m{a}} (\m{h}) \Bigr) \\ &=& (\m{d}^{m}f)_{\m{a}}(\m{h}) + \sum_{p_1 + \ldots + p_n = m} \dfrac{m!}{p_1! \cdots p_n!}\left( \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}+\theta \m{h}} - \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}} \right)\cdot h_1^{p_1}\cdots h_n^{p_n} \\ &=& (\m{d}^{m}f)_{\m{a}}(\m{h})\\ &&+ \|h \|^m \sum_{p_1 + \ldots + p_n = m} \dfrac{m!}{p_1! \cdots p_n!}\left( \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}+\theta \m{h}} - \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}} \right) \frac{h_1^{p_1}}{\|h\|^{p_1}} \cdots \frac{h_n^{p_n}}{\|h\|^{p_n}}. \end{align*}

Так как h:=h12++hn2\| h \|: = \sqrt{h_1^2 + \cdots + h_n^2}, то

h1p1hp1,,h1p1hp11 \frac{h_1^{p_1}}{\| \m{h}\|^{p_1}}, \ldots, \frac{h_1^{p_1}}{\| \m{h}\|^{p_1}} \le 1

далее, так как все частные производные непрерывны в точке a\m{a}, то по критерию непрерывности Theorem 1,

limh0n(mfx1p1xnpna+θhmfx1p1xnpna)=0, \lim_{\m{h} \to \m{0}_n} \left( \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}+\theta \m{h}} - \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}} \right) = 0,

при каждом разбиении m=p1++pnm = p_1 + \cdots + p_n, таким образом,

limh0np1++pn=mm!p1!pn!(mfx1p1xnpna+θhmfx1p1xnpna)=0, \lim_{\m{h} \to \m{0}_n} \sum_{p_1 + \ldots + p_n = m} \dfrac{m!}{p_1! \cdots p_n!}\left( \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}+\theta \m{h}} - \left.\frac{\partial^m f}{\partial x_1^{p_1} \cdots \partial x_n^{p_n}}\right|_{\m{a}} \right) = 0,

а это и означает, что

(dmf)a+θh(h)=(dmf)a(h)+ω(h)hm,h0n, (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}(\m{h}) = (\m{d}^{m}f)_{\m{a}}(\m{h}) + \omega(\m{h}) \|h\|^m, \quad \m{h} \to \m{0}_n,

где limh0nω(h)=0n\lim_{\m{h} \to \m{0}_n} \omega(\m{h}) = \m{0}_n, т.е.,

(dmf)a+θh(h)=(dmf)a(h)+o(hm),h0n, (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}(\m{h}) = (\m{d}^{m}f)_{\m{a}}(\m{h}) + o(\|h\|^m), \quad \m{h} \to \m{0}_n,

но тогда

f(a+h)=f(a)+(df)ah+12!(d2f)ah++1(m1)!(dm1f)ah+1m!(dmf)a+θhh=f(a)+(df)ah+12!(d2f)ah++1(m1)!(dm1f)ah+1m!((dmf)a(h)+o(hm))=f(a)+(df)ah+12!(d2f)ah++1m!(dmf)ah+o(hm),h0n\begin{align*} f(\m{a} + \m{h}) &=& f(\m{a}) + (\mathrm{d}f)_\m{a} \m{h} + \frac{1}{2!} (\mathrm{d}^2f)_\m{a}\m{h} + \cdots + \frac{1}{(m-1)!} (\m{d}^{m-1}f)_\m{a}\m{h} + \frac{1}{m!} (\m{d}^{m}f)_{\m{a}+ \theta \m{h}}\m{h} \\ &=&f(\m{a}) + (\mathrm{d}f)_\m{a} \m{h} + \frac{1}{2!} (\mathrm{d}^2f)_\m{a}\m{h} + \cdots + \frac{1}{(m-1)!} (\m{d}^{m-1}f)_\m{a}\m{h} + \frac{1}{m!}\left( (\mathrm{d}^mf)_\m{a} (\m{h}) + o(\|\m{h}\|^m) \right) \\ &=&f(\m{a}) + (\mathrm{d}f)_\m{a} \m{h} + \frac{1}{2!} (\mathrm{d}^2f)_\m{a}\m{h} + \cdots + \frac{1}{m!} (\m{d}^mf)_\m{a}\m{h} + o(\| \m{h} \|^m), \qquad \m{h} \to \m{0}_n \end{align*}

что и требовалось доказать.

Proof

Согласно Следствию Corollary 1,

f(a+h)=f(a)+(df)ah+12(d2f)ah+o(h2),h0n, f(\m{a} + \m{h}) = f(\m{a}) + (\mathrm{d}f)_\m{a} \m{h} + \frac{1}{2} (\mathrm{d}^2f)_\m{a}\m{h} + o(\| \m{h} \|^2), \qquad \m{h} \to \m{0}_n,

но (df)ah=a(f)(h)(\mathrm{d}f)_\m{a} \m{h} = \nabla_\m{a}(f)(\m{h}). Далее, по Теореме Theorem 1,

(dkf)a(h)=(x1h1++xnhn)2af=i=1n2fxi2ahi2+21i<jn2fxixjahihj,\begin{align*} (\mathrm{d}^kf)_\m{a}(\m{h}) &=& \left.\left(\frac{\partial}{\partial x_1} h_1 + \cdots + \frac{\partial }{\partial x_n}h_n \right)^2\right|_{\m{a}} \cdot f \\ &=& \sum_{i=1}^n \left.\dfrac{\partial^2 f}{\partial x_i^2} \right|_\m{a} h_i^2 + 2 \sum_{1\le i < j \le n} \left.\dfrac{\partial^2 f}{\partial x_i \partial x_j} \right|_{\m{a}} h_ih_j, \end{align*}

где h=(h1,,hn)n\m{h} = (h_1, \ldots, h_n)^n, но последнее выражение можно записать в матричном виде следующим образом

(h1,,hn)(2fx12a2fx1x2a2fx1xna2fx2x1a2fx22a2fx2xna2fxnx1a2fxnx2a2fxn2a)(h1hn)=hHa(f)h, (h_1, \ldots, h_n) \begin{pmatrix} \left.\dfrac{\partial^2 f}{\partial x_1^2}\right|_{\m{a}} & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_2}\right|_{\m{a}} &\ldots & \left.\dfrac{\partial^2 f}{\partial x_1 \partial x_n}\right|_{\m{a}} \\ \left.\dfrac{\partial^2 f}{\partial x_2 \partial x_1}\right|_{\m{a}} & \left.\dfrac{\partial^2 f}{\partial x_2^2}\right|_{\m{a}} & \ldots & \left.\dfrac{\partial^2 f}{\partial x_2 \partial x_n}\right|_{\m{a}} \\ \vdots & \vdots & \ddots & \vdots \\ \left.\dfrac{\partial^2 f}{\partial x_n \partial x_1}\right|_{\m{a}} & \left.\dfrac{\partial^2 f}{\partial x_n \partial x_2}\right|_{\m{a}} & \ldots &\left.\dfrac{\partial^2 f}{ \partial x_n^2}\right|_{\m{a}} \end{pmatrix} \begin{pmatrix} h_1 \\ \vdots \\ h_n \end{pmatrix} = \m{h}^\top \m{H}_\m{a}(f) \m{h} ,

и так как матрица симметрична, это завершает доказательство.