Skip to article frontmatterSkip to article content

Частные производные и явная формула для дифференциала

Higher School of Economics

Рассмотрим теперь функцию f:RnRf:\mathbb{R}^n \to \mathbb{R}, дифференцируемую на каком-то открытом URn\mathscr{U} \subseteq \mathbb{R}^n или в фиксированной точке x\m{x}. Тогда её дифференциал (df)x(\mathrm{d}f)_\m{x} в точке x\m{x} задаётся матрицей размера n×1n\times 1, (df)x=(a1an)(\mathrm{d}f)_\m{x} = \begin{pmatrix} a_1 & \ldots & a_n \end{pmatrix}, где все aia_i есть функции от x\m{x}. Наша цель — найти эти aia_i. Пусть h=(h1,,hn)Rn\m{h} = (h_1, \ldots, h_n)^\top \in \mathbb{R}^n, тогда получаем

f(x+h)f(x)=(df)x(h)+o(h)=(a1an)(h1hn)+o(h)=a1h1++anhn+o(h).\begin{align*} f(\m{x} + \m{h}) - f(\m{x}) &=& (\mathrm{d}f)_\m{x}(\m{h}) + o(||\m{h}||) \\ &=& \begin{pmatrix} a_1 & \ldots & a_n \end{pmatrix} \begin{pmatrix} h_1 \\ \vdots \\ h_n \end{pmatrix} + o(||\m{h}||) \\ &=& a_1h_1 + \cdots + a_nh_n + o(||\m{h}||). \end{align*}

Видно, что aia_i не зависит от координат вектора h\m{h} кроме hih_i т. е. чтобы найти aia_i, нам достаточно рассмотреть вектор hi=hiei\m{h}_i = h_i \m{e}_i, где ei\m{e}_i — базисный вектор. В таком случае, hi=hi||\m{h}_i|| = |h_i| и тогда для каждого 1in1 \le i \le n мы получаем

f(x+hiei)f(x)=aihi+o(hi), f(\m{x} + h_i \m{e}_i) - f(\m{x}) = a_ih_i + o(|h_i|),

таким образом,

ai=limhi0f(x+hiei)f(x)hi, a_i = \lim_{h_i \to 0} \frac{f(\m{x} + h_i \m{e}_i) - f(\m{x})}{h_i},

такое выражение называется частной производной функции по переменной xix_i и обозначается либо как fxi\frac{\partial f}{\partial x_i}, либо как fxif'_{x_i}, т. е.

fxi:=limhi0f(x+hiei)f(x)hi\boxed{ \frac{\partial f}{\partial x_i}: = \lim_{h_i \to 0} \frac{f(\m{x} + h_i \m{e}_i) - f(\m{x})}{h_i}}

если же мы хотим знать её значение в точке x0\m{x}_0, то получаем

fxi(x0):=limhi0f(x0+hiei)f(x0)hi.\boxed{ \frac{\partial f}{\partial x_i}(\m{x}_0): = \lim_{h_i \to 0} \frac{f(\m{x}_0 + h_i \m{e}_i) - f(\m{x}_0)}{h_i}. }

Таким образом, в случае функции f:RnRf:\mathbb{R}^n \to \mathbb{R} дифференциал в точке x0\m{x}_0 находится по формуле

(df)x0:=(fx1(x0)fxn(x0)). (\mathrm{d}f)_{\m{x}_0}: = \begin{pmatrix} \frac{\partial f}{\partial x_1}(\m{x}_0) & \ldots & \frac{\partial f}{\partial x_n}(\m{x}_0) \end{pmatrix}.

Тогда для любого вектора h=(h1,,hn)\m{h} = (h_1,\ldots, h_n)^\top,

(df)x0(h)=(fx1(x0)fxn(x0))(h1hn)=((df)x0,h), (\mathrm{d}f)_{\m{x}_0}(\m{h}) = \begin{pmatrix} \frac{\partial f}{\partial x_1}(\m{x}_0) & \ldots & \frac{\partial f}{\partial x_n}(\m{x}_0) \end{pmatrix} \begin{pmatrix} h_1 \\ \vdots \\ h_n \end{pmatrix} = ((\mathrm{d}f)_{\m{x}_0}, \m{h}),

где последняя скобка означает скалярное произведение.

Геометрический смысл частных производных

Итак, мы уже поняли, что если f:RRf:\mathbb{R} \to \mathbb{R} — дифференцируемая функция в точке x0x_0, то значение её производной в точке x0x_0 можно понимать как наклон касательной к графику этой функции в точке (x0,f(x0))(x_0, f(x_0)). Пусть теперь f:RnRf:\mathbb{R}^n \to \mathbb{R} — функция от n>1n>1 переменных, и пусть она дифференцируема в точке x0\m{x}_0. Тогда возникает вопрос, о чём говорят значения её частных производных в точке x0\m{x}_0?

Для наглядности мы ограничимся случаем, когда n=2n=2, случай, когда n>2n >2, совершенно аналогичен.

Итак, пусть у нас есть функция f:R2Rf:\mathbb{R}^2 \to \mathbb{R}, которая дифференцируема в точке (x0,y0)(x_0,y_0). Рассечём её график плоскостью, параллельной плоскости yzyz, через точку (x0,y0,0)(x_0,y_0,0). Тогда мы получаем кривую, которая представляется какой-то функцией от yy. Тогда, согласно определению частой производной, мы видим, что наклон к графику этой функции и есть значение fy(x0,y0)\frac{\partial f}{\partial y}(x_0,y_0).

Мы рассекли график z =f(x,y) плоскостью, параллельной плоскости yz, через точку (x_0,y_0,0). Тогда мы получаем кривую, которая представляется какой-то функцией от y, и её наклон и есть \frac{\partial f}{\partial y}(x_0,y_0).

Мы рассекли график z=f(x,y)z =f(x,y) плоскостью, параллельной плоскости yzyz, через точку (x0,y0,0)(x_0,y_0,0). Тогда мы получаем кривую, которая представляется какой-то функцией от yy, и её наклон и есть fy(x0,y0)\frac{\partial f}{\partial y}(x_0,y_0).

С другой стороны, мы можем пойти дальше и рассечь этот же график, но уже не параллельной ни плоскости yzyz, ни плоскости xzxz. Как тогда вычислить наклон?

Мы рассекли график плоскостью, но уже не параллельной ни плоскости yz, ни плоскости xz.

Мы рассекли график плоскостью, но уже не параллельной ни плоскости yzyz, ни плоскости xzxz.

Чтобы ответить на этот вопрос, мы рассмотрим множество всех прямых, которые касаются графика в точке (x0,y0,f(x0,y0))(x_0, y_0, f(x_0,y_0)). Такое множество мы называем касательной плоскостью к графику z=f(x,y).z = f(x,y).

Уравнение плоскости, которая проходит через точку (0,0,0)(0,0,0), имеет вид z=Ax+Byz = Ax + By. Тогда сдвинув эту плоскость к точке (x0,y0,f(x0,y0))(x_0, y_0, f(x_0,y_0)), мы получим тогда такое уравнение плоскости: zf(x0,y0)=A(xx0)+B(yy0)z - f(x_0,y_0) = A(x-x_0) + B(y-y_0). Осталось найти коэффициенты A,BA,B, чтобы эта плоскость стала касательной. Пересечём эту плоскость с плоскостью y=y0y=y_0, в результате мы получаем прямую z(x,y0)f(x0,y0)=A(xx0)z(x, y_0) - f(x_0,y_0) = A(x-x_0), тогда потребовав, чтобы эта прямая была касательной, мы получаем, что A=fx(x0,y0)A = \frac{\partial f}{\partial x}(x_0,y_0). Аналогично находим B=fy(x0,y0)B = \frac{\partial f}{\partial y}(x_0,y_0).

Итак, уравнение плоскости имеет вид

zf(x0,y0)=fx(x0,y0)(xx0)+fy(x0,y0)(yy0) z - f(x_0,y_0) = \left.\frac{\partial f}{\partial x}\right|_{(x_0,y_0)} (x-x_0) + \left.\frac{\partial f}{\partial y}\right|_{(x_0,y_0)} (y-y_0)

Вернёмся ещё раз к предыдущему рисунку. Введём обозначения. Пусть PP — вертикальная плоскость, проходящая через точку (x0,y0)(x_0,y_0). Пусть \ell — прямая, по которой PP пересекает плоскость xyxy. Касательную прямую к кривой, которую высекает плоскость PP, мы обозначим через LL. Касательная плоскость в точке (x0,y0,f(x0,y0))(x_0,y_0, f(x_0,y_0)) пусть будет TT. Далее, рассмотрим вектор v\m{v}, который лежит на \ell, выходит из точки (x0,y0)(x_0,y_0) и кончается в (x0+a,y0+b)(x_0+a, y_0 +b), т. е. имеет координаты (a,b)(a,b).

Имеем

T(x0+a,y0+b)T(x0,y0)=fx(x0,y0)(x0+ax0)+fy(x0,y0)(y0+by0)=afx(x0,y0)+bfy(x0,y0)=v,f(x0,y0)\begin{align*} T(x_0 + a, y_0 + b) - T(x_0,y_0) &=& \left.\frac{\partial f}{\partial x}\right|_{(x_0,y_0)} (x_0 +a-x_0) + \left.\frac{\partial f}{\partial y}\right|_{(x_0,y_0)} (y_0 +b-y_0) \\ &=& a\left.\frac{\partial f}{\partial x}\right|_{(x_0,y_0)} + b\left.\frac{\partial f}{\partial y}\right|_{(x_0,y_0)} \\ &=& \langle \m{v} , \nabla f (x_0, y_0) \rangle \end{align*}

Тогда, чтобы вычислить наклон, нужно потребовать, чтобы один из катетов в прямоугольном треугольнике был равен 1, таким образом, если a2+b2=1a^2 + b^2 = 1, то искомый наклон и есть число v,f(x0,y0).\langle \m{v} , \nabla f (x_0, y_0) \rangle.

Более просто производную по направлению можно определить следующим образом

где справа стоит умножение матриц. А именно, так как

(df)p=(fx1(p)fxn(p))Mat1×n(R), (\mathrm{d}f)_\m{p} = \begin{pmatrix} f'_{x_1}(\m{p}) & \ldots & f'_{x_n}(\m{p}) \end{pmatrix} \in \mathrm{Mat}_{1\times n}(\mathbb{R}),

то получаем

(vf)(p)=1v(fx1(p)v1++fxn(p)vn). \boxed{ (\nabla_\m{v}f)(\m{p}) =\frac{1}{\|\m{v}\|} \left( f'_{x_1}(\m{p})v_1 + \cdots + f'_{x_n}(\m{p}) v_n\right). }

Рассмотрим теперь отображение F:RnRmF: \mathbb{R}^n \to \mathbb{R}^m, которое задаётся следующим образом:

F:(x1xn)(f1(x1,,xn)fm(x1,,xn),)F: \begin{pmatrix} x_1 \\ \vdots \\ x_n \end{pmatrix} \mapsto \begin{pmatrix} f_1(x_1, \ldots, x_n) \\ \vdots \\ f_m(x_1, \ldots, x_n), \end{pmatrix}

где fi:RnRf_i:\mathbb{R}^n \to \mathbb{R}. Потребуем, чтобы FF была дифференцируема в каком-то открытом URn\mathscr{U} \subseteq \mathbb{R}^n или в фиксированной точке x0\m{x}_0.

Тогда

F(x+h)F(h)=(dxF)(h)+o(h). F(\m{x} + \m{h}) - F(\m{h}) = (\mathrm{d}_\m{x}F)(\m{h}) + o(||\m{h}||).

Пусть h=hiei\m{h} = h_i \m{e}_i, тогда (dxF)(ei)(\mathrm{d}_\m{x}F)(\m{e}_i) есть ii-ый столбец матрицы (dxF)(h)(\mathrm{d}_\m{x}F)(\m{h}), и мы получаем равенство

(f1(x1,,xi+hi,,xn)f1(x1,,xi,,xn)fm(x1,,xi+hi,,xn)fm(x1,,xi,,xn))=hi(dxF)(ei)+o(hi),1in\begin{pmatrix} f_1(x_1, \ldots, x_i + h_i, \ldots, x_n) -f_1(x_1, \ldots, x_i, \ldots, x_n) \\ \vdots \\ f_m(x_1, \ldots, x_i + h_i, \ldots, x_n) -f_m(x_1, \ldots, x_i, \ldots, x_n) \end{pmatrix} = h_i(\mathrm{d}_\m{x}F)(\m{e}_i) + o(|h_i|), \qquad 1 \le i \le n

тогда

(dF)x(ei)=(f1xifmxi)(\m{d}F)_\m{x}(\m{e}_i) = \begin{pmatrix} \frac{\partial f_1}{\partial x_i} \\ \vdots \\ \frac{\partial f_m}{\partial x_i} \end{pmatrix}

и в итоге

(dF)x=(f1x1f1xnfmx1fmxn),(dF)x0=(f1x1(x0)f1xn(x0)fmx1(x0)fmxn(x0))(\m{d}F)_\m{x} = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \ldots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \ldots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}, \qquad (\m{d}F)_{\m{x}_0} = \begin{pmatrix} \frac{\partial f_1}{\partial x_1}({\m{x}_0}) & \ldots & \frac{\partial f_1}{\partial x_n} ({\m{x}_0}) \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} ({\m{x}_0}) & \ldots & \frac{\partial f_m}{\partial x_n} ({\m{x}_0}) \end{pmatrix}

Такая матрица называется Якобианом отображения F.F.