헤시안

스칼라 함수의 이계 편미분을 모두 담은 정방행렬. 함수의 곡률(curvature)을 나타내며, 임계점이 극대/극소/안장점인지 판별하는 데 쓰인다.

정의

$$H_f = \nabla^2 f = \begin{pmatrix} \dfrac{\partial^2 f}{\partial x_1^2} & \dfrac{\partial^2 f}{\partial x_1 \partial x_2} & \cdots & \dfrac{\partial^2 f}{\partial x_1 \partial x_n} \\[10pt] \dfrac{\partial^2 f}{\partial x_2 \partial x_1} & \dfrac{\partial^2 f}{\partial x_2^2} & \cdots & \dfrac{\partial^2 f}{\partial x_2 \partial x_n} \\[10pt] \vdots & \vdots & \ddots & \vdots \\[4pt] \dfrac{\partial^2 f}{\partial x_n \partial x_1} & \cdots & \cdots & \dfrac{\partial^2 f}{\partial x_n^2} \end{pmatrix}_{n \times n}$$

클레로의 정리에 의해 혼합 편미분의 순서가 바뀌어도 같으므로 $H$는 대칭행렬이다: $H = H^T$.

예시

예제 1 — 2변수

$f(x,y) = x^3 + x^2 y - 2y^2$

1계: $f_x = 3x^2 + 2xy$, $\quad f_y = x^2 - 4y$

2계: $f_{xx} = 6x + 2y$, $\quad f_{xy} = 2x$, $\quad f_{yy} = -4$

$$H = \begin{pmatrix} 6x+2y & 2x \\ 2x & -4 \end{pmatrix}$$
예제 2 — 이차형식

$f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}$ ($A$ 대칭) 이면

$$H_f = 2A$$

예: $f(x,y) = 3x^2 + 4xy + 2y^2 = \mathbf{x}^T \begin{pmatrix}3&2\\2&2\end{pmatrix}\mathbf{x}$ 이면 $H = \begin{pmatrix}6&4\\4&4\end{pmatrix}$

이계 도함수 판정법 (2변수)

$\nabla f(\mathbf{a}) = \mathbf{0}$ 인 임계점 $\mathbf{a}$에서:

$$D = \det H = f_{xx}f_{yy} - (f_{xy})^2$$
조건판정
$D > 0$이고 $f_{xx} > 0$극소 (local minimum)
$D > 0$이고 $f_{xx} < 0$극대 (local maximum)
$D < 0$안장점 (saddle point)
$D = 0$판정 불가 (고계 항 필요)
예제 — 임계점 분류

$f(x,y) = x^3 - 3x + y^2 - 4y$ 의 임계점을 분류하라.

$f_x = 3x^2 - 3 = 0 \Rightarrow x = \pm 1$

$f_y = 2y - 4 = 0 \Rightarrow y = 2$

임계점: $(1, 2)$, $(-1, 2)$

$H = \begin{pmatrix} 6x & 0 \\ 0 & 2 \end{pmatrix}$

점 $(1,2)$: $D = 6 \cdot 2 = 12 > 0$, $f_{xx} = 6 > 0$ → 극소

점 $(-1,2)$: $D = (-6)\cdot 2 = -12 < 0$ → 안장점

n변수 일반화 — 고유값 판정

임계점에서 $H$의 고유값(eigenvalue)으로 판정한다.

양정치 (Positive Definite)

모든 고유값 $> 0$

극소

이차형식 $\mathbf{v}^T H \mathbf{v} > 0$ (모든 $\mathbf{v} \neq 0$)

음정치 (Negative Definite)

모든 고유값 $< 0$

극대

이차형식 $\mathbf{v}^T H \mathbf{v} < 0$

부정치 (Indefinite)

양/음 고유값 혼재

안장점

반정치 (Semi-definite)

고유값 중 0이 있음

판정 불가

테일러 전개와 헤시안

$\mathbf{a}$ 근방에서 $f$의 2차 근사:

$$f(\mathbf{a} + \mathbf{d}) \approx f(\mathbf{a}) + \nabla f(\mathbf{a})^T \mathbf{d} + \frac{1}{2}\mathbf{d}^T H_f(\mathbf{a})\,\mathbf{d}$$

그래디언트는 1차(선형) 항, 헤시안은 2차(이차형식) 항을 담당한다.

최적화에서의 역할

뉴턴법에서 헤시안을 사용해 한 번에 더 멀리 이동한다: $$\mathbf{x}_{k+1} = \mathbf{x}_k - H_f(\mathbf{x}_k)^{-1}\nabla f(\mathbf{x}_k)$$ 경사하강법이 1차 정보(그래디언트)만 쓰는 반면, 뉴턴법은 2차 정보(헤시안)로 곡률을 고려하여 더 빠르게 수렴하지만 $H^{-1}$ 계산 비용이 $O(n^3)$로 크다. 이를 근사하는 방법이 L-BFGS 등의 준뉴턴법이다.