【最优化】牛顿法、高斯-牛顿法

一、牛顿法

1、牛顿法在一维搜索中的应用

在这里插入图片描述
在一维搜索中我们所要解决的问题是如何找函数f(x)的最小值。
牛顿法的核心思想是用二次函数拟合函数f(x)的某一邻域区间，用二次函数的极小值点作为下一次的迭代点。通过多次迭代使得二次函数的极小值逼近函数f(x)的极小值

g (x) = f (x (k)) + f' (x (k)) (x - x (k)) + 1 2 f'' (x (k)) (x - x (k)) 2 g (x) \approx f (x), 求 f (x) 最 小 值 \approx 求 g (x) 最 小 值 g' (x) = f' (x (k)) + f'' (x (k)) (x - x (k)) 令 g' (x) = 0, x = x (k) - f ' ( x ( k ) ) f '' ( x ( k ) ) 只 有 在 f'' (x) > 0 时 成 立 ， f' (x) = 0 只 能 保 证 该 点 为 极 值 点 ， f'' (x) > 0 保 证 该 点 为 极 小 值 点

g (x) = f (x^{(k)}) + f^{'} (x^{(k)}) (x - x^{(k)}) + \frac{1}{2} f^{''} (x^{(k)}) (x - x^{(k)})^{2} g (x) \approx f (x), 求 f (x) 最小值 \approx 求 g (x) 最小值 g^{'} (x) = f^{'} (x^{(k)}) + f^{''} (x^{(k)}) (x - x^{(k)}) 令 g^{'} (x) = 0, x = x^{(k)} - \frac{f ^{'} ( x ^{(k)} )}{f ^{''} ( x ^{(k)} )} 只有在 f^{''} (x) > 0 时成立， f^{'} (x) = 0 只能保证该点为极值点， f^{''} (x) > 0 保证该点为极小值点

2、牛顿法在多维函数中的应用

多维的情况与一维类似，如果是二维函数，拟合的是一个二次曲面，用二次曲面的最低点作为下一次的迭代点。

g (X) = f (X (k)) + (X - X (k)) \nabla f' (X (k)) + 1 2 (X - X (k)) T \nabla 2 f (X (k)) (X - X (k)) g (X) \approx f (X), 求 f (X) 最 小 值 \approx 求 g (X) 最 小 值 令 \nabla g (X) = \nabla f (X (k)) + \nabla f (X (k)) (X - X (k)) = 0 如 果 \nabla 2 f (X) > 0 (正 定 矩 阵), X = X (k) - [\nabla f (x (k))] - 1 \nabla f (x (k))

g (X) = f (X^{(k)}) + (X - X^{(k)}) \nabla f^{'} (X^{(k)}) + \frac{1}{2} (X - X^{(k)})^{T} \nabla^{2} f (X^{(k)}) (X - X^{(k)}) g (X) \approx f (X), 求 f (X) 最小值 \approx 求 g (X) 最小值 令 \nabla g (X) = \nabla f (X^{(k)}) + \nabla f (X^{(k)}) (X - X^{(k)}) = 0 如果 \nabla^{2} f (X) > 0 (正定矩阵), X = X^{(k)} - [\nabla f (x^{(k)})]^{- 1} \nabla f (x^{(k)})

3、Levenberg-Marquardt修正

上述方法只有在 $Hess$ 矩阵正定是成立，如果 $Hess$ 矩阵不是正定的要怎么办？
$Hsee$ 矩阵是实对称矩阵( $\frac{\partial f^2(X)}{\partial x_j \partial x_i} = \frac{\partial f^2(X)}{\partial x_i \partial x_j}$ )，而实对称矩阵一定可以三角化

\nabla^{2} f (X^{(k)}) = U^{T} Λ U = λ_{1} 0 ⋮ 0 0 λ_{2} ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ λ_{n}, U^{T} U = I 如果 \nabla^{2} f (X^{(k)}) 非正定，说明 λ_{1} \sim λ_{n} 中有若干个特征值小于 0

用最小的特征值

\lambda {min}(\lambda {min}<0)

对

Hess

矩阵进行修正

\nabla^{2} f (X^{(k)}) = U^{T} Λ U + (ε - λ_{min}) I = U^{T} λ_{1} 0 ⋮ 0 0 λ_{2} ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ λ_{n} U + ε - λ_{min} 0 ⋮ 0 0 ε - λ_{min} ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ ε - λ_{min} U^{T} U = U^{T} λ_{1} + ε - λ_{min} 0 ⋮ 0 0 λ_{2} + ε - λ_{min} ⋮ 0 \dots \dots ⋱ \dots 00 ⋮ λ_{n} + ε - λ_{min} U = U^{T} [Λ + (ε - λ_{min}) I] U

为了不和原始的

Hess

矩阵偏差太大，

\varepsilon

越小越好

Levenberg-Marquardt修正后，即保证了特征值都是正数，也保留原 $Hess$ 矩阵尽可能多的信息

在工程中，为了减少算法计算的复杂度，不会计算特征值特征向量，而是根据经验值手动设置一个 $\mu_k$ ,同时还会引入一个步长因子 $\alpha$
$X=X^{(k)}-\alpha^{(k)}[\nabla^2f(X^{(k)})+\mu_kI]^{-1}\nabla f(X^{(k)})$
通过手动调节 $\mu_k$ 的值，使得 $[\nabla^2f(X^{(k)})+\mu_kI] >0$

( $\mu_k \rightarrow 0$ :趋近原牛顿法；$\mu_k \rightarrow \infty $:趋近步长很小的梯度下降法)

二、高斯-牛顿法

1、应用范围

高斯-牛顿法用于解决什么问题？

有一个函数 $y=\color{red}A\color{black} sin(\color{red}\alpha\color{black} t+\color{red}\beta\color{black})$ ,其中 $\color{red} A、\alpha、\beta$ 未知，已知一些输入输出数据 $[t_1,y_1],[t_2,y_2],\cdots,[t_n,y_n]$

高斯-牛顿法想要解决的问题是如何根据已知数据，估计未知参数

这是一个非线性最小二乘问题， $\min_{\hat{A},\hat{\alpha},\hat{\beta}} \sum_{i=1}^{n}(\hat{A}sin(\hat{\alpha} t_i+\hat {\beta})-y_i)^2$

2、高斯-牛顿法原理

考虑更加一般的情况：
$\begin{aligned} &\min \sum_{i=1}^{m}(r_i(X))^2 \\ &令r=[r_1,r_2,\cdots,r_m]^T,则目标函数为f(X)=r(X)^Tr(X),为了使用牛顿法求解，需要计算梯度和Hess矩阵\\ &梯度\nabla f(X)的第j个元素为:(\nabla f(X))_j = \frac{\partial f}{\partial x_j}(X) = 2\sum_{i=1}^{m}r_i(X)\frac{\partial r_i}{\partial x_i}(X)\\ &r的Jacobi矩阵为：J(X)= \begin{bmatrix} \frac{\partial r_1}{\partial x_1}(X) & \frac{\partial r_1}{\partial x_2}(X) & \cdots &\frac{\partial r_1}{\partial x_n}(X) \\ \frac{\partial r_2}{\partial x_1}(X) & \frac{\partial r_2}{\partial x_2}(X) & \cdots &\frac{\partial r_2}{\partial x_n}(X) \\ \vdots &\vdots &\ddots &\vdots\\ \frac{\partial r_m}{\partial x_1}(X) & \frac{\partial r_m}{\partial x_2}(X) & \cdots &\frac{\partial r_m}{\partial x_n}(X) \\ \end{bmatrix}\\ &因此，函数f的梯度可表示为：\nabla f(X) = 2J(X)^Tr(X) \\ \\ &函数f的Hess矩阵的第(k,j)个元素为：\\ & \frac{\partial^2f}{\partial x_k \partial x_j}(X) =\frac{\partial}{\partial x_k}\left ( \frac{\partial f}{\partial x_j}(X) \right ) = \frac{\partial}{\partial x_k}\left ( 2\sum_{i=1}^{m}r_i(X)\frac{\partial r_i}{\partial x_i}(X)\right ) = 2\sum_{i=1}^{m}\left( \frac{\partial r_i}{\partial x_k}(X)\frac{\partial r_i}{\partial x_j}(X) +\color{blue} r_i(X)\frac{\partial^2r_i}{\partial x_k \partial x_j}(X) \color{black} \right) \\ &令\color{blue}S(X)\color{black}表示一个矩阵其中(k,j)的元素为\color{blue}\sum_{i=1}^{m} r_i(X)\frac{\partial^2r_i}{\partial x_k \partial x_j}(X) \color{black} \\ &f(x)的Hess矩阵可以表示为：\nabla^2f=2\left(J(X)^TJ(X)+\color{blue} S(X)\color{black} \right)\\ &迭代公式为：X = X^{(k)}-\left(J(X)^TJ(X)+\color{blue} S(X)\color{black} \right)^{-1}J(X)^Tr(X)\\ &由于S(X)包含函数r的二阶导，数值较小可以忽略，所以迭代公式可变为：\\ &X = X^{(k)}-\left(J(X)^TJ(X)\right)^{-1}J(X)^Tr(X)\\ \end{aligned}$

min i = 1 \sum m (r_{i} (X))^{2} 令 r = [r_{1}, r_{2}, \dots, r_{m}]^{T}, 则目标函数为 f (X) = r (X)^{T} r (X), 为了使用牛顿法求解，需要计算梯度和 Hess 矩阵 梯度 \nabla f (X) 的第 j 个元素为 : (\nabla f (X))_{j} = \frac{\partial f}{\partial x _{j}} (X) = 2 i = 1 \sum m r_{i} (X) \frac{\partial r _{i}}{\partial x _{i}} (X) r 的 J a co bi 矩阵为： J (X) = \frac{\partial r _{1}}{\partial x _{1}} (X) \frac{\partial r _{2}}{\partial x _{1}} (X) ⋮ \frac{\partial r _{m}}{\partial x _{1}} (X) \frac{\partial r _{1}}{\partial x _{2}} (X) \frac{\partial r _{2}}{\partial x _{2}} (X) ⋮ \frac{\partial r _{m}}{\partial x _{2}} (X) \dots \dots ⋱ \dots \frac{\partial r _{1}}{\partial x _{n}} (X) \frac{\partial r _{2}}{\partial x _{n}} (X) ⋮ \frac{\partial r _{m}}{\partial x _{n}} (X) 因此，函数 f 的梯度可表示为： \nabla f (X) = 2 J (X)^{T} r (X) 函数 f 的 Hess 矩阵的第 (k, j) 个元素为： \frac{\partial ^{2} f}{\partial x _{k} \partial x _{j}} (X) = \frac{\partial}{\partial x _{k}} (\frac{\partial f}{\partial x _{j}} (X)) = \frac{\partial}{\partial x _{k}} (2 i = 1 \sum m r_{i} (X) \frac{\partial r _{i}}{\partial x _{i}} (X)) = 2 i = 1 \sum m (\frac{\partial r _{i}}{\partial x _{k}} (X) \frac{\partial r _{i}}{\partial x _{j}} (X) + r_{i} (X) \frac{\partial ^{2} r _{i}}{\partial x _{k} \partial x _{j}} (X)) 令 S (X) 表示一个矩阵其中 (k, j) 的元素为 i = 1 \sum m r_{i} (X) \frac{\partial ^{2} r _{i}}{\partial x _{k} \partial x _{j}} (X) f (x) 的 Hess 矩阵可以表示为： \nabla^{2} f = 2 (J (X)^{T} J (X) + S (X)) 迭代公式为： X = X^{(k)} - (J (X)^{T} J (X) + S (X))^{- 1} J (X)^{T} r (X) 由于 S (X) 包含函数 r 的二阶导，数值较小可以忽略，所以迭代公式可变为： X = X^{(k)} - (J (X)^{T} J (X))^{- 1} J (X)^{T} r (X)

3、Levenberg-Marquardt修正

高斯-牛顿法在使用的过程中也会出现 $J(X)^TJ(X)$ 不是正定矩阵的问题，所以也可以使用Levenberg-Marquardt修正就加以解决:
$X^{(k)}-\left(J(X)^TJ(X) + \mu_k I\right)^{-1}J(X)^Tr(X)$

相关阅读:
嵌入式开发：当用微控制器构建嵌入式GUI时，有哪些注意事项
吴恩达《机器学习》9-1:代价函数
Three.js真实相机畸变效果模拟
elasticsearch 映射
内网渗透神器CobaltStrike之重定向服务配置(二)
lwip无法连接指定个数TCP连接问题
嵌入式驱动源代码（10）：NFC芯片PN532驱动开发
Spring Boot单元测试
Python 操作pdf文件(pdfplumber读取PDF写入Excel)
破防了，原来这才是机房运维的正确方法

原文地址：https://blog.csdn.net/holle_world_ldx/article/details/138225785