线性代数|机器学习-P23梯度下降

1. 梯度下降

如果hessian matrix $H_{jk}$ 是半正定矩阵[positive semi-definite]或正定矩阵[positive definite]可得为函数是一般凸函数
如果hessian matrix $H_{jk}$ 是正定矩阵[positive definite]可得为函数是强凸函数

假设我们有一个实对称矩阵S和二次型函数表示如下：

S = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}], f (x) = \frac{1}{2} x^{T} S x = \frac{1}{2} (x^{2} + b y^{2})

S = 10 0 b, f (x) = \frac{1}{2} x^{T} S x = \frac{1}{2} (x^{2} + b y^{2})

矩阵S的特征值,条件数 $\kappa(S)$ 分别表示如下,假设 $b < 1$ ：
$λ_{max} = 1, λ_{min} = b, κ (S) = \frac{1}{b}$
通过 $f (x)$ 函数可以明显看出最小值点为(0,0)
$\begin{equation} \argmin \limits_{x^*=0}f(x)=0 \end{equation}$
函数一阶导数如下：
$\frac{d f (x, y)}{d X} = \frac{d \frac{1}{2} X^{T} S X}{d X} = S X = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] = [\begin{matrix} x \\ b y \end{matrix}]$
函数二阶导数如下：
$\frac{d^{2} f (x, y)}{d X^{2}} = S = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}]$

假设我们有如下函数：

f (x, y) = 2 x + 5 y = [\begin{matrix} 2 & 5 \end{matrix}] [\begin{matrix} x \\ y \end{matrix}] = A^{T} X, A = [\begin{matrix} 2 \\ 5 \end{matrix}]

f (x, y) = 2 x + 5 y = [25] x y = A^{T} X, A = 25

函数的一次导数如下：
$\frac{d f (x, y)}{d X} = \frac{d A^{T} X}{d X} = A = [\begin{matrix} 2 \\ 5 \end{matrix}]$
函数的二阶偏导 hessian matrix 如下：[向量对向量求导，XY拉伸术]
$H_{j k} = [\begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix}]$
对于函数 $f (x) = 2 x + 5 y$ 来说，依据线搜索方法，其负梯度方向为最佳迭代方向。

假设我们有一个函数表示如下：

f (x) = \frac{1}{2} x^{T} S x - a^{T} x - b

f (x) = \frac{1}{2} x^{T} S x - a^{T} x - b

$f (x)$ 导数如下：
$\frac{d f (x)}{d x} = S x - a; \frac{d^{2} f (x)}{d x^{2}} = H_{j k} = S$
函数 $f (x)$ 的最小值满足其一次导数为零，即表示如下：
$f^{'} (x^{*}) = 0, S x^{*} - a = 0 \to x^{*} = S^{- 1} a$
整理可得：
$f_{min} (x) = min_{x = x^{*} = S^{- 1} a} f (x) = - \frac{1}{2} a^{T} S^{- 1} a - b$
$\begin{equation} \argmin\limits_{x=x^*}f(x)=S^{-1}a \end{equation}$

Log-determinant regularization
Log-determinant regularization 通过在损失函数中加入一个负对数行列式项来约束矩阵X的结构。具体形式为
$P e n a l t y = - \log (det (X))$
其中X通常是一个正定矩阵，这一正则化项有利于确保X的特征值远离零，从而避免数值不稳定性和病态矩阵的出现

凸性： $-\log(\det(X))$ 是一个凸函数，这意味着优化问题中，局部最小值也是全局最小值
梯度： $\nabla f(x)=-X^{-1}$
$f (x) = - \log (det (X)) \to \frac{d f (x)}{d x} = \frac{1}{det (X)} \cdot [det (X) \cdot (X^{- 1})^{T}] = X^{- 1}$
hessian matrix：
$H_{j k} = X^{- 1} H X^{- 1} ， H 是一个对称矩阵$

对于线搜索方法来说，迭代公式如下，但是对于步长的选择来说，我们如果选择步长 $s_k$ 太大，那么就很容易越过极值点，在极值点不断跳跃和震荡，如果步长 $s_k$ 太小，那么迭代太慢，没有效果

那么我们希望找到一个步长 $s_k$ 使得在搜索方向上使得 $f(x_{k+1})$ 最小，这样就不是固定步长了，相当于动态步长

\begin{equation} s_k^*= \argmin\limits_{s_k} f(x_{k+1}) \end{equation}

s_{k}^{*} = s_{k} arg min f (x_{k + 1})

步骤：先固定步长 $s_k=s_0$ ，再取半步长 $s_k=\frac{1}{2}s_0$ ,再取半步长 $s_k=\frac{1}{4}s_0$ ,
假设我们有如下一个损失函数如下：
$S = [\begin{matrix} 1 & 0 \\ 0 & b \end{matrix}], f (x) = x^{T} S x = x^{2} + b y^{2}$
迭代公式如下：
$x_{k + 1} = x_{k} - s_{k} \nabla f (x_{k}), \nabla f (x_{k}) = 2 S x$
向量化如下 : $x\;=[x\;,y\;]^T$
${[\begin{matrix} x \\ y \end{matrix}]}_{k + 1} = {[\begin{matrix} x \\ y \end{matrix}]}_{k} - s_{k} {[\begin{matrix} 2 x \\ 2 b y \end{matrix}]}_{k}$
假设我们定义初始点 $p_0=(x_0,y_0)=(b,1)$
步长 $s_k=\frac{1}{x_0+y_0}=\frac{1}{b+1}$ 这里没弄懂，后续再研究，反推出来的
$x_{k} = b (\frac{b - 1}{b + 1})^{k}, y_{k} = (\frac{1 - b}{1 + b})^{k}, f_{k} = (\frac{1 - b}{1 + b})^{k} f_{0}$
函数 $f(x)=x^2+by^2=c$ 是一个椭圆形图像，随着c的变化不断变化,也就是做函数的最小值是之字型不断地趋近于最小，就像不同的椭圆进行等比缩小，最终求得最小值。

相关阅读:
前端食堂技术周刊第 62 期：11 月登陆浏览器的新特性、VueConf 2022、第 93 次 TC39 会议、TS 挑战
什么是增长飞轮？增长飞轮（Growth Loops）概述
财务数字化转型是什么？_光点科技
Eclipse环境基于HDFS的API进行开发
游戏服务器价格对比分析，2024高主频高性能服务器租用价格
LeetCode 2525. 根据规则将箱子分类：优雅解法？
软考高级系统架构设计师系列案例考点专题三：数据库系统考点梳理及精讲
Feign实战-Springboot集成OpenFeign Demo以及参数详解
vue项目 i18n 国际化完整教程
第四章继承

原文地址：https://blog.csdn.net/scar2016/article/details/140342908