torch.optim.Adam

Adam在PyTorch的官方文档中有详细介绍，摘录如下：
Adam介绍
在此有几处知识点做些详细说明。
上图的算法排除IF后（一般情况），按如下执行：

计算梯度： $g_{t} \leftarrow \nabla_{\theta} f_{t}\left(\theta_{t-1}\right)$
累计梯度： $m_{t} \leftarrow \beta_{1} m_{t-1}+\left(1-\beta_{1}\right) g_{t}$
累计梯度的平方： $v_{t} \leftarrow \beta_{2} v_{t-1}+\left(1-\beta_{2}\right) g_{t}^{2}$
偏差修正： $\widehat{m_{t}} \leftarrow m_{t} /\left(1-(\beta_{1})^{t}\right)$
偏差修正： $\widehat{v_{t}} \leftarrow v_{t} /\left(1-(\beta_{2})^{t}\right)$
更新参数： $\theta_{t} \leftarrow \theta_{t-1}-\gamma \widehat{m_{t}} /\left(\sqrt{\widehat{v_{t}}}+\epsilon\right)$

其中累计梯度和梯度的平方均用指数加权平均（exponentially weighted averges）的方法来实现，如果学习过吴恩达老师的deepLearning课程应该不陌生，这个方法的通式为：
$v_{t}=\beta * v_{t-1}+(1-\beta) * \theta_{t}$
其中 $\theta_{t}$ 为本次迭代的数值， $v_{t-1}$ 为上一次累计的数值， $\beta$ 为权重。一般将权重下降到峰值权重的 $1/ e$ 时，就说他平均了 $1/(1-\beta)$ 个数据。例如 $\beta=0.9$ 时，基本认为其平均此前的10次数据。但该方法会导致前期的指数加权平均存在较大误差，因此需要进行偏差修正。而Adam优化器中，就引入了修正方法：
$v_{t}=\frac{v_{t}}{1-\beta^{t}}$
所以在上述Adam优化器的过程中，有4，5两步进行偏差修正。

相关阅读:
Linux论坛搭建
FestDFS
华为云云耀云服务器L实例评测｜实例场景体验之搭建个人博客：通过华为云云耀云服务器构建个人博客
NPDP考生！7月31号考试要求在这里看！
SpringBoot系列之动态生成cron表达式执行定时程序
Linux文件权限
工厂方法模式Factory Method
C语言char与short取反以及符号判断问题
Python实现支持向量机SVM分类模型(SVC算法)并应用网格搜索算法调优项目实战
py2neo 查询语句

原文地址：https://blog.csdn.net/zhongzhehua/article/details/126407489