深度学习：手写反向传播算法（BackPropagation）与代码实现

深度学习：手写反向传播算法（BackPropagation）

- 代码实现

前置知识回顾

损失函数：交叉熵
优化方法：SGD与GD
网络结构：多层感知机是如何运作的
链式法则：
请添加图片描述

前向传播

首先定义一个简单的三层全连接神经网络，其中为了方便运算，我们省略了激活函数与偏置系数b，网络结构如图所示：
请添加图片描述

下面我们开始前向计算：请添加图片描述

1.在这里我们发现，其中计算的结果也就是隐藏层神经元的数值z1与z2，那么不难看出，我们把这次计算的输出当作下次计算的输入，就可以计算出z3与z4，这样逐层传播，就是上述网络的前想传播过程。
2.当我们得到网络的结果矩阵z3与z4，下面我们要通过代价函数计算损失
为了方便运算，我们采用均方误差（MSE）来计算损失计算过程如下：
在这里插入图片描述

其中y假设为真实值。
上述过程就是前向计算的过程。

反向传播

计算完代价函数，我们就需要更新我们的参数，之前我们学习的梯度梯度下降法只能更新一层神经网络的参数，而在多层网络中，我们需要用到链式法则的知识来得到其他层参数的偏导数，就可以逐层更新参数。具体过程如下：
我们从后往前更新参数：
首先计算损失函数对第二层网络参数的偏导数

| \begin{matrix} \frac{\partial l_{1}}{\partial w_{5}} & \frac{\partial l_{1}}{\partial w_{7}} \\ \frac{\partial l_{2}}{\partial w_{6}} & \frac{\partial l_{2}}{\partial w_{8}} \end{matrix} |

=

| \begin{matrix} \frac{\partial l_{1}}{\partial z_{3}} \frac{\partial z_{3},}{\partial w_{5}} & \frac{\partial l_{4}}{\partial z_{3}} \frac{\partial z_{3}}{\partial w_{7}} \\ \frac{\partial l_{2}}{\partial z_{4}} \frac{\partial z_{4}}{\partial W_{6}} & \frac{\partial l_{2}}{\partial z_{4}} \frac{\partial z_{4}}{\partial W_{8}} \end{matrix} |

∣ ∣ \frac{\partial l _{1}}{\partial w _{5}} \frac{\partial l _{2}}{\partial w _{6}} \frac{\partial l _{1}}{\partial w _{7}} \frac{\partial l _{2}}{\partial w _{8}} ∣ ∣ = ∣ ∣ \frac{\partial l _{1}}{\partial z _{3}} \frac{\partial z _{3} ,}{\partial w _{5}} \frac{\partial l _{2}}{\partial z _{4}} \frac{\partial z _{4}}{\partial W _{6}} \frac{\partial l _{4}}{\partial z _{3}} \frac{\partial z _{3}}{\partial w _{7}} \frac{\partial l _{2}}{\partial z _{4}} \frac{\partial z _{4}}{\partial W _{8}} ∣ ∣

计算偏导数后，我们可以通过梯度下降法更新参数(这里假设a为学习率)：

| \begin{matrix} w_{5} - a \frac{\partial l_{1}}{\partial w_{5}} & w_{7} - a \frac{\partial l_{1}}{\partial w_{1}}, \\ w_{6} - a \frac{\partial l_{2}}{\partial w_{6}} & w_{8} - a \frac{\partial l_{2}}{\partial w_{8}} \end{matrix} |

接着，我们就继续向前跟新，这里损失函数对参数的偏导数为：
$\dfrac{\partial l_{1}}{\partial w_{1}}=\dfrac{\partial l_{1}}{\partial z_{1}}\dfrac{\partial z_{1}}{\partial w_1}=\dfrac{\partial l_{1}}{\partial z_{3}}\dfrac{\partial z_3}{\partial z_{1}}\dfrac{\partial z_{1}}{\partial w_{1}}$
有了偏导数，我们就可以重复上述操作，直至更新完所有参数。

代码实现

import torch.nn as nn
import torch.nn.functional as F

x = torch.tensor([2.0,2.0],requires_grad=True)
class model(nn.Module):
    def __init__(self,x):
        super(model, self).__init__()
        self.x = x
        self.fc1 = nn.Linear(2, 2)
        self.fc2 = nn.Linear(2, 2)
    def forward(self):
        x = self.fc1(self.x)
        x = self.fc2(x)
        return x
    
    
x = model(x).forward() 
x = x.sum().backward()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

相关阅读:
【Mask2Former】解决代码中一些问题
【2024.6.23】今日科技时事：科技前沿大事件
leetcode刷题日志-28.找出字符串中第一个匹配项的下标
毕设 JAVA.JSP球迷用品销售网站的设计与实现论文
Vue3 - Pinia 状态管理，解构 store（Pinia storeToRefs API 详细使用教程）
Selenium 案例
Git：使用conda命令切换虚拟环境（win10）
window11安装wsl，wsl连接vsCode开发，安装docker、Nginx
【C++STL基础入门】list的运算符重载和关于list的算法
Java安全编码规范之Web安全漏洞

原文地址：https://blog.csdn.net/qq_18555105/article/details/126677588