码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 231n--神经网络和反向传播


    神经网络

    神经网络,不再是单纯的单层线性计算,而加入了非线性层
    也被称为全连接网络或者有时候被称为多层感知机

    20221028193809

    20221028193830

    激活函数

    函数 max(0,z)被称为激活函数

    20221028194558
    如果没有激活函数,多层的线性计算都可以化为一层的线性计算。又变成了一个线性分类。

    为什么需要非线性

    因为在现行条件下,很多是线性不可分的,因此需要进行一定的特征转换才能可分。
    20221028194819

    几种常见的激活函数

    20221028194922

    20221028200031

    20221028200233

    import numpy as np
    from numpy.random import random
    
    N, D_in, H, D_out = 64,1000, 100, 10
    x, y = randn(N,D_in), rand(N,D_out)
    w1, w2 = randn(D_in, H), randn(H, D_out)
    
    for t in range(2000):
        # 两层神经网络
        h = 1 / (1 + np.exp(-x.dot(w1)))
        y_pred = h.dot(w2)
        loss = np.square(y_pred - y).sum()
        print(t, loss)
    
        grad_y_pred = 2.0 * (y_pred - y)
        grad_w2 = h.T.dot(grad_y_pred)
        grad_h = grad_y_pred.dot(w2.T)
        grad_w1 = x.T.dot(grad_h*h*(1 - h))
    
        w1 -= 1e-4 * gred_w1
        w2 -= 1e-4 * gred_w2
    
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23

    20221028204004

    20221028204047

    神经网络的loss

    20221028204424

    这么复杂的方程,我们如何计算梯度? 如果用在纸上推到的方式,我们需要进行很大的计算量。如果使用softmax替换SVM呢?岂不是要重新推导?

    更好的方法,使用计算图和反向传播

    20221028204707

    神经网络会做的非常大,使用人去推到梯度计算的公式显然是不太现实的

    20221028204808

    反向传播

    20221028204900

    20221028210950

    20221028211034

    将计算图中的部分拿出来,我们可以将其看作不同的类型的gate

    20221028213902

    注意max gate,对于较小的值,导数可以为0,对于较大的值,local gradient 为 1

    20221028214024

    向量形式的反向传播公式

    向量求导

    20221030214725

    20221030215716

    向量的梯度和变量本身有相同的维度。

    如果是矩阵形式,在计算local gradients的时候会计算一个非常大的 Jacobian 矩阵
    20221030220422

    可以推一波
    20221030221054

    20221030221307

    我们可以直接使用矩阵梯度求导的公式。

  • 相关阅读:
    基于 Debian 稳定分支发行版的Zephix 7 发布
    基于模糊小波神经网络的空中目标威胁评估(Matlab代码实现)
    英语小作文写作模板及步骤(1)
    业务线程池阻塞分析
    权威敏捷产品经理(CSPO)企业培训
    贪心算法(1)--经典贪心算法
    qt 实现PDF阅读器
    webpack定制化 优化提速[多进程、压缩、多js打包、多css打包、gzip]
    K8s 场景下 Logtail 组件可观测方案升级-Logtail 事件监控发布
    java动态代理
  • 原文地址:https://blog.csdn.net/greatcoder/article/details/127578828
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号