码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 13 丢弃法(Dropout)+QA


    丢弃法(Dropout)+QA

    • 丢弃法
    • QA
      • Q:老师,请问可以再解释一下为什么"推理中的dropout是直接返回输入"吗?
      • Q:请问沐神,dropout函数返回值的表达式return X*mask/(1.0-p)没被丢弃的输入部分的值会因为表达式分母(1-p)的存在而改变,而训练数据的标签还是原来的值,这怎么理解?
      • Q:请问沐神,训练时使用dropout,推理时不用。那会不会导致推理时输出结果翻倍了?比如dropout=0.5,推理时输出结果是训练时2个子神经网络的叠加而翻倍?
    • Q:老师,dropout每次随机选几个子网络,最后做平均的做法是不是类似于随机森林多决策树做投票的这种思想?
    • Q∶在解决过拟合问题上,dropout和regularization的主要区别是什么?
    • Q:请问老师:Dropout层丢弃的是前一层,还是后一层?
    • Q: dropout和权重衰减都属于正则,为何dropout效果更好现在更常用呢?
    • Q∶请问,在同样的lr下,dropout的介入会不会造成参数收敛更慢,需要比没有dropout的情况下适当调大lr吗?

    丢弃法

    • 丢弃法将一些输出项随机置0来控制模型复杂度

    • 常作用在多层感知机的隐藏层输出上

    • 丢弃概率是控制模型复杂度的超参数

    • 通常将丢弃法作用在隐藏全连接层的输出上,通过设定丢弃概率,丢弃隐藏层中的感知机。如下,丢弃概率为0.4
      请添加图片描述

    • 丢弃法可以看成正则项

    • 丢弃法在训练中把神经元随机丢弃后训练,在预测时网络中的神经元不丢弃,以保证确定性的输出

    • 丢弃法每次迭代预测,按丢弃概率随机丢弃一次

    QA

    Q:老师,请问可以再解释一下为什么"推理中的dropout是直接返回输入"吗?

    • dropout是一个正则项,正则项唯一的作用是更新权重时让模型复杂度降低。但在推理时,我们不会更新模型,因此不需要dropout
    • 推理如果使用的dropout,会导致不稳定,例如给了猫的图片,可能因为数据丢失,第一次识别是猫,第二次识别是狗,因此需要多算几次推理求平均降低方差
    • 训练时候dropout不会有问题,因为训练会跑很多很多次dropout,在几十万次的丢弃中,对整个系统的稳定性不会存在问题

    Q:请问沐神,dropout函数返回值的表达式return X*mask/(1.0-p)没被丢弃的输入部分的值会因为表达式分母(1-p)的存在而改变,而训练数据的标签还是原来的值,这怎么理解?

    • dropout要么就把输出变成0,要么就要除以(1-p),这是因为随机性保证期望不改变,但标签不改变。
    • dropout唯一改变的是隐藏层的输出,不改变输出层的输出结果

    Q:请问沐神,训练时使用dropout,推理时不用。那会不会导致推理时输出结果翻倍了?比如dropout=0.5,推理时输出结果是训练时2个子神经网络的叠加而翻倍?

    不会,因为除以(1-p),期望不改变,输出结果不变化

    Q:老师,dropout每次随机选几个子网络,最后做平均的做法是不是类似于随机森林多决策树做投票的这种思想?

    来源就是随机森林

    Q∶在解决过拟合问题上,dropout和regularization的主要区别是什么?

    可以认为dropout就是一个regularization,都是避免过拟合,可以这两种一起使用

    Q:请问老师:Dropout层丢弃的是前一层,还是后一层?

    丢弃前一层的输出和后一层的输入,是丢弃层的神经元,所以连接的输出输入也会丢弃

    Q: dropout和权重衰减都属于正则,为何dropout效果更好现在更常用呢?

    • dropout主要是全连接层使用,权重衰减对于卷积等
    • dropout更好调参

    Q∶请问,在同样的lr下,dropout的介入会不会造成参数收敛更慢,需要比没有dropout的情况下适当调大lr吗?

    • 收敛变慢有可能的,梯度更新会变慢
    • 有dropout的情况下不用适当调大lr,dropout不改变期望,lr对期望和方差敏感
  • 相关阅读:
    脱贫攻坚战!武汉市脱贫村科技特派员工作站申报条件和申报流程
    vscode安装及c++配置
    图像处理与视觉感知复习--频率域图像增强&图像变换
    Windows server部署filebeat到kafka
    uniapp微信小程序的代码加固
    服务器的环境要求
    spring boot configuration annotation processor notconfigured解决方法
    MySQL多表关联on和where速度对比实测谁更快
    实验4 SQL的复杂多表查询以及视图
    苹果上架app备案流程介绍
  • 原文地址:https://blog.csdn.net/weixin_43786637/article/details/126331787
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号