码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 论文阅读——BART


    Arxiv: https://arxiv.org/abs/1910.13461

    一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

    预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

    一、模型

    input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

    标准transformers模型,encoder 6层,decoder 12层

    其他细节:激活函数把ReLU换成GeLUs

    1、预训练:

            允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

            Token Masking:和BERT一样

            Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

            Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

            Sentence Permutation:文章句子打乱顺序

            Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

    2、微调:

            各下游任务微调

    二、Loss:交叉熵

  • 相关阅读:
    torch其他层和联合使用
    解决windows下git操作提示用户名密码错误的问题
    python轻松生成pdf文档
    抖音小店怎么运营?这五个步骤你需要知道!
    R可视乎|灯芯柱状图代码解读
    大结局!OpenAI创始人奥特曼和 Greg Brockman 将加入微软!!!
    AGI之MFM:《多模态基础模型:从专家到通用助手》翻译与解读之与LLM协同工作的多模态智能体、结论和研究趋势
    java常用工具方法
    DeepMind 发了篇论文,把我看笑了
    Prometheus集成consul[被监控对象开启basic认证]
  • 原文地址:https://blog.csdn.net/weixin_43575791/article/details/134079755
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号