码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Transformer简单理解(MT)


    Transformer

    21年cs224n的Transformer这课换了TA来讲,有点听不太懂(我是菜狗)这篇suggested reading讲得非常清楚
    The Illustrated Transformer

    在这里插入图片描述

    Key-Query-Value Attention

    在这里插入图片描述

    在这里插入图片描述

    使得xi的不同方面得以被使用或强调。

    计算分数时,除以d的平方根以获得更加稳定的梯度。softmax计算得到的某单词上的权重可以被视作为该单词应当被获得的注意力大小,最后的加权平均体现了注意力大的单词作用到z的影响力更大,而注意力小的单词倾向于被忽略(权重很小)。

    在这里插入图片描述

    矩阵运算

    在这里插入图片描述

    X的每一行都代表了一个词嵌入, X ∈ R T × d , K , Q , V ∈ R d × d X\in R^{T\times d}, K,Q,V\in R^{d\times d} X∈RT×d,K,Q,V∈Rd×d(事实上K,Q,V的列数可以不等于d,例如图上所示)。

    如此一来, X K , X Q , X V ∈ R T × d XK, XQ, XV\in R^{T\times d} XK,XQ,XV∈RT×d 。

    综合计算过程如下

    在这里插入图片描述

    多头注意力机制

    同时关注一句话中的多个词,通过使用不同的K,Q,V矩阵实现。

    一种是ppt上的方法,令 Q l , K l , V l ∈ R d × d h Q_l,K_l,V_l\in R^{d\times \frac{d}{h}} Ql​,Kl​,Vl​∈Rd×hd​ ,其中h是注意力头的数目,最后拼接起h个z;另一种是链接里的方法,保持Q,K,V的维数不变,拼接Z成一个大向量
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    一个注意力头的重点在animal,另一个注意力头的重点在tired

    最后一个线性层

    在这里插入图片描述

    linear layer是一个简单的全连接神经网络,它将decoder堆栈产生的向量投射到一个大得多的向量(维数为vocab的大小),称为logits向量,每个元素对应了每个单词的得分。再经过一个softmax,得分转化为概率,于是概率最高的元素对应的单词就被选取。
    在这里插入图片描述

    训练技巧

    Residual connections

    在这里插入图片描述

    在这里插入图片描述

    只需要学习第i层和第i-1层有什么不同,而不是需要从头开始学

    在这里插入图片描述

    Layer normalization

    加速训练过程,减少无信息的变化传递

  • 相关阅读:
    程序员基础能力系列(2)——vscode快捷键总结
    [ Linux ] Linux调试器--gdb使用
    基于springboot+vue的公司员工工资资产管理系统 elementui
    jscpd对项目进行查重(支持150+类语言)
    10款实用的市场分析工具,你知道几个?
    FastAPI 学习之路(十四)响应模型
    debian11 安装后必备配置
    企微获客助手到底有哪些价值?
    ue4 unreal cpp c++ 检测 检测 端口是否占用
    OpenAI首席科学家:ChatGPT已经出现意识,人类未来将与AI融合
  • 原文地址:https://blog.csdn.net/rd142857/article/details/126100540
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号