码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 如何计算Bert模型的参数量


    BERT是基于transformer结构的预训练模型。具体bert原理介绍,请参考博客:Bert系列解读及改进_&永恒的星河&的博客-CSDN博客_bert系列

    求解Bert模型的参数量是面试常考的问题,也是作为算法工程师必须会的一个点。所谓会用并不代表熟悉。今天以BERT BASE模型为例子,计算其参数量。开始正题:

    在BERT BASE中:

    • 词表的大小是(word list):30522
    • Encoder层个数是(layer):12
    • 词向量的大小(vocab dim):768
    • 文本最大长度(seq length):512
    • 头个数(multi head attention):12
    • Feed Forward的两层全链接层神经元个数分别是:3702, 768

     BERT 的Encoder结构

    BERT中Encoder包括: Embedding层,Multi-Head Attention 层,Feed-Forward Network层,LayerNorm层参数。

    1. Embedding层

    该层包括三种Embedding,具体是Token Embedding, Segment Embedding, Position Embedding

    Token Embedding 层参数: 30522 * 768

    Segment Embedding层参数:2 * 768

    Position Embedding层参数:512 * 768

    因此总的参数量为:(30522 + 512 +2)* 768 = 23835648 = 22.7 M

    2. Multi-Head Attention层

    该层主要是由Q、K、V三个矩阵运算组成,BERT模型中是Multi-head多头的Self-attention(记为SA)机制。先通过Q和K矩阵运算并通过softmax变换得到对应的权重矩阵,然后将权重矩阵与 V矩阵相乘,最后将12个头得到的结果进行concat,得到最终的SA层输出。

    又因为BERT模型中包含12个Transformer Encoder层,因此改层的参数总量为:[768 * (768/12) * 3 * 12 + 768 * 768 ] * 12 = 28311552 = 27M

    3. LayerNorm层

    LayerNorm层主要有weight和bias两个参数。而LN层在Embedding层、Self-attention层、Feed-Forward Network层三个层都有用到,因此LN层的参数总量为:768 * 2 + (768 * 2)* 12 + (768 * 2)* 12 = 38400 = 37.5KB

    4. Feed-Forward Network层

    前馈网络FFN主要由两个全连接层组成,且W1和W2的形状分别是(768,3072),(3072,768),层数为12,因此该层的参数量为:

    (768 * 3072 + 3072 * 768)* 12 = 56623104 = 54M

    将上面的计算结果加起来,那么BERT模型的参数总量为:23835648 + 28311552 + 56623104 + 38400 = 108808704 ≈ 104M。

    Embedding层约占参数总量的20%,Transformer层约占参数总量的80%。

  • 相关阅读:
    主成分分析法(数学建模)教授先生
    Python 潮流周刊第 13 期(2023-07-29)
    MySQL之中间件Mycat实现读写分离
    [Spring cloud alibaba][Sentinel][Gateway] 微服务整合sentinel流控未发现注册服务(监控空白问题)
    Nginx配置转发
    Spark - RDD 的分区和Shuffle
    四肽Suc-AAPD-对硝基苯胺,165174-58-3
    三大传统批发投资领域何去何从?
    Java“牵手”ebay商品详情数据,ebay商品详情API接口,ebayAPI接口申请指南
    el-table 表格表头、单元格、滚动条样式修改
  • 原文地址:https://blog.csdn.net/weixin_44402973/article/details/126405946
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号