码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 四、神经网络语言模型(NNLM)


    神经网络(Neural Network,NN)主要由输入层、隐藏层、输出层构成,输入层的的节点数等于待处理数据中输入变量的个数(每一个变量代表了一个特征),输出层的节点数等于与每个输入变量关联的输出的数量(代表了分类标签的个数)。

    不论是回归还是分类任务,输入和输出层的节点数是固定的(在做二分类时,如果采用 sigmoid 分类器,输出层的个数为 1 个;如果采用 softmax 分类器,输出层个数为2个)

    一个基本的三层神经网络可见下图:

    理论上,隐藏层的层数越深,拟合函数的能力越强,效果按理说会更好,但是实际上更深的层数可能会带来过拟合的问题,同时也会增加训练难度,使模型难以收敛。参考神经网络的理解与实现

    神经网络语言模型(Neural Network Language Model, NNLM)

    具体实现代码请参考Python实现神经网络语言模型

    ​

    神经网络语言模型的目标是根据上图中最下方的 W{t-n+1},...,W{t-2}, W{t-1} 已知的 (n-1) 个词,来预测第 (n) 个词 W{t}。

    数学符号说明:

    • |V|:表示去重后的词汇表(词库)的大小(长度)
    • C:表示词向量,计算词向量表,大小为 len(|V|) × m 的矩阵,行数表示词汇表的大小 |V|,每一行的内容代表一个词对应的 Word Embedding 值;列数表示词向量C(w) 的维度 m
    • C(W):表示词W所对应的词向量
    • m:表示词向量C(W)的维度
    • W:输入层到输出层的权重 
    • H:表示输入层到隐藏层的权重矩阵 
    • d:隐藏层的偏置
    • U:隐藏层到输出层的权重矩阵 
    • b:输出层的偏置 
    • ℎ:隐藏层神经元的个数

    激活函数sigmoid, tanh, softmax, relu之间的优缺点

    • tanh函数是一个奇函数,其函数图像为过原点并且穿越Ⅰ、Ⅲ象限的严格单调递增曲线,其图像被限制在两水平渐近线y=1和y=-1之间。
    • sigmoid函数是将一个real value映射到(0,1)的区间,用来做二分类。
    • softmax函数是把一个 k 维的real value向量(a1,a2,a3,a4.)映射成一个(b1,b2,b3,b4…)其中 bi 是一个 0~1 的常数,输出神经元之和为 1.0,相当于概率值,然后可以根据 bi 的概率大小来进行多分类的任务。
    • relu函数是当输入x大于0时,函数返回值为其本身。当输入x小于0时,函数返回值为0。神经网络中使用relu函数可以取得很好的拟合效果,运算简单,效率高。

    续激活函数relu, swish, mish, gelu优缺点及对应函数图像

    • 网络的第一层(输入层)是将前 (n-1) 个词 Wi 进行 one-hot 编码,然后乘以矩阵 C 转为词向量 C(Wi),接着将这 (n-1) 个词向量首尾相连拼接起来,形成一个 (n-1) × W 的输入向量,用 X 表示。
    • 网络的第二层(隐藏层)是用 hidden = tanh(d + X × H) 计算得到,用tanh作为激活函数。
    • 网络的第三层(输出层)是表示输出 |V| 个节点,每个节点 yi 表示预测下一个单词 i 的未归一化的概率。使用softmax函数将输出值 y 归一化,最终 y 的计算公式如下:y = softmax(b + X × W + U × hidden)
    • 最后,用随机梯度下降法进行模型优化。

    神经网络二分类模型代码(激活函数使用tanh和sigmoid)

  • 相关阅读:
    GPT学习-使用embedding做回归(regression)预测
    Python异常
    java-net-php-python-IT在线教学平台录像计算机毕业设计程序
    Web前端学习笔记6(align-items,align-content,flex-flow,flex,align-self,order)
    无胁科技-TVD每日漏洞情报-2022-9-20
    3).基础平台与业务平台的关系
    pinia——打败vuex的新一代vue存储库
    JVM调优,调整JVM参数
    【基础架构】Flink/Flink-CDC的部署和配置(MySQL / ES)
    Java+JSP基于ssm高校网上教材征订系统-计算机毕业设计
  • 原文地址:https://blog.csdn.net/contributed_l/article/details/136519655
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号