码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training


    诸神缄默不语-个人CSDN博文目录
    诸神缄默不语的论文阅读笔记和分类

    论文全名:Improving Language Understanding by Generative Pre-Training
    论文下载地址:https://www.mikecaptain.com/resources/pdf/GPT-1.pdf

    官方博文:Improving language understanding with unsupervised learning

    本文是2018年OpenAI的工作,是初代GPT的原始论文。

    先用无监督数据预训练语言模型(Transformer decoder),再在有监督数据上微调(加一层prediction head,同时优化语言模型和有监督任务的损失函数)
    在这里插入图片描述

    文章目录

    • 1. 简介
    • 2. GPT-1
      • 1. 无监督预训练语言模型
      • 2. 微调
    • 3. 实验
      • 1. 数据集
      • 2. 下游任务指标
      • 3. 模型分析

    1. 简介

    NLU任务包括textual entailment, question answering, semantic similarity assessment, and document classification等子任务,本文测试了NLI、QA、语义相似度和文本分类4个任务。
    有监督数据稀少,本文的解决方案是在语言模型上用海量无标签数据上进行generative pre-training,然后再在特定子任务上discriminative fine-tuning。
    (算半监督学习)

    普遍的使用无监督方法来学习语言学知识的方法,是构建预训练词嵌入来提升NLP任务的效果,这种做法有两个问题:1. 在学习文本表征中使用什么优化目标对迁移最有效,不知道。至今没有绝对优秀的方法。2. 如何利用文本表征最有效,不知道。

    2. GPT-1

    1. 无监督预训练语言模型

    标准语言模型目标,最大化文本的似然:
    在这里插入图片描述

    ( k k k是上下文窗口尺寸,条件概率 P P P,神经网络的参数 Θ \Theta Θ)

    本文用多层Transofmer decoder1(多头自注意力机制+position-wise前馈神经网络生成target token上的输出分布):
    在这里插入图片描述
    U U U是token, n n n是层数, W e W_e We​是token嵌入矩阵, W p W_p Wp​是position embedding矩阵

    Transformer相比LSTM的优势体验在对长文本的处理上

    2. 微调

    通过输入(每个任务被转变成不同形式的输入,见figure 1)得到表征,喂进线性输出层来预测 y y y:
    在这里插入图片描述

    新的优化目标:
    在这里插入图片描述

    事实上是将两个优化目标加起来:
    在这里插入图片描述

    3. 实验

    1. 数据集

    1. 上游预训练数据:BooksCorpus和1B Word Benchmark
    2. 下游微调数据
      在这里插入图片描述

    2. 下游任务指标

    1. NLI任务的实验结果在这里插入图片描述
    2. QA和常识推理的实验结果在这里插入图片描述
    3. 语义相似度和文本分类的实验结果在这里插入图片描述

    3. 模型分析

    1. 层数对微调结果的影响(答案是越多越好)和预训练更新次数对zero-shot表现的影响在这里插入图片描述
      (数值是经规范化后得到的)
    2. ablation study
      在这里插入图片描述

    1. Generating Wikipedia by Summarizing Long Sequences ↩︎

  • 相关阅读:
    “独立站+私域”的DTC直客模式电商,是告别互联网内卷唯一有效方式
    【物理应用】基于Matlab模拟极化雷达回波
    阿里云服务器和腾讯云服务器哪个更好?多维度对比得出了结论
    VMware——WindowServer2012R2环境安装mysql5.7.14解压版_互为主从(图解版)
    Java教程:RedisTemplate如何存取数据并使用scan非阻塞删除
    linux下安装python3.8(有坑)
    CentOS 7.9 安装 nginx
    常见html+css面试题
    Vue - 实现点击按钮(笔图标)可编辑 input 输入框(点击文字内容后变成 <input> 输入框同时能修改和取消、删除)
    使用Docker Compose
  • 原文地址:https://blog.csdn.net/PolarisRisingWar/article/details/132670273
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号