• mindspore两日集训营202209-预热作业和作业一


    https://gitee.com/mindspore/community/issues/I5N0IZ
    预热作业
    如图,非常简单,这样就跑起来了。
    在这里插入图片描述
    我们顺利地把4个样例全部跑完了。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    1、GPT
    第一个pytest非常简单,运行就可以了
    第二个跑脚本,需要注意几点,我们先用官网案例试一试

    git clone https://gitee.com/mindspore/models.git
    cd  models/research/nlp/gpt2
    
    
    
    • 1
    • 2
    • 3
    • 4

    可以参考这篇论文
    https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf

    针对这次的作业,参考https://gitee.com/mindspore/transformer/blob/master/examples/preprocess/gptpreprocess/README.md

    我们下载其中一部分数据后解压,

    cd openwebtext
    xz -dk *
    
    • 1
    • 2

    在这里插入图片描述
    我们看到,这是一些文本信息。
    在这里插入图片描述
    在这里插入图片描述

    cd ..
    python pre_process.py \
    --input_glob=./openwebtext/* \
    --dataset_type=openwebtext \
    --output_file=./output/openwebtext.mindrecord
    
    • 1
    • 2
    • 3
    • 4
    • 5

    如果遇到了编码问题,请在代码中加上errors=‘ignore’
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    终于搞定了,

    python -m transformer.train \
    --config='./transformer/configs/gpt/gpt_base.yaml' \
    --epoch_size=1 \
    --data_url='./examples/preprocess/gptpreprocess/output/' \
    --optimizer="adam"  \
    --seq_length=1024 \
    --parallel_mode="stand_alone" \
    --global_batch_size=4 \
    --vocab_size=50257 \
    --hidden_size=2048 \
    --num_layers=24 \
    --num_heads=16 \
    --device_target="GPU" > standalone_train_gpu_log.txt 2>&1 &
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13

    在这里插入图片描述
    显然,wsl这么跑是会崩掉的
    那我们用启智openi跑一跑
    在这里插入图片描述
    这里bb了一句这样的话,我就不知道能否成功了,因此压缩后再上传一次。
    在这里插入图片描述
    不错子

    但是这个元数据毕竟太大,我们可以采用其他的数据集训练,或者使用一些中文文本训练对话机器人
    我们要创建自己的mindrecord
    在这里插入图片描述
    最后折腾了半天,也没有搞清楚官网的教程,迫不得已,自己写了一个。
    以下是开源链接
    最后可以达到这样的效果,也就训练了几分钟,勉勉强强
    在这里插入图片描述

  • 相关阅读:
    数据结构:链表
    js金额格式化,千分符,(好家伙!面试直接被问四次)
    【接口测试】Postman(一)--接口测试知识准备
    利用半自动补环境插件处理某乎算法
    Java,异常处理,异常的概述
    SSH在线聊天室系统
    springboot项目 jdk8 到 jdk17遇到的问题
    【毕业设计源码】基于微信小程序的查寝系统的设计与实现
    weblogic/CVE-2018-2894文件上传漏洞复现
    根据keypoint生成heatmap
  • 原文地址:https://blog.csdn.net/weixin_54227557/article/details/126754209