码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【LLM教程】为什么做大语言模型fine tuning时,要将 drop_last_batch设置为True?


    目录

    1. drop_last_batch 是什么?

    2. drop_last_batch有什么用?


    这是我们做tokenizer时,经常会遇到的代码,那这里的drop_last_batch 为什么要设置:

    1. finetuning_dataset_loaded = datasets.load_dataset("json", data_files=filename, split="train")
    2. tokenized_dataset = finetuning_dataset_loaded.map(
    3. tokenize_function,
    4. batched=True,
    5. batch_size=1,
    6. drop_last_batch=True
    7. )
    8. print(tokenized_dataset)

    1. drop_last_batch 是什么?

    drop_last_batch=True 是一个常见的数据加载/预处理选项,用于在处理最后一批样本时丢弃不完整的批次(batch)。

    2. drop_last_batch有什么用?

    • 训练神经网络模型:

      大多数神经网络模型在训练时使用批量梯度下降(mini-batch gradient descent)优化算法,这需要将数据分成若干个批次。如果最后一个批次的样本数量不足一个完整批次的大小,可能会导致计算不一致或效率低下。通过设置 drop_last_batch=True,可以确保每个批次的大小都是一致的,有利于模型的稳定性和收敛性。

    • 数据并行处理:

      在数据并行处理的场景下,例如使用多个GPU或多个进程/线程进行数据预处理,需要保证每个处理单元获得的数据批次大小相同,以平衡计算负载。丢弃最后一个不完整的批次可以确保数据的均匀分布。

    • 统一批次大小:

      某些操作(如数据增强、数据编码等)可能需要固定的批次大小,以便有效地利用向量化计算或内存缓存。在这种情况下,丢弃最后一个不完整的批次可以确保批次大小的一致性。

    • 模型并行处理:

      在模型并行处理的场景下,多个模型组件可能需要接收相同大小的批次输入,以确保同步和一致性。丢弃最后一个不完整的批次可以实现这一点。

  • 相关阅读:
    Vue3使用ElementUI按需自动引入
    计算机毕业设计(附源码)python专家管理系统
    如何从缓存一致性协议MESI来理解内存屏障
    Win11如何增强麦克风?Win11增强麦克风的设置
    java基本数据类型Char
    你所经历的一切,可能是假的?
    Redis客户端和服务端如何通信?
    《优化接口设计的思路》系列:第十篇—网站的静态资源怎么获取?
    matlab绘制动图
    JDBC 实现批量插入-任意表名
  • 原文地址:https://blog.csdn.net/Viviane_2022/article/details/140109335
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号