码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程


    【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

    • RLHF训练的三个步骤
      • 步骤1:收集数据与有监督训练策略
      • 步骤2:收集数据训练奖励模型
      • 步骤3:结合奖励模型利用强化学习算法如PPO算法来优化策略
    • 参考内容

    RLHF训练的三个步骤

    在这里插入图片描述

    步骤1:收集数据与有监督训练策略

    1. 从数据集中采样的prompt提问

    2. 数据标注者(人工)给出最合理的回答,组成问答机制对 < Q , A > <Q,A>

    3. 利用问答机制通过SFT有监督精调GPT3.5,得到策略policy
      在这里插入图片描述

    步骤2:收集数据训练奖励模型

    1. 继续采样prompt,将prompt输入一个或多个 LLM 生成对比数据。他们产生了几对提示-答案 < Q , A > <Q,A>
    2. 人类标注者根据模型回答的质量,对回答的好坏进行排序(收集人类反馈)
    3. 得到排序的数据集后,训练奖励模型,奖励模型能够根据输入给出一个标量奖励值,代表人类对这些输出或行为的偏好
    4. 经过充分的训练,奖励模型可以在没有人为干预的情况下对智能体的输出或行为进行打分,以量化其符合人类偏好的程度
      在这里插入图片描述
      图中的ELO是指建立其人类对于输出的相对排名

    步骤3:结合奖励模型利用强化学习算法如PPO算法来优化策略

    1. 再次采样prompt,利用PPO模型(由前面第一步得到的策略初始化)产生结果得到 < Q , A > <Q,A>
    2. 将 < Q , A > <Q,A>输入奖励模型,产生打分(奖励)
    3. 利用奖励信号评估策略的输出,通过强化学习算法来优化策略(比如 PPO模型)
    4. 创建一个循环来优化微调策略:通过新采样的数据,在强化学习过程中,策略会生成新的输出或行为,并根据奖励模型的反馈进行迭代优化。这个过程会不断重复,直到模型的性能达到满意的水平
      在这里插入图片描述
      policy是给GPT输入文本后输出结果的过程,即GPT推理的过程

    整体流程图:
    在这里插入图片描述

    参考内容

    1. HuggingFace官方博客:Illustrating Reinforcement Learning from Human Feedback (RLHF)
    2. B站里看的一个视频:RLHF大模型加强学习机制原理介绍

  • 相关阅读:
    [源码系列:手写spring] IOC第十三节:Bean作用域,增加prototype的支持
    java网上拍卖系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
    导致Spring事务失效的原因有哪些?
    计算机毕业论文java毕业设计论文题目S2SH实现的校园课程作业网项目[包运行成功]
    【AI视野·今日Robot 机器人论文速览 第四十五期】Mon, 2 Oct 2023
    Fastmoe安装
    2022北京眼睛健康用品展,护眼产品展,中国眼博会11月举办
    从0搭建Vue3组件库(十):如何搭建一个 Cli 脚手架
    【每日一题】34. 在排序数组中查找元素的第一个和最后一个位置
    HTML基础
  • 原文地址:https://blog.csdn.net/Ever_____/article/details/139271806
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号