【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程 - 码农知识堂 - 文章详情页

【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程
【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程
RLHF训练的三个步骤

 步骤1：收集数据与有监督训练策略
1. 从数据集中采样的prompt提问
2. 数据标注者（人工）给出最合理的回答，组成问答机制对 $< Q, A >$
3. 利用问答机制通过SFT有监督精调GPT3.5，得到策略policy
步骤2：收集数据训练奖励模型
1. 继续采样prompt，将prompt输入一个或多个 LLM 生成对比数据。他们产生了几对提示-答案 $< Q, A >$
2. 人类标注者根据模型回答的质量，对回答的好坏进行排序（收集人类反馈）
3. 得到排序的数据集后，训练奖励模型，奖励模型能够根据输入给出一个标量奖励值，代表人类对这些输出或行为的偏好
4. 经过充分的训练，奖励模型可以在没有人为干预的情况下对智能体的输出或行为进行打分，以量化其符合人类偏好的程度
  
  图中的ELO是指建立其人类对于输出的相对排名
步骤3：结合奖励模型利用强化学习算法如PPO算法来优化策略
1. 再次采样prompt，利用PPO模型（由前面第一步得到的策略初始化）产生结果得到 $< Q, A >$
2. 将 $< Q, A >$ 输入奖励模型，产生打分（奖励）
3. 利用奖励信号评估策略的输出，通过强化学习算法来优化策略（比如 PPO模型）
4. 创建一个循环来优化微调策略：通过新采样的数据，在强化学习过程中，策略会生成新的输出或行为，并根据奖励模型的反馈进行迭代优化。这个过程会不断重复，直到模型的性能达到满意的水平
  
  policy是给GPT输入文本后输出结果的过程，即GPT推理的过程
整体流程图：

参考内容

1. HuggingFace官方博客：Illustrating Reinforcement Learning from Human Feedback (RLHF)
2. B站里看的一个视频：RLHF大模型加强学习机制原理介绍
相关阅读:
使用ElementUI结合Vue完善主页的导航菜单和书籍管理的后台数据分页查询
 微软免费AI基础中文课程；马斯克提出撤诉OpenAI条件：“改名ClosedAI”
最佳策略app平台传出的绝密理财法，这是给散户们的好机会
 EasyExcel3.1.1版本上传文件忽略列头大小写
 2609. 最长平衡子字符串 --力扣 --JAVA
【亚马逊云科技产品测评】活动征文｜10分钟拥有一台AWS Linux系统
 Mysql事务隔离机制
 自动控制原理4.4---系统性能分析
 Source Insight 宏-添加单行的c注释
 Spire.Office for Java 7.11.2 - 2022-11-16
原文地址：https://blog.csdn.net/Ever_____/article/details/139271806