
从数据集中采样的prompt提问
数据标注者(人工)给出最合理的回答,组成问答机制对
<
Q
,
A
>
<Q,A>
利用问答机制通过SFT有监督精调GPT3.5,得到策略policy

<Q,A>

<Q,A>
<Q,A>输入奖励模型,产生打分(奖励)

整体流程图:

1. HuggingFace官方博客:Illustrating Reinforcement Learning from Human Feedback (RLHF)
2. B站里看的一个视频:RLHF大模型加强学习机制原理介绍