rlhfbook

原文地址：https://rlhfbook.com/c/06-policy-gradients，主要涉及RLHF中的一些概念和公式推导。

强化学习在RLHF中的作用

使得RLHF在语言模型领域得以普及的算法是策略梯度强化学习算法，PPO、GRPO……，而不是DQN那些在AlphaGo等热门项目中使用的算法。

最简单的PLHF强化学习阶段需要两个模型：一个策略模型，即正在训练的模型，一个奖励模型，用于对策略模型的输出进行评分。

如果用于计算KL散度惩罚，我们还需要强化学习之前的策略模型副本，作为参考模型。该模型是冻结的，不会利用自动微分引擎进行梯度更新。

最复杂的PPO算法增加了第四个模型，一个学习得到的价值模型，用于评估每次生成的token的质量，该模型也是在训练过程中被更新的大语言模型。

各个算法的主要区别在于他们如何估计一个称为advantages的量，即优势，这个值衡量模型当前输出的completion相对于平均水平的质量，区别还有就是如何约束策略更新以确保过程的数值稳定性。

关于符号的定义：(s, a)来自于强化学习文献，s表示状态，a表示动作。(x, y)来自大模型语境，表示输入的提示以及模型回答。