跳转至

rlhfbook

原文地址:https://rlhfbook.com/c/06-policy-gradients,主要涉及RLHF中的一些概念和公式推导。

强化学习在RLHF中的作用

使得RLHF在语言模型领域得以普及的算法是策略梯度强化学习算法,PPO、GRPO……,而不是DQN那些在AlphaGo等热门项目中使用的算法。

最简单的PLHF强化学习阶段需要两个模型:一个策略模型,即正在训练的模型,一个奖励模型,用于对策略模型的输出进行评分

如果用于计算KL散度惩罚,我们还需要强化学习之前的策略模型副本,作为参考模型。该模型是冻结的,不会利用自动微分引擎进行梯度更新。

最复杂的PPO算法增加了第四个模型,一个学习得到的价值模型,用于评估每次生成的token的质量,该模型也是在训练过程中被更新的大语言模型。

各个算法的主要区别在于他们如何估计一个称为advantages的量,即优势,这个值衡量模型当前输出的completion相对于平均水平的质量,区别还有就是如何约束策略更新以确保过程的数值稳定性。

关于符号的定义:(s, a)来自于强化学习文献,s表示状态,a表示动作。(x, y)来自大模型语境,表示输入的提示以及模型回答。

策略梯度算法