AI反馈的强化学习


在LLM对偏好进行标注后,将训练嘉奖模型(RM)来预测偏好 。由于研究人员的方法产生软标注(Soft Label) , 他们采取RM生成的嘉奖分数的softmax的交叉熵损失(cross-entropy loss) , 而不是嘉奖模型中提到的损失 。

AI反馈的强化学习

文章插图
Softmax将RM的无界分数(unbounded scores)转换为几率散布 。
在AI标注数据集上训练RM可以被视为模型蒸馏的一种情势,特别是由于研究人员的AI标注器通常比RM更大、更强 。
另外一种方法是绕过RM并直接使用AI反馈作为RL中的嘉奖信号,虽然这类方法的计算成本更高,由于AI标注器比RM更大 。
通过经过训练的RM,研究人员使用适用于语言建模领域的Advantage Actor Critic (A2C)算法的修改版本进行强化学习 。
【AI反馈的强化学习】关于本次AI反馈的强化学习的问题分享到这里就结束了,如果解决了您的问题 , 我们非常高兴 。

猜你喜欢