AI反馈的强化学习 _生活知道

在LLM对偏好进行标注后，将训练嘉奖模型(RM)来预测偏好。由于研究人员的方法产生软标注（Soft Label），他们采取RM生成的嘉奖分数的softmax的交叉熵损失（cross-entropy loss），而不是嘉奖模型中提到的损失。

文章插图
Softmax将RM的无界分数（unbounded scores）转换为几率散布。
在AI标注数据集上训练RM可以被视为模型蒸馏的一种情势，特别是由于研究人员的AI标注器通常比RM更大、更强。
另外一种方法是绕过RM并直接使用AI反馈作为RL中的嘉奖信号，虽然这类方法的计算成本更高，由于AI标注器比RM更大。
通过经过训练的RM，研究人员使用适用于语言建模领域的Advantage Actor Critic (A2C)算法的修改版本进行强化学习。
【AI反馈的强化学习】关于本次AI反馈的强化学习的问题分享到这里就结束了，如果解决了您的问题，我们非常高兴。

AI反馈的强化学习

猜你喜欢