强化学习详解第七部分 RLHF：解码 AI 与人类偏好对齐的奥秘

|文末点击阅读原文查看网页版| 更多专栏文章点击查看：
LLM 架构专栏
 大模型架构专栏文章阅读指南
 Agent系列
 强化学习系列
欢迎加入大模型交流群：加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站：https://www.chenbaiqi.com

在之前的文章中，已经介绍了从基础到更高级的使用强化学习的算法和方法。

强化学习解释

但关键在于，如果我们能够利用这个基于奖励的系统让模型学习，那为什么不由我们自己来决定它们的奖励呢？为什么不由我们自己来评判模型的输出呢？

这种想法催生了我们现在所说的基于人类反馈的强化学习（RLHF） 。

我们探讨了强化学习是如何从基本算法演变为像近端策略优化（PPO）、双延迟深度确定性策略梯度算法（TD3）和软演员评论家算法（SAC）等复杂的策略优化方法的。这些系统能够熟练掌握复杂的游戏，并以令人惊叹的灵活性控制机器人。但它们都有一个基本的局限性：它们针对预先精确定义和编程的奖励进行优化 。

而这正是RLHF发挥作用的地方——它成为了机器能够优化的内容与人类实际所重视的内容之间的桥梁。

核心思想

从本质上讲，RLHF解决了一个深刻的挑战：教会人工智能系统针对复杂的人类偏好进行优化，这些偏好我们能够识别，但却难以正式定义！

我喜欢用烹饪来做类比解释这一点。传统的强化学习就像是按照精确的食谱，精确地控制食材用量和温度来烹饪——当你确切知道需要什么的时候，这是很好的方法。而RLHF更像是让一位大厨品尝你的菜肴并提供反馈—— “再多加点盐”、“再煮久一点”、“味道的平衡恰到好处” 。你通过迭代反馈来了解什么是可行的，而不是遵循预先确定的规则。

RLHF通常遵循一个三阶段的过程，将人类的判断转化为一个经过训练的模型：

阶段1：初始策略训练

旅程从训练一个初始策略模型开始。这通常是一个通过以下方式之一进行训练的神经网络：

基于人类演示的监督学习 （最常见的方法）
在大量文本或其他数据上的自监督学习
在模拟环境中的传统强化学习

这个初始模型为我们提供了一个起点——一个能够合理完成任务但尚未与复杂的人类偏好保持一致的策略。

对于像ChatGPT这样的语言模型，这个阶段包括在大量文本语料库上进行预训练，然后在演示数据上进行监督微调（SFT），在这些数据中，人类展示了对各种提示的期望响应。

阶段2：奖励模型训练

接下来是关键的创新：训练一个单独的奖励模型来预测人类的偏好。

以下是它通常的工作方式：

对于给定的输入，从初始策略生成多个输出
让人类评估者对这些输出进行排名或比较（例如， “回复A比回复B更有帮助” ）
训练一个奖励模型来预测这些人类偏好

例如，在OpenAI的InstructGPT项目中，评估者会看到一个提示和两个可能的模型回复。他们会选择哪个回复更符合指令、更真实且危害更小。

奖励模型学习以一种与人类判断相匹配的方式对输出进行评分。它本质上是将人类偏好提炼成一个可以自动评估输出的函数。

我把这想象成将 “大厨的品味” 转化为一个用于菜肴的自动评分系统。奖励模型从人类的示例中学习 “什么是好的”，然后可以大规模地提供这种反馈。

图表说明了我们方法的三个步骤：（1）监督微调（SFT），（2）奖励模型（RM）训练，以及（3）通过该奖励模型上的近端策略优化（PPO）强化学习。蓝色箭头表示该数据用于训练我们的一个模型。在步骤2中，框A-D是我们模型中的样本，它们通过标签器进行排名

阶段3：强化学习微调

有了我们的奖励模型，现在我们可以使用强化学习技术来优化我们的策略：

从当前策略生成输出
使用奖励模型对这些输出进行评分
更新策略以最大化这些奖励
重复以上步骤，不断改进策略

这里最常用的算法是近端策略优化（PPO），我们在之前的文章中已经介绍过。PPO的稳定性和样本效率使其非常适合这个微调过程。

至关重要的是，这种优化通常包括一个约束，以保持新策略接近初始策略。这可以防止策略为了最大化奖励而转向奇怪的领域——解决我们稍后将讨论的称为奖励黑客的问题。

宪法人工智能：突破性的扩展

虽然基本的RLHF流程功能强大，但最近的研究引入了一些重要的扩展。其中最重要的扩展之一是宪法人工智能（CAI），由Anthropic开发，并在他们的Training language models to follow instructions with human feedback 论文中进行了详细阐述。

宪法人工智能增加了一个关键步骤：在收集人类反馈之前，模型本身会根据一组原则或 “宪法” 对自己的输出进行批评。这种自我批评过程有几个优点：

它减轻了人类评估者的负担，他们现在审查的是批评意见，而不是原始内容
它有助于确保有害内容在到达人类评估人员之前得到处理
它创建了一个更易于解释的反馈过程

这种方法创造了一个自我改进的循环：模型生成回复，根据原则对其进行批评，进行修订，然后才将它们展示给人类以获取反馈。

我发现，当训练模型遵循复杂的道德准则时，CAI方法特别强大。它不是希望系统从示例中隐含地学习价值观，而是明确地对原则进行推理，并将其应用到自己的输出中。

技术细节

让我们深入了解RLHF的技术方面，以满足那些对其机制感到好奇的人。

奖励模型架构

奖励模型的结构通常与策略模型类似，但有一个关键区别：

策略模型输出的是对可能的行动或令牌的分布
奖励模型输出的是一个表示人类偏好的单一标量值

对于语言模型，这通常意味着采用与基础模型相同的架构，但将语言建模头替换为输出单个数字的回归头。

奖励模型的训练目标是最大化评价较高的回复获得较高分数的可能性。这通常表述为：

对于人类更喜欢A而不是B的每一对回复（A，B）
训练模型以确保rm(A) > rm(B)
这可以使用成对排序损失来完成，例如差值rm(A) — rm(B)上的sigmoid交叉熵损失

在我使用奖励模型的过程中，我发现当在涵盖边缘案例和边缘示例的不同偏好数据上进行训练时，它们的准确性会显著提高，而不仅仅是明显的区别。

RLHF的PPO实施

RLHF中的强化学习优化通常使用适用于语言模型的PPO版本。以下是它工作原理的简化版本：

策略模型生成对提示的多个回复
奖励模型评估这些回复
PPO更新策略以增加高回报回复的概率

然而，还有一个关键的补充：基于新策略和初始监督策略之间KL差异的惩罚项。这可以防止模型为了最大化奖励而偏离其初始行为太远。

由此产生的目标如下所示：

最大化：E[奖励（x)] — β * KL[π_new||π_initial]
其中β控制着我们希望保持接近初始策略的程度

奖励最大化和保持接近初始策略之间的平衡是RLHF最微妙的方面之一。奖励权重过大会导致奖励黑客和奇怪的行为；KL术语权重过大会阻碍有意义的改进。

该领域继续快速发展，有几个值得注意的创新：

直接偏好优化（DPO）

最近的一种称为直接偏好优化（DPO）的方法完全消除了单独的奖励模型。相反，它直接优化策略以使用特殊派生的损失函数来匹配人类偏好。

DPO提供了几个优势：

通过删除单独的奖励模型来简化流程
由于没有强化学习优化循环，通常需要更少的计算
可以更稳定，因为它避免了潜在的奖励模型错误

根据我的经验，DPO产生的结果与RLHF相当，但计算开销要小得多，这使得它在较小的研究团队中越来越受欢迎。

迭代RLHF

迭代RLHF不是一次性的应用，而是涉及多个回合的：

使用RLHF进行微调
在改进后的模型上收集新的人类反馈
训练一个更新的奖励模型
进行另一轮强化学习优化

这种迭代方法允许解决只有在明显问题得到解决后才会出现的更微妙的问题。这类似于软件如何经历多轮用户测试和改进。

人-人工智能反馈收集

一种新兴的方法是使用人工智能助手来帮助人类评估者提供更详细、一致的反馈。这些助手可以：

帮助评估人员更准确地表达他们的偏好
指出反馈中潜在的不一致之处
提出可供考虑的替代观点

这种 “人-人工智能” 反馈收集可以提高数据质量，同时也使评估过程更加高效。

虽然RLHF取得了显著进步，但它面临着几个重要挑战：

对齐问题

“对齐” 一词是指确保人工智能系统按照人类价值观和意图行事。RLHF直接针对这个问题，但由于以下几个原因，完美对齐仍然难以实现：

偏好多样性 ：不同的人有不同的偏好——我们应该为谁优化？
偏好不一致 ：个人可能有内部不一致的偏好
偏好复杂性 ：许多人类价值观是微妙的并且依赖于上下文

在收集偏好数据时，我亲眼目睹了这一点——不同的评估者和环境中，什么是 “有帮助的” 差异很大。训练一个单一的奖励模型来捕捉这种多样性变成了在不同价值体系之间妥协的练习。

奖励黑客

还记得强化学习代理如何找到意想不到的策略来最大化奖励吗？RLHF也存在同样的问题。

如果奖励模型对某些关键字或模式的评价过高，策略可能会学会与系统博弈——产生得分很高但没有达到真正意图的输出。这被称为奖励黑客或奖励游戏。

例如，如果奖励模型了解到人类倾向于选择更长、更详细的回复，则该策略可能会生成冗长、不必要的文本，即使简洁的答案会更好。

标准的解决方案是在新策略和初始策略之间增加一个KL分歧惩罚——本质上是说 “最大化奖励，但不要偏离你最初的行为太远。” 这有助于防止仅仅为了玩弄奖励模型而做出极端行为改变。

奖励模式限制

奖励模型仅与训练它的人类偏好数据一样好。这引入了几个限制：

覆盖率差距 ：奖励模型在RL优化期间可能会遇到训练数据中没有表示的情况
偏差放大 ：人类偏好包含可以通过优化过程放大的偏差
注释工件 ：人类评估者如何提供反馈的怪癖可以被学习为 “错误偏好”

解决这些问题需要仔细的数据集构建、多样化的评估者池以及持续监控和改进奖励模型。

RLHF推动了近年来一些最令人印象深刻的人工智能系统的发展：

语言模型和助手

最明显的应用是在大型语言模型中。OpenAI的ChatGPT、Anthropic的Claude以及类似的系统使用RLHF将原始语言模型转换为有用、无害和诚实的助手。

例如，如果没有RLHF，GPT模型往往会产生广泛的幻觉，遵循有害的指令，并且通常表现为文本预测器而不是助手。RLHF通过教这些模型：

承认不确定性，而不是自信地陈述谎言
拒绝有害的请求而不是满足它们
提供有用、简洁的回复，而不是杂乱无章的文本

内容审核

大规模的内容审核对在线平台来说是一个巨大的挑战。通过使用RLHF，人工智能系统可以了解关于哪些内容是可接受的、有害的或边缘的细微差别的政策。

这有助于解决基于规则的系统难以解决的问题，例如识别微妙的骚扰形式，识别误导性信息，或者确定暴力内容何时具有合法的新闻价值，何时是无端的。

机器人学

在机器人技术中，RLHF有助于弥合技术任务完成和人类一致行为之间的差距。例如：

机器人可能在技术上完成清洁任务，但以嘈杂和破坏性的方式完成
使用RLHF，它可以学习在特定时间内更安静的操作或小心易碎物体

NVIDIA和Berkeley等团体的研究表明，RLHF如何帮助机器人了解有关如何执行任务的微妙偏好，而不仅仅是最终目标是什么。

几个令人兴奋的方向正在出现：

可扩展监督

随着人工智能系统变得更加强大，它们可以处理越来越复杂的任务，即使是专家也难以充分评估所有输出。 “可扩展的监督” 方法旨在通过以下方式解决这个问题：

使用人工智能系统本身来协助评估
将复杂的评估分解为更简单的子任务
创建分层评估结构

随着人工智能能力的增长超出人类可以轻松验证的范围，这对于确保我们能够保持一致至关重要。

多目标RLHF

多目标RLHF不是针对单一奖励模型进行优化，而是明确平衡多个目标：

乐于助人
真实性
安全性
效率
以及其他取决于应用程序的目标

这允许更细致入微的优化，并可以使竞争值之间的权衡更加明确。

从不同的角度学习

当前的RLHF系统通常针对单一的 “平均” 人类偏好进行优化。未来的方法可能会包含以下技术：

学习偏好分布而不是点估计
明确模拟不同的文化和个人观点
允许定制不同的用户偏好，同时保持核心安全属性

这将有助于应对人类价值观多种多样、有时相互冲突的根本挑战。

结论

来自人类反馈的强化学习代表了人工智能对齐方面最重要的进步之一。它弥合了我们可以在数学上指定的东西和我们真正重视的东西之间的差距——解决了长期困扰人工智能系统的 “翻译丢失” 问题。

这种方法并不完美——它继承了人类反馈的偏见，可能是资源密集型的，需要仔细实施以避免奖励黑客。但它已经改变了人工智能系统的能力以及它们与人类互动的方式。

我发现RLHF最吸引人的地方在于它如何代表人工智能开发中真正的人机伙伴关系。RLHF不是工程师完全指定人工智能行为的每一个方面，而是创造一种对话——人类提供反馈，机器从中学习，过程迭代到更好地反映人类价值观的系统。

在我们的下一篇文章中，我们将探讨这些技术如何超越语言模型扩展到其他领域，包括机器人技术、推荐系统和创造性应用程序。

如果觉得文章对你有用，请随意赞赏

强化学习

强化学习详解第七部分 RLHF：解码 AI 与人类偏好对齐的奥秘

https://www.chenbaiqi.com/archives/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E8%AF%A6%E8%A7%A3%E7%AC%AC%E4%B8%83%E9%83%A8%E5%88%86%20%20%20RLHF%EF%BC%9A%E8%A7%A3%E7%A0%81%20AI%20%E4%B8%8E%E4%BA%BA%E7%B1%BB%E5%81%8F%E5%A5%BD%E5%AF%B9%E9%BD%90%E7%9A%84%E5%A5%A5%E7%A7%98

作者

柏企

发布于

2025-04-26

更新于

2025-04-26

许可协议

CC BY 4.0