超越人类极限的规模对齐
在我们之前的文章中,我们探讨了人类反馈强化学习(RLHF)是如何通过使用人类评估来教导模型我们的偏好,从而彻底改变了人工智能对齐的方式。
但 RLHF 存在一个令人困扰的局限性,你可能已经猜到了:“人类”。
别误会我的意思 —— 人类反馈是无价的。
但它也很昂贵、缓慢,并且在规模上受到限制。作为一个协调过人类评估项目的人,我可以直接告诉你,后勤方面的挑战是巨大的。
招募评估人员、确保一致的指导方针、处理主观上的分歧,以及管理大量必要的评估工作,很快就会让人应接不暇。
从实际情况来看,使用 RLHF 训练一个最先进的语言模型可能需要数百万次人类判断。仅仅为了教会一个模型什么是 “好” 的回复,就需要数千小时的人力劳动!
这个瓶颈带来了一个严重的问题:随着人工智能模型的能力不断增强,并应用于更多领域,对高质量反馈的需求呈指数级增长。
我们究竟如何才能扩大人类评估的规模以满足这种需求呢?
引入来自人工智能反馈的强化学习(RLAIF)
RLAIF 背后的理念既简单又深刻:训练人工智能系统对其他人工智能系统的输出提供反馈。
可以把它想象成创建专门的人工智能评论家,这些评论家可以根据特定标准(如有用性、无害性、准确性等)评估输出,并以人类评估者无法达到的规模提供反馈。
当我在回顾对齐研究时第一次遇到这个概念时,我是持怀疑态度的。谁又不会呢?
→ 使用人工智能来评估人工智能,难道不会产生一个循环问题吗?
→ 如果人工智能评估器本身没有完全对齐,它又怎么能知道人类真正想要什么呢?
但这里有一个关键的见解:我们不需要人工智能评估器完全对齐。我们只需要它们在特定的评估任务中足够好,以提供有用的训练信号。
RLAIF 遵循与 RLHF 类似的结构,但用人工智能系统取代或增强了人类评估者。让我们来分解一下典型的过程:
1. 训练人工智能评估器
RLAIF 中第一个关键步骤是创建能够根据人类偏好可靠地评估输出的人工智能系统。这通常涉及以下几个方面:
- 从一个有能力的基础模型开始 —— 通常是一个已经具备广泛知识的大语言模型(LLM)
- 在人类判断数据上进行微调 —— 根据人类评估的示例来训练模型,教会它模仿人类的偏好
- 针对特定标准进行专门化 —— 通常为不同的方面(有用性、准确性、安全性等)创建单独的人工智能评估器
例如,Anthropic 的《通过人类反馈训练语言模型以遵循指令》这篇论文描述了创建人工智能评估器的过程,这些评估器能够以令人印象深刻的准确率预测人类会更喜欢两个回复中的哪一个。他们发现,他们可以为诸如有用性或无害性等特定标准创建专门的评估器,这些评估器实际上比通用评估器表现得更好。
这一步至关重要,因为它在人类价值观和可扩展的反馈之间架起了桥梁。
我们将人类判断模式提炼到人工智能评估器中,然后这些评估器可以大规模地应用类似的标准。
2. 生成和评估候选回复
一旦我们有了人工智能评估器,这个过程就与 RLHF 类似地继续进行:
- 从我们正在训练的模型中生成多个输出
- 让人工智能评估器根据指定的标准评估这些输出
- 使用这些评估结果为模型创建一个训练信号
一个关键的优势是,我们现在可以以最小的边际成本生成数千甚至数百万次评估。由于成本和时间限制,人类评估可能仅限于几千个示例,而人工智能评估器可以在几个小时内处理数百万个示例。
3. 从人工智能反馈中进行训练
最后一步使用强化学习技术(通常是近端策略优化算法 PPO,就像在 RLHF 中一样),根据人工智能评估器的反馈来优化模型。模型学习生成根据人工智能评估器得分很高的输出。
一些实现方法还包括一个 “蒸馏” 步骤,在这个步骤中,一个更小、更高效的模型被训练来模仿经过 RL 优化的模型的行为。
宪法人工智能扩展
还记得在上一篇文章中宪法人工智能(CAI)是如何完善 RLHF 的吗!
由 Anthropic 开发的宪法人工智能(CAI)结合了 RLHF 和 RLAIF。这种方法使用一组原则(一个 “宪法”)来指导人工智能的行为,并利用人类和人工智能的反馈。
它的实现方式如下:
→ 定义一组指定期望的人工智能行为的原则
→ 训练模型根据这些原则对自己的输出进行批判
→ 使用人类反馈和人工智能生成的批判来训练模型
这种方法创建了一个强大的框架,在这个框架中,人工智能系统可以在人类指定的原则的指导下进行批判性的自我反思,但通过人工智能反馈机制进行扩展。
与纯粹的 RLHF 方法相比,RLAIF 提供了几个引人注目的优势。
最明显的好处是规模。虽然人类评估的数量可能在数千次,但人工智能评估可以轻松扩展到数百万甚至数十亿次。这使得能够覆盖更广泛的上下文和边缘情况。
人类评估者在这个过程中不可避免地会带来不一致性。不同的评估者对指导方针的解释不同,甚至同一个评估者也可能根据疲劳或上下文等因素对类似的情况做出不同的判断。
而人工智能评估器一旦经过训练,就会对所有示例应用一致的标准。这种可重复性对于模型的系统改进至关重要。
在总结和对话生成方面,人类评估者相对于监督微调(SFT)更喜欢 RLAIF 和 RLHF。RLAIF 和 RLHF 同样受到青睐。在无害性方面,RLAIF 优于两者。
人工智能行为的不同方面需要不同的评估技能。RLAIF 允许为特定标准创建专门的评估器。这种专门化能够提供比仅使用人类评估者更细致的训练信号。
由 SFT、RLHF 和 RLAIF 策略生成的总结示例。RLHF 和 RLAIF 生成的总结质量优于 SFT。
创建有效的人工智能评估器是 RLAIF 中的核心技术挑战。让我们来探讨一下通常是如何做到的:
从人类数据开始
尽管在主要的反馈循环中取代了人类评估者,RLAIF 仍然从人类判断数据开始。这在人类偏好和人工智能评估之间建立了关键的联系。
Anthropic 的研究表明,在相对较小的人类偏好数据集(大约 10,000 个示例)上训练人工智能评估器,可以创建出泛化能力非常好的评估器。
这个初始人类数据的质量至关重要。它应该:
- 涵盖不同的场景和边缘情况
- 包括明确的评估标准
- 在相关的情况下代表不同的观点
- 尽可能在判断的同时提供推理
人工智能评估器的训练方法
有几种方法已被证明对训练人工智能评估器是有效的:
1. 偏好建模
最直接的方法是训练模型来预测人类在不同选项之间的偏好。例如:
- 给定两个可能的人工智能回复,预测人类会更喜欢哪一个
- 这可以被构建为一个分类问题:“A 和 B 哪个更好?”
- 或者是一个回归问题:“在 1 到 5 的范围内给回复 A 评分”
2. 批判生成
一些人工智能评估器不是仅仅对输出进行评分,而是被训练来生成详细的批判,解释为什么一个输出是好的或坏的。这种方法:
- 为模型改进提供更具体的反馈
- 使评估过程更加透明
- 可以识别出需要改进的具体方面,而不仅仅是总体分数
我发现基于批判的方法在开发过程中特别有帮助,因为它们提供了关于哪些有效、哪些无效的更丰富的信号。
3. 审议性评估
一种更复杂的方法涉及训练人工智能评估器进行一个审议过程:
- 生成一个初始评估
- 考虑潜在的反论点
- 根据这个反思完善评估
- 产生一个带有推理的最终判断
这模仿了谨慎的人类评估者在处理复杂判断时的方式,并且通常会产生更细致的评估。
人工智能评估器有几种形式:
- 分类头:输出分类判断的简单模型
- 回归模型:提供数值分数的模型
- 大语言模型评估器:生成基于文本的评估的大语言模型
- 多模态评估器:可以评估文本、图像和其他模态的模型
大多数最先进的实现方法都使用大语言模型作为评估器,因为它们可以提供细致入微的、上下文相关的判断,并解释它们的推理。
RLAIF 已经在各个领域产生了重大影响:
语言模型对齐
最广泛的应用是训练大语言模型使其具有有用性、无害性和诚实性。像 Anthropic、谷歌和 OpenAI 这样的公司都在他们的对齐过程中纳入了 RLAIF 的元素。
例如,Claude(由 Anthropic 开发)使用结合了 RLAIF 的宪法人工智能来创建一个既有用又避免潜在有害输出的助手。他们的研究表明,与使用其他方法训练的模型的回复相比,经过人工智能评估的回复在 85% 的情况下更受人类青睐。
内容审核
大规模的内容审核是 RLAIF 的一个完美用例。人工智能评估器可以被训练来根据平台指导方针识别有问题的内容,以大规模提供一致的执行。
使其特别有效的是能够为不同类型的政策违规创建专门的评估器:
- 骚扰和欺凌
- 错误信息
- 有害内容
- 版权侵权
代码质量和安全性
评估代码质量并识别安全漏洞的人工智能系统代表了另一个有前途的应用。通过在关于代码质量、安全最佳实践和常见漏洞的专家判断上训练人工智能评估器,组织可以极大地扩展代码审查过程。
GitHub 的 Copilot X 纳入了这种方法的元素,使用反馈机制根据开发人员实际接受和修改的内容来改进代码建议。
尽管有前景,RLAIF 也并非没有重大挑战:
自举问题
最根本的挑战是我所说的 “自举问题”:人工智能评估器的质量只能和它们所训练的人类判断一样好。如果那些初始的人类评估是有缺陷的、有偏见的或不完整的,这些问题将在人工智能评估器中被放大。
这在过程开始时对高质量的人类评估数据产生了关键的依赖。我们本质上是将人类判断提炼到人工智能系统中,所以那个初始提炼过程的质量是至关重要的。
分布偏移
在一种示例分布上训练的人工智能评估器,在评估来自不同分布的输出时可能表现不佳。例如,一个在日常对话上训练的评估器可能难以准确评估技术解释。
这就需要随着模型的能力和用例的发展,对评估器进行持续的调整和再训练。一些研究人员提出了像在线学习这样的技术,在这种技术中,评估器继续从随着时间收集的新的人类判断中学习。
价值漂移和不一致
也许最令人担忧的挑战是在 RLAIF 的多次迭代中可能出现的价值漂移。如果每一代人工智能评估器都引入了对人类价值观的小偏差或误解,这些偏差可能会随着时间的推移而加剧,导致严重的不一致。
为了解决这个问题,大多数负责任的实现方法都包括定期的 “人类校准”,在这个过程中,人工智能评估器会根据新的人类判断进行检查,以确保持续的对齐。
在一个探索这个问题的项目中,我们观察到在仅仅几次训练迭代之后,人工智能评估器在解释某些指导方针时就出现了微妙的变化。这让我更加坚信持续的人类监督和校准的重要性。
解释复杂的价值判断
最后,存在难以解释或表示的复杂价值判断的挑战。人类评估者可能对某些输出有直观的判断,但他们很难清楚地表达出来。
如果这些判断不能被清楚地解释,它们就很难转移到人工智能评估器中。这就产生了一种风险,即人类价值观中微妙但重要的方面可能会在训练过程中丢失。
展望未来,RLAIF 领域正在出现一些令人兴奋的发展:
→ 一个有前途的方向是使用越来越有能力的人工智能系统以递归的过程来评估和改进其他人工智能系统。这创造了一个良性循环,在这个循环中,人工智能能力的提高会反馈到更好的评估和训练中。
→ 一些研究人员不是依赖单个人工智能评估器的判断,而是正在探索基于辩论的方法,在这种方法中,多个人工智能系统就一个输出的质量争论不同的观点。这可以揭示单个评估器可能会错过的考虑因素。
这种方法的灵感来自于人类的审议过程,在做出判断之前,人类的审议过程通常涉及考虑多个观点。
→ 最有前途的未来方向可能是混合系统,它将人工智能评估的规模与战略性的人类监督相结合。这些系统在大多数常规情况下使用人工智能评估器,但将困难或临界情况升级给人类评估者。
这就创建了一个反馈循环,其中:
- 人工智能处理绝大多数的评估
- 人类专注于最具挑战性的情况
- 人工智能评估器不断从这些关于困难情况的人类判断中学习
- 整个系统随着时间的推移而改进
如果你还没有读过这个系列的前几篇文章,不妨读一读:
强化学习系列
来自人工智能反馈的强化学习代表了我们处理人工智能对齐方式的一个关键演变。通过创建可扩展的评估机制,RLAIF 有助于解决传统 RLHF 方法中的基本瓶颈,同时保持与人类价值观的联系。
最成功的实现方法结合了这两种方法的优势:使用人类反馈来建立核心偏好和评估标准,然后通过人工智能评估器扩展这一点,以训练越来越有能力且对齐的系统。
RLAIF 最让我着迷的是,它在创建更好的人工智能系统方面代表了一种真正的人类 - 人工智能伙伴关系。我们不是直接教导人工智能系统关于每一个偏好,而是教导它们如何以反映人类价值观的方式评估输出,从而创建了一种可扩展的机制,将这些价值观传递给未来的系统。
随着人工智能系统的能力和复杂性不断增长,像 RLAIF 这样的方法对于确保它们与人类价值观和偏好保持一致将变得越来越重要。挑战将是在利用人工智能评估器提供的规模和一致性的同时,保持与人类判断的关键联系。
|文末点击阅读原文查看网页版| 更多专栏文章点击查看:
LLM 架构专栏
大模型架构专栏文章阅读指南
Agent系列
强化学习系列
欢迎加入大模型交流群:加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站:https://www.chenbaiqi.com
评论