强化学习

清华大学| 强化学习是否激励LLM中超越基本模型的推理能力？

|文末点击阅读原文查看网页版| 更多专栏文章点击查看：
LLM 架构专栏
 大模型架构专栏文章阅读指南
 Agent系列
 强化学习系列
欢迎加入大模型交流群：加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站：https://www.chenbaiqi.com

论文

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?2504.13837

TL;DR:

虽然强化学习（RL）训练的模型在较小的 k 值（例如，k = 1）下优于其基本模型，但基本模型可以在较大的 k 值下获得与 RL 对应物相比的可比甚至更高的 pass@k 分数。
进一步分析表明，RL 训练模型生成的推理路径已经包含在基础模型的抽样分布中，表明 RL 训练模型中表现出的大部分推理能力已经由基础模型获得。
RL 训练通过将模型的输出分布偏向更有可能产生奖励的路径来提高性能，从而更有效地采样正确的响应。
然而，这也限制了它们的探索能力，导致与基本模型相比推理能力边界更窄。
在使用 RLVR 训练的视觉推理任务中观察到类似的结果。
此外，发现蒸馏可以真正将新知识引入模型。

RLVR对推理能力边界的影响

分析按任务类别组织，涵盖三个代表性领域：数学、代码生成和视觉推理。对于所有涉及基础和 RL 训练模型的采样过程，使用 0.6 的温度和 0.95 的 top-p 值，最多可生成 16,384 个令牌。

用于评估 RLVR 对不同任务中 LLM 推理边界的影响的实验装置

用于数学推理的RLVR

将基本大语言模型（LLM）（Qwen-2.5 和 LLaMA-3.1–8B）的性能与其 RLVR 训练的对应物（在 GSM8K 和数学数据集上使用 GRPO 训练）进行比较。
在各种数学基准（GSM8K、MATH500、Minerva、奥林匹克、AIME24、AMC23）上使用 pass@k（在 k 次尝试内生成正确答案的概率）评估模型。
包括与Oat-Zero-7B的额外比较，这是一个使用Oat-Zero框架训练的 RL 模型。

当 k 较小时（例如，k = 1，相当于平均情况精度），RLVR 增加了采样正确答案的可能性。
RLVR 缩小了模型的整体问题解决范围，基本模型在更大的 k 值下优于 RL 模型就证明了这一点。

用于代码生成的RLVR

模型：Code-R1（特别是 CodeR1-Zero-Qwen2.5–7B）使用基于预定义测试用例的二进制正确性奖励，通过 RLVR 进行训练。该模型基于 Qwen2.5-7B-Instruct-1M 并在 12K LeetCode 和 TACO 样本上进行训练。
评估：性能在三个代码生成基准上进行评估：LiveCodeBench v5（880 个问题）、HumanEval+ 和 MBPP+。

RLVR 提高了代码生成任务中的单样本性能（pass@1），类似于它对数学推理任务的影响。
RLVR 对模型的推理边界或覆盖范围产生负面影响。虽然原始模型显示出通过增加采样（k）解决更多问题的潜力，但 RLVR 训练的模型停滞不前。具体来说，在 k = 128 时，原始模型解决了约 50% 的问题，而 RLVR 模型在 LiveCodeBench 上仅解决了约 42.8% 的问题。
尽管 RLVR 提高了初始性能，但与原始模型相比，当允许多次解决尝试时，它限制了模型解决更广泛问题的潜力。这表明在单样本精度和探索能力之间存在权衡。

用于视觉推理的RLVR

模型：Qwen-2.5-VL-7B（一种视觉语言模型）在几何 3K（Geometry3K）数据集上使用 EasyR1 框架进行训练。
评估数据：MathVista-TestMini 和 MathVision-TestMini 的过滤版本，排除选择题以避免猜测偏差。过滤导致 MathVista 出现 460 个问题，MathVision 出现 114 个问题。

RLVR 不断提高 LLM 的视觉推理性能，类似于它对数学和编码基准的影响。
这一改进归因于可解决问题的更广泛覆盖，这意味着该模型可以在 RLVR 训练后解决更广泛的问题。
在挑战性问题中对思维链（CoT）的手动检查表明，性能的提高是由于模型学习有效的推理路径，而不是随机猜测。具体来说，对于原始和 RL 模型，8 个被检查的问题中有 7 个至少有一个正确的 CoT 导致正确的答案。这验证了 CoT 方法在提高推理能力方面的有效性。

深度分析

基本模型中已经存在的推理模式

比较基本模型的可解问题集及其在 AIME24（数学问题）和编码任务上的相应 RL 训练版本。

执行的困惑分析：测量由 RL 训练模型（YRL）和基础模型本身（YBase）生成的响应的基础模型（PPLBase）生成的响应的困惑，并将它们与来自更强模型（OpenAI-o1，YGT）的响应进行比较。

由基础和 RL 模型评估的不同来源响应的困惑分布

RLVR 没有引入新的推理能力：RL 训练的模型没有表现出超出基本模型中已经存在的推理能力。RL 模型利用的推理路径已经存在于基本模型的输出分布中。这得到了困惑分析的支持，表明 RL 模型的响应很可能是由基本模型产生的。
RLVR 提高了采样效率：虽然没有引入新功能，但 RLVR 提高了对基本模型中已经存在的正确推理路径进行采样的可能性，从而在 pass@1 方面获得更好的性能。
RLVR 缩小了推理边界：采样效率的提高是以减少探索和生成响应的多样性为代价的，这导致更大的 k 值降低 pass@k（在 k 次尝试中解决问题）。这归因于 RL 倾向于减少输出熵。

蒸馏扩展推理边界

将大型推理模型（DeepSeek-R1）蒸馏为较小的基本模型（Qwen-2.5-Math-7B）。蒸馏模型（DeepSeek-R1-Distill-Qwen-7B）的性能与：

基本模型（Qwen-2.5-Math-7B）
它的 RL 训练对应物（Qwen-2.5-Math-7B-Oat-Zero）
指令调整模型（Qwen-2.5-Math-7B-Instruct）

base、Instruct、RL 和蒸馏模型的覆盖率比较

蒸馏显著提高了基础模型的推理能力。
与 RL 受到基础模型推理能力的限制不同，蒸馏引入了从更强的教师模型中学到的新推理模式，允许蒸馏模型超越基础模型的限制。

不同RL算法的影响

算法：几种流行的 RL 算法（近端策略优化算法（PPO）、通用相对策略优化算法（GRPO）、强化学习++（Reinforce++）、RLOO、ReMax、DAPO）使用 VeRL 框架重新实现。
数据集：Omni-MATH-规则数据集分为训练集和域内测试集。MATH500 用作域外基准测试。
指标：采样效率差距（ΔSE）定义为 RL 训练模型的 pass@1 和基本模型的 pass@256 之间的差异。较低的 ΔSE 表示更好的采样效率。

不同的 RL 算法

一般性能：不同的 RL 算法在 pass@1 和 pass@256 上表现出微小的差异，但没有一个明显缩小采样效率差距（ΔSE）。所有算法的 ΔSE 都保持在 40 点以上。
DAPO：pass@1 分数略高，但在训练期间每批需要更多的样本（3-6 倍），pass@256 表现大幅下降。
RLOO 和 Reinforce++：在不同的 k 值（1 到 256）上始终表现良好，具有高效的培训成本，在有效性和效率之间提供了良好的平衡。
ReMax：表现出较低的性能，可能是由于作为优势基线的二元和高度可变的奖励造成的不稳定。

RL训练的渐近效应

使用不同数量的训练步骤（例如，150、450）使用 RL 训练的模型。使用训练、域内测试和域外测试集上的 pass@1（精确匹配准确度）和 pass@256（前 256 个候选者内的准确度）指标来评估性能。

不同的 RL 训练步骤

增加 RL 训练步骤显著提高了训练集上的 pass@1（从 26.1 到 42.5）。
然而，在域内和域外测试集上 pass@1 的改进超过 150 步是微不足道的，这表明训练集可能过度拟合。
增加训练步骤会导致所有数据集的 pass@256 下降，最低性能为 450 步。这表明随着训练的进行，推理边界和探索能力会降低，这可能是由于输出熵的减少。
更长的 RL 训练（超过 150 步）可能不会提供实质性的好处，甚至可能由于过度拟合和减少探索而阻碍性能。