强化学习

强化学习详解第六部分高级策略优化：深度强化学习的演变

高级策略优化：深度强化学习的演变

在我们迄今为止探索强化学习的旅程中，我们见证了深度神经网络如何彻底改变了在复杂环境中可能实现的事情。但就像所有的进化飞跃一样，深度Q网络（DQN）及其直接衍生算法仅仅是更深刻变革的开端。

本文聚焦高级策略优化，深度解析 TRPO、PPO 等经典算法如何解决传统强化学习难题，还探讨其在多领域的成果与未来趋势，为你呈现强化学习演进的精彩图景
更多专栏文章点击查看：
LLM 架构专栏
 大模型架构专栏文章阅读指南
 Agent 系列
 强化学习系列
欢迎加入大模型交流群：加群链接 https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#
公众号【柏企阅文】
知乎【柏企】
个人网站：https://www.chenbaiqi.com

如果我告诉你，早期的深度强化学习算法与如今的高级策略优化方法之间的差异，就如同将早期的汽车与现代的自动驾驶汽车相比较，你会作何感想？二者都能将你从A点带到B点，但在复杂性、效率和可靠性方面，它们处于完全不同的维度。

如今，我们将深入探讨迷人的高级策略优化世界 —— 这些方法将强化学习从一个学术上的好奇事物，转变为解决世界上一些最具挑战性问题的实用工具包。

策略优化问题

传统方法，如深度Q网络（DQN）和基本策略梯度，让我们首次瞥见了深度强化学习的潜力，但当面临更复杂的挑战时，它们便显得力不从心。

想象一下学习像冲浪这样复杂的技能。基本策略梯度方法（如REINFORCE）就类似于一个初学者，在每一个浪头过后都进行大幅度的调整 —— 基于有限的经验做出过度的修正。

与此同时，像DQN这样的方法在冲浪板上保持平衡的连续动作方面存在困难 —— 它们可以告诉你是向左还是向右移动，但无法精确地告诉你移动多少。

核心挑战变得清晰起来：

稳定性 —— 我们如何在不出现灾难性遗忘的情况下取得持续的进展？
样本效率 —— 我们如何从较少的经验中学习到更多的东西？
探索与利用的平衡 —— 我们如何在尝试新事物和利用已有的成功经验之间取得平衡？
连续控制 —— 我们如何掌握需要精确、精细动作的任务？

高级策略优化算法应运而生，以解决这些基本问题。

信赖域策略优化

每个老师都知道这个基本原则：当挑战将学生稍微推到他们的舒适区之外，但又不会让他们不堪重负时，学生的学习效果最佳。

2015年，由OpenAI的约翰·舒尔曼（John Schulman）及其同事提出的信赖域策略优化（TRPO），巧妙地将这一原则应用于强化学习中。

TRPO解决了一个深刻的问题：我们如何在每一步对我们的策略进行尽可能大的改进，同时又不会使情况变得更糟？

其思路看似简单，实则在数学上非常优雅 —— 限制策略更新，以确保新策略不会与先前的策略偏离太大。通过限制连续策略之间的Kullback-Leibler散度（本质上是衡量两个概率分布差异的一种度量），TRPO确保了稳定的进展，而不会出现灾难性的倒退。

这种方法为训练带来了显著的稳定性，尤其是在机器人技术和连续控制问题中，微小的策略变化可能会导致截然不同的行为。该算法展示了一种前所未有的能力，即在学习复杂行为时不会出现困扰早期方法的重大失败。

然而，TRPO优雅的理论基础伴随着一个实际的缺点 —— 计算复杂性。它所解决的约束优化问题需要计算二阶导数和共轭梯度迭代，这使得许多从业者在实现时面临挑战。

近端策略优化

如果说TRPO代表了理论上的突破，那么近端策略优化（PPO）则表明，有时候最强大的创新在于简化。

同样由OpenAI的研究人员开发的PPO，通过一个极其简单而巧妙的见解解决了TRPO的复杂性问题：如果我们能够用一种简单得多的方法实现相同的稳定性优势，会怎么样呢？

解决方案来自于**“裁剪技巧”** —— PPO不是通过复杂的优化来强制执行信赖域约束，而是简单地裁剪目标函数，以阻止过大的策略更新。这实现了与TRPO几乎相同的结果，但只需要一阶优化方法。

想象一下教某人开车。TRPO的方法就像是对他们转动方向盘的速度施加复杂的数学约束，而PPO则只是对方向盘在任何一个方向上的转动范围设置物理限制。两种方法都能防止危险的急转弯，但后者的实现要容易得多。

这种看似简单的方法使得PPO成为在研究和应用中使用最广泛的强化学习算法之一。OpenAI在诸如《Dota 2》这样的复杂游戏、像灵巧操纵这样的机器人应用以及许多其他突破性成果中，都依赖于PPO在性能和简单性之间的优雅平衡。

确定性的替代方案：DDPG和TD3

虽然TRPO和PPO改进了随机策略（那些输出动作概率分布的策略），但许多控制问题受益于确定性策略，这些策略明确指定要采取的动作。

想象一下给出驾驶方向的两种方式之间的区别：一种是“你有70%的概率应该右转，30%的概率应该直走”，另一种是简单地说“右转”。对于许多任务来说，确定性策略提供了随机策略所缺乏的清晰度。

由DeepMind的研究人员提出的深度确定性策略梯度（DDPG），结合了DQN中最好的想法和确定性策略梯度，以便在连续动作空间中进行学习。该算法使用一种演员-评论家（actor-critic）结构，其中：

一个演员网络为每个状态输出特定的动作
一个评论家网络评估这些动作
经验回放和目标网络（借鉴自DQN）提供稳定性

然而，DDPG存在一个影响许多基于值的方法的关键缺陷：高估偏差。简单地说，它往往对自己的动作过于乐观，从而导致性能不佳。

由斯科特·藤本（Scott Fujimoto）及其同事开发的Twin Delayed DDPG（TD3），引入了三个极其简单的修改来解决这个问题：

双评论家 —— 使用两个Q网络并取它们预测的最小值，减少高估
延迟策略更新 —— 比评论家网络更不频繁地更新策略，允许更准确的值估计
目标策略平滑 —— 向目标动作添加噪声，防止利用Q函数中的误差

这些创新使得TD3比DDPG更加稳定且样本效率更高，使其成为许多连续控制任务的首选算法。

Maximum Entropy: The Soft Actor-Critic Revolution

传统的强化学习算法只专注于最大化预期回报 —— 本质上就是获得尽可能高的分数。但这种单一的关注点往往会导致脆弱的策略，这些策略在训练中表现良好，但当条件稍有变化时就会失败。

由加州大学伯克利分校的托马斯·哈阿诺亚（Tuomas Haarnoja）及其同事提出的The Soft Actor-Critic Revolution（SAC），带来了一种革命性的观点：如果我们明确地将探索作为我们目标的一部分来鼓励，会怎么样呢？

SAC的突破在于将熵最大化添加到标准的强化学习目标中。

在这种情况下，熵衡量的是策略中的随机性或不可预测性。通过同时奖励高回报和高熵，SAC鼓励找到既有效又灵活的解决方案。

这个最大熵框架提供了几个深刻的好处：

改进的探索 —— 智能体自然会尝试不同的策略
多种解决方案 —— 智能体不是找到一个单一的脆弱策略，而是学习多种成功的方法
鲁棒性 —— 由此产生的策略能够更好地处理变化和不确定性
组合性 —— 以这种方式学习的技能往往能更好地与其他技能结合

SAC还引入了几个技术创新：

使用两个Q函数来对抗高估偏差（类似于TD3）
自动调整温度参数，以平衡回报最大化和熵
采用重参数化技巧，以实现更高效的梯度计算

结果非常显著。SAC通常比以前的方法表现更好，同时需要的样本更少，这使得它在实际的机器人技术中特别有价值，因为在机器人技术中，数据收集既昂贵又耗时。

实际应用

这些高级策略优化方法在众多领域实现了突破：
机器人技术：如今，四足机器人能够优雅地在崎岖地形上导航，并在受到推动后恢复平衡，这在几年前似乎是不可能的。波士顿动力公司的Spot机器人虽然并非完全使用这些算法，但它代表了这些方法所实现的那种敏捷性和适应性。
游戏：从OpenAI Five击败职业《Dota 2》玩家，到AlphaStar掌握《星际争霸II》，高级策略优化使人工智能能够在需要长期策略、快速反应和适应能力的复杂竞争环境中表现出色。
资源管理：谷歌使用强化学习将数据中心的冷却能源降低了40%，这证明了这些技术的价值不仅仅体现在游戏和模拟中。
化学和药物发现：优化化学反应和加速药物发现流程受益于这些方法在具有复杂约束的高维空间中导航的能力。

这些应用的共同主线是处理复杂性、不确定性和精度要求，而这些正是早期方法无法解决的问题。

策略优化的发展方向

策略优化的演变仍在以惊人的速度继续，有几个令人兴奋的方向定义了前沿领域：

离线强化学习

传统的强化学习假设智能体在训练期间可以自由地与环境交互 —— 但在许多关键领域，如医疗保健、自动驾驶或工业控制中，这个假设并不成立，因为在这些领域中，探索可能是不安全的，或者成本过高。

离线强化学习（也称为批量强化学习）专注于完全从先前收集的数据中学习，而无需与环境交互。像保守Q学习（CQL）和隐式Q学习（IQL）这样的算法在这个领域取得了显著进展。

多智能体系统

大多数现实世界的场景都涉及多个智能体之间的交互 —— 无论是合作的团队、竞争的对手，还是复杂的混合场景。这引入了单智能体算法难以处理的动态。

多智能体强化学习算法必须应对非平稳性（其他智能体在学习和变化）、部分可观测性（关于其他智能体的状态和意图的信息有限）以及维度灾难（联合动作空间随着智能体数量的增加呈指数增长）。

像多智能体PPO和对其他算法的多智能体扩展等方法，在解决这些挑战方面显示出了希望。

元强化学习

元强化学习不是学习一个特定的任务，而是旨在学习学习过程本身 —— 使智能体能够在最少的经验下快速适应新环境。

像RL²和PEARL这样的算法展示了智能体如何在不同任务中提取可泛化的知识，从而极大地加速了对新场景的适应。

人为因素：来自该领域的见解

每一个算法背后都有一个研究人员社区，他们对于是什么让这些方法起作用有着独特的见解。我有幸与该领域的几位顶尖专家交谈过，他们的见解揭示了强化学习的艺术和科学同样多的内容。

结论

高级策略优化是人工智能研究中最具活力和影响力的领域之一。从TRPO的理论基础到PPO的实际优雅，从DDPG/TD3的确定性精度到SAC的强大探索，每一个算法都为我们理解机器如何学习智能地行动贡献了有价值的见解。

该领域继续快速发展，解决了一些基本挑战，如：

从有限的数据中高效学习
确保在实际部署中的安全性和鲁棒性
扩展到更复杂的环境
在专业化和泛化之间取得平衡

当我们站在理论与实践的交叉点上时，很明显，强化学习正在从一个学术上的好奇事物转变为实用技术。我们所探讨的算法正越来越多地从研究论文走向生产系统 —— 控制机器人、优化资源，并解决那些在仅仅十年前似乎无法解决的问题。

这种演变中最令人兴奋的方面不仅仅是这些系统今天能够做什么，而是它们对未来的预示。每一次算法创新都扩展了可能的边界，使我们更接近拥有具有适应性、效率和可靠性的人工智能体，以应对人类最紧迫的挑战。

在我们的下一篇文章中，我们将探索这些高级策略优化方法的实际实现，展示它们如何应用于模拟环境之外的现实世界问题。我们将深入研究代码、架构以及连接理论与实践的关键细节。

你对策略优化方法的演变有什么看法？你最期待看到这些算法在哪些应用领域带来变革？在下面的评论中分享你的想法吧！

强化学习详解第六部分高级策略优化：深度强化学习的演变

高级策略优化：深度强化学习的演变

策略优化问题

信赖域策略优化

近端策略优化

确定性的替代方案：DDPG和TD3

Maximum Entropy: The Soft Actor-Critic Revolution

实际应用

策略优化的发展方向

离线强化学习

多智能体系统

元强化学习

人为因素：来自该领域的见解

结论

推荐阅读

作者

发布于

更新于

许可协议

评论

强化学习详解第六部分 高级策略优化：深度强化学习的演变

高级策略优化：深度强化学习的演变

策略优化问题

信赖域策略优化

近端策略优化

确定性的替代方案：DDPG和TD3

Maximum Entropy: The Soft Actor-Critic Revolution

实际应用

策略优化的发展方向

离线强化学习

多智能体系统

元强化学习

人为因素：来自该领域的见解

结论

推荐阅读

作者

发布于

更新于

许可协议

评论

强化学习详解第六部分高级策略优化：深度强化学习的演变