分类：强化学习 - 第二支羽毛|吹灭读书灯，一身都是月

强化学习详解第二部分：基于价值的方法，战略决策的数学之道

强化学习

今天我们不再局限于概念基础，而是深入到驱动现代人工智能系统的算法核心 —— 从理解强化学习的定义，迈向掌握它的实际运作原理。更多专栏文章点击查看： LLM 架构专栏

强化学习强在哪里？基础探索

强化学习

这第一篇文章介绍了强化学习的基本概念。在下一篇文章中，我们将探索基于价值的方法，如Q学习和SARSA，这些方法为智能体在更复杂的环境中学习最优策略提供了强大的技术。更多 LLM 架构文章点击查看： LLM 架构专栏

DeepSeek-R1如何突破语言模型的极限——深入数学视角解读群体相对策略优化（GRPO）

强化学习

强化学习系列第二篇 |文末点击阅读原文查看网页版| 更多专栏文章点击查看： LLM 架构专栏

弹