DeepSeek-R1如何突破语言模型的极限——深入数学视角解读群体相对策略优化(GRPO)


强化学习系列第二篇 |文末点击阅读原文查看网页版| 更多专栏文章点击查看: LLM 架构专栏

深度解析PPO与GRPO:强化学习算法的进阶之路


强化学习系列第二篇 更多专栏文章点击查看: LLM 架构专栏