第二支羽毛

强化学习详解第三部分：蒙特卡洛与时间差分学习，从经验中学习

在探索强化学习的征程中，我们已经钻研了基础概念，还审视了那些假定对环境有全面认知的基于价值的方法。然而在现实世界里，智能体几乎无法获取关于其所处环境的完美模型。 |文末点击阅读原文查看网页版| 更多专栏文章点击查看：

强化学习 Agent