在探索强化学习的征程中,我们已经钻研了基础概念,还审视了那些假定对环境有全面认知的基于价值的方法。然而在现实世界里,智能体几乎无法获取关于其所处环境的完美模型。 |文末点击阅读原文查看网页版| 更多专栏文章点击查看: