强化学习实例,强化学习论文

时间：2023-05-04 10:02:25 阅读：244061 作者：2577

在上一次的状态价值函数图中，对于每一个方格我们从结束状态开始计算每一个值，如下图

如果我们想知道某一状态的值可以用接下来的一个状态的折扣值（图中为1）+ 立刻的回报。

下图就是cxdxgz预期方程

代表着我们可以将马尔科夫决策过程任何状态的值表示为，即时奖励和下个状态的折扣值。