首页 > 编程知识 正文

强化学习实例,强化学习论文

时间:2023-05-04 10:02:25 阅读:244061 作者:2577

在上一次的状态价值函数图中,对于每一个方格我们从结束状态开始计算每一个值,如下图

如果我们想知道某一状态的值可以用接下来的一个状态的折扣值(图中为1)+ 立刻的回报。

下图就是cxdxgz预期方程

代表着我们可以将马尔科夫决策过程任何状态的值表示为,即时奖励和下个状态的折扣值。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。