首页 > 编程知识 正文

通俗理解马尔科夫过程,马尔可夫过程简单理解

时间:2023-05-03 16:27:17 阅读:275609 作者:1992

1.马尔科夫决策过程(MDPs)简介

马尔科夫决策过程是对强化学习(RL)问题的数学描述。几乎所有的RL问题都能通过MDPs来描述:

最优控制问题可以用MDPs来描述; 部分观测环境可以转化成POMDPs; 赌博机问题是只有一个状态的MDPs;

注:虽然大部分DL问题都能转化为MDPs,但是以下所描述的MDPs是全观测的情况。

强化学习中的表述符号:

 

2.马尔科夫性

只要知道现在,将来和过去条件独立

定义:如果在t时刻的状态St满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。

马尔科夫性的要点: 状态St包含了所有历史相关信息 或者说历史的所有状态的相关信息都在当前状态St上体现出来 一旦St知道了,那么S1,S2, ... ,St-1都可以被抛

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。