马尔可夫决策算法,马尔可夫决策过程理论与应用pdf

转自：https://www.cnblogs.com/pinard/p/9669263.html

1. Q-Learning算法的引入　　　　

　　　　Q-Learning算法是一种使用时序差分求解强化学习控制问题的方法，回顾下此时我们的控制问题可以表示为：给定强化学习的5个要素：状态集S, 动作集A, 即时奖励R，衰减因子γ, 探索率ϵ, 求解最优的动作价值函数q∗和最优策略π∗。

　　　　这一类强化学习的问题求解不需要环境的状态转化模型，是不基于模型的强化学习问题求解方法。对于它的控制问题求解，和蒙特卡罗法类似，都是价值迭代，即通过价值函数的更新，来更新策略，通过策略来产生新的状态和即时奖励，进而更新价值函数。一直进行下去，直到价值函数和策略都收敛。

　　　　再回顾下时序差分法的控制问题，可以分为两类，一类是在线控制，即一直使用一个策略来更新价值函数和选择新的动作，比如我们上一篇讲到的SARSA, 而另一类是离线控制，会使用两个控制策略，一个策略用于选择新的动作，另一个策略用于更新价值函数。这一类的经典算法就是Q-Learning。

　　　　对于Q-Learning，我们会使用ϵ−贪婪法来选择新的动作，这部分和SARSA完全相同。但是对于价值函数的更新，Q-Learning使用的是贪婪法，而不是SARSA的ϵ−贪婪法。这一点就是SARSA和Q-Learning本质的区别。

2. Q-Learning算法概述

　　　　Q-Learning算法的拓补图入下图所示：

　　　　首先我们基于状态S，用ϵ−贪婪法选择到动作A, 然后执行动作A，得到奖励R，并进入状态S′，此时，如果是SARSA，会继续基于状态S′，用ϵ−贪婪法选择A′,然后来更新价值函数。但是Q-Learning则不同。

　　　　对于Q-Learning，它基于状态S′，没有使用ϵ−贪婪法选择A′，而是使用贪婪法选择A′，也就是说，选择使Q(S′,a)最大的a作为A′来更新价值函数。用数学公式表示就是：

　　　　对应到上图中就是在图下方的三个黑圆圈动作中选择一个使Q(S′,a)最大的动作作为A′。

　　　　此时选择的动作只会参与价值函数的更新，不会真正的执行。价值函数更新后，新的执行动作需要基于状态S′，用ϵ−贪婪法重新选择得到。这一点也和SARSA稍有不同。对于SARSA，价值函数更新使用的A′会作为下一阶段开始时候的执行动作。

　　　　下面我们对Q-Learning算法做一个总结。

3. Q-Learning算法流程

　　　　下面我们总结下Q-Learning算法的流程。

　　　　算法输入：迭代轮数T，状态集S, 动作集A, 步长α，衰减因子γ, 探索率ϵ,

　　　　输出：所有的状态和动作对应的价值Q

　　　　1. 随机初始化所有的状态和动作对应的价值Q. 对于终止状态其Q值初始化为0.

　　　　2. for i from 1 to T，进行迭代。

　　　　　　a) 初始化S为当前状态序列的第一个状态。

　　　　　　b) 用ϵ−贪婪法在当前状态S选择出动作A

　　　　　　c) 在状态S执行当前动作A,得到新状态S′和奖励R

　　　　　　d) 更新价值函数Q(S,A):

　　　　　　e) S=S′

　　　　　　f) 如果S′是终止状态，当前轮迭代完毕，否则转到步骤b)

4. Q-Learning算法实例：Windy GridWorld

　　　　我们还是使用和SARSA一样的例子来研究Q-Learning。如果对windy gridworld的问题还不熟悉，可以复习系统学习机器学习之增强学习（五）--马尔可夫决策过程策略TD求解。

　　　　完整的代码参见我的github: https://github.com/ljpzzz/machinelearning/blob/master/reinforcement-learning/q_learning_windy_world.py

　　　　绝大部分代码和SARSA是类似的。这里我们可以重点比较和SARSA不同的部分。区别都在episode这个函数里面。

　　　　首先是初始化的时候，我们只初始化状态SS,把AA的产生放到了while循环里面, 而回忆下SARSA会同时初始化状态SS和动作AA，再去执行循环。下面这段Q-Learning的代码对应我们算法的第二步步骤a和b：

# play for an episodedef episode(q_value): # track the total time steps in this episode time = 0 # initialize state state = START while state != GOAL: # choose an action based on epsilon-greedy algorithm if np.random.binomial(1, EPSILON) == 1: action = np.random.choice(ACTIONS) else: values_ = q_value[state[0], state[1], :] action = np.random.choice([action_ for action_, value_ in enumerate(values_) if value_ == np.max(values_)])

　　　　接着我们会去执行动作AA,得到S′S′，由于奖励不是终止就是-1，不需要单独计算。,这部分和SARSA的代码相同。对应我们Q-Learning算法的第二步步骤c：

next_state = step(state, action)

def step(state, action): i, j = state if action == ACTION_UP: return [max(i - 1 - WIND[j], 0), j] elif action == ACTION_DOWN: return [max(min(i + 1 - WIND[j], WORLD_HEIGHT - 1), 0), j] elif action == ACTION_LEFT: return [max(i - WIND[j], 0), max(j - 1, 0)] elif action == ACTION_RIGHT: return [max(i - WIND[j], 0), min(j + 1, WORLD_WIDTH - 1)] else: assert False

　　　　后面我们用贪婪法选择出最大的Q(S′,a)Q(S′,a),并更新价值函数，最后更新当前状态SS。对应我们Q-Learning算法的第二步步骤d,e。注意SARSA这里是使用ϵ−ϵ−贪婪法，而不是贪婪法。同时SARSA会同时更新状态SS和动作AA,而Q-Learning只会更新当前状态SS。

values_ = q_value[next_state[0], next_state[1], :] next_action = np.random.choice([action_ for action_, value_ in enumerate(values_) if value_ == np.max(values_)]) # Sarsa update q_value[state[0], state[1], action] += ALPHA * (REWARD + q_value[next_state[0], next_state[1], next_action] - q_value[state[0], state[1], action]) state = next_state

　　　　跑完完整的代码，大家可以很容易得到这个问题的最优解，进而得到在每个格子里的最优贪婪策略。

5. SARSA vs Q-Learning

　　　　现在SARSA和Q-Learning算法我们都讲完了，那么作为时序差分控制算法的两种经典方法吗，他们都有说明特点，各自适用于什么样的场景呢？

　　　　Q-Learning直接学习的是最优策略，而SARSA在学习最优策略的同时还在做探索。这导致我们在学习最优策略的时候，如果用SARSA，为了保证收敛，需要制定一个策略，使ϵ−贪婪法的超参数ϵ在迭代的过程中逐渐变小。Q-Learning没有这个烦恼。

　　　　另外一个就是Q-Learning直接学习最优策略，但是最优策略会依赖于训练中产生的一系列数据，所以受样本数据的影响较大，因此受到训练数据方差的影响很大，甚至会影响Q函数的收敛。Q-Learning的深度强化学习版Deep Q-Learning也有这个问题。

　　　　在学习过程中，SARSA在收敛的过程中鼓励探索，这样学习过程会比较平滑，不至于过于激进，导致出现像Q-Learning可能遇到一些特殊的最优“陷阱”。比如经典的强化学习问题"Cliff Walk"。

　　　　在实际应用中，如果我们是在模拟环境中训练强化学习模型，推荐使用Q-Learning，如果是在线生产环境中训练模型，则推荐使用SARSA。

6. Q-Learning结语　　　　　　　　

　　　　对于Q-Learning和SARSA这样的时序差分算法，对于小型的强化学习问题是非常灵活有效的，但是在大数据时代，异常复杂的状态和可选动作，使Q-Learning和SARSA要维护的Q表异常的大，甚至远远超出内存，这限制了时序差分算法的应用场景。