多智能体强化学习,强化学习的框架是智能体

参考1、多智能体强化学习入门(1) ——基础知识与博弈

2、《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读

3、总结关于多智能体强化学习的论文

摘要随机博弈可以看作是一个多主体强化学习过程，在随机博弈中假设各状态的报酬矩阵是已知的且不需要学习。多智能体强化学习通过与环境的持续交互学习各状态的报酬值函数，并通过这些报酬值函数学习最优的纳什策略。

在多智能体强化学习算法中，两个主要技术指标是合理性和收敛性。

3358www.Sina.com/(rationality )意味着对方使用一定战略时，现在的主体可以学习并收敛于对方战略的最佳战略。

3358www.Sina.com/(convergence )意味着其他代理也使用学习算法时，现在的代理可以学习，收敛于稳定的战略。通常，收敛性对系统中所有主体使用相同的学习算法。

例如，定义2*2的网格游戏。两个代理分别表示为P1和p2。 1的初始位置位于左下角，2的初始位置位于右上角，每个代理都希望最早到达g标记的位置。从初始位置开始，每个代理可以选择两个动作。如果一个代理人到达g，游戏结束，到达g的代理人获得报酬10，报酬折扣率为0.9。虚线表示扶手，特工穿过扶手的概率是0.5。这个随机游戏总共包括七个状态。这个博弈的纳什均衡策略是每个主体不通过栏杆到达旁边的位置。

在状态s1下，如果采取行动(right，left )，则可以得到以下的状态值函数。

可以根据v(s1 )计算动作状态值函数。

最终得到的Q-Table如下。

通过求解上述矩阵博弈，得到多智能体强化学习的策略

MARL基础算法1、Minimax-Q Minimax-Q算法应用于双人零和随机博弈。利用minimax方法构造线性规划求解每个特定状态s的阶段博弈的纳什均衡策略。算法名称中的q表示借用q-learning的TD方法来迭代学习状态值函数或操作-状态值函数。

在两个玩家的零和随机博弈中，给定一个状态s，第I个代理的状态值函数v(s )被定义如下。

其中-i表示代理I的对手，q(s，ai，a-i )是联合动作状态值函数。该式意味着各代理I在与对战对手-i的游戏中将最坏情况下的期望报酬值最大化。在多智能体强化学习中，由于q是未知的，利用q学习逼近真实q值，利用线性规划求解状态s下的纳什均衡策略。算法流程如下。

理想情况下，如果算法可以对每个状态-动作进行无限次访问，则该算法可以收敛于纳什均衡策略。

但是，上述算法有几个缺点：

第五步需要不断求解线性规划，这会导致学习速度降低，计算时间增加。为了解开步骤5，代理I需要知道所有代理的动作空间，这是分布式系统无法满足的。只满足收敛性，不满足合理性。假设对方使用的是不好的策略而不是纳什均衡策略，现在的代理I无法根据对方的策略学习更好的策略。也就是说，该算法中agent无法根据对手的策略调节优化自己的策略，只能找到随机博弈的纳什均衡策略。 2、Nash Q-Learning Nash Q-Learning将Minimax-Q从零和游戏扩展到多人游戏和普通游戏。该算法需要观测其他所有代理的行为ai和报酬值ri，利用二次规划求解纳什均衡点。

Nash Q-Learning算法可以在合作均衡或对抗性均衡环境中收敛到纳什均衡点。其收敛条件是在各状态s的阶段博弈中，找到全局最有利的点或鞍点。算法流程如下。

由于Nash Q-Learning在步骤5中也进行二次规划，所以对算法的速度存在限制。同时，该算法只满足收敛性，不满足合理性。也就是说只能收敛到纳什均衡策略，不能基于其他主体的策略优化自己的策略。

3、前向学习前向学习算法基于最小后向学习算法，将应用对象从零和博弈扩展到一般和博弈问题。

对于一个代理人I，将所有其他代理人分成两组。一个是I的friend，I一起帮助报酬最大化；另一个是I的foe，对抗I降低I的报酬。因此，每个代理都有两组代理，一般和游戏问题是两个代理组的零和游戏。算法的过程如下。

但是，由于FFQ算法也需要利用线性规划，所以整个算法的学习速度很慢。

4、WoLF Policy Hill-Climbing在Minimax-Q、Nash Q-Learning、Friend-or-Foe Q-Learning三个算法保持q函数时，所有智能体的假设行为空间WoLF-PHC算法只知道自己的动作就维持q值函数，所需空间大小为SA。

WoLF-PHC说：“Win or Learn

Fast”规则与 policy hill-climbing算法结合：

WolF：当智能体做的比期望值好的时候，小心缓慢的调整参数；当智能体做的比期望值差的时候，加快步伐调整参数。PHC：一种单智能体在稳定环境下的一种学习算法。该算法的目标是增大能够得到最大累积期望的动作的选取概率。该算法具有合理性，能够收敛到最优策略。其算法流程如下：

为了将PHC应用于动态环境中，将WoLF与PHC算法结合，使得智能体获得的奖励在比预期差时，能够快速调整适应其他智能体策略变化，当比预期好时谨慎学习，也给其他智能体适应策略变化的时间。

WoLF-PHC算法能够收敛到纳什均衡策略，并且具备合理性，当其他智能体采用某个固定策略时，其也能收敛到目前状况下的最优策略，而不像前三种算法收敛到一个可能效果不好的纳什均衡策略处。算法流程如下：

算法评价：

在WoLF-PHC算法中，使用一个可变的学习速率 delta
来实现WoLF效果。当策略效果比平均值差时使用delta-l，当策略效果比平均值要好时使用delta-w，并且delta-l>delta-w。WoLF-PHC算法不用观测其他智能体的策略、动作及奖励值，需要更少的空间去记录Q值。WoLF-PHC算法是通过PHC算法进行学习改进策略的，所以不需要使用线性规划或者二次规划求解纳什均衡，算法速度得到了提高。

注：虽然WoLF-PHC算法在实际应用中取得了非常好的效果，并且能够收敛到最优策略。但是其收敛性在理论上一直没有得到证明。