首页 > 编程知识 正文

多智能体强化学习,强化学习的框架是智能体

时间:2023-05-03 09:07:10 阅读:186679 作者:2829

参考1、多智能体强化学习入门(1) ——基础知识与博弈

2、《Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments》论文解读

3、总结关于多智能体强化学习的论文

摘要随机博弈可以看作是一个多主体强化学习过程,在随机博弈中假设各状态的报酬矩阵是已知的且不需要学习。 多智能体强化学习通过与环境的持续交互学习各状态的报酬值函数,并通过这些报酬值函数学习最优的纳什策略。

在多智能体强化学习算法中,两个主要技术指标是合理性和收敛性。

3358www.Sina.com/(rationality )意味着对方使用一定战略时,现在的主体可以学习并收敛于对方战略的最佳战略。

3358www.Sina.com/(convergence )意味着其他代理也使用学习算法时,现在的代理可以学习,收敛于稳定的战略。 通常,收敛性对系统中所有主体使用相同的学习算法。

例如,定义2*2的网格游戏。 两个代理分别表示为P1和p2。 1的初始位置位于左下角,2的初始位置位于右上角,每个代理都希望最早到达g标记的位置。 从初始位置开始,每个代理可以选择两个动作。 如果一个代理人到达g,游戏结束,到达g的代理人获得报酬10,报酬折扣率为0.9。 虚线表示扶手,特工穿过扶手的概率是0.5。 这个随机游戏总共包括七个状态。 这个博弈的纳什均衡策略是每个主体不通过栏杆到达旁边的位置。

在状态s1下,如果采取行动(right,left ),则可以得到以下的状态值函数。

可以根据v(s1 )计算动作状态值函数。

最终得到的Q-Table如下。

通过求解上述矩阵博弈,得到多智能体强化学习的策略

MARL基础算法1、Minimax-Q Minimax-Q算法应用于双人零和随机博弈。 利用minimax方法构造线性规划求解每个特定状态s的阶段博弈的纳什均衡策略。 算法名称中的q表示借用q-learning的TD方法来迭代学习状态值函数或操作-状态值函数。

在两个玩家的零和随机博弈中,给定一个状态s,第I个代理的状态值函数v(s )被定义如下。

其中-i表示代理I的对手,q(s,ai,a-i )是联合动作状态值函数。 该式意味着各代理I在与对战对手-i的游戏中将最坏情况下的期望报酬值最大化。 在多智能体强化学习中,由于q是未知的,利用q学习逼近真实q值,利用线性规划求解状态s下的纳什均衡策略。 算法流程如下。

理想情况下,如果算法可以对每个状态-动作进行无限次访问,则该算法可以收敛于纳什均衡策略。

但是,上述算法有几个缺点:

第五步需要不断求解线性规划,这会导致学习速度降低,计算时间增加。 为了解开步骤5,代理I需要知道所有代理的动作空间,这是分布式系统无法满足的。 只满足收敛性,不满足合理性。 假设对方使用的是不好的策略而不是纳什均衡策略,现在的代理I无法根据对方的策略学习更好的策略。 也就是说,该算法中agent无法根据对手的策略调节优化自己的策略,只能找到随机博弈的纳什均衡策略。 2、Nash Q-Learning Nash Q-Learning将Minimax-Q从零和游戏扩展到多人游戏和普通游戏。 该算法需要观测其他所有代理的行为ai和报酬值ri,利用二次规划求解纳什均衡点。

Nash Q-Learning算法可以在合作均衡或对抗性均衡环境中收敛到纳什均衡点。 其收敛条件是在各状态s的阶段博弈中,找到全局最有利的点或鞍点。 算法流程如下。

由于Nash Q-Learning在步骤5中也进行二次规划,所以对算法的速度存在限制。 同时,该算法只满足收敛性,不满足合理性。 也就是说只能收敛到纳什均衡策略,不能基于其他主体的策略优化自己的策略。

3、前向学习前向学习算法基于最小后向学习算法,将应用对象从零和博弈扩展到一般和博弈问题。

对于一个代理人I,将所有其他代理人分成两组。 一个是I的friend,I一起帮助报酬最大化; 另一个是I的foe,对抗I降低I的报酬。 因此,每个代理都有两组代理,一般和游戏问题是两个代理组的零和游戏。 算法的过程如下。

但是,由于FFQ算法也需要利用线性规划,所以整个算法的学习速度很慢。

4、WoLF Policy Hill-Climbing在Minimax-Q、Nash Q-Learning、Friend-or-Foe Q-Learning三个算法保持q函数时,所有智能体的假设行为空间WoLF-PHC算法只知道自己的动作就维持q值函数,所需空间大小为SA。

WoLF-PHC说:“Win or Learn

Fast”规则与 policy hill-climbing算法结合:

WolF:当智能体做的比期望值好的时候,小心缓慢的调整参数;当智能体做的比期望值差的时候,加快步伐调整参数。PHC:一种单智能体在稳定环境下的一种学习算法。该算法的目标是增大能够得到最大累积期望的动作的选取概率。该算法具有合理性,能够收敛到最优策略。其算法流程如下:

为了将PHC应用于动态环境中,将WoLF与PHC算法结合,使得智能体获得的奖励在比预期差时,能够快速调整适应其他智能体策略变化,当比预期好时谨慎学习,也给其他智能体适应策略变化的时间。

WoLF-PHC算法能够收敛到纳什均衡策略,并且具备合理性,当其他智能体采用某个固定策略时,其也能收敛到目前状况下的最优策略,而不像前三种算法收敛到一个可能效果不好的纳什均衡策略处。算法流程如下:

算法评价:

在WoLF-PHC算法中,使用一个可变的学习速率 delta
来实现WoLF效果。当策略效果比平均值差时使用delta-l,当策略效果比平均值要好时使用delta-w,并且delta-l>delta-w。WoLF-PHC算法不用观测其他智能体的策略、动作及奖励值,需要更少的空间去记录Q值。WoLF-PHC算法是通过PHC算法进行学习改进策略的,所以不需要使用线性规划或者二次规划求解纳什均衡,算法速度得到了提高。

注:虽然WoLF-PHC算法在实际应用中取得了非常好的效果,并且能够收敛到最优策略。但是其收敛性在理论上一直没有得到证明。

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。