AlphaGo原来是这样运行的,一文详解多智能体强化学习

机心分析师网作者:杨旭云编辑:Joni

在这篇综述文章中,作者详细介绍了多元智能强化学习的理论基础,并描述了解决各种多元智能问题的经典算法。此外,作者还以AlphaGo 和AlphaStar 为例概述了多智能体强化学习的实际应用。

近年来,强化学习在多个应用领域取得了令人瞩目的成果,一些研究人员也逐渐开始从单一代理拓展。从域到多代理。本文首先简要介绍多智能体强化学习(MARL)的相关理论基础,包括问题定义、问题建模以及相关的核心思想和概念。接下来,我们根据具体应用中智能体之间的关系,将多智能体问题分为三种类型:完全合作型、完全竞争型和混合关系型,并提出解决各种多智能体问题的经典方法。算法。最后,本文列出了深度强化学习在多智能体研究活动(多智能体深度强化学习)中提出的一些技术。 1.强化学习和多智能体强化学习我们知道强化学习的核心思想是“试错”。换句话说,代理根据通过与环境交互获得的反馈信息进行迭代优化。在强化学习领域,要解决的问题通常被描述为马尔可夫决策过程。

图1:强化学习框架(也代表马尔可夫决策过程)。来源:[1] 当多个智能体同时与环境交互时,整个系统就变成了一个多智能体系统。每个代理仍然遵循强化学习目标。这是为了最大化你目前可以获得的累积奖励。全局环境状况的变化与所有主体的共同行动有关。因此,智能体的策略学习过程必须考虑联合行动的影响。 1.1 多智能体问题建模—— 博弈论基础马尔可夫决策过程被扩展到多智能体系统,并被定义为马尔可夫博弈(概率博弈,也称为马尔可夫/概率博弈)。一旦你对博弈论有了一定的了解,你就可以用它来建模多智能体强化学习问题,并找到更清晰地解决它们的方法。

图2:马尔可夫博弈过程。来源:[2] 在马尔可夫博弈中,所有智能体同时根据当前环境状态(或观察)选择并执行其动作。这些行动所带来的共同作用影响着环境状态的转变和更新。确定代理收到的奖励反馈。这可以用元组S,A1,An,T,R1,Rn 表示。这里,S代表状态集,Ai和Ri分别代表智能体i的动作集和奖励集。 T表示环境状态转移概率。代表损耗因子。在这种情况下,智能体i获得的累积奖励的期望值可以表达如下。

对于马尔可夫博弈,纳什均衡是多个智能体之间达到的固定点,并且不能通过采用任何其他策略来解决。

在这个方程中,代表智能体i的纳什均衡策略。尽管纳什均衡不一定是全局最优的,但它是概率方面最可能的结果,并且是在学习过程中可能收敛的状态,特别是如果当前智能体不知道其他智能体将做什么的情况下,请注意。你会采取什么策略?这是一个简单的例子,可以帮助您理解博弈论中经典的囚徒困境。根据两人不同的供述,量刑时间有所不同:

在此表中,如果A 和B 都选择撒谎,则可获得总体最优收益。但对于A或B来说,每个人都不知道如果他们选择坦白对方会做什么。事实上,对于A和B双方来说,无论对方此时选择哪种行为,表白都是会给他们最好回报的选择。因此,最终A和B都选择坦白,收敛到囚徒困境中的纳什均衡策略。均衡求解方法是多智能体强化学习的基本方法,它结合了强化学习的经典方法(如Q-learning)和博弈论的均衡概念,利用RL方法来解决多智能体学习问题。协调目标以解决问题并完成多项与代理相关的任务。这个思想也体现在后面介绍的具体学习方法上。与单智能体系统相比,多智能体系统中的强化学习会出现哪些问题和挑战? 环境不稳定:当一个智能体做出决策时,其他智能体也在采取行动。环境状态的变化与所有智能体的共同作用有关。全球信息可能无法获得,代理商只能获取有限的信息。虽然可以获得本地的观察信息,但无法获知其他智能体的观察信息、动作、奖励等信息。个体目标的一致性:每个智能体的目标可能是其局部回报的优化。现实场景涉及大规模多智能体系统、高维状态空间和动作空间,对模型表示能力和硬件计算能力有一定要求。 1.2 解决多智能体问题—— 多智能体强化学习算法概述多智能体强化学习问题的一个直接解决方案是将单智能体强化学习技术直接应用于多智能体系统,即每个智能体。智能体将其他智能体视为环境的元素,并通过与环境的交互来更新其策略,类似于单智能体学习。这就是独立Q-learning方法的思想。虽然这种学习方法简单且易于实现,但它并不稳定,因为它忽略了其他智能体也具有决策能力,并且所有个体的行为共同影响环境的状态,这使得它很难学习并取得良好的结果。一般来说,代理之间可能存在竞争(非合作)、半竞争和半合作(混合)或完全合作的关系,这些关系模式允许个体考虑需要做什么。其他代理的行为也有所不同。下面,参考文献[3],根据Agent之间的关系,如完全竞争、半竞争/半合作、全合作等来阐述多Agent问题的建模和求解方法。 1.2.1 智能体之间存在完全竞争极小极大Q 学习算法用于两个智能体完全竞争的零和随机博弈。首先是最优价值函数的定义。对于智能体i,我们需要考虑如果另一个智能体(i-) 采取的动作(a-) 使其自身(i) 的返回值最差(min),它会获得什么收益。最大(最大)预期回报。这个返回值可以表示为:

式中V和Q省略了代理i的下标。这是因为在零和博弈中,Q1=-Q2。因此,上述表达式与其他代理对称地等效。该价值函数表明当前智能体正在考虑对手的策略而做出贪婪的选择。这种方法使得智能体更容易收敛到纳什均衡策略。在学习过程中,基于强化学习的Q-learning方法,极小极大Q-learning利用上述极小极大思想定义的价值函数,基于线性规划迭代更新动作的选择。现阶段纳什均衡策略对应的状态。

图3:Minimax-Q 学习算法流程。资料来源[4] Minimax Q 方法是竞技游戏中非常经典的想法。许多其他方法都源自这一想法,包括友敌Q 学习、相关Q 学习以及接下来描述的方法。学习纳什Q. 1.2.2 代理人之间存在半合作半竞争(混合)关系。两人零和博弈目前比较常见的形式是多人总和博弈。 -Learning方法可以扩展到Nash Q-Learning方法。如果每个智能体采用常规的Q 学习方法和最大化自己的Q 值的贪婪方法,那么这种方法很容易收敛到纳什均衡策略。纳什Q 学习方法可用于处理纳什均衡解决的多智能体学习问题。其目标是在学习过程中通过找到每个状态的纳什均衡点来更新基于纳什均衡策略的Q值。具体来说,对于智能体i,其纳什Q值定义为: 然后我们假设所有智能体从下一刻开始都采用纳什均衡策略,并且纳什策略可以通过二次规划(仅限离散动作空间)来实现。 是每个动作的概率分布)。在迭代Q值更新过程中,使用纳什Q值进行更新。对于单个代理i,我们知道如果我们想要使用纳什Q 值进行更新,除了全局状态s 和动作a 之外,我们还需要知道。对于其他智能体,我们还需要知道下一个状态下所有其他智能体对应的纳什均衡策略。另外,当前智能体需要知道其他智能体的Q(s\’)值。 Q(s\’) 值通常是根据观察到的奖励和其他代理的行为来推断和计算的。因此,纳什Q 学习方法对一个智能体可以获得的其他智能体的信息(包括动作、奖励等)做出了强有力的假设,而在实际的复杂问题中通常不会满足这种严格的条件。方法有限。

图4:nash-Q 学习算法的流程。图来源:[5] 1.2.3 Agent之间存在完美的合作关系上述两种Agent之间的关系是个体之间相互竞争的关系,因此在策略学习过程中只能被个体理解这很容易做到。考虑另一方(或更一般地说,其他代理)的决策行为是否可以导致更合适的响应行动?那么,如果智能体之间的关系是完全合作的,那么个体的决策是否也应该考虑到其他智能体的决策呢?事实上,“合作”意味着多个智能体必须共同努力。也就是说,这一目标的实现与个体单独行动时,通过个体行动的组合而获得的联合行动有关。方法”使得与其他队友合作变得困难。您可以获得良好的回报。因此,智能体的策略学习必须考虑联合行动的效果以及其他具有决策能力的智能体的影响。在智能体策略学习过程中如何考虑其他合作智能体的影响?这个问题可以分类讨论。这种分类是基于特定问题中Agent协作的条件要求,即Agent要通过协作获得最优回报是否需要协调机制。对于一个问题(或任务),如果所有智能体的联合最优动作是唯一的,则不需要协调机制来完成任务。这意味着假设环境中的所有智能体都有多个最优联合动作,即和,我们需要A 和B 之间的协商机制来在 和h 之间做出决定。因为同时,如果一侧取,另一侧取h,所得到的联合行为不一定是最优的。 Team Q-learning是一种适合不需要协作机制的问题的学习方法。我们建议对于单个智能体i,其最优动作hi 通过以下公式找到: 分布式Q-learning也是一种学习方法。与团队Q 学习不同,团队Q 学习在选择个体最佳动作时需要了解其他智能体的动作,在这种方法中,智能体仅根据自己动作的Q 值保留信息。实现每个人的最佳行动。隐式协作机制在智能体需要相互协商以实现最佳联合行动的问题中,个体之间的相互建模可以为智能体决策提供潜在的协调机制。在联合行动学习器(JAL)[6]方法中,代理i 根据观察到的其他代理j 的历史行为对另一个代理j 的策略进行建模。在频率最大Q(FMQ)[7]方法中,个体动作的联合动作获得最优奖励的频率被引入到个体Q值的定义中,从而指导智能体的学习过程。在可以实现最佳回报的联合行动中选择您的行动会增加选择所有智能体的最佳行动组合的概率。虽然JAL和FMQ方法的基本思想是基于均衡解,但这些方法通常只能处理小规模(即少量代理)的多代理问题。在实际问题中,有很多代理。一般平衡求解方法受到计算效率和计算复杂度的限制,难以处理复杂情况。在大规模多智能体学习问题中,考虑群体联合行动的影响,例如其对当前智能体的影响以及其在群体中的作用,对于智能体的策略学习非常有帮助。

基于平均场理论的多智能体强化学习(Mean-Field MARL,MFMARL)方法是UCL学者在2023年ICML会议上提出的针对大规模群体问题的方法,是一种替代传统强化学习的方法方法(Q-learning)并与平均场理论相结合。平均场理论适用于对复杂的大型系统进行建模。也就是说,所有其他个体对一个个体的共同影响可以通过“平均量”来定义和测量。在这种情况下,对于一个个体来说,所有其他个体的影响就相当于单个物体对该个体的影响。这种建模技术可以有效地处理具有巨大维空间和计算复杂性的问题。 MFMARL方法基于平均场理论的建模概念,将所有主体视为一个“平均场”,个体与其他主体之间的关系可以描述为个体与平均场之间的相互作用。简化了后续的分析过程。

图5:基于平均场理论的多智能体建模方法。单个代理仅考虑与其他相邻代理(蓝色球体区域)的交互。资料来源:[8] 首先,我们对价值函数进行分解,以解决中心化全局价值函数的学习效果受智能体数量(联合行动维度)影响的问题。对于单个代理j,其价值函数Qj(s,a) 包括与所有Nj 个邻居k 的交互。

接下来,我们将平均场理论的思想结合到上面的方程中。考虑到离散动作空间,单个智能体的动作采用one-hot编码,即aj=[h(aj_1), h(aj_d)]。这里,如果aj=aj_i,则h(aj_i)=1。 0 ;其他邻近智能体的动作可以表示为平均动作\\bar和变化。

使用泰勒二次展开式,我们得到:

该公式将当前智能体j 与其他相邻智能体k 之间的交互简化为当前智能体j 与虚拟智能体\\bar 之间的交互。这是平均场思想的数学形式。那么,学习过程中迭代更新的目标就是均值场(即MF-Q)下的Q(s,aj,\\bar)值,如下:

在更新中使用v 而不是max Q 的原因如下:获得Q上的max需要相邻智能体策略的配合,对于智能体j来说,它不能直接干扰其他智能体的决策。另一方面,即使我们做出贪婪的选择,学习过程仍然会受到环境不稳定的影响。类似地,智能体j 的策略也使用玻尔兹曼分布基于Q 值进行迭代更新。

在原文章中,我们证明了这样的迭代更新方法最终可以将\\bar 收敛到唯一的均衡点,并推论智能体j 的策略j 可以收敛到纳什均衡策略。显式协作机制通过多智能体深度强化学习在多机器人领域的应用(主要是考虑现有约束/先验规则的人与机器之间的交互等)简要介绍了显式协作机制。 2.多智能体深度强化学习随着深度学习的发展,神经网络强大的表示能力被用来构建近似模型(值近似)和策略模型(常见于基于策略的DRL方法)。深度强化学习技术可以分为两种类型:基于价值的和基于策略的。在考虑多智能体问题时,主要的做法是引入多智能体相关元素。我们将相应的网络结构设计为价值函数模型和策略模型,最终训练的模型可以适应特定的任务(它可以直接或隐式地学习代理之间的复杂关系)。 2.1 基于策略的方法在完全合作的环境中,多智能体集成通常应该最大化总体预期收入。我上面描述的是一种完全集中的方法。利用一个中心模块完成全局信息检索和决策计算,适合单智能体的强化学习方法可以直接扩展到多智能体系统。然而,在现实情况中,集中控制器通常并不总是可行,也不总是理想的决策方法。如果采用完全分布式的方法,每个智能体独立学习自己的价值函数网络和策略网络,而不考虑其他智能体对自身的影响,从而能够更好地应对环境的不稳定。应对。强化学习中的行动者批评框架的特性可用于在这两个极端之间找到和谐的解决方案。 1.多智能体深度确定性策略梯度(MADDPG)

该方法基于深度确定性策略梯度(DDPG)方法,改进了相关的actor-critique框架,并使用集中式训练和分布式执行机制,为解决多智能体问题提供了更通用的方法。 MADDPG 为每个代理建立集中的关键性。这使得我们能够获取全局信息(包括所有智能体的全局状态和动作)并给出相应的值函数Qi(x,a1,an),从而缓解不稳定问题。一定程度的多代理系统环境。另一方面,每个智能体的行动者只需要根据本地观察到的信息做出决策,就可以实现多个智能体的分布式控制。在基于Actor-Critical框架的学习过程中,更新Critical和Actor的方法与DDPG类似。对于批评者来说,其优化目标是: 对于参与者来说,考虑确定性策略i(ai|oi),策略更新期间的梯度计算可以表示为:

图6:集中式Q 值学习(绿色)和分布式策略执行(棕色)。 Q值获得所有智能体的观测信息o和动作a,策略根据个体观测信息输出个体动作。来源:[9] 在MADDPG 中,个体维护的中心化Q 值需要了解所有智能体的全局状态和动作信息。在这种情况下,假设代理可以通过通信等方式了解其他代理。观察和策略,这个假设太严格了。 MADDPG进一步提出,通过对其他智能体的行为进行建模,我们可以通过维护策略逼近函数\\hat{\\miu}来估计其他智能体的策略。一个人。当智能体i 接近第j 个智能体的策略函数时,其优化的目标是使策略函数更接近经验样本中智能体j 的行为,同时考虑策略的熵,可以表示为。

除了考虑集体行动外,MADDPG 还使用政策整体方法来解决环境不稳定问题。由于环境中每个智能体的策略都会重复更新,因此单个智能体的策略很容易过度拟合其他智能体的策略。换句话说,当其他智能体的策略发生变化时,当前的最优策略不一定能够很好地适应。影响其他特工的策略。为了缓解过拟合问题,MADDPG提出了策略整合的思想。也就是说,对于单个智能体i,其策略i 是由多个基质i^k 组成的集合。在一个情节中,仅使用从集合中采样的一个子策略来做出决策并完成交互。学习过程中最大化的目标是所有子策略的期望回报。即每个子策略的更新梯度为: 总的来说,MADDPG的核心是基于DDPG算法,并使用全局Q。每个智能体在完美合作、完全竞争、混合关系的问题上都可以取得很好的效果。算法流程如下。

图7:MADDPG 算法流程。图来源:[9]2.反事实多智能体策略梯度(COMA)

在协作多智能体学习问题中,每个智能体共享奖励(即在同一时刻收到相同的奖励)。此时,“单元分配”问题就出现了:如何评估每个代理。那么个人对这个共享奖励的贡献又如何呢? COMA 方法利用反事实基线进行置信度分配。也就是说,如果比较代理的当前操作和默认操作,如果当前操作可以获得比默认操作更高的回报,则意味着当前操作提供了良好的贡献,反之亦然。这意味着当前的行动提供了不良的贡献。默认操作的回报由当前策略的平均效果(即反事实基线)提供。当您将代理与基线进行比较时,您需要修改其他代理的操作。当前策略的平均有效性和收益函数定义为:

COMA方法结合了集中训练和分布式执行的思想。分布式个体策略将局部观察作为输入并输出个体动作。 Focused Criticism采用特殊的网络结构来输出优势函数值。具体来说,批评者网络的输入包括全局状态信息s、个体局部观测信息o、个体编号a以及其他智能体的动作。首先,我们打印当前智能体不同动作对应的联合Q值。然后,通过COMA 模块计算反事实基线,该模块使用当前策略和智能体输入的动作输出最终的优势函数。

图8:(a)COMA方法的参与者关键框架图,(b)参与者网络结构,(c)关键网络结构(包括提供优势函数值的核心COMA模块)。图来源:[10] 2.2 基于价值的方法上述基于策略的方法利用全局信息直接对集总价值函数进行建模,而不考虑个体特征。当多智能体系统由大量个体组成时,很难学习这样的价值函数或训练它收敛,从而很难得出理想的策略。而且,仅依靠局部观察,无法判断当前奖励是通过自己的行为还是通过环境中其他队友的行为获得的。

价值分解网络(VDN)由DeepMind 团队于2023 年提出。该方法的核心是将全局Q(s,a) 值分解为每个物体所具有的每个局部Qi(si,ai) 的加权和。独特的局部价值函数。

这种分解方法在联合动作Q值的结构构成中考虑了个体动作的特点,有利于Q值的学习。另一方面,它也适应集中式训练方法,可以在一定程度上克服多智能体系统中环境不稳定的问题。在训练过程中,利用联合动作Q值来指导策略优化。同时,个体从全局Q值中提取局部Qi值来完成自己的决策(例如贪心策略ai=)。 argmax Qi)实现多智能体分布式控制。

图9:左图为全分布式局部Q值网络结构,右图为VDN联合作用Q值网络结构。考虑两个代理。他们的联合行动Q值是通过个体的Q1和Q2相加得到的。这个联合Q值在学习过程中不断更新,每个个体根据自己的Qi值获得一个独特的动作ai。来源:[11] 尽管VDN 对代理之间的关系有很强的假设,但这种假设并不一定适合所有协作多代理问题。在2023年ICML会议上,有研究人员提出了一种改进方法QMIX。

QMIX 在VDN 的基础上实现了两项改进:1)在训练过程中添加全局信息进行辅助,2)使用混合网络来提高单个智能体的性能(而不是简单的线性相加)。 QMIX方法首先假设全局Q值和局部Q值之间的关系满足以下关系。与最大化全局Q_tot值对应的动作是与最大化每个局部Q_a值对应的动作的组合。牙齿

在这样的约束下,采用收敛学习方法来解决环境不稳定问题,不仅考虑多智能体联合行动效应(全局Q值学习)而且还可以提取分散控制(知情行动选择)来实施。局部Q值)。此外,该约束可以转化为全局Q值和局部Q值之间的单调约束关系。满足全局Q值和局部Q值之间的约束关系的函数表达式有很多。然而,简单的线性加法并没有充分考虑不同个体的特征,在描述全局和局部行为之间的关系方面存在一定的局限性。 QMIX使用混合网络模块作为函数表达式,并集成Qa以产生满足上述单调性约束的Q_tot。

图10:QMIX 网络结构。来源:[12] 在用QMIX 方法设计的网络结构中,每个智能体都有一个DRQN 网络(绿色块),该网络以个体观测值作为输入,并使用循环神经网络来保留和利用历史信息。输出个体局部气值。所有个体的局部Qi值都输入到混合网络模块(蓝色块)中。该模块使用超网络和绝对值计算来生成每层的权重。绝对值计算确保权重不为零。 -负数,利用全局状态s通过超级网络生成权重,使得局部Q值的积分满足单调性约束,更完整、更灵活地利用全局信息来确定的Q值可以估计联合行动。在一定程度上有助于全局Q值的学习和收敛。结合DQN的思想,以Q_tot作为迭代更新的目标,根据Q_tot选择每个agent在每次迭代中的动作如下:

最后,学习收敛到最优Q_tot并导出相应的策略。这就是学习QMIX方法的整个过程。 3. 多智能体强化学习的应用3.1. 游戏的应用分步竞技游戏包括围棋、国际象棋、扑克等。

MARL 在这几种游戏中都有相关的研究进展并取得了不错的成果。其中,著名的 AlphaGo 通过在和人类对战的围棋比赛中取得的惊人成绩而进入人们的视野。围棋是一种双玩家零和随机博弈,在每个时刻,玩家都能够获取整个棋局。它一种涉及超大状态空间的回合制游戏,很难直接使用传统的 RL 方法或者是搜索方法。AlphaGo 结合了深度学习和强化学习的方法:针对巨大状态空间的问题,使用网络结构 CNN 来提取和表示状态信息;在训练的第一个阶段,使用人类玩家的数据进行有监督训练,得到预训练的网络;在训练的第二个阶段,通过强化学习方法和自我博弈进一步更新网络;在实际参与游戏时,结合价值网络(value network)和策略网络(policy network),使用 蒙特卡洛树搜索(MCTS)方法得到真正执行的动作。
图 11:AlphaGo 在 2023 年击败人类玩家。图源:https://rlss.inria.fr/files/2023/07/RLSS_Multiagent.pdf实时战略游戏MARL 的另一种重要的游戏应用领域,是实时战略游戏,包括星际争霸,DOTA,王者荣耀,吃鸡等。该类游戏相比于前面提到的国际象棋、围棋等回合制类型的游戏,游戏 AI 训练的难度更大,不仅因为游戏时长过长、对于未来预期回报的估计涉及到的步数更多,还包括了多方同时参与游戏时造成的复杂空间维度增大,在一些游戏设定中可能无法获取完整的信息以及全局的形势(比如在星际争霸中,不知道迷雾区域是否有敌方的军队),在考虑队内合作的同时也要考虑对外的竞争。OpenAI Five 是 OpenAI 团队针对 Dota 2 研发的一个游戏 AI [13],智能体的策略的学习没有使用人类玩家的数据、是从零开始的(learn from scratch)。考虑游戏中队内英雄的协作,基于每个英雄的分布式控制方式(即每个英雄都有各自的决策网络模型),在训练过程中,通过一个超参数 “team spirit” 对每个英雄加权、控制团队合作,并且使用基于团队整体行为的奖励机制来引导队内合作。考虑和其他团队的对抗,在训练过程中使用自我对抗的方式(也称为虚拟自我博弈,fictitious self-play, FSP)来提升策略应对复杂环境或者是复杂对抗形势的能力。这种自我对抗的训练方式,早在 2023 年 OpenAI 就基于 Dota2 进行了相关的研究和分析,并发现智能体能够自主地学习掌握到一些复杂的技能;应用在群体对抗中,能够提升团队策略整体对抗的能力。AlphaStar 是 OpenAI 团队另一个针对星际争霸 2(Starcraft II)研发的游戏 AI,其中在处理多智能体博弈问题的时候,再次利用了 self-play 的思想并进一步改进,提出了一种联盟利用探索的学习方式(league exploiter discovery)。使用多类个体来建立一个联盟(league),这些个体包括主智能体(main agents)、主利用者(main exploiters)、联盟利用者(league exploiters)和历史玩家(past players)四类。这几类智能体的策略会被保存(相当于构建了一个策略池),在该联盟内各类智能体按照一定的匹配规则与策略池中的其他类智能体的策略进行对抗,能够利用之前学会的有效信息并且不断增强策略的能力,解决普通的自我博弈方法所带有的 “循环学习” 问题(“Chasing its tail”)。
图 12:联盟利用者探索(league exploiter discovery)的学习框架。图源:[14]3.2. 多机器人避碰在现实生活中,多机器人的应用场景主要是通过多个机器人的协作来提升系统的性能和效率,此时多智能体强化学习的关注重点主要在于机器人(智能体)之间的合作。在移动机器人方面,自主避障导航是底层应用的关键技术,近几年通过强化学习的方法来学习单机器人导航策略这方面的工作成果比较多;而当环境中存在多个移动机器人同时向各自目标点移动的时候,需要进一步考虑机器人之间的相互避碰问题,这也是 MARL 在多机器人导航(multi-robot navigation)领域的主要研究问题。Jia Pan 教授团队 [13] 在控制多机器人避碰导航问题上使用了集中式学习和分布式执行的机制,在学习过程中机器人之间共享奖励、策略网络和值函数网络,通过共享的经验样本来引导相互之间达成隐式的协作机制。
图 13:多机器人向各自目标点移动过程中的相互避碰。仓库物件分发是该问题的常见场景,多个物流机器人在向各自指定的目标点移动过程当中,需要避免和仓库中的其他物流机器人发生碰撞。图源:[15]另外,不仅有机器人和机器人之间的避碰问题,有一些工作还考虑到了机器人和人之间的避碰问题,如 SA-CADRL(socially aware collision avoidance deep reinforcement learning) 。根据该导航任务的具体设定(即机器人处在人流密集的场景中),在策略训练是引入一些人类社会的规则(socially rule),相当于要让机器人的策略学习到前面 1.2.3 部分提到显式的协调机制,达成机器人与人的行为之间的协作。
图 14:左图展示了相互避碰时的两种对称规则,上面为左手规则,下面为右手规则。右图是在 SA-CADRL 方法中模型引入这样的对称性信息,第一层中的红色段表示当前智能体的观测值,蓝色块表示它考虑的附近三个智能体的观测值,权重矩阵的对称性是考虑了智能体之间遵循一定规则的对称行为。图源:[16]4. 总结多智能体强化学习(MARL)是结合了强化学习和多智能体学习这两个领域的重要研究方向,关注的是多个智能体的序贯决策问题。本篇文章主要基于智能体之间的关系类型,包括完全合作式、完全竞争式和混合关系式,对多智能体强化学习的理论和算法展开介绍,并在应用方面列举了一些相关的研究工作。在未来,对 MARL 方面的研究(包括理论层面和应用层面)仍然需要解决较多的问题,包括理论体系的补充和完善、方法的可复现性、模型参数的训练和计算量、模型的安全性和鲁棒性等 [15]。参考文献:[1] Sutton R S, Barto A G. Reinforcement learning: An introduction[M]. MIT press, 2023.[2] Zhang K , Yang Z , Baar T . Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms[J]. 2023.[3] L. Busoniu, R. Babuska, and B. De Schutter, “A comprehensive survey of multi-agent reinforcement learning,” IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, vol. 38, no. 2, pp. 156–172, Mar. 2008.[4] Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]. international conference on machine learning, 1994: 157-163.[5] Hu J, Wellman M P. Nash Q-learning for general-sum stochastic games[J]. Journal of machine learning research, 2003, 4(Nov): 1039-1069.[6] Caroline Claus and Craig Boutilier. The dynamics of reinforcement learning in cooperative multiagent systems. In Proceedings of the Fifteenth National Conference on Artificial Intelligence, pp. 746–752, 1998.[7] S. Kapetanakis and D. Kudenko. Reinforcement learning of coordination in cooperative multi-agent systems. American Association for Artificial Intelligence, pp. 326-331, 2002.[8] Yang Y, Luo R, Li M, et al. Mean Field Multi-Agent Reinforcement Learning[C]. international conference on machine learning, 2023: 5567-5576[9] Lowe R, Wu Y, Tamar A, et al. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments[C]. neural information processing systems, 2023: 6379-6390.[10] Foerster J, Farquhar G, Afouras T, et al. Counterfactual Multi-Agent Policy Gradients[J]. arXiv: Artificial Intelligence, 2023.[11] Sunehag P, Lever G, Gruslys A, et al. Value-Decomposition Networks For Cooperative Multi-Agent Learning.[J]. arXiv: Artificial Intelligence, 2023.[12] Rashid T, Samvelyan M, De Witt C S, et al. QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning[J]. arXiv: Learning, 2023.[13] OpenAI Five, OpenAI, https://blog.openai.com/openai-five/, 2023.[14] Vinyals, O., Babuschkin, I., Czarnecki, W.M. et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning. Nature 575, 350–354 (2023).[15] P. Long, T. Fan, X. Liao, W. Liu, H. Zhang and J. Pan, \”Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning,\” 2023 IEEE International Conference on Robotics and Automation (ICRA), Brisbane, QLD, 2023, pp. 6252-6259, doi: 10.1109/ICRA.2023.8461113.[16] Y. F. Chen, M. Everett, M. Liu and J. P. How, \”Socially aware motion planning with deep reinforcement learning,\” 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Vancouver, BC, 2023, pp. 1343-1350, doi: 10.1109/IROS.2023.8202312.[17] Hernandez-Leal P , Kartal B , Taylor M E . A survey and critique of multiagent deep reinforcement learning[J]. Autonomous Agents & Multi Agent Systems, 2023(2).

本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/583593.html

(0)
上一篇 2024年5月25日
下一篇 2024年5月25日

相关推荐

  • 和平精英扭蛋币怎么获得?

    和平精英扭蛋币怎么获得? 和平精英扭蛋币获得方法: 1.在活动的期间玩家们完成指定的任务之后就可以在好友送扭蛋的消息中领取扭蛋币了。 2.每个玩家每天最多可以通过好友消息获得6次,同一个好友一天只能领取一次。 和平精英扭蛋机抽取技巧? 没有特定的抽取技巧。因为和平精英的扭蛋机是完全随机的,没有任何预测和操控的方法。每次抽取都是独立的,前一次抽到好的物品并不能…

    游戏快讯 49分钟前
  • 和平精英仰拍怎么拍? 和平精英自定义房间拍视频如何拍?

    和平精英仰拍怎么拍? 回答如下:要拍出好的和平精英仰拍,需要注意以下几点: 1.选择合适的角度:仰拍的角度通常比较低,可以让人物或场景显得更加壮观、震撼。但是,角度过低也容易使人物变形或失真,所以需要根据场景和人物来选择合适的角度。 2.注意光线:光线对拍摄效果影响很大,如果光线不好,仰拍的画面很容易出现暗角或过曝。所以,在选择拍摄角度时,要注意光线的方向和…

    游戏快讯 3小时前
  • 和平精英吹泡泡动作怎么得?

    和平精英吹泡泡动作怎么得? 可以使用物资币获取,一共需要60个,当然若是没有物资币可以使用点劵获取,一共需要600点劵 和平精英嗨起来动作怎么得? 1. 首先嗨起来动作获得前提是你必须有300赛季积分才可以兑换,下面是具体兑换步骤,如图所示: 打开和平精英,进入页面后点击右边的手册 2. 进入页面后,点击上面的兑换 3. 进入页面后,点击右下角的兑换商店 4…

    游戏快讯 5小时前
  • 头条号如何赚钱? 运营头条号如何赚钱?

    头条号如何赚钱? 今日头条赚钱方式如下 1、头条广告分成 你发表的作品获得平台广告,一万人读1-3元左右,开通原创的收益就更多了,一万人读10元左右。但是这个单价不是固定的,会有变动。 2、头条开通小店 具备相应经营资格的个人和企业可以申请开店,通过后可以自主销售商品获利,也可以流通商品获得佣金。 3、头条赞赏功能 优秀的用户可以打开赞扬功能。就像微信公众号…

    游戏快讯 6小时前
  • 和平精英没上王牌怎么有王牌印?

    和平精英没上王牌怎么有王牌印? 1 可能存在系统bug或者是数据同步延迟的情况。2 王牌印是根据一定的规则和算法计算的,可能在你还没有上王牌之前,你的战斗表现已经达到了王牌的标准,因此会出现王牌印。3 如果你确实没有上过王牌,但是出现了王牌印,可以联系游戏客服进行反馈,他们会帮助你解决问题。 和平精英怎么卡王牌印记? 关于这个问题,和平精英中,要卡王牌印记,…

    游戏快讯 7小时前