【新智慧介绍】人类没有希望在电子竞技中击败AI多智能体,但DeepMind的研究仍在继续前进。他们最近公布了强化学习的最新进展,并对未来进行了展望。 AI代理的能力会继续提高吗?有什么限制吗?是的,是的,我们都知道,没有任何一项电子竞技可以给人类带来哪怕1%的获胜希望。但!您是否想过人工智能是否有局限性?它的潜力有多大?还是最终会在某个水平结束? DeepMind 的科学家们也想知道这一点。他们最近更新了博客,以Quake 为例,重申了强化学习的最新进展、AI 在《雷神之锤3·夺旗》 方面已经达到了何种程度以及未来的预期。
多智能体最大的挑战:掌握多人游戏中涉及的战略、战术和团队合作,而不仅仅是单独工作,是人工智能研究的一个关键挑战。 DeepMind的科学家们已经将AI训练到了类人水平,这一点在《雷神之锤3·夺旗》中得到了清晰的体现。
在游戏中,无论人工智能代理与同类协作还是与人类组成群体,它们都是完全无缝的,并且行为不像机器人。 DeepMind 科学家已经计划将“夺旗”的方法应用到《雷神之锤3》的所有游戏模式中。
雷神之锤III 有多种游戏模式。自由混战(竞技场模式)、团队死亡竞赛(红队与蓝队)、锦标赛(决斗)(1 对1 模式)和夺旗(红队与蓝队夺旗)提供了多样性。模式)。还有许多其他独立游戏,包括模组及其开源游戏引擎。作为社会生物,我们数十亿人生活在同一个星球上,我们每个人都有自己的目标和行为,但我们仍然通过团队、组织和社会团结起来,可以表现出惊人的集体智慧。这种设置称为多代理学习。每个智能体独立工作,同时学习与其他智能体交互和合作。
所有参考系统都是动态的并且具有非常高的自由度。如果你考虑到人类之间团队合作的难度,你就会发现设计这样的多智能体是多么困难。
多智能体如何克服困难具体到《雷神之锤3·夺旗》,智能体面临的挑战是直接从原始像素学习以生成动作。这种复杂性使得第一人称多人游戏成为人工智能社区中富有成果且活跃的研究领域。夺旗原本是一项流行的户外运动,并广泛应用于电子游戏中。在给定地图上,红队和蓝队捍卫自己的旗帜,5分钟内夺取旗帜最多的队伍获胜。游戏还允许您标记敌方团队成员并将他们送回您的重生点。
规则越简单,就能衍生出越多样化的玩法,增加人类的乐趣,也增加多智能体玩家的难度。为了给多智能体带来困难,游戏地图会随着游戏的不同而变化,防止多智能体依靠比人类更好的记忆来获得地理优势。多智能体如何应对现状变化的秘密来自于基于强化学习的三个概念。
训练一组代理而不是单个个体,以便他们可以在游戏中互相学习。这允许每个代理学习自己的内部奖励信号并生成自己的奖励信号。内部目标,例如夺旗。然后,我们使用两层优化过程来直接优化代理的内部奖励以获胜,同时利用内部奖励强化学习来学习代理的策略。该代理现在以两种速度运行:快速和慢速,并且现在能够更好地使用内存并生成一致的操作序列。结果,被称为“For The Win”代理的代理已经高级地学习了“夺旗”行为。重要的是,学习到的代理策略对于地图大小、队友数量和团队中的其他玩家来说是稳健的。
DeepMind 组织了40 人,随机组成多个智能体团队。最终,独孤秋生智能变得比强基线手段强大很多,超过了人类玩家的胜率。事后研究表明,智能代理比我们人类更擅长合作。换句话说,人类胜利的关键是人类合作不好。
训练期间智能体的游戏表现。在FTW游戏模式下训练的新智能体比人类玩家、Self-Game + RS、Self-Game基线方法有更高的Elo分数,这个分数反映了赢得比赛的概率。除了评估游戏性能之外,了解这些代理的内部表示的行为和复杂性也很重要。为了理解代理如何表示游戏状态,让我们看看在平面上表示的代理的神经网络的激活模式。下图中的点簇代表游戏过程中的游戏情况,附近的点代表相似的激活模式。分数根据智能体所处的高级CTF 游戏状态进行着色。它在哪个房间?旗帜的状态是什么?观察到相同颜色的集群,并且代理以类似的方式代表相似的高级游戏状态。
游戏世界中代理的代表。在上图中,根据其相似性绘制了特定时间点的神经活动模式。空间中距离越近的两点,它们的活动模式越相似。然后根据实时比赛情况着色。相同的颜色表示相同的情况。这些神经激活模式被组织成颜色簇,表明代理以程式化和有组织的方式代表有意义的游戏玩法。经过训练的智能体还演示了几个人工神经元,这些神经元用于直接针对游戏中的特定情况。尽管智能体没有被告知任何有关游戏规则的知识,但他们了解基本的游戏概念并形成了关于CTF 的有效直觉。事实上,某些神经元直接编码一些最重要的游戏状态,例如当代理的旗帜被捕获时激活的神经元,或者当代理的队友持有旗帜时激活的神经元。本文对此进行了进一步分析,包括智能体对记忆和视觉注意力的应用。
超强大的智能体:即使反应迟缓,在游戏中也能超越人类。我们的智能体在游戏中的表现如何?首先,它的反应时间非常短。由于人类生物信号传递速度较慢,人类处理感官输入和行动的速度相对较慢。因此,智能体在游戏中的卓越表现可能是更快的视觉处理和运动控制的结果。然而,当我们人为降低智能体的瞄准精度和反应时间时,我们发现这实际上只是其卓越性能的因素之一。在进一步的研究中,我们以大约四分之一秒(267 毫秒)的内置延迟来训练代理。换句话说,智能体观察世界之前的267 毫秒延迟与人类的反应时间大致相同。人类玩家。然而,这些具有内置反应延迟的智能体在游戏中的表现仍然优于人类玩家,后者的获胜率仅为21%。
人类玩家对抗响应延迟的智能体的胜率仍然很低,这表明即使响应延迟与人类相当,智能体的游戏表现仍然优于人类玩家。此外,如果我们查看人类和相应延迟智能体的平均游戏事件数,我们会发现双方的标记事件数相同,表明这些智能体在这方面没有优势。通过无监督学习,我们建立了智能体和人类之间的典型行为,发现智能体确实学习了类似人类的行为,例如追逐队友和在对手的基地扎营。
一些由训练有素的特工执行的行动:保卫自己的基地、骚扰敌方基地、跟踪队友。这些行为在强化学习训练过程中逐渐出现,让智能体逐渐学会以更加互补的方式进行合作。
一群孤独又胜利的特工的训练过程。左上角:30 名特工的Elo 分数。我们可以互相训练、互相进步。右上:进化事件树。下图展示了整个智能体训练过程中的知识进展、一些内部奖励机制以及行动的概率。
《星际争霸2》不是极限,多代理将继续前进。《雷神之锤》中AI智能体的成功经验正在被DeepMind应用到更复杂的实时策略游戏中。例如,基于群体信息学的多智能体强化学习构成了构建《星际争霸2》 中的AlphaStar 智能体的基础。这款游戏被称为“人类最后的尊严”,但最终没有什么能够阻止AIphaStar 在游戏中的统治地位。此外,《星际争霸2》 不是AI 多代理功能的限制。 DeepMind 利用我们在训练多智能体方面的集体经验来开发强大的智能体,这些智能体非常稳健,甚至更有能力协同工作,从而使多智能体变得更加困难。与人类。详细信息请参阅论文。论文下载地址:https://science.sciencemag.org/content/364/6443/859。完整参考链接:https://deepmind.com/blog/capture-the-flag-science/
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/592590.html