AI帮助我们不断优化游戏体验。 AI 现在允许NPC 更加真实地移动和战斗,赋予游戏中的兽人个性和逼真的外观。
DeepMind 的人工智能现在可以玩图形定制版本的Quake 3,像人类一样使用战略、战术和团队合作。
团队选择了夺旗(CTF)模式进行训练。在这种模式下,地图每场比赛都会改变。 AI代理必须学习通用策略以适应每个游戏的新地图。当然,这对人类来说很容易。这些特工必须作为一个团队工作,与敌方队伍竞争,并根据敌人的情况调整他们的游戏策略。
研究人员在博客文章中写道:“我们的人工智能代理需要从头开始学习如何在未知环境中从每个游戏中的单个强化信号中观察、行动、合作和竞争。”有许多人工智能代理可以像人类一样在游戏中不断学习。每个代理都由内部奖励信号驱动。这个信号可以提示你完成一个目标,比如赢得一面旗帜。智能体在快节奏和慢节奏的游戏中相互竞争以及与人类玩家竞争,以提高他们的记忆力并保持一致的行为。研究人员发现,游戏中的人工智能代理不仅比人类表现更好,而且还学习一些人类行为,例如跟踪队友和伏击发现的敌人基地。
图| 代理自动学习的三种人类行为
这项研究的一个亮点是训练一个高度适应性的代理,仅使用性能奖励和惩罚信号学习和多代理强化学习来支持复杂条件下人与机器之间的协作。
游戏规则CTF夺旗的规则非常简单,但游戏情况却非常复杂。两支玩家队伍保卫自己的地图一侧并夺取敌人的旗帜。为了获得战术优势,您可以触摸敌人并跳回重生点。 5 分钟比赛结束后,旗帜最多的球队获胜。
本研究中使用的游戏是《雷神之锤III Arena》。作为许多第一人称多人游戏的鼻祖,也是目前最流行的游戏类型,它的沉浸式游戏玩法以及策略、战术、手眼协调和团队合作的挑战吸引了数百万玩家。
在游戏中,特工必须像人类一样学习和行动,并作为一个团队共同努力对抗敌方特工、其他类似人工智能的机器人或人类。
从智能体的角度来看,《夺旗》要求玩家不仅要与队友合作对抗敌人,还要能够适应不同的游戏情况。
训练方法在训练中,每场比赛的地图都不同。因此,智能体需要学习一般策略,而不是记住特定的地图或技术。此外,为了模仿真实的游戏情况,代理以类似人类的方式探索地图。也就是说,首先观察一组图像像素,然后通过游戏控制器实现动作。
图| CTF 夺旗比赛在不断生成的新环境中进行,因此智能体必须能够适应未知的地图。
人工智能代理必须学习如何在未知的环境中观察、行动、合作和竞争,这一切都从头开始,从每场比赛的团队获胜或失败的单一强化信号开始。这是一个困难的学习问题,最终结果基于强化学习的三个一般原则。
简介:科学家最近在《星际争霸II》和《Dota 2》等复杂游戏上做了一些出色的工作。虽然本文主要关注夺旗游戏,但其对研究的贡献是普遍的,DeepMind 也期望这种方法能够应用于多种领域。复杂环境下的游戏。未来,DeepMind 希望进一步改进当前的强化学习和基于分组的训练方法。这项研究强调了多智能体训练在推进人工智能方面的潜力,利用其提供的力量并促进强大的智能体与人类团队合作的适应性的提高。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/592593.html