奥飞寺的栗子
量子比特报告| 公众号QbitAI
人工智能团队的表现优于人类团队。
人工智能与人类合作,并且仍然远远优于人类。
为了训练强化学习AI 的团队协作能力,DeepMind 选择了Quake 3 Arena 的夺旗游戏。
从去年到今年,人工智能不断发展。
现在,即使反应速度下降到人类水平,计分精度下降,胜率仍然高于人类。
AI的学习资源只是第一视角看到的比赛场景和比分,无法获得像人类那么多的信息。
当AI打败柯洁时,我们说AI不配合,当AI赢得Dota 2世界冠军时,我们说冠军反应速度不公平。
但现在我们能做的就是看到DeepMind 出现在最新一期《科学》杂志上。
然后观察这些人工智能如何发展,它们知道如何相互协作以及与人类协作。
严酷的训练场
“夺旗”游戏是这样的:
每个队伍都有自己的大本营,目标是将自己的旗帜插在大本营上,并拔掉对方的旗帜。
如果我在蓝队,看到敌人举着蓝旗奔跑,我就必须用激光标记他们。
就这样,蓝旗被收回,敌人被送回故土。
5分钟内从对方手中拔取旗帜最多的队伍获胜。
最初,Quake 3 Arena 只有五张地图,而Team Arena 只有几十张地图。
为了让AI 接受更严格的训练,DeepMind 随机生成了许多原本游戏中没有的地图。
在这些领域,DeepMind 同时训练了30 名智能体。它的主要原理是LSTM。
这30位AI选手总共打了45万场比赛。
这个过程需要时不时地移除表现不佳的AI,并用顶级AI玩家的突变版本(突变)取代它们。这就是进化算法的思想。
最终,最佳人工智能被选出并命名为“For the Win”(FTW)。
除了碾压人类之外,他们还利用游戏漏洞。
接下来,测试一下FTW的实力。
首先,人类与机器之间存在混战。 DeepMind 找到了40 名人类,并将他们与人工智能随机分组。
因此,AI玩家的个人胜率远高于人类。
研究人员发现,人工智能不仅可以与人类和人工智能协作,还可以形成经典的团队作战策略。
例如,如果您参与枪战,您可以跟随队友并在数量上超过他们。
你也可以在敌人的大本营附近徘徊,让你的盟友接管并在获得旗帜后立即跑回来。
除了人类经常使用的这些例程之外,人工智能还发明了全新的策略。
利用游戏中的一个错误,你可以通过从后面射击队友来提高你的速度。除了证实这一现象之外,研究团队还想知道为什么人工智能发展出了如此多的技能。因此,我们研究了AI的行为模式,观察它如何理解游戏。
不同颜色的点代表诸如旗帜位于该位置、队友已占领敌人的旗帜或您位于敌人的位置等信息。 AI在不同的战斗情况下显然会做出不同的反应。安全和危险之间有明显的区别。
调整到同一起跑线
尽管人工智能在第一场混战中碾压了人类,但DeepMind 团队相当合理地认为:
人工智能相对于人类的主要优势是,首先,反应时间更快,其次,射击准确(感觉有些不对劲)。
因此团队手动将反应时间减慢至人类水平的约267毫秒,并将射击精度从80%降低至约48%,与人类相同。
然后游戏重新开始,这一次真人与机器之间的战斗开始了。
人类队伍分为普通人类和强者。
结果,人类强者组成的队伍对AI的胜率只有21%。
对于人类来说,唯一值得庆祝的事情是:
当AI加入人类队伍,与纯AI队伍交手时,人类队伍最终战胜了AI队伍。
我只是猜测,但这可能意味着“人类是猪的队友,对吗?”
科学文章传送门:
https://science.sciencemag.org/content/364/6443/859
科学报告门户:
https://www.sciencemag.org/news/2023/05/artificial-intelligence-learns-teamwork-deadly-game-capture-flag
OpenAI 博客门户内容已更新。
https://deepmind.com/blog/capture-the-flag-science/
– 就这样-
诚信招聘
量子比特现招聘一名编辑/记者,驻地北京中关村。我们正在寻找有才华和热情的学生加入我们!详情请在量子位公众号(QbitAI)对话界面回复“招聘”。
量子位QbitAI·今日头条署名作者
追踪AI技术和产品新进展
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/576184.html