奥飞寺黑栗子
公众号由Qbits创建,由QbitAI创建
就在几天前,OpenAI 团队在5v5 Dota 比赛中击败了人类。
目前,DeepMind也将触角伸向Quake 3 Arena,培养AI电竞的团队精神。
DM的强化学习智能体不仅要与AI队友一起攻击人类阵地,还要与人类队友并肩作战。
至少在夺旗这件事上,人工智能比人类有更高的获胜机会。
而且,这里的比赛比原来的比赛更加复杂和多样。
DeepMind 团队选择的Quake 3 Arena 是一款3D 第一人称多人游戏,也是培养AI 团队战斗技能的完美场所。
在夺旗游戏中,两队的目标都是移除对方的旗帜,并将自己的旗帜保留在自己的大本营。
因为我在蓝方,所以我需要给红方跑回来的敌人贴上一面蓝旗,这样我就可以收集我的旗帜。
如果红队把蓝旗移到他们的位置上那就糟糕了。因此,队友必须紧密配合。
规则其实很简单,但是场景变化却很复杂。
然而,DeepMind 团队也希望让事情变得更复杂,并为AI 提供更有趣的练习。
因此,我们对夺旗地图进行了一些重大更改。
不同的地图,经过训练的地图会因游戏而异。这种变化随着游戏的进行而发生。
这样,智能体就必须学习如何处理许多它以前从未见过的新地图。
DeepMind的强化学习模型有三个要点——
-首先,既然是团战,就需要将多名特工投入竞技场,一起训练。
他们必须与队友密切互动并学习如何攻击敌人。
· 其次,每个智能体必须学习自己的奖励信号并设定自己的小目标,例如拿下对手的旗帜。
优化过程是两层的,允许我们优化代理内的奖励,以便奖励信号更直接地表明获胜。
· 第三,代理以两种节奏运作:快和慢。这提高了代理使用内存和生成稳定动作例程的能力。
该神经网络架构称为FTW(For The Win)(不要颠倒字母顺序)。
这里我们有一个用于快速和慢速训练的RNN,以及一个共享存储模块,可以让我们学习如何将游戏中的特定点转换为相应的奖励。
训练有素的特工能够可靠地击败人类,他们将赢得胜利。
面对地图大小、盟友数量、敌人变量等变化,他展现出了训练有素的一面。
这是一张户外地图,红蓝双方都有AI,战斗非常激烈。
室内地图以人工智能和人类玩家的混合团队以及纯人工智能团队之间的战斗为特色。
这次,DeepMind 总共派出了**40 名人类参加战斗,与AI 随机组队。可见他们的比赛不会轻松。
毕竟,人类获胜的机会比人工智能低。
顺便说一句,无论你是强大的人类还是普通人类,你的Elo 分数都不如FTW 高。
为什么人工智能会获胜?除了AI 比人类表现更好之外,团队还想知道AI 为何获胜。
因此我们研究了人工智能的行为模式并观察它如何理解游戏。
不同颜色的点代表诸如旗帜处于该位置、您的队友持有敌人的旗帜以及您处于敌人的位置等信息。
AI在不同的战斗情况下显然会做出不同的反应。安全和危险之间有明显的区别。
有些神经元是专门为特定情况而设计的。
没有人教过人工智能游戏规则,但它仍然可以在训练过程中促进战士的发展和意识。
研究人员还发现,虽然人工智能的战斗能力是通过无监督学习发展起来的,但它们与人类相似,比如跟随队友、在敌方领土上玩耍等。
果然,即使再次被释放,AI的父亲仍然是人类。
– 就这样-
招聘实习生
Qubit正在寻找一名活动管理实习生,她将有机会规划和执行涉及人工智能明星公司首席执行官和高级管理人员的线上/线下活动,并与人工智能行业领导者直接沟通。工作地点为北京中关村。请将简历发送至quxin@qbitai.com。
具体详情请在量子位公众号(QbitAI)对话界面回复“实习生”。
量子位QbitAI·今日头条署名作者
追踪AI技术和产品新进展
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/592592.html