有些人爱到忘了形结果落得一败涂地是什么歌,人类一败涂地pc6

机器心脏报告

机器之心编辑部

让单个智能体执行尽可能多的任务是DeepMind 的长期研究目标,该公司也将其视为迈向通用人工智能的唯一途径。去年,DeepMind 的MuZero 在51 款Atari 游戏上取得了超人的表现。几个月后,DeepMind 又朝这个方向迈出了一步,在该领域首次在全部57 款Atari 游戏中超越了人类。

DeepMind 在新发布的预印本论文和博客中描述了这一进展。他们构建了一个名为Agent57 的代理,该代理在街机学习环境(ALE) 数据集中的所有57 款Atari 游戏上都实现了超人的性能。

如果这是真的,Agent57 可以为构建更强大的人工智能决策模型奠定基础。并且,得分与计算量成正比,训练时间越长,得分越高。

论文链接:https://arxiv.org/pdf/2003.13350.pdf

57 雅达利游戏

使用游戏来评估智能体的表现是强化学习研究中的常用方法。一般来说,游戏中的环境是对现实世界环境的模拟,代理在游戏中能够处理的环境越复杂,它对现实世界环境的适应能力就越强。 Arcade 学习环境包含57 个Atari 游戏,为强化学习代理提供了各种复杂的挑战,因此被认为是评估代理一般能力的理想测试场。

为什么选择雅达利游戏?

1. 足够的多样性来评估智能体泛化性能

2.足够有趣,可以模拟你在真实环境中可能遇到的情况。

3. 由独立机构构建,避免实验偏差。

对于Atari 游戏,我们希望代理在尽可能多的游戏中表现良好,对当前正在玩的游戏做出最少的假设,并避免使用特定于特定游戏的信息。

DeepMind 涉足Atari 游戏很早就开始了。 2012年,他们创建了Deep Q-Network(DQN)算法来挑战Atari的57款游戏,此后又经过多次完善。不幸的是,改进后的DQN 无法克服四个更困难的游戏:《蒙特祖玛的复仇》、《陷阱》、《索拉里斯》和《滑雪》。随着Agent57 新版本的发布,这种情况发生了变化。

DQN 改进过程(图片来自DeepMind 官方博客)

强化学习挑战

为了实现当前的SOTA 性能,DeepMind 的Agent57 使用强化学习算法,同时在多台计算机上运行,这些由AI 驱动的代理确定它们在您的环境中选择的最大化奖励的操作。强化学习在视频游戏领域显示出巨大潜力——OpenAI 的OpenAI Five 智能体和DeepMind 的AlphaStar RL 智能体分别击败了99.4% 的Dota 2 玩家和99.8% 的星际争霸2 玩家。不过,研究人员指出,这并不意味着当前的强化学习方法是无敌的。

RL 存在长期单元分配(unit assignment)的问题,即根据可靠性选择最有可能产生后续好/坏结果的动作。当奖励信号存在延迟并且置信度分配必须跨越较长的动作序列时,上述问题变得特别困难。此外,强化学习还存在探索和灾难性遗忘问题。智能体可能需要执行数百个动作才能在游戏中获得第一个积极奖励,并且智能体很容易陷入在随机数据中寻找模式的过程中,或者在学习新信息时可能会突然忘记以前学过的东西。学会。

NGU(永不放弃)是一种通过在两个层面产生内在奖励来增强奖励信号的技术:单个情节中的短期新颖性激励和多个情节中的长期新颖性激励。 NGU使用情景记忆来学习一套探索和利用的策略,最终目标是利用学到的策略在游戏中获得最高分。

为了解决上述问题,DeepMind团队基于NGU构建了一种新的RL算法。 NGU的缺陷之一是它使用不同的策略来收集相同数量的经验,而忽略了不同策略在学习过程中的贡献。相比之下,DeepMind 实现在智能体的整个生命周期中实施探索策略,允许智能体根据其参与的不同游戏有针对性地学习策略。

两种AI模型+元控制器:Agent 57实现最优策略选择

Agent57整体框架(图片来自DeepMind官博)

关于Agent57的具体架构,数据收集是通过将多个参与者输入学习者可以采样的中央存储库(体验回溯缓冲区)来实现的。该缓冲区包含由参与者进程生成的定期修剪的转换序列,这些进程与游戏环境的独立、优先级副本交互。

DeepMind团队使用两种不同的AI模型来近似计算每个状态动作的值(状态动作值)。这些值可以描述代理使用特定策略执行特定操作的效果,从而允许Agent57 代理:均值和方差对应于适应和奖励。它还包括一个可以在每个参与者上独立运行的元控制器,使其能够自适应地选择在训练和评估期间使用的策略。

Agent57与其他算法的性能比较。图片来源:DeepMind。

研究人员表示,这个元控制器有两大优点: 首先,在训练期间选择策略优先级允许Agent57 分配更多网络容量并更好地表示与当前任务最相关的策略。其次,在评估过程中以自然的方式选择最优策略。

实验结果

为了评估Agent57 的性能,DeepMind 团队将该算法与MuZero、R2D2 和NGU 等领先算法进行了比较。根据实践,MuZero 在所有57 场比赛中取得了最高的平均分(5661.84)和最高的中位分(2381.51),但在Venture 等游戏中表现也很差,与随机策略的分数只达到了。

事实上,与R2D2(96.93)和MuZero(89.92)相比,Agent57 具有更高的整体性能极限(100),在50 亿帧训练后,在51 场游戏中优于人类,在50 亿帧训练后,在51 场游戏中优于人类。他们在游戏中的表现也优于人类。 780 亿帧比人类还多。

研究人员随后分析了使用元控制器的效果。长期奖励游戏,例如《Solaris》和《滑雪》,代理需要长时间收集信息以了解所需的反馈,与R2D2 相比,性能也提高了近20%。

谷歌在一篇博客文章中表示:“Agent57 终于在所有基准测试中最困难的游戏中超越了人类水平,但这并不意味着雅达利研究的结束,我们不仅关注数据效率,还关注整体效率。还需要注重表现……”未来,我们可能会看到Agent57 在探索、规划和信任分配方面的显着改进。 ”

不错,但是是不是有点夸张了?

DeepMind推出Agent57后,其在每款雅达利游戏中超越人类的口号引起了业内人士的关注。不过,也有网友提出了一些疑问。

下面的网友质疑DeepMind 的“人类”说法,认为Agent57 只是比“普通人类”还要高。他以《蒙提祖玛的复仇》为例,表示Agent57的成绩(9352.01)仅比“普通人类”(4753.30)好,但无法打破人类玩家的记录1219200.0。

此外,还有人指出,DeepMind的研究一直专注于Atari等游戏的性能,应该更多地关注现实世界中的实际问题。

然而,人们对从DQN到Agent57的算法改进“树”保持着积极的态度。需要时间来验证这个方向对于强化学习的进步有多重要。

参考链接:

https://deepmind.com/blog/article/Agent57-Outperforming-the- human-Atari-benchmarkhttps://venturebeat.com/2023/03/31/deepminds-agent57-beats- humans-at-57-classic-atari-games/

本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/635460.html

(0)
上一篇 2024年5月27日
下一篇 2024年5月27日

相关推荐

  • 和平精英画质怎么调? 和平精英苹果画质设置?

    和平精英画质怎么调? 想要调整画质时打开和平精英游戏主页,然后点击“齿轮” 打开游戏“设置”界面后点击右侧的“画面设置” 打开“画面设置”分类界面后,首先看画面品质设置,这里有5个设置项,分别是流畅、均衡、高清、HDR高清和超高清,点选即可完成设置,需要注意的是画面品质越高则耗电量会大幅增加,如果手机硬件不能支持时还会出现卡顿现象;接着看帧数设置,默认设置是…

    游戏快讯 1小时前
  • 和平精英月兔模式什么时候上线?

    和平精英月兔模式什么时候上线?  和平精英中秋月兔模式上线时间:2019年9月9日开启,每天18:00到23:59开放。 《和平精英》是由腾讯光子工作室群自研打造的军事竞赛体验手游,该作于2019年5月8日正式公测 兔兔鞋和平精英怎么获得? 兔兔鞋和平精英无法获得,因为系统不支持。 商店获得。兔子棉拖鞋这个装扮是需要在商店里面购买才可以获得的。价格…

    游戏快讯 2小时前
  • 和平精英和平碎片怎么用?

    和平精英和平碎片怎么用? 和平精英和平碎片收集完之后,可以兑换宝箱,宝箱可有机会开到皮肤 和平精英笛子怎么用? 玩家在和平精英中可以装备各种道具,包括笛子。为了使用笛子,请按照下列步骤进行: 1. 玩家需要先获得笛子,并将其装备到背包中。 2. 在游戏中,点击右下角的道具栏图标,打开道具栏界面。 3. 在道具栏界面中,选择所需使用的笛子。 4. 将鼠标或手指…

    游戏快讯 4小时前
  • 和平精英怎么抽军需? 和平精英军需怎么抽?

    和平精英怎么抽军需? 1. 品牌型号:华为nova8 系统版本:Harmony OS2.0 软件版本:和平精英1.22.36 在和平精英主页,点击右侧的【军需】。 2. 打开军需后,点击【青春游园会】这个军需活动。 3. 进入军需活动页面,点击【金币宝箱】。 4. 页面跳转后,就可以抽金币军需了。 和平精英军需怎么抽? 1. 品牌型号:华为nova8 系统版…

    游戏快讯 5小时前
  • 和平精英道具不足能改名字吗?

    和平精英道具不足能改名字吗? 和平精英目前改名字的方式只有一个,那就是通过改名卡来重新改名字! 而一般改名卡都是出现在手册里面的,其他获得方式目前我还不知道,我所知道的就是通过购买精英手册获得! 其他改名字的方式我想恐怕只有重新建立一个新的号! 所以如果你没有改名卡道具的话,目前来说是不能更改名字的 和平精英改名字后别人能找到自己吗? 在好友里,如果有对方的…

    游戏快讯 7小时前