有些人爱到忘了形结果落得一败涂地是什么歌，人类一败涂地pc6

机器心脏报告

机器之心编辑部

让单个智能体执行尽可能多的任务是DeepMind 的长期研究目标，该公司也将其视为迈向通用人工智能的唯一途径。去年，DeepMind 的MuZero 在51 款Atari 游戏上取得了超人的表现。几个月后，DeepMind 又朝这个方向迈出了一步，在该领域首次在全部57 款Atari 游戏中超越了人类。

DeepMind 在新发布的预印本论文和博客中描述了这一进展。他们构建了一个名为Agent57 的代理，该代理在街机学习环境(ALE) 数据集中的所有57 款Atari 游戏上都实现了超人的性能。

如果这是真的，Agent57 可以为构建更强大的人工智能决策模型奠定基础。并且，得分与计算量成正比，训练时间越长，得分越高。

论文链接：https://arxiv.org/pdf/2003.13350.pdf

57 雅达利游戏

使用游戏来评估智能体的表现是强化学习研究中的常用方法。一般来说，游戏中的环境是对现实世界环境的模拟，代理在游戏中能够处理的环境越复杂，它对现实世界环境的适应能力就越强。 Arcade 学习环境包含57 个Atari 游戏，为强化学习代理提供了各种复杂的挑战，因此被认为是评估代理一般能力的理想测试场。

为什么选择雅达利游戏？

1. 足够的多样性来评估智能体泛化性能

2.足够有趣，可以模拟你在真实环境中可能遇到的情况。

3. 由独立机构构建，避免实验偏差。

对于Atari 游戏，我们希望代理在尽可能多的游戏中表现良好，对当前正在玩的游戏做出最少的假设，并避免使用特定于特定游戏的信息。

DeepMind 涉足Atari 游戏很早就开始了。 2012年，他们创建了Deep Q-Network（DQN）算法来挑战Atari的57款游戏，此后又经过多次完善。不幸的是，改进后的DQN 无法克服四个更困难的游戏：《蒙特祖玛的复仇》、《陷阱》、《索拉里斯》和《滑雪》。随着Agent57 新版本的发布，这种情况发生了变化。

DQN 改进过程（图片来自DeepMind 官方博客）

强化学习挑战

为了实现当前的SOTA 性能，DeepMind 的Agent57 使用强化学习算法，同时在多台计算机上运行，这些由AI 驱动的代理确定它们在您的环境中选择的最大化奖励的操作。强化学习在视频游戏领域显示出巨大潜力——OpenAI 的OpenAI Five 智能体和DeepMind 的AlphaStar RL 智能体分别击败了99.4% 的Dota 2 玩家和99.8% 的星际争霸2 玩家。不过，研究人员指出，这并不意味着当前的强化学习方法是无敌的。

RL 存在长期单元分配（unit assignment）的问题，即根据可靠性选择最有可能产生后续好/坏结果的动作。当奖励信号存在延迟并且置信度分配必须跨越较长的动作序列时，上述问题变得特别困难。此外，强化学习还存在探索和灾难性遗忘问题。智能体可能需要执行数百个动作才能在游戏中获得第一个积极奖励，并且智能体很容易陷入在随机数据中寻找模式的过程中，或者在学习新信息时可能会突然忘记以前学过的东西。学会。

NGU（永不放弃）是一种通过在两个层面产生内在奖励来增强奖励信号的技术：单个情节中的短期新颖性激励和多个情节中的长期新颖性激励。 NGU使用情景记忆来学习一套探索和利用的策略，最终目标是利用学到的策略在游戏中获得最高分。

为了解决上述问题，DeepMind团队基于NGU构建了一种新的RL算法。 NGU的缺陷之一是它使用不同的策略来收集相同数量的经验，而忽略了不同策略在学习过程中的贡献。相比之下，DeepMind 实现在智能体的整个生命周期中实施探索策略，允许智能体根据其参与的不同游戏有针对性地学习策略。

两种AI模型+元控制器：Agent 57实现最优策略选择

Agent57整体框架（图片来自DeepMind官博）

关于Agent57的具体架构，数据收集是通过将多个参与者输入学习者可以采样的中央存储库（体验回溯缓冲区）来实现的。该缓冲区包含由参与者进程生成的定期修剪的转换序列，这些进程与游戏环境的独立、优先级副本交互。

DeepMind团队使用两种不同的AI模型来近似计算每个状态动作的值（状态动作值）。这些值可以描述代理使用特定策略执行特定操作的效果，从而允许Agent57 代理：均值和方差对应于适应和奖励。它还包括一个可以在每个参与者上独立运行的元控制器，使其能够自适应地选择在训练和评估期间使用的策略。

Agent57与其他算法的性能比较。图片来源：DeepMind。

研究人员表示，这个元控制器有两大优点：首先，在训练期间选择策略优先级允许Agent57 分配更多网络容量并更好地表示与当前任务最相关的策略。其次，在评估过程中以自然的方式选择最优策略。

实验结果

为了评估Agent57 的性能，DeepMind 团队将该算法与MuZero、R2D2 和NGU 等领先算法进行了比较。根据实践，MuZero 在所有57 场比赛中取得了最高的平均分（5661.84）和最高的中位分（2381.51），但在Venture 等游戏中表现也很差，与随机策略的分数只达到了。

事实上，与R2D2（96.93）和MuZero（89.92）相比，Agent57 具有更高的整体性能极限（100），在50 亿帧训练后，在51 场游戏中优于人类，在50 亿帧训练后，在51 场游戏中优于人类。他们在游戏中的表现也优于人类。 780 亿帧比人类还多。

研究人员随后分析了使用元控制器的效果。长期奖励游戏，例如《Solaris》和《滑雪》，代理需要长时间收集信息以了解所需的反馈，与R2D2 相比，性能也提高了近20%。

谷歌在一篇博客文章中表示：“Agent57 终于在所有基准测试中最困难的游戏中超越了人类水平，但这并不意味着雅达利研究的结束，我们不仅关注数据效率，还关注整体效率。还需要注重表现……”未来，我们可能会看到Agent57 在探索、规划和信任分配方面的显着改进。 ”

不错，但是是不是有点夸张了？

DeepMind推出Agent57后，其在每款雅达利游戏中超越人类的口号引起了业内人士的关注。不过，也有网友提出了一些疑问。

下面的网友质疑DeepMind 的“人类”说法，认为Agent57 只是比“普通人类”还要高。他以《蒙提祖玛的复仇》为例，表示Agent57的成绩（9352.01）仅比“普通人类”（4753.30）好，但无法打破人类玩家的记录1219200.0。

此外，还有人指出，DeepMind的研究一直专注于Atari等游戏的性能，应该更多地关注现实世界中的实际问题。

然而，人们对从DQN到Agent57的算法改进“树”保持着积极的态度。需要时间来验证这个方向对于强化学习的进步有多重要。

参考链接：

https://deepmind.com/blog/article/Agent57-Outperforming-the- human-Atari-benchmarkhttps://venturebeat.com/2023/03/31/deepminds-agent57-beats- humans-at-57-classic-atari-games/

本文和图片来自网络，不代表火豚游戏立场，如若侵权请联系我们删除：https://www.huotun.com/game/635460.html

有些人爱到忘了形结果落得一败涂地是什么歌，人类一败涂地pc6

相关推荐

和平精英画质怎么调？ 和平精英苹果画质设置？

和平精英月兔模式什么时候上线？

和平精英和平碎片怎么用？

和平精英怎么抽军需？ 和平精英军需怎么抽？

和平精英道具不足能改名字吗？

和平精英画质怎么调？和平精英苹果画质设置？

和平精英怎么抽军需？和平精英军需怎么抽？