机器心脏报告
机器之心编辑部
让单个智能体执行尽可能多的任务是DeepMind 的长期研究目标,该公司也将其视为迈向通用人工智能的唯一途径。去年,DeepMind 的MuZero 在51 款Atari 游戏上取得了超人的表现。几个月后,DeepMind 又朝这个方向迈出了一步,在该领域首次在全部57 款Atari 游戏中超越了人类。
DeepMind 在新发布的预印本论文和博客中描述了这一进展。他们构建了一个名为Agent57 的代理,该代理在街机学习环境(ALE) 数据集中的所有57 款Atari 游戏上都实现了超人的性能。
如果这是真的,Agent57 可以为构建更强大的人工智能决策模型奠定基础。并且,得分与计算量成正比,训练时间越长,得分越高。
论文链接:https://arxiv.org/pdf/2003.13350.pdf
57 雅达利游戏
使用游戏来评估智能体的表现是强化学习研究中的常用方法。一般来说,游戏中的环境是对现实世界环境的模拟,代理在游戏中能够处理的环境越复杂,它对现实世界环境的适应能力就越强。 Arcade 学习环境包含57 个Atari 游戏,为强化学习代理提供了各种复杂的挑战,因此被认为是评估代理一般能力的理想测试场。
为什么选择雅达利游戏?
1. 足够的多样性来评估智能体泛化性能
2.足够有趣,可以模拟你在真实环境中可能遇到的情况。
3. 由独立机构构建,避免实验偏差。
对于Atari 游戏,我们希望代理在尽可能多的游戏中表现良好,对当前正在玩的游戏做出最少的假设,并避免使用特定于特定游戏的信息。
DeepMind 涉足Atari 游戏很早就开始了。 2012年,他们创建了Deep Q-Network(DQN)算法来挑战Atari的57款游戏,此后又经过多次完善。不幸的是,改进后的DQN 无法克服四个更困难的游戏:《蒙特祖玛的复仇》、《陷阱》、《索拉里斯》和《滑雪》。随着Agent57 新版本的发布,这种情况发生了变化。
DQN 改进过程(图片来自DeepMind 官方博客)
强化学习挑战
为了实现当前的SOTA 性能,DeepMind 的Agent57 使用强化学习算法,同时在多台计算机上运行,这些由AI 驱动的代理确定它们在您的环境中选择的最大化奖励的操作。强化学习在视频游戏领域显示出巨大潜力——OpenAI 的OpenAI Five 智能体和DeepMind 的AlphaStar RL 智能体分别击败了99.4% 的Dota 2 玩家和99.8% 的星际争霸2 玩家。不过,研究人员指出,这并不意味着当前的强化学习方法是无敌的。
RL 存在长期单元分配(unit assignment)的问题,即根据可靠性选择最有可能产生后续好/坏结果的动作。当奖励信号存在延迟并且置信度分配必须跨越较长的动作序列时,上述问题变得特别困难。此外,强化学习还存在探索和灾难性遗忘问题。智能体可能需要执行数百个动作才能在游戏中获得第一个积极奖励,并且智能体很容易陷入在随机数据中寻找模式的过程中,或者在学习新信息时可能会突然忘记以前学过的东西。学会。
NGU(永不放弃)是一种通过在两个层面产生内在奖励来增强奖励信号的技术:单个情节中的短期新颖性激励和多个情节中的长期新颖性激励。 NGU使用情景记忆来学习一套探索和利用的策略,最终目标是利用学到的策略在游戏中获得最高分。
为了解决上述问题,DeepMind团队基于NGU构建了一种新的RL算法。 NGU的缺陷之一是它使用不同的策略来收集相同数量的经验,而忽略了不同策略在学习过程中的贡献。相比之下,DeepMind 实现在智能体的整个生命周期中实施探索策略,允许智能体根据其参与的不同游戏有针对性地学习策略。
两种AI模型+元控制器:Agent 57实现最优策略选择
Agent57整体框架(图片来自DeepMind官博)
关于Agent57的具体架构,数据收集是通过将多个参与者输入学习者可以采样的中央存储库(体验回溯缓冲区)来实现的。该缓冲区包含由参与者进程生成的定期修剪的转换序列,这些进程与游戏环境的独立、优先级副本交互。
DeepMind团队使用两种不同的AI模型来近似计算每个状态动作的值(状态动作值)。这些值可以描述代理使用特定策略执行特定操作的效果,从而允许Agent57 代理:均值和方差对应于适应和奖励。它还包括一个可以在每个参与者上独立运行的元控制器,使其能够自适应地选择在训练和评估期间使用的策略。
Agent57与其他算法的性能比较。图片来源:DeepMind。
研究人员表示,这个元控制器有两大优点: 首先,在训练期间选择策略优先级允许Agent57 分配更多网络容量并更好地表示与当前任务最相关的策略。其次,在评估过程中以自然的方式选择最优策略。
实验结果
为了评估Agent57 的性能,DeepMind 团队将该算法与MuZero、R2D2 和NGU 等领先算法进行了比较。根据实践,MuZero 在所有57 场比赛中取得了最高的平均分(5661.84)和最高的中位分(2381.51),但在Venture 等游戏中表现也很差,与随机策略的分数只达到了。
事实上,与R2D2(96.93)和MuZero(89.92)相比,Agent57 具有更高的整体性能极限(100),在50 亿帧训练后,在51 场游戏中优于人类,在50 亿帧训练后,在51 场游戏中优于人类。他们在游戏中的表现也优于人类。 780 亿帧比人类还多。
研究人员随后分析了使用元控制器的效果。长期奖励游戏,例如《Solaris》和《滑雪》,代理需要长时间收集信息以了解所需的反馈,与R2D2 相比,性能也提高了近20%。
谷歌在一篇博客文章中表示:“Agent57 终于在所有基准测试中最困难的游戏中超越了人类水平,但这并不意味着雅达利研究的结束,我们不仅关注数据效率,还关注整体效率。还需要注重表现……”未来,我们可能会看到Agent57 在探索、规划和信任分配方面的显着改进。 ”
不错,但是是不是有点夸张了?
DeepMind推出Agent57后,其在每款雅达利游戏中超越人类的口号引起了业内人士的关注。不过,也有网友提出了一些疑问。
下面的网友质疑DeepMind 的“人类”说法,认为Agent57 只是比“普通人类”还要高。他以《蒙提祖玛的复仇》为例,表示Agent57的成绩(9352.01)仅比“普通人类”(4753.30)好,但无法打破人类玩家的记录1219200.0。
此外,还有人指出,DeepMind的研究一直专注于Atari等游戏的性能,应该更多地关注现实世界中的实际问题。
然而,人们对从DQN到Agent57的算法改进“树”保持着积极的态度。需要时间来验证这个方向对于强化学习的进步有多重要。
参考链接:
https://deepmind.com/blog/article/Agent57-Outperforming-the- human-Atari-benchmarkhttps://venturebeat.com/2023/03/31/deepminds-agent57-beats- humans-at-57-classic-atari-games/
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/635460.html