从arXiv 选择
作者:郑英贤等
机器之心编译
参加者:李诗萌、Geek AI
对于大多数星际迷来说,打开全图的作弊码“Black Sheep Wall”应该很熟悉。如何根据当前状态预测未知信息是博弈过程的重要组成部分。韩国三星的研究人员最近将战争迷雾预测背后的战斗力信息建模为马尔可夫决策过程,该过程在《星际争霸》游戏中部分可观察,使用基于GAN 的技术来实现当前可用的最佳战争。除雾算法。
论文地址:https://arxiv.org/abs/2003.01927 项目地址:https://github.com/TeamSAIDA/DefogGAN
在本文中,我们提出了DefogGAN,一种用于推断实时战略(RTS)游戏中战争迷雾后隐藏信息状态的生成方法。给定部分可观察的条件,DefogGAN 可以生成游戏的去雾图像作为预测信息。这些信息可以产生战略情报。 DefogGAN 是一种条件GAN,它使用金字塔重建损失在多个特征分辨率尺度上进行优化。在本文中,我们使用大规模专业星际争霸视频录制数据集来验证DefogGAN。结果表明,DefogGAN 可以预测敌方建筑物和战斗单位,其准确度可与专业玩家相媲美,并且可以超越当前最好的除雾模型。
随着AlphaGo的成功,人工智能在游戏中的应用(游戏AI)获得了很多关注。经过深度强化学习训练的智能体可以在国际象棋、围棋和雅达利等经典游戏中轻松超越人类。随着任务环境变得越来越复杂,实时策略游戏(RTS) 已成为评估最先进学习算法的一种方式。如今,游戏人工智能给机器学习带来了新的机遇和挑战。游戏人工智能开发的好处是深远的,不仅限于游戏应用。随着科学代理的应用(例如预测有机化学中的蛋白质折叠)和企业商业服务的探索(例如天空机器人),游戏人工智能正在进入一个新时代。
在这篇文章中,作者提出了DefogGAN,它使用生成方式来补充战争迷雾呈现给玩家的不完整信息。本文以星际争霸——作为实验场景。这是一款RTS游戏,需要玩家制定完全不同的游戏风格和策略。发布20多年后,《星际争霸》仍然是一款非常受欢迎的电子竞技游戏。为了实现游戏AI 超越高水平人类玩家的艰巨目标,本文作者使用超过30,000 个职业玩家的游戏视频来训练DefogGAN。在星际争霸中,这样的目标很难实现。由于星际争霸长期以来的流行,玩家们制定了各种复杂的游戏策略,以及广泛应用于电子竞技场景和暴雪的Battle.net微操作技术。
图1:DefogGAN 预测值与真实值对比。友方和敌方单位在地图上分别以绿色和红色(黑色)显示。 DefogGAN 预测未被观察到的敌方单位。
战争迷雾是指没有友军、没有能见度或可用信息的区域,包括所有以前探索过但目前无人居住的区域。部分可观察马尔可夫决策过程(POMDP)非常适合解释战争迷雾问题。一般来说,POMDP 提供了涉及大量未观察变量的大多数现实世界问题的实际表示。对于游戏人工智能来说,解决一些可观察到的问题是提高性能的关键。事实上,许多现有的智能游戏人工智能设计方法都存在部分可观察性问题。最近,生成模型已被用来减少部分可观察问题的不确定性。使用生成模型预测可以提高代理性能。然而,生成方法无法完全匹配人类顶级职业选手的高级侦察技能。
《星际争霸》为研究与游戏AI 相关的复杂POMDP 问题提供了一个优秀的平台。本文的作者使用生成对抗网络构建了DefogGAN。基于生成的真实信息,DefogGAN 可以准确预测隐藏在战争迷雾中的敌人的情况。根据他们的经验,本文作者发现GAN 生成的图像比变分自动编码器(VAE) 更真实。为了生成消除战争迷雾的游戏状态,本文作者将原始的GAN 生成器修改为编码器/解码器网络。
原则上,DefogGAN 是条件GAN 的变体。通过使用跳跃连接,使用根据编码器/解码器结构学习到的残差来训练DefogGAN 生成器。除了GAN对抗性损失之外,本文作者还设置了有雾和无雾游戏状态之间的重建损失,以强调单位位置和数量的回归。本文贡献者:
DefogGAN 的开发是为了分析战争迷雾造成的游戏状态并获得有用的胜利信息。 DefogGAN 是最早基于GAN 来解决《星际争霸》中战争迷雾问题的方法。它使用跳跃连接以前馈方式维护过去的信息(序列),而不引入循环结构。为了实时使用,本文作者在模型简化实验和其他设置中凭经验验证了DefogGAN,包括对提取的游戏剪辑和当前最先进的去雾策略的测试。本文中介绍的数据集、源代码和预训练网络都是公开可用的,并且可以在线访问。
在时间t 时,DefogGAN 基于部分可观察(雾)状态生成完全可观察(雾去除)状态。在《星际争霸》中,完整的观察包括在给定时间点所有友方和敌方单位的确切位置。图2 显示了DefogGAN 的架构。本文的作者对根据当前部分可观察状态的输入计算出的特征图进行求和池化。在将过去观察的特征图输入到生成器之前,需要将它们累积并与当前状态组合。本文的作者使用预测可观察状态和实际完全观察状态之间的重建损失以及鉴别器的对抗损失来训练生成器。
图2:DefogGAN 的架构概述。
DefogGAN的生成器采用VGG网络的风格。卷积核大小固定为3*3。如果特征图大小减少一半,卷积核的数量将增加一倍。 DefogGAN不使用空间池化层或全连接层,而是使用卷积层来保留从输入到输出的空间信息。
DefogGAN 的生成器由编码器、解码器和通道组合层组成。编码器采用32*32*82 输入,并使用卷积神经网络(CNN)提取隐藏在战争迷雾中的语义特征。每个卷积层使用批量归一化和修改线性单元(ReLU) 实现非线性变换。
解码器使用语义提取的编码器特征来生成预测数据。解码过程将数据重建为更高维的数据,并使用转置卷积运算完成推理。解码器产生与输入具有相同维度的输出。考虑到较大的初始通道尺寸和更快的学习速度,它没有使用像ResNet 那么多的卷积层。
表1:x ̄_t和x~_t的混淆矩阵。使用的测试数据超过10,000帧,表格为平均值。
表1总结了DefogGAN的输入/输出统计数据,包括部分可观察状态x ̄_t、累积的部分可观察状态x~_t和真实值y_t。平均而言,54% 的单位表现为部分可观察,83% 的单位表现为累计部分可观察。请注意,累积状态会引入类型1 错误(误报),因为累积的部分可观察状态包括移动单元的先前位置,但目前这已不再现实。给定这样的输出空间,去雾问题需要从67,584 (32*32*66) 个可能的空间中选择平均141 个空间。
图4:预测结果的可视化。最左边是累积的部分可观察状态(x~_t)。第二列是部分可观察状态x ̄_t。第三列是CED(目前最好的除雾器)的预测结果。第4至7列分别是DCGAN、BEGAN、WGAN-GP和cWGAN的生成结果。 DefogGAN结果显示在第8列,最后一列是真实值。行代表用于评估的记录。
表4:DefogGAN 与其他模型的精度对比结果。
图4中的可视化结果可以有效解释DefogGAN的预测性能。随机选择四组视频来提供每个模型预测的去雾后的完整观察状态。例如,在视频4中,红色敌方单位在部分可观察状态x ̄_t的右下角不可见。同时,在累积的部分可观测状态x~_t中,只有敌方单位的子集可见。 DefogGAN 可以使用观测值和累积观测值来生成与真实值非常相似的完全可观测状态y_t。 CED 还产生相当可靠的完整状态,但DefogGAN 产生更准确的结果。 WGAN-GP 还可以产生可靠的完整状态,而不会造成重建损失,但容易产生误报(低准确度)结果。虽然cWGAN(使用重建损失的WGAN-GP的变体)似乎降低了误报率,但DefogGAN的预测仍然更好。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/598038.html