愤怒的小鸟4五周年纪念版怎么过(你当年没玩好的《愤怒的小鸟》)
mxj 发布:2023-06-21 08:18:59 96
作者|叶卡捷琳娜·尼科诺娃,雅各布·吉罗特,
译者|天宇
出品| AI技术大本营(ID:rgznai100)
现在说到《愤怒的小鸟》,我们不得不把人们的记忆拉回到差不多十年前。
这是当时流行的游戏。玩家可以用弹弓弹射出几只鸟。目标是摧毁所有的绿色猪,并获得尽可能高的分数。许多猪经常藏在复杂的结构中。因为顺序决策,不确定的游戏环境,复杂的状态和动作,不同功能特征的小鸟,最佳弹射时间,愤怒的小鸟很难有一个好的AI智能体。
最近,来自捷克查尔斯大学的研究人员发表了一篇论文“愤怒的小鸟的深度Q-网络”,称他们使用DDDQN(双决斗深度Q-网络)算法实现了一个深度强化学习应用,可以用来玩愤怒的小鸟。他们的目的之一是创造一个游戏代理,它可以根据玩家在前21关的以往游戏记录来突破游戏。
为了实现这一目标,他们收集了游戏记录的数据集,并为DQN游戏代理商提供了各种方案。游戏中需要做出很多关于顺序的决定,两次弹射会相互影响,每次弹射的准确性也很重要。例如,一个糟糕的决定可能会导致一头猪被几个物体卡住。因此,为了更好地完成游戏中的任务,游戏代理应该具备基于决策预测和模拟结果的能力。
以下是论文《愤怒的小鸟深度Q-网络》的概述:
相关著作
2012年,愤怒的小鸟AI大赛首次举办,众多游戏代理亮相。这里有两个优秀的代理。第一个是Datalab Birds 2014,由捷克技术大学的一个团队开发。游戏代理至今保持第三名。正如他们在论文中描述的那样,他们的主要想法是根据当前的环境、可能的弹射轨迹和鸟的类型来制定最佳策略。第二个是Eagles Wings,这是滑铁卢大学和Zazzle在2017年愤怒的小鸟AI比赛中联合开发的智能播放器。他们的经纪人目前排名第16。据说游戏代理在人工调试的结构分析基础上开发了简单的多策略能力,即在多种策略中做出选择。他们使用机器学习算法xgboost来学习决策能力。
背景介绍
为了解决《愤怒的小鸟》中的顺序决策问题,我们考虑了基于每个时间步的游戏环境ε。在每个时间步T,代理将获得观察值St,然后从可能的动作集中选择一个动作。
DQN算法的理论基础
为了模拟最佳动作值函数,我们使用深度神经网络作为非线性函数逼近器,并且我们定义了逼近函数:
如文中所述,强化学习算法与非线性函数逼近器如神经网络的结合,会出现不稳定甚至偏移,原因如下:a)序列中观测值之间的相关性;B) Q值和目标值
深度Q-learning试图用技术解决第一个问题,即体验回放。通过随机化收集的数据,这种技术消除了序列中观察值之间的相关性。我们对体验的定义如下:
为了解决第二个问题,我们需要使用下面的损失函数:
接下来,我们的DQN目标如下:
原DQN算法在动作选择和动作表现评估中都使用最大值,容易导致高估。基于这一缺陷,双Q学习算法应运而生。与传统的DQN算法只使用一个神经网络不同,现在我们使用一个网络来选择行动,然后使用另一个网络来评估所做的决定。因此,我们可以将原来的Q-learning目标改写为:
B.决斗深度Q-网络
在某些场景下,不同动作得到的数值非常接近,没必要对每个动作进行评价。在《愤怒的小鸟》中,有时候玩家会陷入无解的境地,比如小猪被一些物体卡住。在这种情况下,无论采取什么行动,结果都是一样的,所以任何行动的得分都差不多,我们只关心状态本身的得分。考虑到这些场景的优化,决斗结构应运而生。为了实现决斗Q学习结构,我们需要使用两个完全连接的层。在将卷积层的输出分成两部分后,我们需要将它们合并以获得Q函数。首先,定义价值函数:
将DQN应用于鸟类
为了将DQN应用于愤怒的小鸟,我们首先需要定义:a)状态,b)动作,c)Q-网络结构,d)奖励函数。AIBirds大赛主办方提供了可以截图比赛的软件,可以得到840x480像素的图片。图1显示了逐步处理图片的过程。
我们规定该行动是
我们的DQN结构基于Google DeepMind DQN,图2显示了我们的DQN结构。该模型包括四个卷积层,核分别为8×8、4×4、3×3和7×7,步距分别为4×4、2×2、2×2和1×1。在最后一个卷积层后面连接两个展平层,最后将它们组合生成q值。
双决斗DQN结构
奖励函数使用的技术通常称为奖励削波。该方法将大的或小的分数修剪为1或-1的分数,以表示好的动作或坏的动作。《愤怒的小鸟》的主要目标不仅仅是过关,更是活出尽可能高的分数。考虑到这一点,我们需要如下改变奖励函数:
A.训练集
我们的训练集包括经典系列《愤怒的小鸟》中的21个关卡。在训练阶段,游戏代理基于11.5万张图片进行网络训练。代理需要等待5秒后才能进行游戏的截屏。这种小的调整是必要的,以便平息由发射的鸟引起的振动。
B.验证集
我们的验证集包括经典的愤怒的小鸟系列的10个级别。由于代理人的训练重点只有红鸟、蓝鸟、黄鸟,我们只好选择没有新鸟的等级作为验证集。从第二页和第三页选择的水平比第一页更难。玩家在玩这些关卡的时候,一定要找到一些不太明显的结构弱点,提前仔细规划好策略。
结果
我们比较了几个比赛的结果,如图3所示。对比不同的代理结果,可以帮助我们了解哪种AI技术更适合《愤怒的小鸟》。然而,我们仍然想不通的是,与人类相比,这些游戏代理的表现如何。
在本文中,我们还将AI与人类进行了对比。人类参赛者可以尝试无数次,直到他们觉得自己得到了最好的成绩。我们从不同层次的人中挑选参与者。玩家1和玩家3有4年玩愤怒的小鸟的经验。玩家2很久以前玩过几次这个游戏,没有太多经验。4号玩家以前玩这个游戏,最近不怎么玩了。
如图4所示,我们的游戏代理在总分上超过了一个人类玩家,输给了其他玩家。造成这个结果的主要原因是代理过不了18级。在其他关卡中,代理可以在某些关卡超越某些玩家。总的来说,我们的DQN代理在前21关得了1007189分,它输给了四个人类玩家中的三个。所以我们机构空还是有很大提升的。
图5验证集上5位代理的性能。不出我们所料,代理商之前没见过的关卡,大部分都过不了。
愤怒的小鸟人工智能大赛结果
除了将我们的代理人与人类玩家进行对比,我们还在IJCAI-2018大会上展示了他们,并参加了愤怒的小鸟AI大赛。比赛本身由三轮组成:四分之一决赛、半决赛和决赛。每一轮,参赛的游戏代理都要面对8个从未见过的关卡。
表1显示了四分之一决赛中所有游戏代理的总得分。在所有基于神经网络的代理中,我们的DQ鸟表现最好,通过了八个级别中的三个。MYTBirds也用了神经网络,但是只过了一关。其他代理使用除神经网络之外的方法。
结论
对于AI特工来说,愤怒的小鸟永远是一项艰巨的任务。我们提出了一个基于双决斗DQN的博弈主体来解决博弈中的顺序决策问题。在目前的研究工作中,我们还没有实现的是在这个游戏中超越人类玩家。但好处是我们的代理只需要一次通关机会。有意思的是,大多数情况下,只需要一次精准的弹射就能击中要害,过关。
总之,虽然我们的代理商已经超越了之前的一些选手和AIBirds比赛的一些选手,但是还是有很大的进步空。比如我们可以尝试在奖励函数中加入超级参数。我们也可以尝试今天已经公开的所有深度强化学习优化技术。接下来,我们计划根据更多的游戏关卡来培养游戏代理。
(*本文为AI技术大本营整理文章,转载请联系微信1092722531)
◆
◆
版权说明:如非注明,本站文章均为 零度游戏网 原创,转载请注明出处和附带本文链接;
相关推荐
- 06-06收纳物语科目二怎么过 全部通关方法一览
- 06-06收纳物语造个句子怎么过 正确造句答案一览
- 06-06无期迷途EMP培养推荐 角色强度介绍
- 06-06原神恒动械画第六关怎么过 复原械画部件之六通关攻略
- 06-06收纳物语知足常乐怎么过 修脚通关流程攻略
- 06-06原神恒动械画第五关怎么过 复原械画部件之五通关攻略
- 09-24dnf罗莉安的花戒绝版了吗(罗莉安的花戒属性怎么样)
- 11-04镇魂街破晓怎么开启省电模式-开启省电模式方法
- 11-04光遇魔法工坊在哪里-魔法工坊位置
- 11-04破雪刃怎么转职-转职攻略
- 推荐资讯
-
- 09-24dnf罗莉安的花戒绝版了吗(罗莉安的花戒属性怎么样)
- 11-04镇魂街破晓怎么开启省电模式-开启省电模式方法
- 11-04光遇魔法工坊在哪里-魔法工坊位置
- 11-04破雪刃怎么转职-转职攻略
- 11-04鸣潮椿声骸怎么选择-椿声骸词条选择攻略
- 11-04龙族卡塞尔之门怎么更换队伍-更换队伍方法
- 11-04寂静岭2重制版结局是什么-结局大全
- 09-28tbc燃烧王座副本怎么过(燃烧王座boss流程详解)
- 11-04归龙潮沉浮聆长歌任务怎么做-沉浮聆长歌任务攻略
- 11-04崩坏星穹铁道2.6绳索与棍棒成就怎么达成-2.6绳索与棍棒成就达成攻略
- 最近发表
- 热门文章
- 标签列表
- 随机文章