您当前所在位置: > 网游 > 电竞动态

史上最强Atari游戏通关算法:蒙特祖玛获分超过200万!

时间:2018-11-30 13:47:11  来源:  作者:网络

原标题:史上最强Atari游戏通关算法:蒙特祖玛获分超过200万!

来源:eng.uber

编辑:三石、肖琴

【新智元导读】Atari游戏史上最强通关算法来了——Go-Explore!蒙特祖玛获分超过200万,平均得分超过40万;Pitfall平均超过21000分!

通关Atari游戏的最强算法来了!

在强化学习中,解决经典Atari游戏《蒙特祖玛的复仇》和《Pitfall》一直是个巨大的挑战。

这些游戏代表了一大类具有挑战性的、现实世界中的问题,这些问题被称为“硬探索问题(hard-exploration problems)”,而智能体必须通过奖励(reward)来学习复杂的任务。

在采用最先进算法的情况下,蒙特祖玛的平均得分为11347分,最高得分为17500分,并在十次尝试中能通过一个关卡。然而令人惊讶的是,尽管进行了大量的研究,到目前为止还没有算法在Pitfall上得到大于0的分数。

而一个新的算法Go-Explore,能够在蒙特祖玛中获得超过200万分,平均得分超过40万分!Go-Explore非常稳定地把整个游戏都通关了,级别甚至能达到159级!

在Pitfall上,Go-Explore的平均分超过了21000分,远远超过了人类的平均成绩,并且在所有学习算法上,首次得到超过0分的成绩。要做到这一点,智能体需要穿过40个房间,摇摆于水上的绳索,跳过鳄鱼、陷阱以及滚动桶等。

总而言之,Go-Explore使得蒙特祖玛和Pitfall在技术水平上都得到了大幅度的提高。它无需涉及“人类的演示”,并且在结果和性能上完败目前最先进的算法。

Go-Explore可以从人工领域知识(domain knowledge)中获益,无需人类先行通关来演示。领域知识是最小的,很容易从像素中获得,突出了Go-Explore利用最小先验知识的能力。而即使没有任何领域知识,Go-Explore在蒙特祖玛中得分也超过了3.5万分,是目前最高水平的三倍多。

Go-Explore与其他深度强化学习算法有很大区别。它可以在许多重要的且具有挑战性的问题上取得突破性进展,尤其是机器人技术。

“稀疏奖励”和“欺骗性”是最具难度的挑战

奖励(reward)较少的问题是比较棘手的,因为随机行动不可能产生奖励,因此无法学习。《蒙特祖玛的复仇》就是一种“稀疏奖励问题(sparse reward problem)”。

更具挑战的是当奖励具有欺骗性时,这意味着在短期内最大化奖励会让智能体在获得更高分数时出错。Pitfall就是具有欺骗性的,因为许多行为会导致较小的负面奖励(比如攻击敌人),因此大多数算法学习到的结果就“不动”。

许多具有挑战性的现实问题也是既稀疏又具有欺骗性

普通的强化学习算法通常无法从蒙特祖玛的第一个房间(得分400或更低)中跳出,在Pitfall中得分为0或更低。为了解决这类挑战,研究人员在智能体到达新状态(情境或地点)时,会给他们奖励,这种探索通常被称为内在动机( intrinsic motivation,IM)。

尽管IM算法是专门设计用来解决稀疏奖励问题的,但它们在蒙特祖玛和Pitfall表现依旧不佳:在蒙特祖玛中,很少能通过第一关,在Pitfall中就完全是失败的,得分为0。

IM算法分离的例子。绿色区域表示内在奖励,白色区域表示没有内在奖励的区域,紫色区域表示算法目前正在探索的区域。

假设当前IM算法的一个主要缺点是分离,算法会忘记它们访问过的“有奖励”的区域,这意味着它们不会返回这些区域,来查看它们是否会导致新的状态。

比如,两个迷宫之间有一个智能体,首先它会随机地向西开始探索左边的迷宫,由于算法在行为或参数中加入了随机性,智能体可能在探索完左边50%的迷宫的时候,开始探索向东探索右边的迷宫。右边的迷宫探索完之后,智能体可以说已然是“遗忘”了刚才探索左边迷宫的事情了。

而更糟糕的是,左边的迷宫已经有一部分是探索过的,换句话说,智能体在左边迷宫已经“消费”了一定的奖励,当它再回头探索相同的迷宫时,不会再有更多的奖励了,这就严重的影响了学习的效果。

Go-Explore

Go-Explore算法概述

Go-Explore将学习分为两个步骤:探索和强化。

第一阶段:探索,直到解决。Go-Explore构建了一个有趣的不同游戏状态(我们称之为“单元格”)和导致这些状态的轨迹档案,在问题解决之前会一直做如下的重复:

随机选择存档中的单元格; 回到那个单元格; 从该单元格中探索(例如,随机进行n个步骤); 对于所有访问的单元格(包括新的单元格),如果新的轨迹更好(例如更高的分数),则将其作为到达该单元格的轨迹进行交换。

第二阶段:强化。如果找到的解决方案对噪声不够鲁棒(就像Atari轨迹那样),就用模拟学习算法将它们组合成一个深层神经网络。

单元格表示(Cell representation)

要在像Atari这样的高维状态空间中易于处理,Go-Explore需要一个低维的单元表示来形成它的存档。因此,单元格表示应该合并足够相似而不值得单独研究的状态。重要的是,创建这样的表示并不需要游戏特定的领域知识。最简单的单元格表示方式所得到的结果会非常好,即简单地对当前游戏框架进行下采样。

下采样单元格表示。 完全可观察状态(彩色图像)缩小为具有8个像素强度的11×8灰度图像。

返回单元格(Returning to cells)

根据环境的限制,可以通过三种方式返回单元格(在进行探索之前)。按效率排序:

在可重置环境中,可以简单地将环境状态重置为单元格的状态; 在确定性环境中,可以将轨迹重放到单元格; 在随机环境中,可以训练目标条件策略(goal-conditioned policy ),学习返回到单元。

采用稳健的深度神经网络策略的结果

试图从通关蒙特祖玛的复仇第1级的轨迹中产生稳健的策略的努力都取得了成效。平均得分为35410分,是之前最好成绩的11347分的3倍多,略高于人类专家平均水平的34900分

无领域知识的Go-Explore与其他RL算法在蒙特祖玛的复仇中的比较。图中的每一点都代表了蒙特祖玛的复仇上测试的不同算法。

添加领域知识

算法如果能集成易于取得的领域知识,这是一项重要的能力。Go-Explore提供了在cell representation中利用领域知识的机会。我们在蒙特祖玛的复仇中测试了具有领域知识的Go-Explore版本,其中cell被定义为智能体的x-y坐标、当前房间、当前关卡和当前持有的密钥数量的唯一组合。我们编写了一些简单的代码来直接从像素中提取这些信息。

使用这种改进的state representation,Go-Explore在Phase 1找到了238个房间,平均通关了超过9个关卡,并且与缩小的图像单元表示相比,模拟器步骤减少了一半。

Go-Explore在Phase 1发现的房间数量

Robustified的结果

对Go-Explore领域知识版本中发现的轨迹进行Robustifying,可以生成深度神经网络策略,可靠地解决了蒙特祖玛的复仇的前3个关卡。因为在这个游戏中,关卡3之外的所有关卡几乎都是相同的(如上所述),Go-Explore已经解决了整个游戏

事实上,我们的agent超越了它们的初始轨迹,平均解决了29个关卡,平均得分达到469209分!这打破了针对蒙特祖玛的复仇的传统RL算法和模仿学习算法的最高水平,这两种算法都以人类演示的形式给出解决方案。令人难以置信的是,Go-Explore的一些神经网络得分超过200万,达到159关!为了充分了解这些agent能够做到什么程度,我们不得不增加了OpenAI的Gym允许agent玩游戏的时间。Go-Explore的最高分数远远超过了人类1,219,200分的世界纪录,即使是最严格的“超越人类表现”的定义,它也达到了。

具有领域知识的Go-Explore与其他RL算法在蒙特祖玛的复仇游戏中的比较。红点表示以人类演示的形式给出解决方案的算法。

即使加速了4倍,这个破纪录的运行的完整视频也有53分钟。并且,agent还没有死,只是达到了时间限制(时间已经大大增加)。

Pitfall游戏

Pitfall也需要大量的探索,而且比蒙特祖玛的复仇更难,因为它的奖励更稀疏(只有32个正面的奖励分散在255个房间中),而且许多操作产生的负面奖励很小,这阻碍了RL算法探索环境。到目前为止,我们所知的RL算法还没有在这个游戏中得到哪怕是一个正面的奖励(在没有给出人类演示的情况下)。

相比之下,Go-Explore只需要最少的领域知识(屏幕上的位置和房间号,都可以从像素中获取),就能够到达所有255个房间,收集超过60000点。在没有领域知识(即缩小的像素表示)的情况下,Go-Explore找到了22个房间,但没有找到任何奖励。我们认为缩小的像素表示在Pitfall中表现不佳,因为游戏包含许多具有相同像素表示的不同状态(即游戏中位置不同、但外观相同的房间)。在没有领域知识的情况下区分这些状态可能需要考虑先前状态的状态表示,或者开发其他技术。

图:Go-Explore在Pitfall游戏的探索阶段找到的房间(左)和获得的奖励(右)

从探索阶段收集的轨迹中,我们能够可靠地对收集超过21,000点的轨迹进行强化,这大大超过了目前最优的水平和人类的平均表现。事实证明,较长的、得分较高的轨迹很难区分,这可能是因为视觉上难以区分的状态可能需要不同的行为。

Go-Explore生成的深度神经网络策略与其他RL算法在Pitfall上的比较。

Pitfall游戏中得分超过21000分的AI

三个关键见解

Go-Explore在硬探索问题上的表现非常出色,原因有三个:

1、记住探索过程中好的情况(垫脚石)

2、先回到一个状态,然后探索

3、先解决问题,然后进行强化(如果需要的话)

这些原则在大多数RL算法中都不存在,但是将它们编入其中会很有趣。正如上面所讨论的,当前的RL算法不会做第1点。第2点很重要,因为当前的RL算法通过随机扰动现行策略的参数或行为来探索新领域的环境,但当大幅打破或改变策略时,这种方法是无效的,因为不能在进一步探索之前先返回难以到达的状态。

达到某种状态所需的动作序列越长、越复杂、越精确,这个问题就越严重。Go-Explore解决了这个问题,它首先返回到一个状态,然后从那里开始探索。这样做可以进行深入的探索,从而找到问题的解决方案,然后对问题进行纠正,进而产生可靠的策略(原则3)。

值得注意的是,Go-Explore的当前版本在探索过程中采取完全随机的行动(没有任何神经网络!),甚至在对状态空间进行非常简单的离散化时,它也是有效的。尽管如此简单的探索取得了成功,但它强烈地表明,记住和探索好的垫脚石是有效探索的关键,而且即使是在其他简单的探索中这样做,也比当代deepRL方法更有助于寻找新的状态并表示这些状态。通过将其与有效的、可学习的表示形式结合起来,并将当前的随机探索替换为更智能的探索策略,Go-Explore可能会更加强大。我们正在研究这两种途径。

结论

总的来说,Go-Explore是一个令人兴奋的新算法家族,用于解决难以探索的强化学习问题,即那些具有稀疏和/欺骗性奖励的问题。它开辟了大量新的研究方向,包括不同的cell representations,不同的探索方法,不同的robustification方法,如不同的模仿学习算法等。

我们也很兴奋地看到Go-Explore在哪些领域擅长,在什么时候会失败。它给我们的感觉就像一个充满各种可能性的游乐场,我们希望你能加入我们的行列一起来研究这个领域。

我们将很快提供Go-Explore的源代码和完整论文。

相关下载

玩家评论

网易蒙特利尔工作室成立,负责人:未来两年将雇佣几十名员工_Pokemon

原标题:网易蒙特利尔工作室成立,负责人:未来两年将雇佣几十名员工 文/龙之心 近日,网易游戏宣布在加拿大蒙特利尔成立新工作室。11月14日这天,新工作室详情>>

阅读: 4
日期: 2019-11-16
中国展台“抢眼”蒙特利尔国际旅游展

原标题:中国展台“抢眼”蒙特利尔国际旅游展 中国传统面人展示吸引了不少大小观众的目光。中国驻多伦多旅游办事处供图 中新网多伦多10月27日电 (详情>>

阅读: 5
日期: 2019-10-28
谷歌宣布在蒙特利尔为Stadia开设游戏开发工作室_and

原标题:谷歌宣布在蒙特利尔为Stadia开设游戏开发工作室 据外媒报道,谷歌的Stadia服务将于11月19日首次亮相,而今年6月开始发售的特别Founder版已经在详情>>

阅读: 3
日期: 2019-10-25
逃离蒙特格兰德

《逃离蒙特格兰德EscapefromMontegrande》是一款动作游戏。开发商称游戏灵感来源于1963年的经典电影《大逃亡TheGreatEscape》,玩家将扮演一名美国战俘,被困于常年积雪的城市详情>>

阅读: 0
日期: 2019-09-07
蒙特卡洛

《蒙特卡洛Montecarlo》是一款逃离警车追捕的赛车竞速游戏。游戏中,玩家开着赛车,要躲避后面警车的追捕。前面道路崎岖,还有各种汽车挡路,后有追捕,努力把自己的生命存活的久一点详情>>

阅读: 0
日期: 2019-09-07
【逍遥小枫】行尸走肉第二季全剧情流程实况.ep4 - 克莱蒙特的求生之路

详情>>

阅读: 6
日期: 2019-08-17
网易宣布在蒙特利尔成立游戏工作室 将继续海外扩张

  不久前,网易宣布收购《黎明杀机》开发商Behaviour Interactive少数股份。今日,网易官方发布消息,日前在加拿大魁北克省蒙特利尔新城详情>>

阅读: 7
日期: 2019-07-22
网易在加拿大蒙特利尔成立研发工作室 招揽本地和国际人才

网易今日在英文官网发布了新的博客,宣布在加拿大首屈一指的电子游戏研发中心——魁北克省蒙特利尔成立一家游戏研发工作室,网易表示详情>>

阅读: 23
日期: 2019-07-22
《武器店物语》贝尔蒙特入手任务一览

武器店物语》中玩家可以使用的一个角色,贝尔蒙特是吸血鬼猎人,可以降低属性伤害,下边就给大家带来武器店物语贝尔蒙特入手的任务,帮助大家招募这个店员。 武器店物语贝尔蒙特入详情>>

阅读: 8
日期: 2019-07-03
《血狼犬》蒙特利尔国际电影节荣获银奖 扬威国

文章简介:日前,2017年第41届蒙特利尔国际电影节公布最终获奖名单。中国电影斩获颇丰。 日前,2017年第41届蒙特利尔国际电影节公布最终获奖名单。中国电影斩获详情>>

阅读: 2
日期: 2019-06-12
徐氏武侠北美《刀背藏身》入围蒙特利尔主竞赛

文章简介:最新消息,第四十一届蒙特利尔国际电影节正式公布入围名单,由徐浩峰执导的新武侠电影《刀背藏身》入围主竞赛单元,据悉,本届蒙特利尔国际电影节将于8月24日正式开幕,《刀详情>>

阅读: 4
日期: 2019-06-11
电影《血狼犬》入围蒙特利尔国际电影节

文章简介:近日,由刘建华执导,黄宏、刘向京、孙涛等主演的院线电影《血狼犬》入围第41届蒙特利尔国际电影节中国电影竞赛单元。 近日,由刘建华执导,黄宏、刘向详情>>

阅读: 2
日期: 2019-06-10
《模拟人生3:蒙特维斯塔》免DVD补丁FLT版游戏辅助下载

中文名称:模拟人生3:蒙特维斯塔发布日期:2013-01-19更新日期:--文件大小:6.0M游戏语言:英文英文名称:TheSims3:MonteVista游戏制作:TheS详情>>

阅读: 2
日期: 2019-04-17
冒险岛加入蒙特鸠

Game234问答中心有网友提出了一个比较有代表性的问题【冒险岛加入蒙特鸠】,【冒险岛加入蒙特鸠】具体问题如下:冒险岛加入蒙特鸠要怎么做?我要怎么获得“平凡的树枝”,试了很多次都不行,具体要怎么做详情>>

阅读: 8
日期: 2019-04-13
[破解补丁]《模拟人生3:蒙特维斯塔》免DVD补丁FLT版游戏辅助下载

中文名称:模拟人生3:蒙特维斯塔发布日期:2013-01-19更新日期:--文件大小:6.0M游戏语言:英文英文名称:TheSims3:MonteVista游戏制作:TheS详情>>

阅读: 2
日期: 2019-03-27
《实况足球2018》球员蒙特罗最新面部补丁游戏辅助下载

中文名称:实况足球2018发布日期:2018-07-11更新日期:--文件大小:9.5M游戏语言:英文英文名称:ProEvolutionSoccer2018游戏制作:Konami详情>>

阅读: 2
日期: 2019-03-27
《蒙特祖玛的宝藏》简体中文版下载单机游戏下载

中文名称:发布日期:2009-12-08更新日期:--文件大小:34.0M游戏语言:简体中文英文名称:游戏制作:游戏发行:上市时间:2009-12-08官方网址:运行系统:XP详情>>

阅读: 8
日期: 2019-03-26
《蒙特祖玛的宝藏2》简体中文硬盘版下载单机游戏下载

中文名称:蒙特祖玛的宝藏2发布日期:2009-12-07更新日期:--文件大小:62.2M游戏语言:简体中文英文名称:TheTreasuresofMontezuma2游戏制作:详情>>

阅读: 7
日期: 2019-03-26
《模拟人生3:蒙特维斯塔》单独资料片下载单机游戏下载

中文名称:模拟人生3:蒙特维斯塔发布日期:2013-01-19更新日期:--文件大小:1.3G游戏语言:英文英文名称:TheSims3:MonteVista游戏制作:TheS详情>>

阅读: 3
日期: 2019-03-26
《蒙特祖玛的宝藏4》绿色免安装硬盘版下载单机游戏下载

中文名称:蒙特祖玛的宝藏4发布日期:2013-09-22更新日期:--文件大小:468.0M游戏语言:英文英文名称:TheTreasuresofMontezuma4游戏制作:i详情>>

阅读: 5
日期: 2019-03-26
蒙特祖玛的宝藏系列游戏大全_蒙特祖玛的宝藏系列游戏_蒙特祖玛的宝藏系列游戏合集

导读《蒙特祖玛的宝藏》是最成功的游戏之一,此游戏是个消除类的游戏,符合“二个一换,三个一消”的基详情>>

阅读: 22
日期: 2019-03-22
【蒙特祖玛的宝藏系列】蒙特祖玛的宝藏1/2/3/4/5下载

蒙特祖玛的宝藏是一款经典的消除类休闲游戏,已经延续了很多版本,每一款的耐玩性都非常高,这里有从1-5的版本下载,想玩这类型游戏的玩家可以下载噢!TOP1:蒙特祖玛的宝藏5安卓版(休闲益智类游戏,评分:详情>>

阅读: 0
日期: 2019-02-28
《蒙特祖玛的宝藏3》安卓正版正式上线

《蒙特祖玛的宝藏3》安卓正版正式上线介绍了 如果你也是个喜欢消除类游戏的玩家,那么一定听说过《蒙特祖玛... 详情>>

阅读: 2
日期: 2019-01-19
异度之刃2格尔蒙特仓库位置介绍 异度之刃2仓库在哪

异度之刃2仓库在哪?作为给任天堂NS主机保驾护航三大作之一的异度之刃2,虽然说其掌机画质相比于塞尔达和马... 详情>>

阅读: 32
日期: 2019-01-14
《不思议迷宫》蒙特祖玛飞艇怎么样 蒙特祖玛飞艇图鉴

不思议迷宫蒙特祖玛如何 蒙特祖玛飞艇光环介绍,不思议迷宫蒙特祖玛怎么样呢?蒙特祖玛飞艇属性、主炮及光环... 详情>>

阅读: 1
日期: 2018-12-27
数字王国成立蒙特利尔办公室,预计3月1日正式开业

2018年12月18日,数字王国集团然宣布正式成立蒙特利尔办公室。这是继洛杉矶、温哥华、北京、上海、深圳、香港、台北及海德拉巴等地区之后,数字王国在全球详情>>

阅读: 4
日期: 2018-12-18
全球顶级游戏公司都喜欢在蒙特利尔开设工作室?到底为点啥?

身为游戏公司,不在蒙特利尔开个工作室,你都不好意思和人打招呼。目前全球大概有86家游戏公司在蒙特利尔开设工作室,比如华纳蒙特利尔工作室、育碧、斯克维尔等等。那为什么这些详情>>

阅读: 5
日期: 2018-12-08
华纳蒙特利尔工作室不会参加TGA 新作或与“猫头鹰法庭”有关

之前Rocksteady官方曾明确表示新作与《超人》无关,也不会在TGA上公布新情报。近日,华纳蒙特利尔工作室创意监制PatrickRedding也表示,开发团队此次不会前往TGA颁奖典礼现场,但他详情>>

阅读: 0
日期: 2018-12-05
《蝙蝠侠》官方暗示新作正在开发中 蒙特利尔工作室或将接手

  【多玩网12月4日讯】由华纳兄弟Rocksteady开发的《蝙蝠侠:阿卡姆》系列深受好评,而今日华纳旗下蒙特利尔工作室官方推特似乎暗示了将负责新作的开发。  图中开详情>>

阅读: 0
日期: 2018-12-04
《蝙蝠侠》新作暗示 蒙特利尔工作室或接手

由华纳兄弟Rocksteady开发的《蝙蝠侠:阿卡姆》系列深受好评,而今日华纳旗下蒙特利尔工作室官方推特似乎暗示了将负责新作的开发。图中开发团队身着T恤所展示的图案,便是黑暗中掌控着哥详情>>

阅读: 1
日期: 2018-12-04
华纳蒙特利尔工作室明年可能公开新的DC游戏

动画师员工经历显示2019年华纳尚有一个未公开项目,很有可能就是超人。华纳兄弟蒙特利尔游戏工作室曾经制作详情>>

阅读: 2
日期: 2018-12-03
猎人荒野的呼唤美洲地图巴尔蒙特区域各狩猎点介绍

猎人荒野的呼唤在游戏中一共有两张地图,一张是美洲,一张是欧洲。下面就给大家带来猎人荒野的呼唤美洲地图巴... 详情>>

阅读: 5
日期: 2018-10-22
蒙特祖玛的复仇!《文明6》阿兹特克文明介绍

伟大的丛林领袖蒙特祖玛回来了!这一次他将继续在《文明6》中率领阿兹特克帝国走向富强。这位神权和军权集于一身的大祭司国王,在游戏中有着怎样的特性和能力呢? 详情>>

阅读: 4
日期: 2018-10-20
《剑风传奇》推暗之翼费蒙特手办 全球限量300个!

近日,MaxFactory以《剑风传奇》暗之翼费蒙特为原型推出了一款手办,全球限量300个,预计9月发售,,游侠网 详情>>

阅读: 2
日期: 2018-09-20
《剑风传奇无双》费蒙特演示 第五魔王杀爆一切

近日《剑风传奇无双》官方放出本作最新游戏人物演示,主要展示了格里菲斯的暗之鹰...凶残割草《剑风传奇无双》PC正式版下载发布 《剑风传奇无双》PC配置公布 Steam... 详情>>

阅读: 3
日期: 2018-09-20
蒙特祖玛的宝藏3怎么小米2玩不了啊

小编为您搜罗的答案:可以玩啊详情>>

阅读: 0
日期: 2018-09-18
精彩推荐