您当前所在位置: > 网游 > 网游百科

深度强化学习从入门到大师:以刺猬索尼克游戏为例讲解PPO(第六部分)

时间:2019-06-18 00:05:17  来源:  作者:网络

原标题:深度强化学习从入门到大师:以刺猬索尼克游戏为例讲解PPO(第六部分)

Proximal Policy Optimization (PPO) with Sonic the Hedgehog 2 and 3

作者 | Thomas Simonini

翻译 | 安石徒 校对 | 斯蒂芬•二狗子

审核 | 邓普斯•杰弗 整理 | 菠萝妹

https://towardsdatascience.com/proximal-policy-optimization-ppo-with-sonic-the-hedgehog-2-and-3-c9c21dbed5e

深度强化学习从入门到大师:以刺猬索尼克游戏为例讲解PPO

(第六部分)

几周前,OpenAI在深度强化学习上取得了突破性进展。由5个智能体的组成的人工智能团队OpenAI five击败了现实中的DOTA2玩家。但遗憾的是,该人工智能团队输掉了随后的第二场比赛。

Dota2

这个突破性进展的取得得益于强大的硬件支持和 PPO 算法(近端策略优化 Proximal Policy Optimization)。

PPO的核心思想是避免采用大的策略更新。为此,我们采用变化率表明新旧策略的不同,并缩减该变化率在0.8到1.2之间以保证策略更新不大。

此外,PPO的另一项创新是在训练智能体的k个epochs过程中使用了小批量梯度下降法。你可以读我们之前已经实现的这篇文章 A2C with Sonic The Hedgehog。

今天,我们将深入了解PPO结构,并应用PPO来训练智能体学习玩刺猬索尼克系列1,2,3。

但是,如果想要理解好PPO,你首先需要掌握A2C( 建议先阅读上一篇文章简单介绍A2C (第五部分))

策略梯度(PG)目标函数存在的问题

曾记否,在学习策略梯度时,我们了解了策略目标函数(或策略损失函数)。

PG的思想是采用上面的函数一步步做梯度上升(等价于负方向的梯度下降)使智能体在行动中获取更高的回报奖励。

然而,PG算法存在步长选择问题(对step size敏感):

  • 步长太小,训练过于缓慢
  • 步长太大,训练中误差波动较大

面对训练过程波动较大的问题时,PPO可以轻松应对。

PPO近端策略优化的想法是通过限定每步训练的策略更新的大小,来提高训练智能体行为时的稳定性。

为了实现上述想法,PPO引入了一个新的目标函数“Clipped surrogate objective function”(大概可以翻译为:裁剪的替代目标函数),通过裁剪将策略更新约束在小范围内。

裁剪替代目标函数 Clipped Surrogate Objective Function

首先,正如我们在stackoverflow中的解释,我们不采用智能体行动的对数概率logπ(a|s)(vanilla policy gradient method )来跟踪智能体行动的效果,而是使用当前策略下的行动概率(π(a|s))除以上一个策略的行动概率 (π_old(a|s))的比例:

摘自PPO论文:PPO paper

如上所示,rt(θ)表明了新旧策略间概率比:

  • 若 rt(θ)>1,则当前策略下的行动比原先策略的更有可能发生。
  • 若 rt(θ)⊂(0,1),则在当前策略下行动发生的概率低于原先的。

据此,新的目标函数可如下所示:

摘自PPO论文:PPO paper

但是,如果你当前策略的行动的可能性远高于之前策略的情况下,此时不对目标函数进行约束, 那么 rt(θ)的值就会非常大,还会导致PG采取可能破坏策略的大梯度更新。

因此,需要对目标函数进行约束,惩罚那些导致rt(θ)远离1的变化(本文中比率仅允许在0.8和1.2之间),这样可以确保不会发生大的策略更新。

为此,我们有两个解决方案:

  • TRPO(Trust Region Policy Optimization,置信区间策略优化)采用的KL散度来约束策略更新(注:使用目标函数之外的KL散度,来约束需要更新的策略数目,以保证梯度单调上升;此外还有其他方法,例如ACER,Sample Efficient Actor-Critic with Experience eplay)。但是TRPO这种方法使用起来过于复杂,且耗费更多的计算时间。
  • 使用PPO优化的裁剪替代目标函数。

裁剪替代目标函数

通过该函数,得到两个概率比,一个非裁剪的和一个裁剪的(在[1 - ?, 1+?]区间,?是一个帮助我们设置范围的超参数,本文中? = 0.2)。

然后,我们选择裁剪和非裁剪中的最小值,最终得到的值范围是小于非裁剪的下界的区域。

为此,我们需要考虑两种情况case:

摘自PPO论文

  • case 1: 当优势A>0

如果Ȃt > 0,即该行动好于在该状态下的行动得分的平均值。因此,我们应鼓励新策略增加在该状态下采取该行动的概率。

也就增加了概率比r(t),增加了新策略的概率( At* 新的策略概率),同时令分母上的先前策略保持不变。

因为进行了裁剪,所以rt(?)最大只能增长到1+ ?。这意味着当前行动概率相较于原先策略不可能上百倍地提高。

为什么要这样做?因为我们不想过度更新策略。在该状态下采取这个行动的估计结果只是一次尝试的得出结果,并不能证明这个行动总是有较高的正向回报(说白了,防止陷入局部最优值),因此,我们就不要贪婪地学习,以防止智能体选择糟糕的策略。

总而言之,在(行动对结果)是积极作用的情况下,需要(在这步梯度上升中)增加一点该行动的概率,但不是太多。

  • case 2:当优势A<0

如果Ȃt < 0,即该行动为导致消极结果的行动,应该被阻止。因此概率比rt(?)会被减少。但同时进行裁剪,使rt(?)最小只能将降低到1- ?。

同样,我们不想最大化减少该行动被选中的概率,因为这种贪婪学习会导致策略过大的改变,以至于变得糟糕也说不定。

总而言之,多亏裁剪替代目标函数,我们约束了新策略相对旧策略两种情形下的变动范围。于是,我们把概率比控制在小区间内,因此,这种裁剪有利于求策略梯度。如果概率在[1 - ?, 1+?]区间外,梯度值为0。

最终的裁剪替代目标损失函数:

使用PPO优化的A2C类型智能体学习玩索尼克系列游戏

现在,我们将准备实现一个A2C类型的PPO智能体。A2C类型训练包括该文中所述的A2C过程。

同样,这个代码实现比以前的代码要复杂好多。我们要开始复现最先进的算法,因此需要代码的更高的效率。这也是为什么,我们将整个代码分为不同对对象和文件来实现。

为了实现一个PPO智能体,需要读一读如下包含完成PPO过程的笔记和代码解释:

这个实现在GitHub仓库中 。
Understand PPO implementation playing Sonic the Hedgehog 2 and 3

如上所述,你已经创建了一个学习如何玩刺猬索尼克系列游戏1,2,3的智能体。太棒了!一个好的智能体需要在一个GPU上训练10到15小时。

别忘了自己亲自实现代码的每一个部分,因为调试完善代码是非常重要的。尝试更改环境,调整超参,尝试是学习的最佳途径也是最大乐趣。

花点时间来想想我们从第一节课到现在取得的所有成就:从简单的文本游戏(OpenAI taxi-v2)到像毁灭战士、索尼克这些复杂的游戏,我们采用越来越强大的模型结构。这真是极好的!

下一回,我们将学习深度强化学习中最有趣的的新内容之一——好奇心驱动的学习。

深度强化学习从入门到大师:以刺猬索尼克游戏为例讲解PPO(第六部分)】:

https://ai.yanxishe.com/page/TextTranslation/1408

【点击查看本系列文章

深度强化学习从入门到大师:简介篇(第一部分)

深度强化学习从入门到大师:通过Q学习进行强化学习(第二部分)

深度强化学习从入门到大师:以Doom为例一文带你读懂深度Q学习(第三部分 - 上)

深度强化学习从入门到大师:进一步了解深度Q学习(第三部分 - 下)

深度强化学习从入门到大师:以 Cartpole 和 Doom 为例介绍策略梯度 (第四部分)

深度强化学习从入门到大师:简单介绍A3C (第五部分)

7分钟了解Tensorflow.js在Keras中理解和编程ResNet如果你想学数据科学,这 7 类资源千万不能错过深度学习目标检测算法综述一文教你如何用PyTorch构建 Faster RCNN

责任编辑:

相关下载

玩家评论

漫威宇宙“死亡”次数最多的男人!下次登场可能会影响《复联5》!_尼克·弗瑞

原标题:漫威宇宙“死亡”次数最多的男人!下次登场可能会影响《复联5》! 小伙伴们下午好啊,昨天我们聊“漫威宇宙可能会复活的角色”,有留言就说了,漫威详情>>

阅读: 1
日期: 2020-04-03
搞笑段子:小姐,我们监控到您的手机忘记在马桶盖上了_尼克

1.同事今天来上班,脚一跛一跛的,问他怎么了。他说他老婆心情不好。我说:“你家庭地位不高啊,老婆心情不好居然揍你泄愤。”他叹了一口气:“不是,老婆没揍我泄愤,她详情>>

阅读: 0
日期: 2020-04-03
段子:老公去出差了,好难过!老公回来了,好高兴!_尼克

媳妇特别爱我,也特别离不开我。因为我一出差她就把微信个性签名改成“老公去出差了,好难过”。我一回来就变成了“老公回来了,好高兴”。我真幸福… 熊孩子长大详情>>

阅读: 1
日期: 2020-03-29
GTA开发商:新冠疫情可能改变游戏行业的工作方式_泽尔尼克

原标题:GTA开发商:新冠疫情可能改变游戏行业的工作方式 日前据国外媒体报道,《荒野大镖客2》、《GTA》、《天外世界》等游戏的发行商Take-Two首席执详情>>

阅读: 10
日期: 2020-03-13
挑战“地狱之口”:冒险家尼克·沃伦达在活火山口上方完成走钢丝

据外媒CNET报道,当地时间周三冒险家尼克·沃伦达(Nik Wallenda)完成了在活火山口上方进行走钢丝挑战的壮举,仿佛是童年游戏《The Floor Is Lava》的现详情>>

阅读: 9
日期: 2020-03-06
游戏《守望先锋》《暗黑破坏神》将拍成动画剧集_尼克·凡·戴克

原标题:游戏《守望先锋》《暗黑破坏神》将拍成动画剧集 知名游戏《守望先锋》正在开发动画剧集 1905电影网讯2月17日,据动视暴雪影业联合主席尼克详情>>

阅读: 9
日期: 2020-02-17
著名游戏《守望先锋》《暗黑破坏神》将改编为动画_尼克·范迪克

原标题:著名游戏《守望先锋》《暗黑破坏神》将改编为动画 2月17日,动视暴雪联合总裁尼克·范迪克(Nick Van Dyk)近日透露,暴雪旗下著名游戏《守望先锋详情>>

阅读: 6
日期: 2020-02-17
暴雪游戏《守望先锋》和《暗黑破坏神》将改编为动画_尼克·范迪克

原标题:暴雪游戏《守望先锋》和《暗黑破坏神》将改编为动画 上下图分别为游戏《暗黑破坏神》和《守望先锋》概念海报。 新京报讯 (记者 李妍)2月17详情>>

阅读: 6
日期: 2020-02-17
紫格尼克效应在教育游戏中的应用_设计

原标题:紫格尼克效应在教育游戏中的应用 你不妨试一下:一笔画个圆圈,在交接处有意留出一小段空白。回头再瞧一下这个圆吧,此刻你脑子里必定会闪现出详情>>

阅读: 3
日期: 2020-01-01
黑人问号球星求婚成功前NBA湖人勇士队球星尼克扬求婚成功

【导读】今日据新浪娱乐报道,黑人问号表情包本尊NBA球星“杨少侠”尼克扬(Nick Young)在圣诞节当天向女友求婚成功,并在微博分享了求婚现场。--> 详情>>

阅读: 6
日期: 2019-12-27
Uber创始人卡兰尼克宣布离开董事会

原标题:Uber创始人卡兰尼克宣布离开董事会 PingWest品玩12月25日讯,据报道,创立出行服务公司优步(Uber)约10年后,特拉维斯·卡兰尼克(Travis Kalanick)24详情>>

阅读: 9
日期: 2019-12-25
【钛晨报】美团app迎来重要人事调整;宝马因销量造假被美国SEC调查;Uber联合创始人卡兰尼克将退出董事会

原标题:【钛晨报】美团app迎来重要人事调整;宝马因销量造假被美国SEC调查;Uber联合创始人卡兰尼克将退出董事会 图片来源:视觉中国 【钛媒体综合】12详情>>

阅读: 7
日期: 2019-12-25
尼克·杨儿子打球,一看就是亲生的_问号

原标题:尼克·杨儿子打球,一看就是亲生的 他是尼克·杨,曾经的NBA单打王,也许有人对他不熟悉,但你一定见过“黑人问号脸”表情包。他儿子小尼克·杨如详情>>

阅读: 7
日期: 2019-12-18
美众议院公布300页弹劾调查报告:特朗普滥权,还不如尼克松

原标题:美众议院公布300页弹劾调查报告:特朗普滥权,还不如尼克松 2019年12月3日,美国华盛顿特区,美国国会众议院情报委员会公布了针对美国总统特朗普详情>>

阅读: 8
日期: 2019-12-04
《辐射避难所ol》尼克瓦伦坦配件推荐 尼克瓦伦坦用哪些配件

导 读 辐射避难所ol是一款末日题材策略类型手游,尼克瓦伦坦是一个辅助类英雄,那他的配件要怎么搭配呢?接下来小编带来辐射避难所ol尼克瓦伦坦配件推荐,希望能帮助到大家。 尼克详情>>

阅读: 12
日期: 2019-11-27
反手更适合40+大球的涩性套胶,不懂器材的小白,先它准没错_尼克

原标题:反手更适合40+大球的涩性套胶,不懂器材的小白,先它准没错 多尼克F1一直是我反手常用套胶。虽然目前还在用的套胶很多,TSP的vatus speed、大巴详情>>

阅读: 9
日期: 2019-11-25
荒野大镖客2多米尼克鸡信息介绍-荒野大镖客2多米尼克鸡出现地点介绍

在《荒野大镖客2》游戏中,出现了很多动物,玩家可以击杀它们。其中就有多米尼克鸡,它是杂食性动物,可以产出肉和羽毛,小编为大家带来《荒野大镖客2》多米尼克鸡图鉴一览,一起来看详情>>

阅读: 77
日期: 2019-11-17
荒野大镖客2多米尼克公鸡信息介绍-荒野大镖客2多米尼克公鸡出现地点介绍

在《荒野大镖客2》游戏中,出现了很多动物,玩家可以击杀它们。其中就有多米尼克公鸡,它是杂食性动物,可以产出肉,小编为大家带来《荒野大镖客2》多米尼克公鸡图鉴一览,一起来看吧详情>>

阅读: 30
日期: 2019-11-17
套现7亿美元,致股价大跌,优步创始人卡兰尼克到底在干啥?

原标题:套现7亿美元,致股价大跌,优步创始人卡兰尼克到底在干啥? 11月15日消息,Uber联合创始人及董事特拉维斯·卡兰尼克(Travis Kalanick)本周出售了价值详情>>

阅读: 16
日期: 2019-11-16
2019超有趣的冷笑话,笑料十足,让你分分钟笑喷!_尼克

一、记得以前小时候写作文,扶完老奶奶过马路后,老奶奶总会问:“谢谢你,小朋友,你叫什么名字?”我说:“我叫红领巾!”现在的小朋友写作文不一样了——扶完老奶奶过马路,详情>>

阅读: 8
日期: 2019-11-16
章鱼哥当主角!Netflix将推出《海绵宝宝》衍生剧_尼克

原标题:章鱼哥当主角!Netflix将推出《海绵宝宝》衍生剧 讯据《纽约时报》,《海绵宝宝》将推出一部以章鱼哥为主角的衍生作品,Netflix与尼克频道已签详情>>

阅读: 4
日期: 2019-11-14
【乒器观察】无限接近狂飚3的胶皮,到底有哪些?-乒乓国球汇_尼克

原标题:【乒器观察】无限接近狂飚3的胶皮,到底有哪些?-乒乓国球汇 发现装备新鲜资讯,尽在每周乒器观察~ 正手用多尼克S1拉冲过去的球,被球友评价: 拉出详情>>

阅读: 14
日期: 2019-11-14
为了薅EA的羊毛,北美顶尖FIFA玩家决定集体假赛_尼克

原标题:为了薅EA的羊毛,北美顶尖FIFA玩家决定集体假赛 高手的薅羊毛,能叫……吗? 前一阵,知名FIFA玩家和油管主播尼克爆料,北美顶尖FIFA玩家圈子集体假详情>>

阅读: 11
日期: 2019-11-09
IronStudios公布《蜘蛛侠:英雄远征》尼克弗瑞雕像

原标题: Iron Studios 公布《蜘蛛侠:英雄远征》尼克弗瑞雕像 继蜘蛛侠,神秘客之后,Iron Studios 再推出电影《蜘蛛侠:英雄远征》雕像,这次是神盾局局长详情>>

阅读: 9
日期: 2019-10-22
IronStudios公布《蜘蛛侠:英雄远征》尼克弗瑞雕像_地台

原标题: Iron Studios 公布《蜘蛛侠:英雄远征》尼克弗瑞雕像 继蜘蛛侠,神秘客之后,Iron Studios 再推出电影《蜘蛛侠:英雄远征》雕像,这次是神盾局局长详情>>

阅读: 8
日期: 2019-10-22
美国的阿喀琉斯之踵:尼克松政府与EC-121事件的处理

1969年4月15日,美国海军舰队空军第一侦查中队EC-121飞机从日本厚木空军基地起飞,到日本海上空执行例行侦察任务,飞机上载有31名机组成员及6吨装备。东方标准时间下午十一时五十详情>>

阅读: 6
日期: 2019-10-13
饲养尼克宠物硬盘版

游戏介绍【游迅小编Jeffrey亲测可玩】(测试环境)【游戏简介】 我们的Nick卡通英雄们正在拯救宇宙,现在需要由你来照顾它们的伙伴—这些都是非常有名的尼克宠物!其中包详情>>

阅读: 0
日期: 2019-09-06
1972年尼克松访华,蒋介石愤怒的说了4个字,字字戳心

原标题:1972年尼克松访华, 蒋介石愤怒的说了4个字, 字字戳心 1972年尼克松访华,蒋介石愤怒的说了4个字,不禁老泪纵横!1949年10月1日毛主席在天安门城详情>>

阅读: 15
日期: 2019-09-05
加拿大政府选定多米尼克·巴顿为新的驻华大使

原标题:加拿大政府选定多米尼克·巴顿为新的驻华大使 多米尼克·巴顿/图自网络 加拿大总理特鲁多当地时间9月4日选定其经济顾问详情>>

阅读: 11
日期: 2019-09-05
FC与MD《马力欧与索尼克 2020东京奥运》公开复古模式_任天堂SWITCH_电玩迷

  世嘉今日宣布旗下与任天堂联动推出的奥运主题Switch体育游戏《马力欧与索尼克 2020东京奥运》日版将于2019年11月1日发售,北美地区为11月5日,欧洲地区为11月8日。同时官方详情>>

阅读: 17
日期: 2019-08-21
3DM早报_索尼克

原标题:3DM早报 欢迎来到《3DM早报》,今天是2019年8月21日周三,农历己亥年七月二十一。第一时间了解下今天都有哪些最新的资讯吧! 《马力欧与索尼克AT详情>>

阅读: 6
日期: 2019-08-21
《马力欧与索尼克 AT 2020东京奥运》2D模式宣传片公开

世嘉今日宣布《马力欧与索尼克 AT 2020东京奥运》将加入10种来自1964年东京夏季奥运会的比赛项目,这些赛事将以2D像素风格呈现。本作将于11月5日在北美地区,11月8日在欧洲地区详情>>

阅读: 16
日期: 2019-08-21
黑色洛城中文版解说攻略 第二十三期:尼克尔森电镀厂

详情>>

阅读: 19
日期: 2019-08-20
【解说们的日常】你们这帮渣渣!索尼克全明星赛车娱乐实况

详情>>

阅读: 51
日期: 2019-08-18
逍遥小枫的游戏实况 2019 第32集 老朋友尼克莱伊,决战金色野猪!|孤岛惊魂5#14

详情>>

阅读: 46
日期: 2019-08-17
优衣库联动像素风经典游戏 索尼克魂斗罗均有款式

今日(8月5日),优衣库正式宣布与像素风经典游戏进行联动,此次联动游戏报包括索尼克、吃豆人等经典作品。 从官网公布的商品详情来看,详情>>

阅读: 21
日期: 2019-08-05
优衣库联动像素风经典游戏 索尼克、吃豆人亮相

  优衣库今天宣布将于9月推出多款像素风游戏的联动T恤,本次推出的新款UT再现了多款1980-90年代像素风经典游戏的风采,一起来欣赏一下详情>>

阅读: 9
日期: 2019-08-05
《尼克松在中国》美国歌剧中的毛泽东

详情>>

阅读: 4
日期: 2019-07-31
RPG编年史:索尼的盛宴,DQ5勇者斗恶龙5,PS2复刻版_尼克斯

原标题:RPG编年史:索尼的盛宴,DQ5勇者斗恶龙5,PS2复刻版 文接上回,上回我们讲到了艾尼克斯终于将复刻版做到了PS平台上,而且也尝到了复刻的甜头。但是在32详情>>

阅读: 23
日期: 2019-07-26
RPG编年史:冷饭重制的典范,DQ4勇者斗恶龙4,PS复刻版_尼克斯

原标题:RPG编年史:冷饭重制的典范,DQ4勇者斗恶龙4,PS复刻版 文接上回,上次囧王者聊到了艾尼克斯在SFC上复刻了DQ123代,大获成功。这种冷饭新炒的方式,让艾详情>>

阅读: 94
日期: 2019-07-26
精彩推荐