您当前所在位置: > 电竞 > 昔日回顾

Dropout的前世与今生

时间:2019-09-05 17:24:57  来源:  作者:网络

原标题:Dropout的前世与今生

选自arXiv

者:Alex Labach等

机器之心编译

参与:Geek AI、张倩

Dropout 是一类用于神经网络训练或推理的随机化技术,这类技术已经引起了研究者们的广泛兴趣,并且被广泛地应用于神经网络正则化、模型压缩等任务。虽然 Dropout 最初是为密集的神经网络层量身定制的,但是最近的一些进展使得 Dropout 也适用于卷积和循环神经网络层。本文总结了 Dropout 方法的发展历史、应用以及当下的研究热点,还详细介绍了研究者们提出的重要方法。

图 1:一些目前提出的 Dropout方法,以及 2012 到 2019 年间 Dropout 方法的理论进展。

标准的 Dropout

2012 年提出的原始 Dropout 方法为避免前馈神经网络中出现的过拟合现象提供了一种简单的技术[1]。在每轮迭代中,网络中的每个神经元以 p 的概率被丢弃。当训练完成后,尽管神经元的输出要乘以该神经元被丢弃的概率 p,整体的网络架构还是会被使用。这样做抵消了没有神经元被丢弃的神经网络尺寸过大的影响,并且可以被解释为在训练时可能出现的网络上取平均。每一层的 dropout 概率可能不尽相同,原始的 Dropout 论文建议输入层的 p=0.2,而隐藏层的 p=0.5。输出层中的神经元不会被丢弃。这种技术通常被简称为 Dropout,但是处于本文论述的需要,我们将其称之为标准 Dropout,从而将其与其它的 Dropout 方法区分开来。该方法如图 2 所示。

图 2:标准 Dropout 的示例。左侧为全连接网络,右侧的网络以 0.5 的概率丢弃神经元。输出层并没有应用 Dropout。

从数学上来说,神经网络层训练过程中使用的标准 Dropout 的行为可以被写作:

其中 f(·)为激活函数,x 是该层的输入,W 是该层的权值矩阵,y为该层的输出,而 m 则为该层的 Dropout 掩膜(mask),mask 中每个元素为 1 的概率为 p。在测试阶段,该层的输出可以被写作:

用于训练的 Drpout 方法

本节介绍了重要的 Dropout 方法。和标准的 Dropout 一样,他们通常被用来在训练时正则化密集的前馈神经网络层。这些方法中的大多数都直接受到了标准 Dropout 的启发,并寻求提高其速度或正则化的有效程度。

基于标准 Dropout 最早提出的变体之一便是由 Wan 等人[3]于 2013 年提出的 dropconnect。该方法是对 Dropout 的一种泛化,其中每个神经元的权重或偏置以一定的概率被设置为 0,而不是将神经元的输出设置为 0。因此,在训练时,某个网络层的输出可以被写作:

其中各变量的定义与公式(1)中相同,但是这里使用了一个 Dropout mask 矩阵,而不是 mask 向量。Dropoutconnect 如图 3 所示。

图 3:Dropconnect 的示例。右侧的网络以 0.5 的概率将权值设置为 0。

Standout[4]是一种试图通过自适应地选择待丢弃的神经元(而不是随机丢弃)来改进标准 Dropout的 Dropout 方法。这个过程是通过在神经网络上叠加一个控制神经网架构的二值信念网络实现的。针对原始神经网络中的每一个权值,Standout 都会在二值信念网络中为其添加一个相应的权值参数。在训练时,某一层的输出可以被写作:

其中各变量的定义与公式(1)相同,但是W 代表作用于该层的信念网络的权值,而 g(·)代表信念网络的激活函数。

Fast Dropout[5]通过从贝叶斯的角度解释 Dropout 方法,提供了一种更快速地进行类似于 Dropout 的正则化的方式。Fast Dropout 的作者表明,带有 Dropout 的网络层的输出可以被看做是从一个潜在的分布(可以近似为高斯分布)中进行采样。然后可以直接从这个分布中采样,或者使用它的参数来传播关于整个 Dropout 集合的信息。该技术可以比标准 Dropout 更快地进行训练(在标准 Dropout 中,一次只采样可能的网络集合中的一个元素)。

受贝叶斯式dropout理解方法启发的另一种方法是 Kingma 等人[6]提出的变分Dropout(不要与 Gal 和 Ghahramani 的工作[13]弄混)。作者指出,使用高斯乘性噪声的 Dropout 变体(由 Srivastava 等人提出的[8])可以被解释为给定一个网络权值上的特定先验和特定变分目标的变分方法。然后,它们会推导出一个自适应的 Dropout 方案,该方案可以自动确定一个完整的网络或单个层或神经元的有效的Dropout 概率。相对于现有的使用确定的 Dropout 率的方法(如使用固定的概率或网格搜索)来说,这可能是一种改进。Concrete Dropout[20]是另外一种自动调整 Dropout 概率的方法。

卷积层

用于卷积神经网络(CNN)的朴素Dropout 的定义为:在特征图或输入图像中随机地丢弃像素。这并没有显著地减少过拟合,主要是因为被丢弃的像素与其邻接像素是高度相关的[21]。然而,最近研究人员取得了许多有发展前景的、使用 Dropout 作为正则化方法训练 CNN 的研究进展。

最大池化 Dropout[12]是一种保留了最大池化层的行为的方法,它同时也以一定概率让其它的特征值可以影响池化层的输出。在执行最大池化操作前,算子对特征值的某个子集进行 mask 运算。

图 4:卷积神经网络中的最大池化Dropout[12]。

在论文「Analysis on the dropout effect inconvolutional neural networks」[23]中,作者提出了一种基于训练的迭代过程改变 Dropout 概率的 Dropout 方法。丢弃神经元的概率是从均匀分布或正态分布采样得到的。该方法等价于向每一层的输出特征图添加噪声。该方法提高了网络对带有噪声的图像变化的鲁棒性[23]。作者也提出了「max-drop」,在这种方法中高激活值被有选择性地丢弃。这些高激活值是在特征图或通道上选择出来的[23]。论文[23]中的实验结果表明,文中所提出的方法的性能与「spatial dropout」相当。

Cutout 是另一种基于Dropout 的用于训练 CNN 的正则化和数据增强方法[24],它在每一张输入图像的某个区域上应用一个随机的正方形掩膜。与其它常见的在特征图级别上应用 Dropout 的方法不同,该方法直接将 Dropout 应用在输入图像上。Cutout 背后主要的动机是删除 CNN 的后续层中带有高激活值的视觉特征[24]。然而,令人惊讶的是,这种在输入图像上应用掩膜的方法在执行成本更低的情况下可以取得相同的性能。

循环层

通常而言,上述前馈 Dropout 方法可以被应用到带有循环层的网络的前馈连接中。因此,一些研究着眼于将 Dropout 方法应用于循环连接。因为在每一个时间步上由 Dropout 引起的噪声让网络难以保留长期的记忆,将标准 Dropout 应用于循环连接的效果很差[28]。然而,专门为循环层设计的 Dropout 方法也取得了成功,并且在实践中被广泛应用。一般来说,它们通过一种仍然能够保存长期记忆的方式将 Dropout 应用于循环连接上。

2015 年提出的RNNDrop[30]提供了一种简单的解决方案,能够在应用 Dropout 时更好地保留记忆。

图 5:在一个展开的循环神经网络(RNN)上,对于每一个时间步(左图)和每一个序列(右图)进行 Dropout 掩膜采样的对比。水平连接是循环的,而垂直连接是前馈的。不同的颜色代表应用于相应连接的不同 Dropout 掩膜。

2016 年,Gal 和 Ghahramani 提出了一种RNN Dropout 变体,该变体基于一种对 Dropout 方法的贝叶斯化的解释。作者指出,如果 Dropout 被看做一个贝叶斯后验的变分蒙特卡罗逼近,那么将其应用于循环层的自然方法就是生成一个同时将每个训练序列的前馈连接和循环连接置零的 Dropout 掩膜,但是为序列中的每个时间步保持相同的掩膜。这与 RNNDrop 类似的地方在于,掩膜是基于每个序列生成的,但是求导过程导致在 LSTM 单元的不同位置应用 Dropout。

循环 Dropout[14]是另一种可以在一个 LSTM 中保存记忆,同时也能像在标准 Dropout 中一样为每个输入样本生成不一样的 Dropout 掩膜的方法。这只需将 Dropout 应用于 RNN 中更新隐藏状态的部分,而不是状态本身。因此,如果一个元素被删除,那么它就不会对网络的记忆产生影响,而不是消除隐藏状态。

用于模型压缩的 Dropout 方法

标准 Dropout 加大了神经网络权值[8]的稀疏性。这一特性意味着 Dropout 方法可以通过减少有效执行所需的参数数量来压缩神经网络模型。自 2017 年以来,研究人员提出了几种基于 Dropout 压缩实际模型的方法。

2017 年,Molchanov 等人[9]提出使用变分 Dropout[6](本文第三节介绍过)同时对全连接层和卷积层进行稀疏化。结果表明,该方法在对性能影响最小的同时,大大减少了标准卷积网络的参数。然后可以将这种稀疏表征传递到现有方法中,从而将稀疏网络转换为压缩模型(如[31]中的工作)。Neklyudov 等人[10]也提出了类似的方法,他们使用了改进的变分 Dropout 方案,提高了稀疏性,但最终得到的网络结构特别易于压缩。

最近,进一步开发用于模型压缩的 Dropout 方法是一个十分活跃的研究领域。最近提出的方法包括 Targeted Dropout[32],其中神经元被自适应地选择,并以使网络适应神经剪枝的方式被丢弃,在不过多损失准确率的情况下大幅度缩小网络规模。另一种最近提出的方法是 Ising-dropout[11],它在一个神经网络的顶部覆盖了一个图形化的「Ising」模型,以识别不太有用的神经元,并在训练和推理中把它们丢弃掉。

蒙特卡罗 Dropout

2016 年,Gal 和 Ghahramani[7]提出了一种从贝叶斯理论出发的Dropout理解方式,并且被广泛接受。他们将Dropout 解释为深度高斯过程的贝叶斯近似。

除了常见的点估计输出,该方法还提供了一种估计神经网络输出置信度的简单方法。蒙特卡罗Dropout 在模型的不确定性估计中得到了广泛的应用。

论文链接:https://arxiv.org/abs/1904.13310

本文为机器之心编译,转载请联系本公众号获得授权。游戏网

责任编辑:

相关下载

玩家评论

如银似雪辉耀千年——邢窑白瓷的前世今生_邢瓷

原标题:如银似雪 辉耀千年——邢窑白瓷的前世今生 光明日报记者 陈元秋 耿建扩 近日,由中国古陶瓷学会传承委员会、河北临城县人民政府共同主办的“2019详情>>

阅读: 4
日期: 2019-12-01
SOFAStack的前世今生

原标题: SOFAStack的前世今生 十二年前,为了解决支付宝第一代架构在迅猛发展的业务面前捉襟见肘的困境,蚂蚁金服技术团队开启了一次前所未有的尝试。详情>>

阅读: 3
日期: 2019-11-17
下路组曾遭降级 S9冠军FPX的前世今生

  经过一个多月的征战后,LOL世界赛终于结束,最后还是FPX接过了IG去年的奖杯,将它再次捧回了LPL。夺冠之后,FPX的战队粉丝也从50多万瞬间到了将近200万!可见这份荣誉代表了什么详情>>

阅读: 6
日期: 2019-11-12
爱柯智能带您分享,阀岛的“前世今生”

原标题:爱柯智能带您分享,阀岛的“前世今生” 18世纪六十年代 第一次工业革命兴起 开创了以机器代替手工劳动的时代 也拉开了近代自动化技术的序幕 详情>>

阅读: 3
日期: 2019-10-23
韩式半永久定妆的前世今生,当下什么最时尚

原标题:韩式半永久定妆的前世今生,当下什么最时尚 从古至今世界上从来不缺爱美的女性, 古埃及时代,贵妇从铜瓶里倒出红褐色和玉色的矿石粉末,用手指详情>>

阅读: 7
日期: 2019-10-22
网红直播带货的前世今生!

原标题:网红直播带货的前世今生! 直播带火了网红,网红也成就了直播。 我们看惯了各路网红带货的“疯狂数字”: “口红一哥”李佳琦直播 5 分钟,卖出 15详情>>

阅读: 4
日期: 2019-10-21
小菊冉嘉历的前世今生

原标题:小菊冉嘉历的前世今生 小菊,雏菊资本创始人。17岁进入区块链行业,19岁实现财富自由。现致力于找有潜力与想法的团队,为区块链各种新兴项目详情>>

阅读: 3
日期: 2019-09-05
温涵韵:四羊方尊的前世今生

原标题:温涵韵:四羊方尊的前世今生 “四羊同体铸方尊,巧绘凤龙饕餮纹。动静融合匠心运,庄严盛酒祭天神。”四羊方尊是商朝晚期青铜器,是中国现存商代青详情>>

阅读: 2
日期: 2019-09-05
康业元公司的前世今生

原标题:康业元公司的前世今生 康业元公司的前世今生 最近有很多人都关注到了与康业元公司有关的一些纷争,但是作为一家小型投资公司,康业元也确实名详情>>

阅读: 5
日期: 2019-08-29
“这不是个游戏”——ARG 的前世今生 #1

原标题:“这不是个游戏”——ARG 的前世今生 #1 引言 2001年,斯皮尔伯格的《A.I》即将上映,互联网上突然出现了一系列神秘的网页,它们都指向一桩发生在未来的谋详情>>

阅读: 2
日期: 2019-06-21
纸上未必不能谈兵 策略游戏的前世今生

原标题:纸上未必不能谈兵 策略游戏的前世今生 策略, 指可以实现目标的方案集合。 简单来说,小到猜拳的时候慢出,大到指挥百万雄兵,都可以称之为策略。如今的策略游详情>>

阅读: 2
日期: 2019-06-18
首款穿越寻爱手游《寻找前世之旅》2月13日燃情上线

导 读 电视剧、小说、动漫等大IP改编的游戏在近年来是非常的常见的,比如:《青丘狐传说》、《青云志》等热门的电详情>>

阅读: 7
日期: 2019-06-11
“这不是个游戏”——ARG 的前世今生 #1

原标题:“这不是个游戏”——ARG 的前世今生 1 引言 2001年,斯皮尔伯格的《A I》即将上映,互联网上突 详情>>

阅读: 1
日期: 2019-05-01
御灵师们,请问是哪一位朋友在这里和大家讲述妖灵世界的前世今生呢? 答案

御灵师们,请问是哪一位朋友在这里和大家讲述妖灵世界的前世今生呢?A:马博士B:真真?一起来捉妖微信公众号2019年4月17日每日一题答案是什么,下面小编就为玩家带来一起来捉妖微信公众号2019年4月详情>>

阅读: 1
日期: 2019-04-17
御灵师们请问是哪一位朋友在这里和大家讲述妖灵世界的前世今生呢?

御灵师们请问是哪一位朋友在这里和大家讲述妖灵世界的前世今生呢?还不知道答案的玩家们,下面Gam详情>>

阅读: 1
日期: 2019-04-17
为爱穿越有量约你《寻找前世之旅》

近两年来,自从《宫锁系列》出世以后,穿越题材是大火呀!随着穿越题材的火爆小伙伴们心中的中二之魂也压抑不住了。男的一个个想穿越会三国汉唐时代称王拜将,女的也想穿越回清宫寻找自己的前世真详情>>

阅读: 1
日期: 2019-04-14
《寻找前世之旅》中哪个情节最让你失望?

答|百度派@素素《寻找前世之旅》第一季十二集已经播完了,现在开启吐槽模式。笔者曾经看过原著,表示小说中的安倍晴明那一段曾经让笔者难以忘怀。所以得知电视剧播出之后,笔者赶紧开启追剧模式,想要瞅一眼安倍详情>>

阅读: 0
日期: 2019-04-14
看过《寻找前世之旅》吗?女主角和两位男主角真的配一脸

讲述了由司音抚养成人的叶隐受人委托,为其化解现世之劫,在任务中碰到了血族王子亚隆,三人展开一段跨越千年的爱情故事女主角性格搞怪逗趣。喜欢和师傅撒娇,讨师傅欢心。在里面对师傅是仰慕和敬佩之心,两人颜值都详情>>

阅读: 3
日期: 2019-04-14
“作恶不灭,前世有馀德,德尽必灭,为善不昌,前世...

Game234问答中心有网友提出了一个比较有代表性的问题【“作恶不灭,前世有馀德,德尽必灭,为善不昌,前世...】,小编觉得可能对其他网友也有帮助,所以将此问答整理出来了,希望对您有帮助。小编为您搜罗详情>>

阅读: 13
日期: 2019-04-13
女主角叫司顾的重生小说,前世是兵王

Game234问答中心有网友提出了一个比较有代表性的问题【女主角叫司顾的重生小说,前世是兵王】,【女主角叫司顾的重生小说,前世是兵王】具体问题如下:都市生活展开小编觉得可能对其他网友也有帮助,所以将此详情>>

阅读: 83
日期: 2019-04-13
新倩女幽魂前世攻略:前世号养成心得分析

如果你前世关宁积分、宁远积分、装备、修为等还没开始弄【 那么可以等待3天删除...倩女幽魂2 进入专区>> 游戏类型:网络游戏 开发公司:网易游戏 运营公司:... 详情>>

阅读: 9
日期: 2019-04-07
连自己都不知道?您和魔域的前世今生都在这了

1如既往,3生有幸,《魔域》13岁了。逝去的是光阴,但游戏留给我们的感动与欢乐从未走远。正值周年庆品牌月,一则关于所有玩家13周年数据盘点的H5温暖上线。第一次登陆游戏、第一个职业、第一只幻兽宝宝&h详情>>

阅读: 0
日期: 2019-03-22
连自己都不知道? 您和《魔域》的前世今生都在这了!

1如既往,3生有幸,《魔域》13岁了。逝去的是光阴,但游戏留给我们的感动与欢乐从未走远。正值周年庆品牌月,一则关于所有玩家13周年数据盘点的H5温暖上线。第一次登陆游戏、第一个职业、第一只幻兽宝宝&h详情>>

阅读: 0
日期: 2019-03-21
自己都不知道?您和魔域的前世今生在这

  导语:1如既往,3生有幸,《魔域》13岁了。逝去的是光阴,但游戏留给我们的感动与欢乐从未走远。正值周年庆品牌月,一则关于所有玩家13周年数据盘点的H5温暖上线。第一次登陆游戏、第一个职业、第详情>>

阅读: 6
日期: 2019-03-21
《梦幻模拟战手游》前世今生

《梦幻模拟战手游》前世今生Game234游戏门户网网发布此详情>>

阅读: 0
日期: 2019-03-21
前世今生咫尺间《大话西游热血版》鬼族角色曝光

前世今生咫尺间,鬼族全新角色今天首度曝光!《大话西游热血版》全平台公测火热进行中,经典的大话元素,全新的即时制战斗,人宠合击的召唤兽,逍遥御风的特色轻功,打造极致酷爽的战斗体验!首部资料详情>>

阅读: 0
日期: 2019-02-25
前世界冠军上单Marin退役 LOL又一个时代宣布结束

王者荣耀 3733gm助手 火柴人联盟2 蜀门 QQ飞车手游...今天凌晨,韩国知名的LOL选手、前世界冠军MaRin在自己...王者荣耀S14版本英雄改动一览01-18 dnf兵法之神套装... 详情>>

阅读: 0
日期: 2019-01-22
流心刺的前世今生 剑魂二觉后更加逆天

DNF剑魂二次觉醒之后,80版本BUG般存在的出血流剑舞将不复存在,而70版本后期恐怖的流心刺会再现江湖,百万固伤加上450倍面板百分比,喜欢玩白手的玩家现在就可以攒双... 详情>>

阅读: 0
日期: 2019-01-11
 《古剑奇谭3》 登陆Wegame,关于古剑系列的前世今

原标题:《古剑奇谭3》登陆Wegame,关于古剑系列的前世今一提起国产三剑,一直都是无数玩家心目中的情怀。而目前,《古剑奇谭3》已经正式发售。不详情>>

阅读: 5
日期: 2018-11-30
《古剑奇谭3》 登陆Wegame,关于古剑系列的前世今

一提起国产三剑,一直都是无数玩家心目中的情怀。而目前,《古剑奇谭3》已经正式发售。不包括《古剑其他OL》详情>>

阅读: 1
日期: 2018-11-30
是历史与命运的轮回?FNC的前世与今生

原标题:是历史与命运的轮回?FNC的前世与今生Fnatic是欧洲乃至全世界历史最悠久、最成功和最受欢迎的英雄联盟战队之一,由SamMatthews在2003年作为详情>>

阅读: 1
日期: 2018-11-11
英雄联盟:回顾FNC的前世与今生,说一些关于他们的小故事

Fnatic是欧洲乃至全世界历史最悠久、最成功和最受欢迎的英雄联盟战队之一,由SamMatthews在详情>>

阅读: 1
日期: 2018-11-03
命运轮回终成S1?来看FNC的前世与今生

  Fnatic是欧洲乃至全世界历史最悠久、最成功和最受欢迎的英雄联盟战队之一,由SamMatthews在2003年作为南安普顿大学大一学生时创建的一支战队,为了战队的建立,SamMatthews详情>>

阅读: 1
日期: 2018-10-29
从英雄联盟的成功看各MOBA类游戏的前世今生和生存现状

近日,英雄联盟S8世界赛紧锣密鼓地打响。CBQ身边的很多同学也都开始密切关注LOL的赛程,三五人聚在一起详情>>

阅读: 0
日期: 2018-10-14
英雄联盟:难道这就是所谓的孽缘?细数RNG和GEN的前世今生

文|Aynamuk在昨天的S8小组赛第二天中,RNG再次和GEN战队遇上了。为什么要说再次呢?因为这已经详情>>

阅读: 2
日期: 2018-10-13
韦神的前世今生

韦神,大名韦朕,曾用ID We1less、godv,外号“高德伟”。前英雄联盟职业选手,外号“中国第一中单”;如今的绝地求生大逃杀(“吃鸡”)主播,人气全区第一。 他身上... 详情>>

阅读: 0
日期: 2018-10-09
精彩推荐