您当前所在位置: > 电竞 > 昔日回顾

DARTS+:DARTS搜索为何需要早停?

时间:2019-09-15 13:08:44  来源:  作者:网络

原标题:DARTS+:DARTS 搜索为何需要早停?

机器之心专栏

作者:Weiran Huang

本文是一篇介绍 DART+ 的专栏文章,作者们提出一种可微分的神经网络架构搜索算法 DARTS+,将早停机制(early stopping)引入到原始的 DARTS[1] 算法中,不仅减小了 DARTS 搜索的时间,而且极大地提升了 DARTS 的性能。相关论文《DARTS+: Improved Differentiable Architecture Search with Early Stopping》已经公开(相关代码稍后也会开源)。

论文地址:https://www.weiranhuang.com/publications/DARTS+.pdf

DARTS+ 在原始 DARTS 算法基础上只需简单地加入一条早停机制,就可以在 CIFAR10、CIFAR100 和 ImageNet 上取得 2.32%、14.87% 和 23.7% 的错误率,超越一系列现有的 DARTS 改进算法,包括 SNAS[2]、P-DARTS[3]、XNAS[4]、PC-DARTS[5] 等。

在模型大小相当的情况下,DARTS+ 可以达到与谷歌提出的 EfficientNet[6] 相同的性能,但是搜索时间却远远小于 EfficientNet,再叠加上一些常用的 tricks,在 ImageNet 上可以达到 22.5% 的错误率!早停机制的引入,让原本在搜索时间上具有显著优势的基于「可微分」的架构搜索方法,在性能上也开始超越基于「强化学习」或「演化算法」的架构搜索方法,极大地增加了「可微分架构搜索」的研究价值和应用范围。

简介

神经网络架构搜索(Neural Architecture Search,NAS)在自动机器学习(AutoML)中扮演着重要的角色,近来获得越来越多的关注。用 NAS 搜索得到的神经网络架构已经在多种任务上超越了专家手工设计的网络架构,包括物体分类、物体检测、推荐系统等。

神经网络架构搜索的常见做法是首先设计一个架构搜索空间,然后用某种搜索策略,从中找出一个最优的网络架构。早期的方案是基于强化学习(RL)或者演化算法(Evolutionary Algorithm)来搜索一个有效的网络架构,但是会耗费大量的计算资源(上千个 GPU days),不经济也不环保。后来,一些 One-Shot 的方案相继被提出,其中最具代表性的是 DARTS[1] 算法(Differentiable Architecture Search,可微分的神经网络架构搜索)。它把搜索空间从离散的放松到连续的,从而能够用梯度下降来同时搜索架构和学习权重。具体来说,DARTS 使用了如下的两层优化(Bi-Level Optimization)来搜索:

Bi-Level Optimization in DARTS

其中,alpha 是架构的参数,w 是 alpha 对应的模型权重。前者利用 validation data 来进行更新,后者利用 training data 来进行更新。具体细节可以参看 DARTS 的原文。DARTS 成功把搜索时间从上千个 GPU days 减少到了几个 GPU days。

DARTS 算法的问题

DARTS 算法有一个严重的问题,就是当搜索轮数过大时,搜索出的架构中会包含很多的 skip-connect,从而性能会变得很差。我们把这个现象叫做 Collapse of DARTS。

举个例子,让我们来考虑在 CIFAR100 上用 DARTS 做搜索。从下图可以看出,当 search epoch(横轴)比较大的时候,skip-connect 的 alpha 值(绿线)将变得很大。

Alpha Values in The Shallowest Edge

因此,在 DARTS 最后选出的网络架构中,skip-connect 的数量也会随着 search epoch 变大而越来越多,如下图中的绿线所示。

在一个节点数固定的 cell 中,skip-connect 的数量越多,会导致网络变得越浅。相比于深度网络,浅度网络可学习的参数更少,具有的表达能力更弱。因此,在 DARTS 搜出的网络架构中,skip-connect 的数量太多会导致性能急剧变差。例如,在上图中,当 skip-connect 的数量超过 2 个的时候,网络的性能(蓝线)开始降低。下图直观展示了随着 search epoch 变大,网络结构由深变浅的过程。

不同 search epoch 的情形下,在 CIFAR100 上用 DARTS 挑选出的网络结构图

DARTS 发生 Collapse 背后的原因是在两层优化中,alpha 和 w 的更新过程存在先合作(cooperation)后竞争(competition)的问题。粗略来说,在刚开始更新的时候,alpha 和 w 是一起被优化,从而 alpha 和 w 都是越变越好。渐渐地,两者开始变成竞争关系,由于 w 在竞争中比 alpha 更有优势(比如,w 的参数量大于 alpha 的参数量,One-Shot 模型在大多数 alpha 下都能收敛,等等),alpha 开始被抑制,因此网络架构出现了先变好后变差的结果,也就是上上图中蓝线的情况。

具体来说,在搜索过程的初始阶段,One-Shot 模型欠拟合到数据集,因此在搜索过程刚开始的时候,alpha 和 w(也就是 One-Shot 模型的参数)都会朝着变好的方向更新,这就是合作的阶段。由于整个 One-Shot 模型中,前面的 cell 比后面的 cell 能接触到更干净的数据,如果我们允许不同的 cell 可以拥有不同的网络结构(打破 DARTS 中 cell 共享网络结构的设定),那么前面的 cell 会比后面的 cell 更快地学到特征。

一旦前面的 cell 已经学到了不错的特征表达,而后面的 cell 学到的特征表达相对较差,那么后面的 cell 接下来会倾向于选择 skip-connect,来把前面 cell 已经学好的特征表达直接传递到后面。下图是打破 DARTS 中 cell 共享网络结构的设定下,搜出来的网络结构图:可以看到,前面的 cell 大部分都是卷积算子,而靠后的 cell 大部分都是 skip-connect。

打破 cell 共享网络结构的设定下,不同位置的 cell 搜出来的网络结构图

回到 DARTS 的设定,如果我们强制不同的 cell 共享同一个网络结构,那么 skip-connect 就会从后面的 cell 扩散到前面的 cell。当 skip-connect 开始显著变多的时候,合作的阶段就转向了竞争的阶段:alpha 开始变坏,DARTS 开始 collapse。

值得一提的是,两层优化中的合作和竞争现象在其他应用中(比如 GAN,meta-learning 等)也有被观察到。以 GAN 为例,一个学好的 discriminator 对训练一个 generator 是至关重要的 [7],这是 generator 和 discriminator 之间的合作;当输入数据(fake 或 real)落在低维流形上同时 discriminator 过参数化的时候,discriminator 很容易把生成的 fake data 从 real data 中区分开来,同时 generator 也会因为发生梯度消失导致无法生成 real data[8],这是 generator 和 discriminator 之间的竞争。

DARTS+:引入早停机制

为了解决 DARTS 会 collapse 的问题,防止 skip-connect 产生过多,我们提出一种非常简单而且行之有效的早停机制,改进后的 DARTS 算法称之为 DARTS+ 算法。本文中我们仍然遵循 DARTS 中 cell 共享网络结构的设定,将探索如何打破 cell 网络结构共享留为 future work。

早停准则:当一个 cell 中出现两个及两个以上的 skip-connect 的时候,搜索过程停止。

DARTS+ 最大的优点就是操作起来非常简单。相比于其他改进 DARTS 的算法,DARTS+ 只需要一点点改动就可以显著地提高性能,同时还能直接减少搜索时间。

上图中的红圈代表各个可学习算子(比如卷积)的 alpha 排序不再改变的时间点(具体细节请参看原文)。

由于 alpha 值最大的可学习算子对应最后的网络会选择的算子,当 alpha 排序稳定时,这个算子在最后选择的网络不会出现变化,这说明 DARTS 的搜索过程已经充分。从上图中蓝线也能看出,当过了红圈之后,架构的性能开始出现下降,从而出现 collapse 问题。因此,我们可以选择在可学习算子 alpha 排序不再改变(图中红圈处)的时间点附近早停。当早停准则满足时(左图中红色虚线),基本处于 DARTS 搜索充分处,因此在早停准则处停止搜索能够有效防止 DARTS 发生 collapse。

通过上面的分析,我们可以给出一个稍复杂但更为直接的早停准则:

早停准则*:当各个可学习算子(比如卷积)的 alpha 排序足够稳定(比如 10 个 epoch 保持不变)的时候,搜索过程停止。

我们指出,第一个早停准则更便于操作,而当需要更精准的停止或者引入其他的搜索空间的时候,我们可以用早停准则* 来代替。由于早停机制解决了 DARTS 搜索中固有存在的问题,因此,它也可以被用在其它基于 DARTS 的算法中来帮助提高进一步性能。

值得一提的是,近来的一些基于 DARTS 改进的算法其实也隐式地使用了早停的想法。

P-DARTS[3] 使用了:1)搜 25 个 epoch 来代替原来的 50 个 epoch,2)在 skip-connects 之后加 dropout,3)手动把 skip-connects 的数目减到 2。

Auto-DeepLab[9] 使用了 20 个 epoch 来训架构参数 alpha,同时发现更多的 epoch(60,80,100)对性能没有好处。

PC-DARTS[5] 使用部分通道连接来降低搜索时间,因此搜索收敛需要引入更多的 epoch,从而仍然搜索 50 个 epoch 就是一个隐式的早停机制。

实验验证

我们在 CIFAR10[10]、CIFAR100[10]、Tiny-ImageNet-200[11] 和 ImageNet[12] 上分类问题进行验证。在实验中,我们默认使用第一个早停准则。具体的实现细节,请参看原文。

实验结果如下:

DARTS+ 在 CIFAR10、CIFAR100 和 ImageNet 上取得 2.32%、14.87% 和 23.7% 的错误率,超越一系列现有的 DARTS 改进算法,包括 SNAS[2]、P-DARTS[3]、XNAS[4]、PC-DARTS[5] 等。在模型大小相当的情况下,DARTS+ 可以达到与谷歌提出的 EfficientNet-B0[6] 相同的性能,但是搜索时间却远远小于 EfficientNet。如果再叠加 SE 模块,mixup 等,在 ImageNet 上可以达到 22.5% 的错误率。

具体的性能指标如下所示:

CIFAR10 和 CIFAR100 上的实验结果

Tiny-ImageNet-200 上的实验结果

ImageNet 上的实验结果

结语

综上所述,DARTS+ 简单优雅地解决了 DARTS 算法中固有的 collapse 问题,通过引入操作起来十分简单的早停机制,既缩短了搜索时间,又极大地提高了性能。想要进一步提升 DARTS 的性能,一个可行的方向是考虑打破 DARTS 中「不同 cell 共享网络架构」的设置。

本文为机器之心专栏,转载请联系本公众号获得授权。游戏网

责任编辑:

相关下载

玩家评论

第7届Dade奖揭晓:DWG上单Nuguri拉跨斩获_比赛

原标题:第7届Dade奖揭晓:DWG上单Nuguri拉跨斩获 在今天早些时候的世界赛1/4决赛中,SKT顺利击败SPY,G2同时也战胜了DWG,至此,S9世界赛四强战队全部确定。详情>>

阅读: 4
日期: 2019-10-28
DAMTOYS【Mindgame】GreenSix绿6!

原标题:DAMTOYS【Mindgame】Green Six 绿6! Damtoys再次与Coal dog煤厂黑狗工作室的@Park支,合作推出期待已久的Mindgame系列新品GOBI小队中的GreenS详情>>

阅读: 2
日期: 2019-10-18
daps发声支持shox:请削弱SG553吧_调整

原标题:daps发声支持shox:请削弱SG 553吧 导读:daps发声支持shox,请削弱SG 553吧。 日前daps在个人推特上声援shox的请求:尽管我很喜欢使用SG 553,但老详情>>

阅读: 4
日期: 2019-10-17
daps发声支持shox:请削弱SG553吧

原标题:daps发声支持shox:请削弱SG 553吧 导读:daps发声支持shox,请削弱SG 553吧。 日前daps在个人推特上声援shox的请求:尽管我很喜欢使用SG 553,但老详情>>

阅读: 6
日期: 2019-10-17
《魂器学院》今日全平台首发全员集结为AI发电_DanGO

原标题:《魂器学院》今日全平台首发 全员集结为AI发电 班长大人们,由飞鱼科技发行、傲娇工作室研发的赛博朋克风二次元放置手游《魂器学院》,全平台详情>>

阅读: 2
日期: 2019-10-11
DarkSteelToys《黑马漫画》官方授权地狱男爵25周年纪念版Q版公仔_cm

原标题:DarkSteel Toys《黑马漫画》官方授权 地狱男爵25周年纪念版 Q版公仔 DarkSteel Toys 玄铁工作室推出由《黑马漫画》官方授权的【地狱男爵25详情>>

阅读: 5
日期: 2019-10-11
DAILYLOOK|穷人不配有潮流?袜子我都要买不起了,啊!

原标题:DAILY LOOK | 穷人不配有潮流?袜子我都要买不起了,啊! 「DAILY LOOK」 # 穿什么,怎么穿 # . . . . - sneaker文化盛行的今天- 袜子们有着不可详情>>

阅读: 6
日期: 2019-10-11
外网热议主题曲:是节省预算等K/DA吗

  今天凌晨,拳头官方放出了我们心心念念的世界赛主题曲,俗话说:好饭不怕晚。但是在Reddit上好像大家不这么认为详情>>

阅读: 2
日期: 2019-10-09
惊悚像素风《DarkVeer》预告独自一人度过漫漫长夜

【导读】像素风惊悚恐怖游戏《Dark Veer》公开了最新宣传预告,预计于10月24日登陆Nintendo Switch。   《Bedtime Blues》和《The详情>>

阅读: 0
日期: 2019-10-08
语音界传奇DanPovey出任爱数智慧首席科学家顾问

原标题:语音界传奇Dan Povey出任爱数智慧首席科学家顾问 近日,语音识别开源工具 Kaldi 之父,Dan Povey,正式接受北京爱数智慧科技有限公司的邀请,出任详情>>

阅读: 10
日期: 2019-09-25
DAPP企业拥抱办DAPP企业拥抱办公升级,用虚拟支点撬动现实世界

原标题:DAPP企业拥抱办DAPP企业拥抱办公升级,用虚拟支点撬动现实世界 长达10年的移动互联网高速增长期催生了多家超级独角兽公司,然而,草根创业的高速详情>>

阅读: 3
日期: 2019-09-24
吃鸡就要快人一步,7.1环绕声头戴式电竞耳机DACOMGH05体验

原标题:吃鸡就要快人一步,7.1环绕声头戴式电竞耳机DACOM GH05体验 对于游戏玩家来说,自然要有一套拿得出手的电竞装备,尤其是外设装备,首先外观一定要详情>>

阅读: 8
日期: 2019-09-21
云端应用监控服务商Datadog上市:融资超6亿美元拒绝被思科收购

原标题:云端应用监控服务商Datadog上市:融资超6亿美元 拒绝被思科收购 雷帝网 雷建平 9月19日报道 美国云端应用监控服务商Datadog今日在美国纳斯详情>>

阅读: 6
日期: 2019-09-20
DarkSteelToys西游记《作妖联盟》玉面公主

原标题:DarkSteel Toys 西游记《作妖联盟》 玉面公主 DarkSteel Toys 玄铁工作室 X 糟男原创西游记《作妖联盟》潮流系列,推出牛魔王的老相好狐妖玉详情>>

阅读: 11
日期: 2019-09-16
TGS19:任天堂公布《DaemonXMachina》预告片

原标题:TGS19:任天堂公布《Daemon X Machina》预告片 任天堂发布了由《装甲核心》2、3代的开发者佃研一郎负责主导开发,高木谦一郎担任制作人的机详情>>

阅读: 10
日期: 2019-09-14
成功背后通常要牺牲点人性:《DarkestDungeon》的焦虑两难设计

原标题:成功背后通常要牺牲点人性:《Darkest Dungeon》的焦虑两难设计 回合制策略游戏起源自棋盘游戏(Board Game),是因应早期硬体的即时运算能力衍生详情>>

阅读: 4
日期: 2019-09-12
Datadog路演PPT曝光:发行区间19到22美元下周上市

原标题:Datadog路演PPT曝光:发行区间19到22美元 下周上市 雷帝网 雷建平 9月11日报道 云端应用监控服务商Datadog日前递交招股书,随后路演PPT曝光。详情>>

阅读: 7
日期: 2019-09-11
DARPA用于未来PNT的芯片级原子钟取得突破性进展,关键性能提升1000倍

原标题:DARPA用于未来PNT的芯片级原子钟取得突破性进展,关键性能提升1000倍   【据DARPA官网2019年8月20日报道】在DARPA高稳定性原子钟(ACES)计划详情>>

阅读: 6
日期: 2019-09-10
Dating

详情>>

阅读: 0
日期: 2019-09-07
DayZ

游戏介绍一种未知病毒侵袭后苏联国家黑俄罗斯,致使大多数人口因感染病毒而狂暴失常。幸存者们展开资源之争,敌对情绪高涨,使尚存的一点人道精神彻底沦丧。你是少数几个对病毒免详情>>

阅读: 0
日期: 2019-09-07
跳舞的球球(DancingBalls)-點點點音樂線

音樂點點點新遊戲上線啦!讓我們一起來試玩DancingBalls!DancingBalls,將快節奏的點點點玩法與音樂結合起來,緊跟音樂遊戲潮流。遊戲里最重要的玩法就是點點點啦!在適當的時機點擊详情>>

阅读: 0
日期: 2019-09-07
黑暗狩猎DarkHuntHD

《黑暗狩猎》是一款射击游戏,准备好你的散弹枪,打开手电筒,在晚上尽情射击敌人吧!在白天升级你的武器,晚上与可恶的鸭子战斗!游戏有多种敌人需要你来消灭,收集星星来升级你的武器。详情>>

阅读: 0
日期: 2019-09-07
DarkMatterFree

战胜困难和驯服的暗物质!几乎一个世纪以来,科学家一直寻找解释为所谓的“暗物质”,他们已发现和利用的东西。你的任务是:充电暗物质与质子,并创建所有的118个元素周期表上的你创详情>>

阅读: 0
日期: 2019-09-07
DailyPsychicReading

Everythingyouwanttoknowaboutrelationships,work,travel,ordailylife.Everythingyoueverwantedtoknowaboutrelationships,work,travel,orjustdailylife.PsychicCardsinclud详情>>

阅读: 0
日期: 2019-09-07
Dawnbringer

KilooandCopenhagenCreators又一新作——《曙光英雄》。该公司在此之前开发了人气手游《地铁跑酷》,而这次为大家带来了一款RPG大作,喜欢该类游戏的玩家快来进入恶魔骚扰的Mou详情>>

阅读: 0
日期: 2019-09-07
黑暗传奇DarkLegends

黑暗传奇(DarkLegends)是一个类似于电影《吸血莱恩》,带有不少恐怖和诡异气氛的动作游戏,作为吸血鬼阵营的一分子,肆无忌惮的屠杀是每日的功课,甚至还需要吸血来恢复体力和魔力,详情>>

阅读: 0
日期: 2019-09-07
弹幕射击DanmakuInitiate

一款画面精致的飞行射击游戏!炫目的大招让你爱不释手!详情>>

阅读: 0
日期: 2019-09-07
DashyCube

DashyCube是一款非常有趣的休闲手游,游戏的玩法非常的简单,你要控制自己手中的角色不断的躲避,游戏中的障碍物很多,喜欢的小伙伴千万不要错过了。DashyCube的特点1、清新自然的详情>>

阅读: 0
日期: 2019-09-07
Dazzly

Dazzly是一款由独立游戏厂商旗下重磅打造的减压创意休闲游戏,游戏主打经典的数字填色玩法模式,玩家可以在游戏之中选择不同的华丽钻石,利用你手工选择的钻石来填满不同的图画,匹详情>>

阅读: 0
日期: 2019-09-07
Dazzly安卓版

Dazzly安卓版是最近火爆全球的经典减压填色游戏新作,游戏拥有独创的钻石填色闯关玩法,这一次拒绝了传统的彩色笔填色方式,你需要利用各种造型的钻石来填满各种数字,享受轻松休闲详情>>

阅读: 0
日期: 2019-09-07
迷你DAYZ无限生命汉化版

迷你DAYZ无限生命汉化版以像素为主题进行打造,是一款生存战斗游戏,为玩家们打造了一个末日生存世界,僵尸遍地、恶劣环境下载究竟谁才会是最后的幸存者呢。迷你DAYZ无限生命汉化详情>>

阅读: 0
日期: 2019-09-07
迷你DAYZ中文版

迷你DAYZ官方中文版终于登陆啦,中文游戏玩家们再也不用担心看不懂英文字幕啦,快来游迅网点击下载更好更轻松的体验迷你DAYZ官方中文版游戏吧。迷你DAYZ官方中文版简介如今末日详情>>

阅读: 0
日期: 2019-09-07
迷你DAYZ1.0.8

迷你DAYZ1.0.8版是一款以冒险生存为主题打造的全新游戏,游戏包含了十分惊险刺激的全新游戏剧情和关卡,玩家们需要通过收集资源来维持自己的生命。迷你DAYZ1.0.8版简介这是迷你详情>>

阅读: 0
日期: 2019-09-07
迷你DAYZ1.0.9

今天小编带来的是迷你DAYZ1.0.9版本,该游戏目前十分深受小伙伴的喜爱,游戏以简单易懂的游戏操作方式和有趣的游戏内容让玩家们接受,想要体验的玩家们可以在本站点击下载。迷你D详情>>

阅读: 0
日期: 2019-09-07
迷你DAYZ1.0.9汉化版

迷你DAYZ1.0.9汉化版中为玩家们实现了全文本的汉化,从而能够帮助中文玩家们轻松的体验迷你DAYZ1.0.9版游戏,游戏采用的像素游戏风格,显得身份有趣,喜欢就别错过。迷你DAYZ1.0.9详情>>

阅读: 0
日期: 2019-09-07
Dandara

Dandara是一款主打2D横版风格的动作闯关游戏作品,游戏采用了独特的复古像素风格,拥有银河恶魔城游戏元素,在这一片充满了神秘和危险的游戏世界中,你将穿梭、战斗、冒险,探索隐藏详情>>

阅读: 0
日期: 2019-09-07
精彩推荐