www.allbetgame.us:NASH:基于厚实网络态射和爬山算法的神经网络架构搜索 | ICLR 2018

admin 3个月前 (06-16) 科技 38 0

论文提出NASH方式来举行神经网络结构搜索,焦点头脑与之前的EAS方式类似,使用网络态射来天生一系列效果一致且继续权重的庞大子网,本文的网络态射更厚实,而且仅需要简朴的爬山算法辅助就可以完成搜索,耗时0.5GPU day

泉源:晓飞的算法工程条记 民众号

论文: Simple And Efficient Architecture Search for Convolutional Neural Networks

  • 论文地址:https://arxiv.org/pdf/1711.04528.pdf

Introduction

  论文目的在于大量削减网络搜索的盘算量并保持效果的高性能,焦点头脑与EAS算法类似,主要孝敬如下:

  • 提供baseline方式,随机组织网络并配合SGDR举行训练,在CIFAR-10上能到达6%-7%的错误率,高于大部分NAS方式。
  • 拓展了EAS在网络态射(network morphisms)上的研究,能够提供盛行的网络组织block,好比skip connection和BN。
  • 提出基于爬山算法的神经网络结构搜索NASH,该方式迭代地举行网络搜索,在每次迭代中,对当前网络使用一系列网络态射获得多个新网络,然后使用余弦退火举行快速优化,最终获得性能更好的新网络。在CIFAR-10上,NASH仅需要单卡12小时就可以到达baseline的准确率。

Network Morphism

  $\mathcal{N}(\mathcal{X})$为$\mathcal{X}\in \mathbb{R}^n$上的一系列网络,网络态射(network morphism)为映射$M: \mathcal{N}(\mathcal{X}) \times \mathbb{R}^k \to \mathcal{N}(\mathcal{X}) \times \mathbb{R}^j$,从参数为$w\in \mathbb{R}k$的网络$fw \in \mathcal{N}(\mathcal{X})$转换为参数为$\tilde{w} \in \mathbb{R}j$的网络$g\tilde{w} \in \mathcal{N}(\mathcal{X})$,而且知足公式1,即对于相同的输入,网络的输出稳定。

  下面给出几种尺度网络结构的网络态射例子:

Network morphism Type I

  将$f^w$举行公式2的替换,$\tilde{w}=(w_i, C, d)$,为了知足公式1,设定$A=1$和$b=0$,可用于添加全毗邻层。

  另外一种庞大点的计谋如公式3,$\tilde{w}=(w_i, C, d)$,设定$C=A^{-1}$和$d=-Cb$,可用于表达BN层,其中$A$和$b$示意统计结构,$C$和$d$为可学习的$\gamma$和$\beta$。

Network morphism Type II

  假设$f_i{w_i}$可由任何函数$h$示意,即$f_i{w_i}=Ah^{w_h}(x)+b$

  则可以将$f^w$,$w_i = (w_h, A, b)$配合随便函数$\tilde{h}{w_{\tilde{h}}}(x)$凭据公式4替换为$\tilde{f}{\tilde{w}i}$,$\tilde{w}=(w_i, w{\tilde{h}}, \tilde{A})$,设定$\tilde{A}=0$。这个态射可以示意为两种结构:

  • 增添层宽度,将$h(x)$想象为待拓宽的层,设定$\tilde{h}=h$则可以增添两倍的层宽度。
  • concatenation型的skip connection,假设$h(x)$自己就是一系列层操作$h(x)=h_n(x) \circ \cdots \circ h_0(x)$,设定$\tilde{h}(x)=x$来实现短路毗邻。

Network morphism Type III

  任何幂等的函数$f_i^{w_i}$都可以通过公式5举行替换,初始化$\tilde{w}_i=w_i$,公式5在无权重的幂等函数上也建立,好比ReLU。

Network morphism Type IV

  任何层$f_i^{w_i}$都可以配合随便函数$h$举行公式6的替换,初始化$\lambda=1$,可用于连系随便函数,特别是非线性函数,也可以用于加入additive型的skip connection。
  此外,差别的网络态射组合也可以发生新的态射,好比可以通过公式2、3和5在ReLU层后面插入"Conv-BatchNorm-Relu"的网络结构。

Architecture Search by Network Morphisms

  NASH方式基于爬山算法,先从小网络最先,对其举行网络态射天生更大的子网络,由于公式1的约束,子网的性能与原网络是一样的,后续子网举行简朴的训练看是否有更好的性能,最后选择性能优异的子网举行重复的操作。

  图1可视化了NASH方式的一个step,算法1的APplyNetMorph(model, n)包罗n个网络态射操作,每个为以下方式的随机一种:

  • 加深网络,例如添加Conv-BatchNorm-Relu模块,插入位置和卷积核巨细都是随机的,channel数目跟最近的卷积操作一致。
  • 加宽网络,例如使用network morphism type II来加宽输出的channel,加宽比例随机。
  • 添加从层$i$到层$j$的skup connection,使用network morphism type II或IV,插入位置均随机选择。

  由于使用了网络态射,子网继续了原网络的权重且性能一致,NASH方式优势在于能够很快的评估子网的性能,论文使用了简朴的爬山算法,固然也可以选择其它的优化计谋。

Experiments

Baslines

RetrAIning from Scratch

CIFAR-10

CIFAR-100

CONCLUSION

  论文提出NASH方式来举行神经网络结构搜索,焦点头脑与之前的EAS方式类似,使用网络态射来天生一系列效果一致且继续权重的庞大子网,本文的网络态射更厚实,而且仅需要简朴的爬山算法辅助就可以完成搜索,耗时0.5GPU day



若是本文对你有辅助,贫苦点个赞或在看呗~
更多内容请关注 微信民众号【晓飞的算法工程条记】

,

Allbet Gmaing代理

欢迎进入Allbet Gmaing代理(Allbet Game):www.aLLbetgame.us,欧博官网是欧博集团的官方网站。欧博官网开放Allbet注册、Allbe代理、Allbet电脑客户端、Allbet手机版下载等业务。

Sunbet声明:该文看法仅代表作者自己,与本平台无关。转载请注明:www.allbetgame.us:NASH:基于厚实网络态射和爬山算法的神经网络架构搜索 | ICLR 2018

网友评论

  • (*)

最新评论

标签列表

    文章归档

      站点信息

      • 文章总数:641
      • 页面总数:0
      • 分类总数:8
      • 标签总数:1024
      • 评论总数:256
      • 浏览总数:8003