导航:首页 > 网络设置 > 权重共享的神经网络

权重共享的神经网络

发布时间:2023-02-19 14:51:35

① 卷积神经网络算法是什么

一维构筑、二维构筑、全卷积构筑。

卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。

卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)”。

卷积神经网络的连接性:

卷积神经网络中卷积层间的连接被称为稀疏连接(sparse connection),即相比于前馈神经网络中的全连接,卷积层中的神经元仅与其相邻层的部分,而非全部神经元相连。具体地,卷积神经网络第l层特征图中的任意一个像素(神经元)都仅是l-1层中卷积核所定义的感受野内的像素的线性组合。

卷积神经网络的稀疏连接具有正则化的效果,提高了网络结构的稳定性和泛化能力,避免过度拟合,同时,稀疏连接减少了权重参数的总量,有利于神经网络的快速学习,和在计算时减少内存开销。

卷积神经网络中特征图同一通道内的所有像素共享一组卷积核权重系数,该性质被称为权重共享(weight sharing)。权重共享将卷积神经网络和其它包含局部连接结构的神经网络相区分,后者虽然使用了稀疏连接,但不同连接的权重是不同的。权重共享和稀疏连接一样,减少了卷积神经网络的参数总量,并具有正则化的效果。

在全连接网络视角下,卷积神经网络的稀疏连接和权重共享可以被视为两个无限强的先验(pirior),即一个隐含层神经元在其感受野之外的所有权重系数恒为0(但感受野可以在空间移动);且在一个通道内,所有神经元的权重系数相同。

② 神经网络(Neural Network)

(1)结构:许多树突(dendrite)用于输入,一个轴突 (axon)用于输出。

(2)特性:兴奋性和传导性。兴奋性是指当信号量超过某个阈值时,细胞体就会被激活,产生电脉冲。传导性是指电脉冲沿着轴突并通过突触传递到其它神经元。

(3)有两种状态的机器:激活时为“是”,不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量,以及突触的性质(抑制或加强)。

(1)神经元——不重要

① 神经元是包含权重和偏置项的 函数 :接收数据后,执行一些计算,然后使用激活函数将数据限制在一个范围内(多数情况下)。

② 单个神经元:线性可分的情况下,本质是一条直线, ,这条直线将数据划分为两类。而线性分类器本身就是一个单层神经网络。

③ 神经网络:非线性可分的情况下,神经网络通过多个隐层的方法来实现非线性的函数。

(2)权重/参数/连接(Weight)——最重要

每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。

(3)偏置项(Bias Units)——必须

① 如果没有偏置项,所有的函数都会经过原点。

② 正则化偏置会导致欠拟合:若对偏置正则化,会导致激活变得更加简单,偏差就会上升,学习的能力就会下降。

③ 偏置的大小度量了神经元产生激励(激活)的难易程度。

(1)定义:也称为转换函数,是一种将输入 (input) 转成输出 (output) 的函数。

(2)作用:一般直线拟合的精确度要比曲线差很多,引入激活函数能给神经网络 增加一些非线性 的特性。

(3)性质:

① 非线性:导数不是常数,否则就退化成直线。对于一些画一条直线仍然无法分开的问题,非线性可以把直线变弯,就能包罗万象;

② 可微性:当优化方法是基于梯度的时候,处处可导为后向传播算法提供了核心条件;

③ 输出范围:一般限定在[0,1],使得神经元对一些比较大的输入会比较稳定;

④ 非饱和性:饱和就是指,当输入比较大的时候输出几乎没变化,会导致梯度消失;

⑤ 单调性:导数符号不变,输出不会上蹿下跳,让神经网络训练容易收敛。

(1)线性函数 (linear function)—— purelin()

(2)符号函数 (sign function)—— hardlim() 

① 如果z值高于阈值,则激活设置为1或yes,神经元将被激活。

② 如果z值低于阈值,则激活设置为0或no,神经元不会被激活。

(3)对率函数 (sigmoid function)—— logsig()

① 优点:光滑S型曲线连续可导,函数阈值有上限。

② 缺点:❶ 函数饱和使梯度消失,两端梯度几乎为0,更新困难,做不深;

                ❷ 输出不是0中心,将影响梯度下降的运作,收敛异常慢;

                ❸ 幂运算相对来讲比较耗时

(4)双曲正切函数(hyperbolic tangent function)—— tansig()

① 优点:取值范围0中心化,防止了梯度偏差

② 缺点:梯度消失现象依然存在,但相对于sigmoid函数问题较轻

(5)整流线性单元 ReLU 函数(rectified linear unit)

① 优点:❶ 分段线性函数,它的非线性性很弱,因此网络做得很深;

                ❷ 由于它的线性、非饱和性, 对于随机梯度下降的收敛有巨大的加速作用;

② 缺点:❶ 当x<0,梯度都变成0,参数无法更新,也导致了数据多样化的丢失;

                ❷ 输出不是0中心

(6)渗漏型整流线性单元激活函数 Leaky ReLU 函数

① 优点:❶ 是为解决“ReLU死亡”问题的尝试,在计算导数时允许较小的梯度;

                ❷ 非饱和的公式,不包含指数运算,计算速度快。

② 缺点:❶ 无法避免梯度爆炸问题; (没有体现优于ReLU)

                ❷ 神经网络不学习 α 值。

(7)指数线性单元 ELU (Exponential Linear Units)

① 优点:❶ 能避免“死亡 ReLU” 问题;

                ❷ 能得到负值输出,这能帮助网络向正确的方向推动权重和偏置变化;

                ❸ 在计算梯度时能得到激活,而不是让它们等于 0。

② 缺点:❶ 由于包含指数运算,所以计算时间更长;

                ❷ 无法避免梯度爆炸问题; (没有体现优于ReLU)

                ❸ 神经网络不学习 α 值。

(8)Maxout(对 ReLU 和 Leaky ReLU的一般化归纳)

① 优点:❶ 拥有ReLU的所有优点(线性和不饱和)

                ❷ 没有ReLU的缺点(死亡的ReLU单元)

                ❸ 可以拟合任意凸函数

② 缺点 :参数数量增加了一倍。难训练,容易过拟合

(9)Swish

① 优点:❶ 在负半轴也有一定的不饱和区,参数的利用率更大

                ❷ 无上界有下界、平滑、非单调

                ❸ 在深层模型上的效果优于 ReLU

每个层都包含一定数量的单元(units)。增加层可增加神经网络输出的非线性。

(1)输入层:就是接收原始数据,然后往隐层送

(2)输出层:神经网络的决策输出

(3)隐藏层:神经网络的关键。把前一层的向量变成新的向量,让数据变得线性可分。

(1)结构:仅包含输入层和输出层,直接相连。

(2)作用:仅能表示 线性可分 函数或决策,且一定可以在有限的迭代次数中收敛。

(3)局限:可以建立与门、或门、非门等,但无法建立更为复杂的异或门(XOR),即两个输入相同时输出1,否则输出0。 (“AI winter”)

(1)目的:拟合某个函数      (两层神经网络可以逼近任意连续函数)

(2)结构:包含输入层、隐藏层和输出层 ,由于从输入到输出的过程中不存在与模型自身的反馈连接,因此被称为“前馈”。    (层与层之间全连接)

(3)作用: 非线性 分类、聚类、预测等,通过训练,可以学习到数据中隐含的知识。

(4)局限:计算复杂、计算速度慢、容易陷入局部最优解,通常要将它们与其他网络结合形成新的网络。

(5)前向传播算法(Forward Propagation)

① 方法:从左至右逐级依赖的算法模型,即网络如何根据输入X得到输出Y,最终的输出值和样本值作比较, 计算出误差 。

② 目的:完成了一次正反向传播,就完成了一次神经网络的训练迭代。通过输出层的误差,快速求解对每个ω、b的偏导,利用梯度下降法,使Loss越来越小。

② 局限:为使最终的误差达到最小,要不断修改参数值,但神经网络的每条连接线上都有不同权重参数,修改这些参数变得棘手。

(6)误差反向传播(Back Propagation)

① 原理:梯度下降法求局部极值

② 方法:从后往前,从输出层开始计算 L 对当前层的微分,获得各层的误差信号,此误差信号即作为修正单元权值的依据。计算结束以后,所要的两个参数矩阵的 梯度 就都有了。

③ 局限:如果激活函数是饱和的,带来的缺陷就是系统迭代更新变慢,系统收敛就慢,当然这是可以有办法弥补的,一种方法是使用 交叉熵函数 作为损失函数。

(1)原理:随着网络的层数增加,每一层对于前一层次的抽象表示更深入。在神经网络中,每一层神经元学习到的是前一层神经元值的更抽象的表示。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。

(2)方法:ReLU函数在训练多层神经网络时,更容易收敛,并且预测性能更好。

(3)优点:① 易于构建,表达能力强,基本单元便可扩展为复杂的非线性函数

                      ② 并行性号,有利于在分布是系统上应用

(4)局限:① 优化算法只能获得局部极值,性能与初始值相关

                      ② 调参理论性缺乏

                      ③ 不可解释,与实际任务关联性模糊

(1)原理:由手工设计卷积核变成自动学习卷积核

(2)卷积(Convolutional layer): 输入与卷积核相乘再累加 (内积、加权叠加)

① 公式:

② 目的:提取输入的不同特征,得到维度很大的 特征图(feature map)

③ 卷积核:需要训练的参数。一般为奇数维,有中心像素点,便于定位卷积核

④ 特点:局部感知、参数变少、权重共享、分层提取

(3)池化(Pooling Layer):用更高层的抽象表达来表示主要特征,又称“降采样”

① 分类: 最大 (出现与否)、平均(保留整体)、随机(避免过拟合)

② 目的:降维,不需要训练参数,得到新的、维度较小的特征

(4)步长(stride):若假设输入大小是n∗n,卷积核的大小是f∗f,步长是s,则最后的feature map的大小为o∗o,其中

(5)填充(zero-padding)

① Full模式:即从卷积核(fileter)和输入刚相交开始做卷积,没有元素的部分做补0操作。

② Valid模式:卷积核和输入完全相交开始做卷积,这种模式不需要补0。

③ Same模式:当卷积核的中心C和输入开始相交时做卷积。没有元素的部分做补0操作。

(7)激活函数:加入非线性特征

(8)全连接层(Fully-connected layer)

如果说卷积层、池化层和激活函数层等是将原始数据映射到隐层特征空间(决定计算速度),全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用(决定参数个数)。

参考:

[1]  神经网络(入门最详细)_ruthy的博客-CSDN博客_神经网络算法入门

[2]  神经网络(容易被忽视的基础知识) - Evan的文章 - 知乎

[3]  人工神经网络——王的机器

[4]  如何简单形象又有趣地讲解神经网络是什么? - 舒小曼的回答 - 知乎

[5]  神经网络15分钟入门!足够通俗易懂了吧 - Mr.括号的文章 - 知乎

[6]  神经网络——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神经网络

[7]  直觉化深度学习教程——什么是前向传播——CSDN

[8]  “反向传播算法”过程及公式推导(超直观好懂的Backpropagation)_aift的专栏-CSDN

[9]  卷积、反卷积、池化、反池化——CSDN

[10]  浙大机器学习课程- bilibili.com

③ 卷积神经网络

关于花书中卷积网络的笔记记录于 https://www.jianshu.com/p/5a3c90ea0807 。

卷积神经网络(Convolutional Neural Network,CNN或ConvNet)是一种具有 局部连接、权重共享 等特性的深层前馈神经网络。卷积神经网络是受生物学上感受野的机制而提出。 感受野(Receptive Field) 主要是指听觉、视觉等神经系统中一些神经元的特性,即 神经元只接受其所支配的刺激区域内的信号

卷积神经网络最早是主要用来处理图像信息。如果用全连接前馈网络来处理图像时,会存在以下两个问题:

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络,使用反向传播算法进行训练。 卷积神经网络有三个结构上的特性:局部连接,权重共享以及汇聚 。这些特性使卷积神经网络具有一定程度上的平移、缩放和旋转不变性。

卷积(Convolution)是分析数学中一种重要的运算。在信号处理或图像处理中,经常使用一维或二维卷积。

一维卷积经常用在信号处理中,用于计算信号的延迟累积。假设一个信号发生器每个时刻t 产生一个信号 ,其信息的衰减率为 ,即在 个时间步长后,信息为原来的 倍。假设 ,那么在时刻t收到的信号 为当前时刻产生的信息和以前时刻延迟信息的叠加:

我们把 称为 滤波器(Filter)或卷积核(Convolution Kernel) 。假设滤波器长度为 ,它和一个信号序列 的卷积为:

信号序列 和滤波器 的卷积定义为:

一般情况下滤波器的长度 远小于信号序列长度 ,下图给出一个一维卷积示例,滤波器为 :

二维卷积经常用在图像处理中。因为图像为一个两维结构,所以需要将一维卷积进行扩展。给定一个图像 和滤波器 ,其卷积为:

下图给出一个二维卷积示例:

注意这里的卷积运算并不是在图像中框定卷积核大小的方框并将各像素值与卷积核各个元素相乘并加和,而是先把卷积核旋转180度,再做上述运算。

在图像处理中,卷积经常作为特征提取的有效方法。一幅图像在经过卷积操作后得到结果称为 特征映射(Feature Map)

最上面的滤波器是常用的高斯滤波器,可以用来对图像进行 平滑去噪 ;中间和最下面的过滤器可以用来 提取边缘特征

在机器学习和图像处理领域,卷积的主要功能是在一个图像(或某种特征)上滑动一个卷积核(即滤波器),通过卷积操作得到一组新的特征。在计算卷积的过程中,需要进行卷积核翻转(即上文提到的旋转180度)。 在具体实现上,一般会以互相关操作来代替卷积,从而会减少一些不必要的操作或开销。

互相关(Cross-Correlation)是一个衡量两个序列相关性的函数,通常是用滑动窗口的点积计算来实现 。给定一个图像 和卷积核 ,它们的互相关为:

互相关和卷积的区别仅在于卷积核是否进行翻转。因此互相关也可以称为不翻转卷积 。当卷积核是可学习的参数时,卷积和互相关是等价的。因此,为了实现上(或描述上)的方便起见,我们用互相关来代替卷积。事实上,很多深度学习工具中卷积操作其实都是互相关操作。

在卷积的标准定义基础上,还可以引入滤波器的 滑动步长 零填充 来增加卷积多样性,更灵活地进行特征抽取。

滤波器的步长(Stride)是指滤波器在滑动时的时间间隔。

零填充(Zero Padding)是在输入向量两端进行补零。

假设卷积层的输入神经元个数为 ,卷积大小为 ,步长为 ,神经元两端各填补 个零,那么该卷积层的神经元数量为 。

一般常用的卷积有以下三类:

因为卷积网络的训练也是基于反向传播算法,因此我们重点关注卷积的导数性质:

假设 。

, , 。函数 为一个标量函数。

则由 有:

可以看出, 关于 的偏导数为 和 的卷积

同理得到:

当 或 时, ,即相当于对 进行 的零填充。从而 关于 的偏导数为 和 的宽卷积

用互相关的“卷积”表示,即为(注意 宽卷积运算具有交换性性质 ):

在全连接前馈神经网络中,如果第 层有 个神经元,第 层有 个神经元,连接边有 个,也就是权重矩阵有 个参数。当 和 都很大时,权重矩阵的参数非常多,训练的效率会非常低。

如果采用卷积来代替全连接,第 层的净输入 为第 层活性值 和滤波器 的卷积,即:

根据卷积的定义,卷积层有两个很重要的性质:

由于局部连接和权重共享,卷积层的参数只有一个m维的权重 和1维的偏置 ,共 个参数。参数个数和神经元的数量无关。此外,第 层的神经元个数不是任意选择的,而是满足 。

卷积层的作用是提取一个局部区域的特征,不同的卷积核相当于不同的特征提取器。

特征映射(Feature Map)为一幅图像(或其它特征映射)在经过卷积提取到的特征,每个特征映射可以作为一类抽取的图像特征。 为了提高卷积网络的表示能力,可以在每一层使用多个不同的特征映射,以更好地表示图像的特征。

在输入层,特征映射就是图像本身。如果是灰度图像,就是有一个特征映射,深度 ;如果是彩色图像,分别有RGB三个颜色通道的特征映射,深度 。

不失一般性,假设一个卷积层的结构如下:

为了计算输出特征映射 ,用卷积核 分别对输入特征映射 进行卷积,然后将卷积结果相加,并加上一个标量偏置 得到卷积层的净输入 再经过非线性激活函数后得到输出特征映射 。

在输入为 ,输出为 的卷积层中,每个输出特征映射都需要 个滤波器以及一个偏置。假设每个滤波器的大小为 ,那么共需要 个参数。

汇聚层(Pooling Layer)也叫子采样层(Subsampling Layer),其作用是进行特征选择,降低特征数量,并从而减少参数数量。

常用的汇聚函数有两种:

其中 为区域 内每个神经元的激活值。

可以看出,汇聚层不但可以有效地减少神经元的数量,还可以使得网络对一些小的局部形态改变保持不变性,并拥有更大的感受野。

典型的汇聚层是将每个特征映射划分为 大小的不重叠区域,然后使用最大汇聚的方式进行下采样。汇聚层也可以看做是一个特殊的卷积层,卷积核大小为 ,步长为 ,卷积核为 函数或 函数。过大的采样区域会急剧减少神经元的数量,会造成过多的信息损失。

一个典型的卷积网络是由卷积层、汇聚层、全连接层交叉堆叠而成。

目前常用卷积网络结构如图所示,一个卷积块为连续 个卷积层和 个汇聚层( 通常设置为 , 为 或 )。一个卷积网络中可以堆叠 个连续的卷积块,然后在后面接着 个全连接层( 的取值区间比较大,比如 或者更大; 一般为 )。

目前,整个网络结构 趋向于使用更小的卷积核(比如 和 )以及更深的结构(比如层数大于50) 。此外,由于卷积的操作性越来越灵活(比如不同的步长),汇聚层的作用变得也越来越小,因此目前比较流行的卷积网络中, 汇聚层的比例也逐渐降低,趋向于全卷积网络

在全连接前馈神经网络中,梯度主要通过每一层的误差项 进行反向传播,并进一步计算每层参数的梯度。在卷积神经网络中,主要有两种不同功能的神经层:卷积层和汇聚层。而参数为卷积核以及偏置,因此 只需要计算卷积层中参数的梯度。

不失一般性,第 层为卷积层,第 层的输入特征映射为 ,通过卷积计算得到第 层的特征映射净输入 ,第 层的第 个特征映射净输入

由 得:

同理可得,损失函数关于第 层的第 个偏置 的偏导数为:

在卷积网络中,每层参数的梯度依赖其所在层的误差项 。

卷积层和汇聚层中,误差项的计算有所不同,因此我们分别计算其误差项。

第 层的第 个特征映射的误差项 的具体推导过程如下:

其中 为第 层使用的激活函数导数, 为上采样函数(upsampling),与汇聚层中使用的下采样操作刚好相反。如果下采样是最大汇聚(max pooling),误差项 中每个值会直接传递到上一层对应区域中的最大值所对应的神经元,该区域中其它神经元的误差项的都设为0。如果下采样是平均汇聚(meanpooling),误差项 中每个值会被平均分配到上一层对应区域中的所有神经元上。

第 层的第 个特征映射的误差项 的具体推导过程如下:

其中 为宽卷积。

LeNet-5虽然提出的时间比较早,但是是一个非常成功的神经网络模型。基于LeNet-5 的手写数字识别系统在90年代被美国很多银行使用,用来识别支票上面的手写数字。LeNet-5 的网络结构如图:

不计输入层,LeNet-5共有7层,每一层的结构为:

AlexNet是第一个现代深度卷积网络模型,其首次使用了很多现代深度卷积网络的一些技术方法,比如采用了ReLU作为非线性激活函数,使用Dropout防止过拟合,使用数据增强来提高模型准确率等。AlexNet 赢得了2012 年ImageNet 图像分类竞赛的冠军。

AlexNet的结构如图,包括5个卷积层、3个全连接层和1个softmax层。因为网络规模超出了当时的单个GPU的内存限制,AlexNet 将网络拆为两半,分别放在两个GPU上,GPU间只在某些层(比如第3层)进行通讯。

AlexNet的具体结构如下:

在卷积网络中,如何设置卷积层的卷积核大小是一个十分关键的问题。 在Inception网络中,一个卷积层包含多个不同大小的卷积操作,称为Inception模块。Inception网络是由有多个inception模块和少量的汇聚层堆叠而成

v1版本的Inception模块,采用了4组平行的特征抽取方式,分别为1×1、3× 3、5×5的卷积和3×3的最大汇聚。同时,为了提高计算效率,减少参数数量,Inception模块在进行3×3、5×5的卷积之前、3×3的最大汇聚之后,进行一次1×1的卷积来减少特征映射的深度。如果输入特征映射之间存在冗余信息, 1×1的卷积相当于先进行一次特征抽取

④ 如何理解人工智能神经网络中的权值共享问题

权值(权重)共享这个词是由LeNet5模型提出来的。以CNN为例,在对一张图偏进行卷积的过程中,使用的是同一个卷积核的参数。比如一个3×3×1的卷积核,这个卷积核内9个的参数被整张图共享,而不会因为图像内位置的不同而改变卷积核内的权系数。说的再直白一些,就是用一个卷积核不改变其内权系数的情况下卷积处理整张图片(当然CNN中每一层不会只有一个卷积核的,这样说只是为了方便解释而已)。

⑤ 卷积神经网络的 卷积层、激活层、池化层、全连接层

数据输入的是一张图片(输入层),CONV表示卷积层,RELU表示激励层,POOL表示池化层,Fc表示全连接层

全连接神经网络需要非常多的计算资源才能支撑它来做反向传播和前向传播,所以说全连接神经网络可以存储非常多的参数,如果你给它的样本如果没有达到它的量级的时候,它可以轻轻松松把你给他的样本全部都记下来,这会出现过拟合的情况。

所以我们应该把神经元和神经元之间的连接的权重个数降下来,但是降下来我们又不能保证它有较强的学习能力,所以这是一个纠结的地方,所以有一个方法就是 局部连接+权值共享 ,局部连接+权值共享不仅权重参数降下来了,而且学习能力并没有实质的降低,除此之外还有其它的好处,下来看一下,下面的这几张图片:

一个图像的不同表示方式

这几张图片描述的都是一个东西,但是有的大有的小,有的靠左边,有的靠右边,有的位置不同,但是我们构建的网络识别这些东西的时候应该是同一结果。为了能够达到这个目的,我们可以让图片的不同位置具有相同的权重(权值共享),也就是上面所有的图片,我们只需要在训练集中放一张,我们的神经网络就可以识别出上面所有的,这也是 权值共享 的好处。

而卷积神经网络就是局部连接+权值共享的神经网络。

现在我们对卷积神经网络有一个初步认识了,下面具体来讲解一下卷积神经网络,卷积神经网络依旧是层级结构,但层的功能和形式做了改变,卷积神经网络常用来处理图片数据,比如识别一辆汽车:

在图片输出到神经网络之前,常常先进行图像处理,有 三种 常见的图像的处理方式:

均值化和归一化

去相关和白化

图片有一个性质叫做局部关联性质,一个图片的像素点影响最大的是它周边的像素点,而距离这个像素点比较远的像素点二者之间关系不大。这个性质意味着每一个神经元我们不用处理全局的图片了(和上一层全连接),我们的每一个神经元只需要和上一层局部连接,相当于每一个神经元扫描一小区域,然后许多神经元(这些神经元权值共享)合起来就相当于扫描了全局,这样就构成一个特征图,n个特征图就提取了这个图片的n维特征,每个特征图是由很多神经元来完成的。

在卷积神经网络中,我们先选择一个局部区域(filter),用这个局部区域(filter)去扫描整张图片。 局部区域所圈起来的所有节点会被连接到下一层的 一个节点上 。我们拿灰度图(只有一维)来举例:

局部区域

图片是矩阵式的,将这些以矩阵排列的节点展成了向量。就能更好的看出来卷积层和输入层之间的连接,并不是全连接的,我们将上图中的红色方框称为filter,它是2*2的,这是它的尺寸,这不是固定的,我们可以指定它的尺寸。

我们可以看出来当前filter是2*2的小窗口,这个小窗口会将图片矩阵从左上角滑到右下角,每滑一次就会一下子圈起来四个,连接到下一层的一个神经元,然后产生四个权重,这四个权重(w1、w2、w3、w4)构成的矩阵就叫做卷积核。

卷积核是算法自己学习得到的,它会和上一层计算,比如,第二层的0节点的数值就是局部区域的线性组合(w1 0+w2 1+w3 4+w4 5),即被圈中节点的数值乘以对应的权重后相加。

卷积核计算

卷积操作

我们前面说过图片不用向量表示是为了保留图片平面结构的信息。 同样的,卷积后的输出若用上图的向量排列方式则丢失了平面结构信息。 所以我们依然用矩阵的方式排列它们,就得到了下图所展示的连接,每一个蓝色结点连接四个黄色的结点。

卷积层的连接方式

图片是一个矩阵然后卷积神经网络的下一层也是一个矩阵,我们用一个卷积核从图片矩阵左上角到右下角滑动,每滑动一次,当然被圈起来的神经元们就会连接下一层的一个神经元,形成参数矩阵这个就是卷积核,每次滑动虽然圈起来的神经元不同,连接下一层的神经元也不同,但是产生的参数矩阵确是一样的,这就是 权值共享

卷积核会和扫描的图片的那个局部矩阵作用产生一个值,比如第一次的时候,(w1 0+w2 1+w3 4+w4 5),所以,filter从左上到右下的这个过程中会得到一个矩阵(这就是下一层也是一个矩阵的原因),具体过程如下所示:

卷积计算过程

上图中左边是图矩阵,我们使用的filter的大小是3 3的,第一次滑动的时候,卷积核和图片矩阵作用(1 1+1 0+1 1+0 0+1 1+1 0+0 1+0 0+1 1)=4,会产生一个值,这个值就是右边矩阵的第一个值,filter滑动9次之后,会产生9个值,也就是说下一层有9个神经元,这9个神经元产生的值就构成了一个矩阵,这矩阵叫做特征图,表示image的某一维度的特征,当然具体哪一维度可能并不知道,可能是这个图像的颜色,也有可能是这个图像的轮廓等等。

单通道图片总结 :以上就是单通道的图片的卷积处理,图片是一个矩阵,我们用指定大小的卷积核从左上角到右下角来滑动,每次滑动所圈起来的结点会和下一层的一个结点相连,连接之后就会形成局部连接,每一条连接都会产生权重,这些权重就是卷积核,所以每次滑动都会产生一个卷积核,因为权值共享,所以这些卷积核都是一样的。卷积核会不断和当时卷积核所圈起来的局部矩阵作用,每次产生的值就是下一层结点的值了,这样多次产生的值组合起来就是一个特征图,表示某一维度的特征。也就是从左上滑动到右下这一过程中会形成一个特征图矩阵(共享一个卷积核),再从左上滑动到右下又会形成另一个特征图矩阵(共享另一个卷积核),这些特征图都是表示特征的某一维度。

三个通道的图片如何进行卷积操作?

至此我们应该已经知道了单通道的灰度图是如何处理的,实际上我们的图片都是RGB的图像,有三个通道,那么此时图像是如何卷积的呢?

彩色图像

filter窗口滑的时候,我们只是从width和height的角度来滑动的,并没有考虑depth,所以每滑动一次实际上是产生一个卷积核,共享这一个卷积核,而现在depth=3了,所以每滑动一次实际上产生了具有三个通道的卷积核(它们分别作用于输入图片的蓝色、绿色、红色通道),卷积核的一个通道核蓝色的矩阵作用产生一个值,另一个和绿色的矩阵作用产生一个值,最后一个和红色的矩阵作用产生一个值,然后这些值加起来就是下一层结点的值,结果也是一个矩阵,也就是一张特征图。

三通道的计算过程

要想有多张特征图的话,我们可以再用新的卷积核来进行左上到右下的滑动,这样就会形成 新的特征图

三通道图片的卷积过程

也就是说增加一个卷积核,就会产生一个特征图,总的来说就是输入图片有多少通道,我们的卷积核就需要对应多少通道,而本层中卷积核有多少个,就会产生多少个特征图。这样卷积后输出可以作为新的输入送入另一个卷积层中处理,有几个特征图那么depth就是几,那么下一层的每一个特征图就得用相应的通道的卷积核来对应处理,这个逻辑要清楚,我们需要先了解一下 基本的概念:

卷积计算的公式

4x4的图片在边缘Zero padding一圈后,再用3x3的filter卷积后,得到的Feature Map尺寸依然是4x4不变。

填充

当然也可以使用5x5的filte和2的zero padding可以保持图片的原始尺寸,3x3的filter考虑到了像素与其距离为1以内的所有其他像素的关系,而5x5则是考虑像素与其距离为2以内的所有其他像素的关系。

规律: Feature Map的尺寸等于

(input_size + 2 * padding_size − filter_size)/stride+1

我们可以把卷积层的作用 总结一点: 卷积层其实就是在提取特征,卷积层中最重要的是卷积核(训练出来的),不同的卷积核可以探测特定的形状、颜色、对比度等,然后特征图保持了抓取后的空间结构,所以不同卷积核对应的特征图表示某一维度的特征,具体什么特征可能我们并不知道。特征图作为输入再被卷积的话,可以则可以由此探测到"更大"的形状概念,也就是说随着卷积神经网络层数的增加,特征提取的越来越具体化。

激励层的作用可以理解为把卷积层的结果做 非线性映射

激励层

上图中的f表示激励函数,常用的激励函数几下几种:

常用的激励函数

我们先来看一下激励函数Sigmoid导数最小为0,最大为1/4,

激励函数Sigmoid

Tanh激活函数:和sigmoid相似,它会关于x轴上下对应,不至于朝某一方面偏向

Tanh激活函数

ReLU激活函数(修正线性单元):收敛快,求梯度快,但较脆弱,左边的梯度为0

ReLU激活函数

Leaky ReLU激活函数:不会饱和或者挂掉,计算也很快,但是计算量比较大

Leaky ReLU激活函数

一些激励函数的使用技巧 :一般不要用sigmoid,首先试RELU,因为快,但要小心点,如果RELU失效,请用Leaky ReLU,某些情况下tanh倒是有不错的结果。

这就是卷积神经网络的激励层,它就是将卷积层的线性计算的结果进行了非线性映射。可以从下面的图中理解。它展示的是将非线性操作应用到一个特征图中。这里的输出特征图也可以看作是"修正"过的特征图。如下所示:

非线性操作

池化层:降低了各个特征图的维度,但可以保持大分重要的信息。池化层夹在连续的卷积层中间,压缩数据和参数的量,减小过拟合,池化层并没有参数,它只不过是把上层给它的结果做了一个下采样(数据压缩)。下采样有 两种 常用的方式:

Max pooling :选取最大的,我们定义一个空间邻域(比如,2x2 的窗口),并从窗口内的修正特征图中取出最大的元素,最大池化被证明效果更好一些。

Average pooling :平均的,我们定义一个空间邻域(比如,2x2 的窗口),并从窗口内的修正特征图算出平均值

Max pooling

我们要注意一点的是:pooling在不同的depth上是分开执行的,也就是depth=5的话,pooling进行5次,产生5个池化后的矩阵,池化不需要参数控制。池化操作是分开应用到各个特征图的,我们可以从五个输入图中得到五个输出图。

池化操作

无论是max pool还是average pool都有分信息被舍弃,那么部分信息被舍弃后会损坏识别结果吗?

因为卷积后的Feature Map中有对于识别物体不必要的冗余信息,我们下采样就是为了去掉这些冗余信息,所以并不会损坏识别结果。

我们来看一下卷积之后的冗余信息是怎么产生的?

我们知道卷积核就是为了找到特定维度的信息,比如说某个形状,但是图像中并不会任何地方都出现这个形状,但卷积核在卷积过程中没有出现特定形状的图片位置卷积也会产生一个值,但是这个值的意义就不是很大了,所以我们使用池化层的作用,将这个值去掉的话,自然也不会损害识别结果了。

比如下图中,假如卷积核探测"横折"这个形状。 卷积后得到3x3的Feature Map中,真正有用的就是数字为3的那个节点,其余数值对于这个任务而言都是无关的。 所以用3x3的Max pooling后,并没有对"横折"的探测产生影响。 试想在这里例子中如果不使用Max pooling,而让网络自己去学习。 网络也会去学习与Max pooling近似效果的权重。因为是近似效果,增加了更多的参数的代价,却还不如直接进行最大池化处理。

最大池化处理

在全连接层中所有神经元都有权重连接,通常全连接层在卷积神经网络尾部。当前面卷积层抓取到足以用来识别图片的特征后,接下来的就是如何进行分类。 通常卷积网络的最后会将末端得到的长方体平摊成一个长长的向量,并送入全连接层配合输出层进行分类。比如,在下面图中我们进行的图像分类为四分类问题,所以卷积神经网络的输出层就会有四个神经元。

四分类问题

我们从卷积神经网络的输入层、卷积层、激活层、池化层以及全连接层来讲解卷积神经网络,我们可以认为全连接层之间的在做特征提取,而全连接层在做分类,这就是卷积神经网络的核心。

⑥ 人工智能CNN卷积神经网络如何共享权值

首先权值共享就是滤波器共享,滤波器的参数是固定的,即是用相同的滤波器去扫一遍图像,提取一次特征特征,得到feature map。在卷积网络中,学好了一个滤波器,就相当于掌握了一种特征,这个滤波器在图像中滑动,进行特征提取,然后所有进行这样操作的区域都会被采集到这种特征,就好比上面的水平线。

⑦ CNN基本算子与操作

卷积神经网络 (Convolutional Neural Networks,CNN)是一种前馈神经网络。卷积神经网络是受生物学上感受野(Receptive Field)的机制而提出的。感受野主要是指听觉系统、本体感觉系统和视觉系统中神经元的一些性质。比如在视觉神经系统中,一个神经元的感受野是指视网膜上的特定区域,只有这个区域内的刺激才能够激活该神经元。

卷积神经网络有三个结构上的特性: 局部连接 , 权重共享 以及空间或时间上的 次采样 。详细介绍请见 卷积神经网络

1、卷积层  详情参考 卷积层(Convolution Layer)

2、全连接层 详情参考 全连接层 (Connected Layer)  作用:降维

3、Softmax Layer 详情参考  Softmax Layer

4、 CNN池化

      最大值池化 详情参考 最大池化层(Maxpool Layer)

      平局值池化 详情参考 平均值池化

      Golbal Average Pooling 详情参考 Golbal Average Pooling

      Spatial Pyramid Pooling 详情参考 Spatial Pyramid Pooling

5、dropout layer:目的是为了防止CNN 过拟合,主要用于训练过程,推理过程不需要 详情参考 Dropout Layer

6、 激活函数  :线性激活函数与非线性激活函数

     非线性激活函数,可以使神经网络随意逼近复杂函数:Sigmoid、Tanh、ReLU

      Sigmoid:详情参考 Sigmoid

      ReLU:详情参考 ReLU

      Tanh:详情参考 Tanh

7、 loss函数

8、 梯度下降

⑧ MPNN:消息传递神经网络

近年来,随着量子化学计算和分子动力学模拟等实验的展开产生了巨大的数据量,大多数经典的机器学习技术都无法有效利用目前的数据。而原子系统的对称性表明,能够应用于网络图中的神经网络也能够应用于分子模型。所以,找到一个更加强大的模型来解决目前的化学任务可以等价于找到一个适用于网络图的模型。

本文的目标是证明:能够应用于化学预测任务的模型可以直接从分子图中学习到分子的特征,并且不受到图同构的影响。本文提出的MPNN是一种用于图上监督学习的框架,能够概括之前一些文献提出的一些方法,并且能够按照这个框架提出一些新的架构。本文提出的新的MPNN变种基于实际的应用场景:预测有机小分子的量子力学性质。并且,作者希望以后提出的新的MPNN变种能够从实际的应用出发,从实际应用中获得启发。

本文以QM9作为benchmark数据集,这个数据集由130k个分子组成,每个分子有13个性质,这些性质是通过一种计算昂贵的量子力学模拟方法(DFT)近似生成的,相当于13个回归任务。这些任务似乎代表了许多重要的化学预测问题,并且目前对许多现有方法来说是困难的。

本文提出的模型的性能度量采用两种形式:
①DFT近似的平均估计误差;
②化学界已经确立的目标误差,称为“化学精度”。

本文介绍了能够应用MPNN框架的8篇文献,为了简便起见,以处理无向图 为例,无向图 包含节点特征 和边的特征 ,将这种形式推广到有向重图是不重要的。MPNN前向传播的过程包含两个阶段,即消息传递阶段(message passing phase)和读出阶段(readout phase)。消息传递阶段运行 个时间步并且依赖消息函数 以及节点更新函数 。在消息传递阶段,每个节点的隐状态 都会根据消息 进行更新,具体过程是:

代表节点 的邻居节点集合。读出阶段使用某种读出函数 来为整个图计算一个特征向量:

都是用来学习的可微函数。 作用于节点状态集合,并且必须对节点状态的排列保持不变,以使MPNN对图同构保持不变。注意MPNN也可以学习边的特征,这可以通过为每条边引入隐状态 并应用前面的两个过程来实现。接下来,我们通过指定所使用的消息函数 、顶点更新函数 和读出函数 来定义以前文献中的模型。

本文提出的模型采用的消息函数是:

代表拼接。节点更新函数是:

是节点 的度, 对应于时间步 以及节点度 的学习矩阵。读出函数将之前所有隐状态 进行连接:

是一个神经网络, 是时间步 的一个学习矩阵。

这样的消息传递的方法可能有问题,因为最终得到的消息向量为 ,这是边和节点状态向量的加和,缺乏边和节点状态向量的交互。

消息函数为:

是特定于边的标签的学习矩阵(这个模型假设边有离散的标签)。更新函数如下:

GRU就是门控循环单元,一种循环神经网络,对于每个时间步进行权重共享,也就是说每个时间步共用同一个更新函数。最后,读出函数:

代表神经网络, 代表哈达玛积。

这个模型考虑了两种情况,一种是每个节点都有自己的目标,另一种是有一个graph level的目标。它还考虑了在每个时间步骤中存在node level影响的情况,在这种情况下,更新函数将 连接作为输入,其中 是一个外部向量,表示顶点 受到的外部影响。消息函数 是一个神经网络,使用拼接向量 作为输入,节点更新函数 也是一个神经网络,使用 作为输入。最终读出函数得到一个graph level的输出: ,这里 是一个神经网络。注意,这个模型只定义了 的情况。

这个模型与之前的MPNNs稍微有一些不同,是因为它引入了边的表示 ,并且会在消息传递阶段进行更新。消息函数为:

节点更新函数为:

同样的 代表拼接, 代表ReLU激活函数, 是学习权重矩阵。边状态更新的方式是:

都是学习矩阵。

消息函数为:

是矩阵, 是偏置向量。更新函数为:

读出函数使用单个隐层神经网络独立地通过每个节点,并对输出进行求和:

8篇文献中有3篇属于这一类。其中两篇采用消息函数:

矩阵 通过拉普拉斯矩阵的特征向量和模型的学习参数来参数化。更新函数为:

代表非线性函数,比如ReLU激活函数。

另一篇文献采用消息函数:

这里 。节点更新函数为:

本文以前述GG-NN作为baseline进行改进,提出一种新的MPNN变种。下文中以 代表节点特征的维度,以 代表图的节点的数量。这一变种适用于有向图,这意味着入边和出边有分别的信息通道,那么信息 由 和 拼接而成,当我们将模型应用无向图时,就把无向图的边看做两条边,包含一条入边,一条出边,有相同的标签,这样处理的方式意味着信息通道的大小是 而不是 。

模型的输入是每个节点的特征向量 以及邻接矩阵 ,邻接矩阵 具有向量分量,表示分子中的不同化学键以及两个原子之间的成对空间距离。初始状态 是原子输入特征集合 ,并且需要padding到维度 。在实验中的每个时间步 都要进行权重共享,并且更新函数采用GRU。

GG-NN原本采用的消息函数,采用矩阵相乘的方式(注意原来的GG-NN的边有离散的标签,而现在我们假设的边有一个特征向量 ):

是特定于边的标签的学习矩阵。为了兼容边特征,本文提出了新的消息函数:

是一个神经网络,将边的特征向量 映射到一个 的矩阵。上述两种消息函数的特点是消息只依赖于 和 而不依赖于 ,如果消息同时依赖目标节点与源节点,那么应该是更加高效的,可以尝试以下这种消息函数:

这里 是一个神经网络。

对于有向图,一共有两个消息函数 和 ,对于边 应用哪个消息函数取决于边的方向。

本文探索了两种方式来改变模型中信息的传递。第一种是为未连接的节点对添加一个单独的“虚拟”边类型。这一处理可以在预处理时实现,效果是可以使得在传播过程中让信息传播更远的距离。

另一种方式是添加一个“master”节点,让它通过一种特殊类型的边与所有节点连接。“master”节点充当全局暂存空间,每个节点在消息传递的每个步骤中都对其进行读写操作。另外“master”节点拥有单独的节点维度 ,以及内部更新函数(实验中是GRU)的单独权重。这同样可以使得在传播过程中让信息传播更远的距离。这样可以允许模型有更大的容量,同时也不会过多的损失效率,其复杂度为 。

读出函数采用set2set模型,这个模型使用 作为输入,然后再经过 步计算后生成一个graph level的embedding ,其中过程与 内节点顺序无关,最终将 输入到一个神经网络中来获得最终输出。具体参考文献: Sequence to sequence for sets。

由于消息传递阶段的复杂度为 ,当 和 增大时,计算上就会是昂贵的。处理的方法是将 拆分成 个不同的 维的embedding ,并且在每个 上独立运行传播过程得到 ,然后进行混合:

代表神经网络, 代表拼接, 在所有节点上共享。这样的混合过程保持了节点排列的不变性,同时允许图的不同副本在传播阶段相互通信。这样的设计提升了计算效率,比如在使用矩阵相乘的消息函数时一个副本的复杂度为 ,当有 个副本时一共为 。

一个分子有很多特征,如下图所示:

边的特征包括化学键与距离,因此有以下三种表示方式:
①化学图(Chemical Graph):在不考虑距离的情况下,邻接矩阵的值是离散的键类型:单键,双键,三键或芳香键;
②距离分桶(Distance bins):GG-NN基于矩阵乘法的消息函数的前提假设是“边信息是离散的”,因此作者将键的距离分为 10 个 bin,比如说 中均匀划分 8 个 bin, 为 1 个 bin, 为 1 个 bin;
③原始距离特征(Raw distance feature):也可以同时考虑距离和化学键的特征,这时每条边都有自己的特征向量,此时邻接矩阵的每个实例都是一个 5 维向量,第一维是距离,其余4维是一个独热向量,代表4种不同的化学键。

实验中对比了本文提出的方法与现有的方法:

以下为不考虑空间信息的结果:

以下为一些消融实验:

具体实验设置参照原文。

⑨ ENAS:首个权值共享的神经网络搜索方法,千倍加速 | ICML 2018

论文: Efficient Neural Architecture Search via Parameter Sharing

  神经网络结构搜索(NAS)目前在图像分类的模型结构设计上有很大的成果,但十分耗时,主要花在搜索到的网络(child model)的训练。论文的主要工作是提出 Efficient Neural Architecture Search (ENAS),强制所有的child model进行权重共享,避免从零开始训练,从而达到提高效率的目的。虽然不同的模型使用不同的权重,但从迁移学习和多任务学习的研究结果来看,将当前任务的模型A学习到的参数应用于别的任务的模型B是可行的。从实验看来,不仅共享参数是可行的,而且能带来很强的表现,实验仅用单张1080Ti,相对与NAS有1000x倍加速

  NAS的搜索结果可以看作是大图中的子图,可以用单向无环图(DAG)来表示搜索空间,每个搜索的结构可以认为是图2的DAG一个子网。ENAS定义的DAG为所有子网的叠加,其中每个节点的每种计算类型都有自己的参数,当特定的计算方法激活时,参数才使用。因此,ENAS的设计允许子网进行参数共享,下面会介绍具体细节

  为了设计循环单元(recurrent cell),采用 节点的DAG,节点代表计算类型,边代表信息流向,ENAS的controller也是RNN,主要定义:1) 激活的边 2) 每个节点的计算类型。在NAS(Zoph 2017),循环单元的搜索空间在预先定义结构的拓扑结构(二叉树)上,仅学习每个节点的计算类型,而NAS则同时学习拓扑结构和计算类型,更灵活

  为了创建循环单元,the controller RNN首先采样 个block的结果,取 , 为当前单元输入信息(例如word embedding), 为前一个time step的隐藏层输出,具体步骤如下:

  注意到每对节点( )都有独立的参数 ,根据选择的索引决定使用哪个参数,因此,ENAS的所有循环单元能同一个共享参数集合。论文的搜索空间包含指数数量的配置,假设有N个节点和4种激活函数,则共有 种配置

  ENAS的controller为100个隐藏单元的LSTM,通过softmax分类器以自回归(autoregressive fashion)的方式进行选择的决定,上一个step的输出作为下一个step的输入embedding,controller的第一个step则接受空embedding输入。学习的参数主要有controller LSTM的参数 和子网的共享权重 ,ENAS的训练分两个交叉的阶段,第一阶段在完整的训练集上进行共享权重 学习,第二阶段训练controller LSTM的参数

  固定controller的策略 ,然后进行 进行随机梯度下降(SGD)来最小化交叉熵损失函数的期望 , 为模型 在mini-batch上的交叉熵损失,模型 从 采样而来

  梯度的计算如公式1, 上从 采样来的,集合所有模型的梯度进行更新。公式1是梯度的无偏估计,但有一个很高的方差(跟NAS一样,采样的模型性能差异),而论文发现,当 时,训练的效果还行

  固定 然后更新策略参数 ,目标是最大化期望奖励 ,使用Adam优化器,梯度计算使用Williams的REINFORCE方法,加上指数滑动平均来降低方差, 的计算在独立的验证集上进行,整体基本跟Zoph的NAS一样

  训练好的ENAS进行新模型构造,首先从训练的策略 采样几个新的结构,对于每个采样的模型,计算其在验证集的minibatch上的准确率,取准确率最高的模型进行从零开始的重新训练,可以对所有采样的网络进行从零训练,但是论文的方法准确率差不多,经济效益更大

  对于创建卷积网络,the controller每个decision block进行两个决定,这些决定构成卷积网络的一层:

  做 次选择产生 层的网络,共 种网络,在实验中,L取12

  NASNet提出设计小的模块,然后堆叠成完整的网络,主要设计convolutional cell和rection cell

  使用ENAS生成convolutional cell,构建B节点的DAG来代表单元内的计算,其中node 1和node 2代表单元输入,为完整网络中前两个单元的输出,剩余的 个节点,预测两个选择:1) 选择两个之前的节点作为当前节点输入 2) 选择用于两个输入的计算类型,共5种算子:identity, separable convolution with kernel size 3 × 3 and 5 × 5, and average pooling and max pooling with kernel size 3×3,然后将算子结果相加。对于 ,搜索过程如下:

  对于rection cell,可以同样地使用上面的搜索空间生成: 1) 如图5采样一个计算图 2) 将所有计算的stride改为2。这样rection cell就能将输入缩小为1/2,controller共预测 blocks
  最后计算下搜索空间的复杂度,对于node i ,troller选择前 个节点中的两个,然后选择五种算子的两种,共 种坑的单元。因为两种单元是独立的,所以搜索空间的大小最终为 ,对于 ,大约 种网络

  节点的计算做了一点修改,增加highway connections,例如 修改为 ,其中 , 为elementwise乘法。搜索到的结果如图6所示,有意思的是:1) 激活方法全部为tanh或ReLU 2) 结构可能为局部最优,随机替换节点的激活函数都会造成大幅的性能下降 3) 搜索的输出是6个node的平均,与mixture of contexts(MoC)类似

  单1080Ti训练了10小时,Penn Treebank上的结果如表1所示,PPL越低则性能越好,可以看到ENAS不准复杂度低,参数量也很少

  表2的第一块为最好的分类网络DenseNet的结构,第二块为ENAS设计整个卷积网络的结果(感觉这里不应有micro search space),第三块为设计单元的结果

  全网络搜索的最优结构如图7所示,达到4.23%错误率,比NAS的效果要好,大概单卡搜索7小时,相对NAS有50000x倍加速

  单元搜索的结构如图8所示,单卡搜索11.5小时, ,错误率为3.54%,加上CutOut增强后比NASNet要好。论文发现ENAS搜索的结构都是局部最优的,修改都会带来性能的降低,而ENAS不采样多个网络进行训练,这个给NAS带来很大性能的提升

  NAS是自动设计网络结构的重要方法,但需要耗费巨大的资源,导致不能广泛地应用,而论文提出的 Efficient Neural Architecture Search (ENAS),在搜索时对子网的参数进行共享,相对于NAS有超过1000x倍加速,单卡搜索不到半天,而且性能并没有降低,十分值得参考



⑩ 卷积神经网络

一般由卷积层,汇聚层,和全连接层交叉堆叠而成,使用反向传播算法进行训练(反向传播,再重新看一下)
卷积神经网络有三个结构上的特性:局部连接,权重共享以及子采样

滤波器filter 卷积核convolution kernel
局部连接,其实就是根据时间,权重递减 最后为0 参数就传播不到远处了

局部连接 乘以 滤波器 得特征映射

互相关,是一个衡量两个序列相关性的函数,
互相关和卷积的区别在于 卷积核仅仅是否进行翻转,因此互相关也可以称为 不翻转卷积
使用卷积 是为了进行特征抽取,卷积核 是否进行翻转和其特征抽取的能力无关。
当卷积核是可以学习的参数,卷积和互相关是等价的,因此,其实两者差不多。

Tips:P是代表特征映射

阅读全文

与权重共享的神经网络相关的资料

热点内容
网络共享中心没有网卡 浏览:513
电脑无法检测到网络代理 浏览:1364
笔记本电脑一天会用多少流量 浏览:547
苹果电脑整机转移新机 浏览:1368
突然无法连接工作网络 浏览:1029
联通网络怎么设置才好 浏览:1213
小区网络电脑怎么连接路由器 浏览:1005
p1108打印机网络共享 浏览:1203
怎么调节台式电脑护眼 浏览:666
深圳天虹苹果电脑 浏览:905
网络总是异常断开 浏览:603
中级配置台式电脑 浏览:962
中国网络安全的战士 浏览:623
同志网站在哪里 浏览:1404
版观看完整完结免费手机在线 浏览:1449
怎样切换默认数据网络设置 浏览:1099
肯德基无线网无法访问网络 浏览:1275
光纤猫怎么连接不上网络 浏览:1445
神武3手游网络连接 浏览:956
局网打印机网络共享 浏览:991