导航:首页 > 异常信息 > 全连接神经网络和深度神经网络

全连接神经网络和深度神经网络

发布时间：2022-11-08 01:42:50

A. 有哪些深度神经网络模型

卷积神经元（Convolutional cells）和前馈神经元非常相似，除了它们只跟前一神经细胞层的部分神经元有连接。因为它们不是和某些神经元随机连接的，而是与特定范围内的神经元相连接，通常用来保存空间信息。这让它们对于那些拥有大量局部信息，比如图像数据、语音数据（但多数情况下是图像数据），会非常实用。

解卷积神经元恰好相反：它们是通过跟下一神经细胞层的连接来解码空间信息。这两种神经元都有很多副本，它们都是独立训练的；每个副本都有自己的权重，但连接方式却完全相同。可以认为，这些副本是被放在了具备相同结构的不同的神经网络中。这两种神经元本质上都是一般意义上的神经元，但是，它们的使用方式却不同。

池化神经元和插值神经元（Pooling and interpolating cells）经常和卷积神经元结合起来使用。它们不是真正意义上的神经元，只能进行一些简单的操作。

池化神经元接受到来自其它神经元的输出过后，决定哪些值可以通过，哪些值不能通过。在图像领域，可以理解成是把一个图像缩小了（在查看图片的时候，一般软件都有一个放大、缩小的功能；这里的图像缩小，就相当于软件上的缩小图像；也就是说我们能看到图像的内容更加少了；在这个池化的过程当中，图像的大小也会相应地减少）。这样，你就再也不能看到所有的像素了，池化函数会知道什么像素该保留，什么像素该舍弃。

插值神经元恰好是相反的操作：它们获取一些信息，然后映射出更多的信息。额外的信息都是按照某种方式制造出来的，这就好像在一张小分辨率的图片上面进行放大。插值神经元不仅仅是池化神经元的反向操作，而且，它们也是很常见，因为它们运行非常快，同时，实现起来也很简单。池化神经元和插值神经元之间的关系，就像卷积神经元和解卷积神经元之间的关系。

均值神经元和标准方差神经元（Mean and standard deviation cells）（作为概率神经元它们总是成对地出现）是一类用来描述数据概率分布的神经元。均值就是所有值的平均值，而标准方差描述的是这些数据偏离（两个方向）均值有多远。比如：一个用于图像处理的概率神经元可以包含一些信息，比如：在某个特定的像素里面有多少红色。举个例来说，均值可能是0.5，同时标准方差是0.2。当要从这些概率神经元取样的时候，你可以把这些值输入到一个高斯随机数生成器，这样就会生成一些分布在0.4和0.6之间的值；值离0.5越远，对应生成的概率也就越小。它们一般和前一神经元层或者下一神经元层是全连接，而且，它们没有偏差（bias）。

循环神经元（Recurrent cells ）不仅仅在神经细胞层之间有连接，而且在时间轴上也有相应的连接。每一个神经元内部都会保存它先前的值。它们跟一般的神经元一样更新，但是，具有额外的权重：与当前神经元之前值之间的权重，还有大多数情况下，与同一神经细胞层各个神经元之间的权重。当前值和存储的先前值之间权重的工作机制，与非永久性存储器（比如RAM）的工作机制很相似，继承了两个性质：

第一，维持一个特定的状态；
第二：如果不对其持续进行更新（输入），这个状态就会消失。

由于先前的值是通过激活函数得到的，而在每一次的更新时，都会把这个值和其它权重一起输入到激活函数，因此，信息会不断地流失。实际上，信息的保存率非常的低，以至于仅仅四次或者五次迭代更新过后，几乎之前所有的信息都会流失掉。

B. 神经网络简述

机器学习中谈论的神经网络是指“神经网络学习”，或者说，是机器学习和神经网络这两个学科领域的交叉部分[1]。

在这里，神经网络更多的是指计算机科学家模拟人类大脑结构和智能行为，发明的一类算法的统称。

神经网络是众多优秀仿生算法中的一种，读书时曾接触过蚁群优化算法，曾惊讶于其强大之处，但神经网络的强大，显然蚁群优化还不能望其项背。

A、起源与第一次高潮。有人认为，神经网络的最早讨论，源于现代计算机科学的先驱——阿兰.图灵在1948年的论文中描述的“B型组织机器”[2]。二十世纪50年代出现了以感知机、Adaling为代表的一系列成功，这是神经网络发展的第一个高潮[1]。

B、第一次低谷。1969年，马文.明斯基出版《感知机》一书，书中论断直接将神经网络打入冷宫，导致神经网络十多年的“冰河期”。值得一提的是，在这期间的1974年，哈佛大学Paul Webos发明BP算法，但当时未受到应有的重视[1]。

C、第二次高潮。1983年，加州理工学院的物理学家John Hopfield利用神经网络，在旅行商问题上获得当时最好结果，引起轰动；Rumelhart等人重新发明了BP算法，BP算法迅速走红，掀起神经网络第二次高潮[1]。

D、第二次低谷。二十世纪90年代中期，统计学习理论和支持向量机兴起，较之于这些算法，神经网络的理论基础不清晰等缺点更加凸显，神经网络研究进入第二次低谷[1]。

E、深度学习的崛起。2010年前后，随着计算能力的提升和大数据的涌现，以神经网络为基础的“深度学习”崛起，科技巨头公司谷歌、Facebook、网络投入巨资研发，神经网络迎来第三次高潮[1]。2016年3月9日至15日，Google人工智能程序AlphaGo对阵韩国围棋世界冠军李世乭，以4:1大比分获胜，比众多专家预言早了十年。这次比赛，迅速在全世界经济、科研、计算机产业各领域掀起人工智能和深度学习的热烈讨论。

F、展望。从几个方面讨论一下。

1)、近期在Google AlphaGo掀起的热潮中，民众的热情与期待最大，甚至有少许恐慌情绪；计算机产业和互联网产业热情也非常巨大，对未来充满期待，各大巨头公司对其投入大量资源；学术界的反应倒是比较冷静的。学术界的冷静，是因为神经网络和深度神经网络的理论基础还没有出现长足的进步，其缺点还没有根本改善。这也从另一个角度说明了深度神经网络理论进步的空间很大。

2)、"当代神经网络是基于我们上世纪六十年代掌握的脑知识。"关于人类大脑的科学与知识正在爆炸式增长。[3]世界上很多学术团队正在基于大脑机制新的认知建立新的模型[3]。我个人对此报乐观态度，从以往的仿生算法来看，经过亿万年进化的自然界对科技发展的促进从来没有停止过。

3)、还说AlphaGo，它并不是理论和算法的突破，而是基于已有算法的工程精品。AlhphaGo的工作，为深度学习的应用提供了非常广阔的想象空间。分布式技术提供了巨大而廉价的计算能力，巨量数据的积累提供了丰富的训练样本，深度学习开始腾飞，这才刚刚开始。

一直沿用至今的，是McChlloch和Pitts在1943年依据脑神经信号传输结构抽象出的简单模型，所以也被称作”M-P神经元模型“。

其中，

f函数像一般形如下图的函数，既考虑阶跃性，又考虑光滑可导性。

实际常用如下公式，因形如S，故被称作sigmoid函数。

把很多个这样的神经元按一定层次连接起来，就得到了神经网络。

两层神经元组成，输入层接收外界输入信号，输出层是M-P神经元(只有输出层是)。

感知机的数学模型和单个M-P神经元的数学模型是一样的，如因为输入层只需接收输入信号，不是M-P神经元。

感知机只有输出层神经元是B-P神经元，学习能力非常有限。对于现行可分问题，可以证明学习过程一定会收敛。而对于非线性问题，感知机是无能为力的。

BP神经网络全称叫作误差逆传播(Error Propagation)神经网络，一般是指基于误差逆传播算法的多层前馈神经网络。这里为了不占篇幅，BP神经网络将起篇另述。

BP算法是迄今最为成功的神经网络学习算法，也是最有代表性的神经网络学习算法。BP算法不仅用于多层前馈神经网络，还用于其他类型神经网络的训练。

RBF网络全程径向基函数(Radial Basis Function)网络，是一种单隐层前馈神经网络，其与BP网络最大的不同是采用径向基函数作为隐层神经元激活函数。

卷积神经网络(Convolutional neural networks，简称CNNs)是一种深度学习的前馈神经网络，在大型图片处理中取得巨大成功。卷积神经网络将起篇另述。

循环神经网络(Recurrent Neural Networks，RNNs)与传统的FNNs不同，RNNs引入定向循环，能够处理那些输入之间前后关联的问题。RNNs已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用[5]。RNNs将起篇另述。[5]

[1]、《机器学习》，周志华着

[2]、《模式识别（第二版）》，Richard O.Duda等着，李宏东等译

[3]、《揭秘IARPA项目：解码大脑算法或将彻底改变机器学习》，Emily Singerz着，机器之心编译出品

[4]、图片来源于互联网

[5]、循环神经网络(RNN, Recurrent Neural Networks)介绍

C. 一文读懂神经网络

要说近几年最引人注目的技术，无疑的，非人工智能莫属。无论你是否身处科技互联网行业，随处可见人工智能的身影：从 AlphaGo 击败世界围棋冠军，到无人驾驶概念的兴起，再到科技巨头 All in AI，以及各大高校向社会输送海量的人工智能专业的毕业生。以至于人们开始萌生一个想法：新的革命就要来了，我们的世界将再次发生一次巨变；而后开始焦虑：我的工作是否会被机器取代？我该如何才能抓住这次革命？

人工智能背后的核心技术是深度神经网络（Deep Neural Network），大概是一年前这个时候，我正在回老家的高铁上学习 3Blue1Brown 的 Neural Network 系列视频课程，短短 4 集 60 多分钟的时间，就把神经网络从 High Level 到推导细节说得清清楚楚，当时的我除了获得新知的兴奋之外，还有一点新的认知，算是给头脑中的革命性的技术泼了盆冷水：神经网络可以解决一些复杂的、以前很难通过写程序来完成的任务——例如图像、语音识别等，但它的实现机制告诉我，神经网络依然没有达到生物级别的智能，短期内期待它来取代人也是不可能的。

一年后的今天，依然在这个春运的时间点，将我对神经网络的理解写下来，算是对这部分知识的一个学习笔记，运气好的话，还可以让不了解神经网络的同学了解起来。

维基网络这样解释神经网络：

这个定义比较宽泛，你甚至还可以用它来定义其它的机器学习算法，例如之前我们一起学习的逻辑回归和 GBDT 决策树。下面我们具体一点，下图是一个逻辑回归的示意图：

其中 x1 和 x2 表示输入，w1 和 w2 是模型的参数，z 是一个线性函数：

接着我们对 z 做一个 sigmod 变换（图中蓝色圆），得到输出 y：

其实，上面的逻辑回归就可以看成是一个只有 1 层 输入层 ， 1 层 输出层 的神经网络，图中容纳数字的圈儿被称作 神经元 ；其中，层与层之间的连接 w1、w2 以及 b，是这个 神经网络的参数 ，层之间如果每个神经元之间都保持着连接，这样的层被称为 全连接层 （Full Connection Layer），或 稠密层 （Dense Layer）；此外，sigmoid 函数又被称作 激活函数 （Activation Function），除了 sigmoid 外，常用的激活函数还有 ReLU、tanh 函数等，这些函数都起到将线性函数进行非线性变换的作用。我们还剩下一个重要的概念： 隐藏层 ，它需要把 2 个以上的逻辑回归叠加起来加以说明：

如上图所示，除输入层和输出层以外，其他的层都叫做 隐藏层 。如果我们多叠加几层，这个神经网络又可以被称作 深度神经网络 （Deep Neural Network），有同学可能会问多少层才算“深”呢？这个没有绝对的定论，个人认为 3 层以上就算吧：）

以上，便是神经网络，以及神经网络中包含的概念，可见，神经网络并不特别，广义上讲，它就是

可见，神经网络和人脑神经也没有任何关联，如果我们说起它的另一个名字—— 多层感知机（Mutilayer Perceptron） ，就更不会觉得有多么玄乎了，多层感知机创造于 80 年代，可为什么直到 30 年后的今天才爆发呢？你想得没错，因为改了个名字……开个玩笑；实际上深度学习这项技术也经历过很长一段时间的黑暗低谷期，直到人们开始利用 GPU 来极大的提升训练模型的速度，以及几个标志性的事件：如 AlphaGo战胜李世石、Google 开源 TensorFlow 框架等等，感兴趣的同学可以翻一下这里的历史。

就拿上图中的 3 个逻辑回归组成的神经网络作为例子，它和普通的逻辑回归比起来，有什么优势呢？我们先来看下单逻辑回归有什么劣势，对于某些情况来说，逻辑回归可能永远无法使其分类，如下面数据：

这 4 个样本画在坐标系中如下图所示

因为逻辑回归的决策边界（Decision Boundary）是一条直线，所以上图中的两个分类，无论你怎么做，都无法找到一条直线将它们分开，但如果借助神经网络，就可以做到这一点。

由 3 个逻辑回归组成的网络（这里先忽略 bias）如下：

观察整个网络的计算过程，在进入输出层之前，该网络所做的计算实际上是：

即把输入先做了一次线性变换（Linear Transformation），得到 [z1, z2] ，再把 [z1, z2] 做了一个非线性变换（sigmoid），得到 [x1', x2'] ，（线性变换的概念可以参考这个视频）。从这里开始，后面的操作就和一个普通的逻辑回归没有任何差别了，所以它们的差异在于：我们的数据在输入到模型之前，先做了一层特征变换处理（Feature Transformation，有时又叫做特征抽取 Feature Extraction），使之前不可能被分类的数据变得可以分类了。

我们继续来看下特征变换的效果，假设为，带入上述公式，算出 4 个样本对应的 [x1', x2'] 如下：

再将变换后的 4 个点绘制在坐标系中：

显然，在做了特征变换之后，这两个分类就可以很容易的被一条决策边界分开了。

所以， 神经网络的优势在于，它可以帮助我们自动的完成特征变换或特征提取 ，尤其对于声音、图像等复杂问题，因为在面对这些问题时，人们很难清晰明确的告诉你，哪些特征是有用的。

在解决特征变换的同时，神经网络也引入了新的问题，就是我们需要设计各式各样的网络结构来针对性的应对不同的场景，例如使用卷积神经网络（CNN）来处理图像、使用长短期记忆网络（LSTM）来处理序列问题、使用生成式对抗网络（GAN）来写诗和作图等，就连去年自然语言处理（NLP）中取得突破性进展的 Transformer/Bert 也是一种特定的网络结构。所以， 学好神经网络，对理解其他更高级的网络结构也是有帮助的 。

上面说了，神经网络可以看作一个非线性函数，该函数的参数是连接神经元的所有的 Weights 和 Biases，该函数可以简写为 f(W, B) ，以手写数字识别的任务作为例子：识别 MNIST 数据集中的数字，数据集（MNIST 数据集是深度学习中的 HelloWorld）包含上万张不同的人写的数字图片，共有 0-9 十种数字，每张图片为 28*28=784 个像素，我们设计一个这样的网络来完成该任务：

把该网络函数所具备的属性补齐：

接下来的问题是，这个函数是如何产生的？这个问题本质上问的是这些参数的值是怎么确定的。

在机器学习中，有另一个函数 c 来衡量 f 的好坏，c 的参数是一堆数据集，你输入给 c 一批 Weights 和 Biases，c 输出 Bad 或 Good，当结果是 Bad 时，你需要继续调整 f 的 Weights 和 Biases，再次输入给 c，如此往复，直到 c 给出 Good 为止，这个 c 就是损失函数 Cost Function（或 Loss Function）。在手写数字识别的列子中，c 可以描述如下：

可见，要完成手写数字识别任务，只需要调整这 12730 个参数，让损失函数输出一个足够小的值即可，推而广之，绝大部分神经网络、机器学习的问题，都可以看成是定义损失函数、以及参数调优的问题。

在手写识别任务中，我们既可以使用交叉熵（Cross Entropy）损失函数，也可以使用 MSE（Mean Squared Error）作为损失函数，接下来，就剩下如何调优参数了。

神经网络的参数调优也没有使用特别的技术，依然是大家刚接触机器学习，就学到的梯度下降算法，梯度下降解决了上面迭代过程中的遗留问题——当损失函数给出 Bad 结果时，如何调整参数，能让 Loss 减少得最快。

梯度可以理解为：

把 Loss 对应到 H，12730 个参数对应到 (x,y)，则 Loss 对所有参数的梯度可以表示为下面向量，该向量的长度为 12730：
$$
abla L(w,b) = left[

frac{partial L}{partial w_1},
frac{partial L}{partial w_2},...,
frac{partial L}{partial b_{26}}

ight] ^ op
$$
所以，每次迭代过程可以概括为

用梯度来调整参数的式子如下（为了简化，这里省略了 bias）：

上式中，是学习率，意为每次朝下降最快的方向前进一小步，避免优化过头（Overshoot）。

由于神经网络参数繁多，所以需要更高效的计算梯度的算法，于是，反向传播算法（Backpropagation）呼之欲出。

在学习反向传播算法之前，我们先复习一下微积分中的链式法则（Chain Rule）：设 g = u(h) ， h = f(x) 是两个可导函数，x 的一个很小的变化 △x 会使 h 产生一个很小的变化 △h，从而 g 也产生一个较小的变化 △g，现要求 △g/△x，可以使用链式法则：

有了以上基础，理解反向传播算法就简单了。

假设我们的演示网络只有 2 层，输入输出都只有 2 个神经元，如下图所示：

其中是输入，是输出，是样本的目标值，这里使用的损失函数 L 为 MSE；图中的上标 (1) 或 (2) 分别表示参数属于第 (1) 层或第 (2) 层，下标 1 或 2 分别表示该层的第 1 或第 2 个神经元。

现在我们来计算和，掌握了这 2 个参数的偏导数计算之后，整个梯度的计算就掌握了。

所谓反向传播算法，指的是从右向左来计算每个参数的偏导数，先计算，根据链式法则

对左边项用链式法则展开

又是输出值，可以直接通过 MSE 的导数算出：

而，则就是 sigmoid 函数的导数在处的值，即

于是就算出来了：

再来看这一项，因为

所以

注意：上面式子对于所有的和都成立，且结果非常直观，即对的偏导为左边的输入的大小；同时，这里还隐含着另一层意思：需要调整哪个来影响，才能使 Loss 下降得最快，从该式子可以看出，当然是先调整较大的值所对应的，效果才最显着。

于是，最后一层参数的偏导数就算出来了

我们再来算上一层的，根据链式法则：

继续展开左边这一项

你发现没有，这几乎和计算最后一层一摸一样，但需要注意的是，这里的对 Loss 造成的影响有多条路径，于是对于只有 2 个输出的本例来说：

上式中，都已经在最后一层算出，下面我们来看下，因为

于是

同理

注意：这里也引申出梯度下降的调参直觉：即要使 Loss 下降得最快，优先调整 weight 值比较大的 weight。

至此，也算出来了

观察上式， 所谓每个参数的偏导数，通过反向传播算法，都可以转换成线性加权（Weighted Sum）计算 ，归纳如下：

式子中 n 代表分类数，(l) 表示第 l 层，i 表示第 l 层的第 i 个神经元。 既然反向传播就是一个线性加权，那整个神经网络就可以借助于 GPU 的矩阵并行计算了 。

最后，当你明白了神经网络的原理，是不是越发的认为，它就是在做一堆的微积分运算，当然，作为能证明一个人是否学过微积分，神经网络还是值得学一下的。Just kidding ..

本文我们通过

这四点，全面的学习了神经网络这个知识点，希望本文能给你带来帮助。

参考：

D. 神经网络：卷积神经网络（CNN）

神经网络最早是由心理学家和神经学家提出的，旨在寻求开发和测试神经的计算模拟。

粗略地说，神经网络是一组连接的输入/输出单元，其中每个连接都与一个权相关联。在学习阶段，通过调整权值，使得神经网络的预测准确性逐步提高。由于单元之间的连接，神经网络学习又称连接者学习。

神经网络是以模拟人脑神经元的数学模型为基础而建立的，它由一系列神经元组成，单元之间彼此连接。从信息处理角度看，神经元可以看作是一个多输入单输出的信息处理单元，根据神经元的特性和功能，可以把神经元抽象成一个简单的数学模型。

神经网络有三个要素：拓扑结构、连接方式、学习规则

神经网络的拓扑结构：神经网络的单元通常按照层次排列，根据网络的层次数，可以将神经网络分为单层神经网络、两层神经网络、三层神经网络等。结构简单的神经网络，在学习时收敛的速度快，但准确度低。

神经网络的层数和每层的单元数由问题的复杂程度而定。问题越复杂，神经网络的层数就越多。例如，两层神经网络常用来解决线性问题，而多层网络就可以解决多元非线性问题

神经网络的连接：包括层次之间的连接和每一层内部的连接，连接的强度用权来表示。

根据层次之间的连接方式，分为：

1）前馈式网络：连接是单向的，上层单元的输出是下层单元的输入，如反向传播网络，Kohonen网络

2）反馈式网络：除了单项的连接外，还把最后一层单元的输出作为第一层单元的输入，如Hopfield网络

根据连接的范围，分为：

1）全连接神经网络：每个单元和相邻层上的所有单元相连

2）局部连接网络：每个单元只和相邻层上的部分单元相连

神经网络的学习

根据学习方法分：

感知器：有监督的学习方法，训练样本的类别是已知的，并在学习的过程中指导模型的训练

认知器：无监督的学习方法，训练样本类别未知，各单元通过竞争学习。

根据学习时间分：

离线网络：学习过程和使用过程是独立的

在线网络：学习过程和使用过程是同时进行的

根据学习规则分：

相关学习网络：根据连接间的激活水平改变权系数

纠错学习网络：根据输出单元的外部反馈改变权系数

自组织学习网络：对输入进行自适应地学习

摘自《数学之美》对人工神经网络的通俗理解：

神经网络种类很多，常用的有如下四种：

1）Hopfield网络，典型的反馈网络，结构单层，有相同的单元组成

2）反向传播网络，前馈网络，结构多层，采用最小均方差的纠错学习规则，常用于语言识别和分类等问题

3）Kohonen网络：典型的自组织网络，由输入层和输出层构成，全连接

4）ART网络：自组织网络

深度神经网络：

Convolutional Neural Networks(CNN)卷积神经网络

Recurrent neural Network(RNN)循环神经网络

Deep Belief Networks(DBN)深度信念网络

深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。

深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。

Machine Learning vs. Deep Learning

神经网络（主要是感知器）经常用于分类

神经网络的分类知识体现在网络连接上，被隐式地存储在连接的权值中。

神经网络的学习就是通过迭代算法，对权值逐步修改的优化过程，学习的目标就是通过改变权值使训练集的样本都能被正确分类。

神经网络特别适用于下列情况的分类问题：

1) 数据量比较小，缺少足够的样本建立模型

2) 数据的结构难以用传统的统计方法来描述

3) 分类模型难以表示为传统的统计模型

缺点：

1) 需要很长的训练时间，因而对于有足够长训练时间的应用更合适。

2) 需要大量的参数，这些通常主要靠经验确定，如网络拓扑或“结构”。

3) 可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。

优点：

1) 分类的准确度高

2)并行分布处理能力强

3)分布存储及学习能力高

4)对噪音数据有很强的鲁棒性和容错能力

最流行的基于神经网络的分类算法是80年代提出的后向传播算法。后向传播算法在多路前馈神经网络上学习。

定义网络拓扑

在开始训练之前，用户必须说明输入层的单元数、隐藏层数（如果多于一层）、每一隐藏层的单元数和输出层的单元数，以确定网络拓扑。

对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常，对输入值规格化，使得它们落入0.0和1.0之间。

离散值属性可以重新编码，使得每个域值一个输入单元。例如，如果属性A的定义域为(a0,a1,a2)，则可以分配三个输入单元表示A。即，我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0，则I0置为1；如果A = a1，I1置1；如此下去。

一个输出单元可以用来表示两个类（值1代表一个类，而值0代表另一个）。如果多于两个类，则每个类使用一个输出单元。

隐藏层单元数设多少个“最好” ，没有明确的规则。

网络设计是一个实验过程，并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低，则通常需要采用不同的网络拓扑或使用不同的初始权值，重复进行训练。

后向传播算法学习过程：

迭代地处理一组训练样本，将每个样本的网络预测与实际的类标号比较。

每次迭代后，修改权值，使得网络预测和实际类之间的均方差最小。

这种修改“后向”进行。即，由输出层，经由每个隐藏层，到第一个隐藏层（因此称作后向传播）。尽管不能保证，一般地，权将最终收敛，学习过程停止。

算法终止条件：训练集中被正确分类的样本达到一定的比例，或者权系数趋近稳定。

后向传播算法分为如下几步：

1) 初始化权

网络的权通常被初始化为很小的随机数（例如，范围从-1.0到1.0，或从-0.5到0.5）。

每个单元都设有一个偏置（bias），偏置也被初始化为小随机数。

2) 向前传播输入

对于每一个样本X，重复下面两步：

向前传播输入，向后传播误差

计算各层每个单元的输入和输出。输入层：输出=输入=样本X的属性；即，对于单元j，Oj = Ij = Xj。隐藏层和输出层：输入=前一层的输出的线性组合,即，对于单元j， Ij =wij Oi + θj，输出=

3) 向后传播误差

计算各层每个单元的误差。

输出层单元j，误差：

Oj是单元j的实际输出，而Tj是j的真正输出。

隐藏层单元j，误差：

wjk是由j到下一层中单元k的连接的权，Errk是单元k的误差

更新权和偏差，以反映传播的误差。

权由下式更新：

其中，△wij是权wij的改变。l是学习率，通常取0和1之间的值。

偏置由下式更新：

其中，△θj是偏置θj的改变。

Example

人类视觉原理：

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。1981 年的诺贝尔医学奖，颁发给了 David Hubel（出生于加拿大的美国神经生物学家）和Torsten Wiesel，以及Roger Sperry。前两位的主要贡献，是“发现了视觉系统的信息处理”，可视皮层是分级的。

人类的视觉原理如下：从原始信号摄入开始（瞳孔摄入像素Pixels），接着做初步处理（大脑皮层某些细胞发现边缘和方向），然后抽象（大脑判定，眼前的物体的形状，是圆形的），然后进一步抽象（大脑进一步判定该物体是只气球）。

对于不同的物体，人类视觉也是通过这样逐层分级，来进行认知的：

在最底层特征基本上是类似的，就是各种边缘，越往上，越能提取出此类物体的一些特征（轮子、眼睛、躯干等），到最上层，不同的高级特征最终组合成相应的图像，从而能够让人类准确的区分不同的物体。

可以很自然的想到：可以不可以模仿人类大脑的这个特点，构造多层的神经网络，较低层的识别初级的图像特征，若干底层特征组成更上一层特征，最终通过多个层级的组合，最终在顶层做出分类呢？答案是肯定的，这也是许多深度学习算法（包括CNN）的灵感来源。

卷积神经网络是一种多层神经网络，擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法，成功将数据量庞大的图像识别问题不断降维，最终使其能够被训练。

CNN最早由Yann LeCun提出并应用在手写字体识别上。LeCun提出的网络称为LeNet，其网络结构如下：

这是一个最典型的卷积网络，由卷积层、池化层、全连接层组成。其中卷积层与池化层配合，组成多个卷积组，逐层提取特征，最终通过若干个全连接层完成分类。

CNN通过卷积来模拟特征区分，并且通过卷积的权值共享及池化，来降低网络参数的数量级，最后通过传统神经网络完成分类等任务。

降低参数量级：如果使用传统神经网络方式，对一张图片进行分类，那么，把图片的每个像素都连接到隐藏层节点上，对于一张1000x1000像素的图片，如果有1M隐藏层单元，一共有10^12个参数，这显然是不能接受的。

但是在CNN里，可以大大减少参数个数，基于以下两个假设：

1）最底层特征都是局部性的，也就是说，用10x10这样大小的过滤器就能表示边缘等底层特征

2）图像上不同小片段，以及不同图像上的小片段的特征是类似的，也就是说，能用同样的一组分类器来描述各种各样不同的图像

基于以上两个假设，就能把第一层网络结构简化

用100个10x10的小过滤器，就能够描述整幅图片上的底层特征。

卷积运算的定义如下图所示：

如上图所示，一个5x5的图像，用一个3x3的卷积核：

   101

   010

   101

来对图像进行卷积操作（可以理解为有一个滑动窗口，把卷积核与对应的图像像素做乘积然后求和），得到了3x3的卷积结果。

这个过程可以理解为使用一个过滤器（卷积核）来过滤图像的各个小区域，从而得到这些小区域的特征值。在实际训练过程中，卷积核的值是在学习过程中学到的。

在具体应用中，往往有多个卷积核，可以认为，每个卷积核代表了一种图像模式，如果某个图像块与此卷积核卷积出的值大，则认为此图像块十分接近于此卷积核。如果设计了6个卷积核，可以理解为这个图像上有6种底层纹理模式，也就是用6种基础模式就能描绘出一副图像。以下就是24种不同的卷积核的示例：

池化的过程如下图所示：

可以看到，原始图片是20x20的，对其进行采样，采样窗口为10x10，最终将其采样成为一个2x2大小的特征图。

之所以这么做，是因为即使做完了卷积，图像仍然很大（因为卷积核比较小），所以为了降低数据维度，就进行采样。

即使减少了许多数据，特征的统计属性仍能够描述图像，而且由于降低了数据维度，有效地避免了过拟合。

在实际应用中，分为最大值采样（Max-Pooling）与平均值采样（Mean-Pooling）。

LeNet网络结构：

注意，上图中S2与C3的连接方式并不是全连接，而是部分连接。最后，通过全连接层C5、F6得到10个输出，对应10个数字的概率。

卷积神经网络的训练过程与传统神经网络类似，也是参照了反向传播算法

第一阶段，向前传播阶段：

a）从样本集中取一个样本(X,Yp)，将X输入网络；

b）计算相应的实际输出Op

第二阶段，向后传播阶段

a）计算实际输出Op与相应的理想输出Yp的差；

b）按极小化误差的方法反向传播调整权矩阵。

E. CNN、RNN、DNN的一般解释

CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？

转自知乎科言君的回答

神经网络技术起源于上世纪五、六十年代，当时叫感知机（perceptron），拥有输入层、输出层和一个隐含层。输入的特征向量通过隐含层变换达到输出层，在输出层得到分类结果。早期感知机的推动者是Rosenblatt。（扯一个不相关的：由于计算技术的落后，当时感知器传输函数是用线拉动变阻器改变电阻的方法机械实现的，脑补一下科学家们扯着密密麻麻的导线的样子…）

但是，Rosenblatt的单层感知机有一个严重得不能再严重的问题，即它对稍复杂一些的函数都无能为力（比如最为典型的“异或”操作）。连异或都不能拟合，你还能指望这货有什么实际用途么o(╯□╰)o

随着数学的发展，这个缺点直到上世纪八十年代才被Rumelhart、Williams、Hinton、LeCun等人（反正就是一票大牛）发明的多层感知机（multilayerperceptron）克服。多层感知机，顾名思义，就是有多个隐含层的感知机（废话……）。好好，我们看一下多层感知机的结构：

图1 上下层神经元全部相连的神经网络——多层感知机

多层感知机可以摆脱早期离散传输函数的束缚，使用sigmoid或tanh等连续函数模拟神经元对激励的响应，在训练算法上则使用Werbos发明的反向传播BP算法。对，这货就是我们现在所说的神经网络 NN ——神经网络听起来不知道比感知机高端到哪里去了！这再次告诉我们起一个好听的名字对于研（zhuang）究（bi）很重要！

多层感知机解决了之前无法模拟异或逻辑的缺陷，同时更多的层数也让网络更能够刻画现实世界中的复杂情形。相信年轻如Hinton当时一定是春风得意。

多层感知机给我们带来的启示是，神经网络的层数直接决定了它对现实的刻画能力 ——利用每层更少的神经元拟合更加复杂的函数[1]。

（Bengio如是说：functions that can be compactly

represented by a depth k architecture might require an exponential number of

computational elements to be represented by a depth k − 1 architecture.）

即便大牛们早就预料到神经网络需要变得更深，但是有一个梦魇总是萦绕左右。随着神经网络层数的加深，优化函数越来越容易陷入局部最优解，并且这个“陷阱”越来越偏离真正的全局最优。利用有限数据训练的深层网络，性能还不如较浅层网络。同时，另一个不可忽略的问题是随着网络层数增加， “梯度消失”现象更加严重。具体来说，我们常常使用sigmoid作为神经元的输入输出函数。对于幅度为1的信号，在BP反向传播梯度时，每传递一层，梯度衰减为原来的0.25。层数一多，梯度指数衰减后低层基本上接受不到有效的训练信号。

2006年，Hinton利用预训练方法缓解了局部最优解问题，将隐含层推动到了7层[2]，神经网络真正意义上有了“深度”，由此揭开了深度学习的热潮。这里的“深度”并没有固定的定义——在语音识别中4层网络就能够被认为是“较深的”，而在图像识别中20层以上的网络屡见不鲜。为了克服梯度消失，ReLU、maxout等传输函数代替了sigmoid，形成了如今DNN的基本形式。单从结构上来说，全连接的 DNN 和图 1 的多层感知机是没有任何区别的。

值得一提的是，今年出现的高速公路网络（highway network）和深度残差学习（deep resial learning）进一步避免了梯度消失，网络层数达到了前所未有的一百多层（深度残差学习：152层）[3,4]！具体结构题主可自行搜索了解。如果你之前在怀疑是不是有很多方法打上了“深度学习”的噱头，这个结果真是深得让人心服口服。

图2 缩减版的深度残差学习网络，仅有34 层，终极版有152 层，自行感受一下

如图1所示，我们看到全连接 DNN 的结构里下层神经元和所有上层神经元都能够形成连接，带来的潜在问题是参数数量的膨胀。假设输入的是一幅像素为1K*1K的图像，隐含层有1M个节点，光这一层就有10^12个权重需要训练，这不仅容易过拟合，而且极容易陷入局部最优。另外，图像中有固有的局部模式（比如轮廓、边界，人的眼睛、鼻子、嘴等）可以利用，显然应该将图像处理中的概念和神经网络技术相结合。此时我们可以祭出题主所说的卷积神经网络CNN。对于CNN来说，并不是所有上下层神经元都能直接相连，而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的，图像通过卷积操作后仍然保留原先的位置关系。两层之间的卷积传输的示意图如下：

图3 卷积神经网络隐含层（摘自Theano 教程）

通过一个例子简单说明卷积神经网络的结构。假设图3中m-1=1是输入层，我们需要识别一幅彩色图像，这幅图像具有四个通道ARGB（透明度和红绿蓝，对应了四幅相同大小的图像），假设卷积核大小为100*100，共使用100个卷积核w1到w100（从直觉来看，每个卷积核应该学习到不同的结构特征）。用w1在ARGB图像上进行卷积操作，可以得到隐含层的第一幅图像；这幅隐含层图像左上角第一个像素是四幅输入图像左上角100*100区域内像素的加权求和，以此类推。同理，算上其他卷积核，隐含层对应100幅“图像”。每幅图像对是对原始图像中不同特征的响应。按照这样的结构继续传递下去。CNN中还有max-pooling等操作进一步提高鲁棒性。

图4 一个典型的卷积神经网络结构，注意到最后一层实际上是一个全连接层（摘自Theano 教程）

在这个例子里，我们注意到输入层到隐含层的参数瞬间降低到了 100*100*100=10^6 个！这使得我们能够用已有的训练数据得到良好的模型。题主所说的适用于图像识别，正是由于 CNN 模型限制参数了个数并挖掘了局部结构的这个特点。顺着同样的思路，利用语音语谱结构中的局部信息，CNN照样能应用在语音识别中。

全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模。然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了题主所说的另一种神经网络结构——循环神经网络RNN。

在普通的全连接网络或CNN中，每层神经元的信号只能向上一层传播，样本的处理在各个时刻独立，因此又被成为前向神经网络(Feed-forward Neural Networks)。而在 RNN 中，神经元的输出可以在下一个时间戳直接作用到自身，即第i层神经元在m时刻的输入，除了（i-1）层神经元在该时刻的输出外，还包括其自身在（m-1）时刻的输出！表示成图就是这样的：

图5 RNN 网络结构

我们可以看到在隐含层节点之间增加了互连。为了分析方便，我们常将RNN在时间上进行展开，得到如图6所示的结构：

图6 RNN 在时间上进行展开

Cool，（ t+1 ）时刻网络的最终结果O(t+1) 是该时刻输入和所有历史共同作用的结果！这就达到了对时间序列建模的目的。

不知题主是否发现，RNN可以看成一个在时间上传递的神经网络，它的深度是时间的长度！正如我们上面所说， “梯度消失”现象又要出现了，只不过这次发生在时间轴上。对于t时刻来说，它产生的梯度在时间轴上向历史传播几层之后就消失了，根本就无法影响太遥远的过去。因此，之前说“所有历史”共同作用只是理想的情况，在实际中，这种影响也就只能维持若干个时间戳。

为了解决时间上的梯度消失，机器学习领域发展出了长短时记忆单元 LSTM ，通过门的开关实现时间上记忆功能，并防止梯度消失，一个LSTM单元长这个样子：

图7 LSTM 的模样

除了题主疑惑的三种网络，和我之前提到的深度残差学习、LSTM外，深度学习还有许多其他的结构。举个例子，RNN既然能继承历史信息，是不是也能吸收点未来的信息呢？因为在序列信号分析中，如果我能预知未来，对识别一定也是有所帮助的。因此就有了双向 RNN 、双向 LSTM ，同时利用历史和未来的信息。

图8 双向RNN

事实上，不论是那种网络，他们在实际应用中常常都混合着使用，比如 CNN 和RNN 在上层输出之前往往会接上全连接层，很难说某个网络到底属于哪个类别。不难想象随着深度学习热度的延续，更灵活的组合方式、更多的网络结构将被发展出来。尽管看起来千变万化，但研究者们的出发点肯定都是为了解决特定的问题。题主如果想进行这方面的研究，不妨仔细分析一下这些结构各自的特点以及它们达成目标的手段。入门的话可以参考：

Ng写的Ufldl： UFLDL教程 - Ufldl

也可以看Theano内自带的教程，例子非常具体： Deep Learning Tutorials

欢迎大家继续推荐补充。

当然啦，如果题主只是想凑个热闹时髦一把，或者大概了解一下方便以后把妹使，这样看看也就罢了吧。

参考文献：

[1]

Bengio Y. Learning Deep

Architectures for AI[J]. Foundations & Trends® in Machine Learning, 2009,

2(1):1-127.

[2]

Hinton G E, Salakhutdinov R R.

Recing the Dimensionality of Data with Neural Networks[J]. Science, 2006,

313(5786):504-507.

[3]

He K, Zhang X, Ren S, Sun J. Deep

Resial Learning for Image Recognition. arXiv:1512.03385, 2015.

[4]

Srivastava R K, Greff K,

Schmidhuber J. Highway networks. arXiv:1505.00387, 2015.

F. 什么是全连接神经网络，怎么理解“全连接”

1、全连接神经网络解析：对n-1层和n层而言，n-1层的任意一个节点，都和第n层所有节点有连接。即第n层的每个节点在进行计算的时候，激活函数的输入是n-1层所有节点的加权。

2、全连接的神经网络示意图：

3、“全连接”是一种不错的模式，但是网络很大的时候，训练速度回很慢。部分连接就是认为的切断某两个节点直接的连接，这样训练时计算量大大减小。

G. DNN、RNN、CNN分别是什么意思

DNN（深度神经网络），是深度学习的基础。

DNN可以理解为有很多隐藏层的神经网络。这个很多其实也没有什么度量标准, 多层神经网络和深度神经网络DNN其实也是指的一个东西，当然，DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）。

从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层,如下图示例，一般来说第一层是输出层，最后一层是输出层，而中间的层数都是隐藏层。

CNN（卷积神经网络），是一种前馈型的神经网络，目前深度学习技术领域中非常具有代表性的神经网络之一。

CNN在大型图像处理方面有出色的表现，目前已经被大范围使用到图像分类、定位等领域中。相比于其他神经网络结构，卷积神经网络需要的参数相对较少，使的其能够广泛应用。

RNN（循环神经网络），一类用于处理序列数据的神经网络，RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。

从广义上来说，DNN被认为包含了CNN、RNN这些具体的变种形式。在实际应用中，深度神经网络DNN融合了多种已知的结构，包含卷积层或LSTM单元，特指全连接的神经元结构，并不包含卷积单元或时间上的关联。

H. 什么是全连接神经网络怎么理解“全连接”

2、全连接的神经网络示意图：

阅读全文

与全连接神经网络和深度神经网络相关的资料

热点内容

网络共享中心没有网卡发布：2023-08-31 22:07:08 浏览：563

电脑无法检测到网络代理发布：2023-08-31 22:06:18 浏览：1431

笔记本电脑一天会用多少流量发布：2023-08-31 21:50:29 浏览：739

苹果电脑整机转移新机发布：2023-08-31 21:50:25 浏览：1407

突然无法连接工作网络发布：2023-08-31 21:50:19 浏览：1167

联通网络怎么设置才好发布：2023-08-31 21:48:37 浏览：1268

小区网络电脑怎么连接路由器发布：2023-08-31 21:47:34 浏览：1157

p1108打印机网络共享发布：2023-08-31 21:40:56 浏览：1243

怎么调节台式电脑护眼发布：2023-08-31 21:37:28 浏览：801

深圳天虹苹果电脑发布：2023-08-31 21:33:09 浏览：1038

网络总是异常断开发布：2023-08-31 21:31:09 浏览：646

中级配置台式电脑发布：2023-08-31 21:27:42 浏览：1102

中国网络安全的战士发布：2023-08-31 21:25:11 浏览：664

同志网站在哪里发布：2023-08-31 21:21:19 浏览：1473

版观看完整完结免费手机在线发布：2023-08-31 21:16:58 浏览：1489

怎样切换默认数据网络设置发布：2023-08-31 21:15:57 浏览：1157

肯德基无线网无法访问网络发布：2023-08-31 21:10:40 浏览：1376

光纤猫怎么连接不上网络发布：2023-08-31 21:09:40 浏览：1594

神武3手游网络连接发布：2023-08-31 20:42:31 浏览：1001

局网打印机网络共享发布：2023-08-31 20:37:10 浏览：1028