導航:首頁 > 異常信息 > 全連接神經網路和深度神經網路

全連接神經網路和深度神經網路

發布時間：2022-11-08 01:42:50

A. 有哪些深度神經網路模型

卷積神經元（Convolutional cells）和前饋神經元非常相似，除了它們只跟前一神經細胞層的部分神經元有連接。因為它們不是和某些神經元隨機連接的，而是與特定范圍內的神經元相連接，通常用來保存空間信息。這讓它們對於那些擁有大量局部信息，比如圖像數據、語音數據（但多數情況下是圖像數據），會非常實用。

解卷積神經元恰好相反：它們是通過跟下一神經細胞層的連接來解碼空間信息。這兩種神經元都有很多副本，它們都是獨立訓練的；每個副本都有自己的權重，但連接方式卻完全相同。可以認為，這些副本是被放在了具備相同結構的不同的神經網路中。這兩種神經元本質上都是一般意義上的神經元，但是，它們的使用方式卻不同。

池化神經元和插值神經元（Pooling and interpolating cells）經常和卷積神經元結合起來使用。它們不是真正意義上的神經元，只能進行一些簡單的操作。

池化神經元接受到來自其它神經元的輸出過後，決定哪些值可以通過，哪些值不能通過。在圖像領域，可以理解成是把一個圖像縮小了（在查看圖片的時候，一般軟體都有一個放大、縮小的功能；這里的圖像縮小，就相當於軟體上的縮小圖像；也就是說我們能看到圖像的內容更加少了；在這個池化的過程當中，圖像的大小也會相應地減少）。這樣，你就再也不能看到所有的像素了，池化函數會知道什麼像素該保留，什麼像素該舍棄。

插值神經元恰好是相反的操作：它們獲取一些信息，然後映射出更多的信息。額外的信息都是按照某種方式製造出來的，這就好像在一張小解析度的圖片上面進行放大。插值神經元不僅僅是池化神經元的反向操作，而且，它們也是很常見，因為它們運行非常快，同時，實現起來也很簡單。池化神經元和插值神經元之間的關系，就像卷積神經元和解卷積神經元之間的關系。

均值神經元和標准方差神經元（Mean and standard deviation cells）（作為概率神經元它們總是成對地出現）是一類用來描述數據概率分布的神經元。均值就是所有值的平均值，而標准方差描述的是這些數據偏離（兩個方向）均值有多遠。比如：一個用於圖像處理的概率神經元可以包含一些信息，比如：在某個特定的像素裡面有多少紅色。舉個例來說，均值可能是0.5，同時標准方差是0.2。當要從這些概率神經元取樣的時候，你可以把這些值輸入到一個高斯隨機數生成器，這樣就會生成一些分布在0.4和0.6之間的值；值離0.5越遠，對應生成的概率也就越小。它們一般和前一神經元層或者下一神經元層是全連接，而且，它們沒有偏差（bias）。

循環神經元（Recurrent cells ）不僅僅在神經細胞層之間有連接，而且在時間軸上也有相應的連接。每一個神經元內部都會保存它先前的值。它們跟一般的神經元一樣更新，但是，具有額外的權重：與當前神經元之前值之間的權重，還有大多數情況下，與同一神經細胞層各個神經元之間的權重。當前值和存儲的先前值之間權重的工作機制，與非永久性存儲器（比如RAM）的工作機制很相似，繼承了兩個性質：

第一，維持一個特定的狀態；
第二：如果不對其持續進行更新（輸入），這個狀態就會消失。

由於先前的值是通過激活函數得到的，而在每一次的更新時，都會把這個值和其它權重一起輸入到激活函數，因此，信息會不斷地流失。實際上，信息的保存率非常的低，以至於僅僅四次或者五次迭代更新過後，幾乎之前所有的信息都會流失掉。

B. 神經網路簡述

機器學習中談論的神經網路是指「神經網路學習」，或者說，是機器學習和神經網路這兩個學科領域的交叉部分[1]。

在這里，神經網路更多的是指計算機科學家模擬人類大腦結構和智能行為，發明的一類演算法的統稱。

神經網路是眾多優秀仿生演算法中的一種，讀書時曾接觸過蟻群優化演算法，曾驚訝於其強大之處，但神經網路的強大，顯然蟻群優化還不能望其項背。

A、起源與第一次高潮。有人認為，神經網路的最早討論，源於現代計算機科學的先驅——阿蘭.圖靈在1948年的論文中描述的「B型組織機器」[2]。二十世紀50年代出現了以感知機、Adaling為代表的一系列成功，這是神經網路發展的第一個高潮[1]。

B、第一次低谷。1969年，馬文.明斯基出版《感知機》一書，書中論斷直接將神經網路打入冷宮，導致神經網路十多年的「冰河期」。值得一提的是，在這期間的1974年，哈佛大學Paul Webos發明BP演算法，但當時未受到應有的重視[1]。

C、第二次高潮。1983年，加州理工學院的物理學家John Hopfield利用神經網路，在旅行商問題上獲得當時最好結果，引起轟動；Rumelhart等人重新發明了BP演算法，BP演算法迅速走紅，掀起神經網路第二次高潮[1]。

D、第二次低谷。二十世紀90年代中期，統計學習理論和支持向量機興起，較之於這些演算法，神經網路的理論基礎不清晰等缺點更加凸顯，神經網路研究進入第二次低谷[1]。

E、深度學習的崛起。2010年前後，隨著計算能力的提升和大數據的涌現，以神經網路為基礎的「深度學習」崛起，科技巨頭公司谷歌、Facebook、網路投入巨資研發，神經網路迎來第三次高潮[1]。2016年3月9日至15日，Google人工智慧程序AlphaGo對陣韓國圍棋世界冠軍李世乭，以4:1大比分獲勝，比眾多專家預言早了十年。這次比賽，迅速在全世界經濟、科研、計算機產業各領域掀起人工智慧和深度學習的熱烈討論。

F、展望。從幾個方面討論一下。

1)、近期在Google AlphaGo掀起的熱潮中，民眾的熱情與期待最大，甚至有少許恐慌情緒；計算機產業和互聯網產業熱情也非常巨大，對未來充滿期待，各大巨頭公司對其投入大量資源；學術界的反應倒是比較冷靜的。學術界的冷靜，是因為神經網路和深度神經網路的理論基礎還沒有出現長足的進步，其缺點還沒有根本改善。這也從另一個角度說明了深度神經網路理論進步的空間很大。

2)、"當代神經網路是基於我們上世紀六十年代掌握的腦知識。"關於人類大腦的科學與知識正在爆炸式增長。[3]世界上很多學術團隊正在基於大腦機制新的認知建立新的模型[3]。我個人對此報樂觀態度，從以往的仿生演算法來看，經過億萬年進化的自然界對科技發展的促進從來沒有停止過。

3)、還說AlphaGo，它並不是理論和演算法的突破，而是基於已有演算法的工程精品。AlhphaGo的工作，為深度學習的應用提供了非常廣闊的想像空間。分布式技術提供了巨大而廉價的計算能力，巨量數據的積累提供了豐富的訓練樣本，深度學習開始騰飛，這才剛剛開始。

一直沿用至今的，是McChlloch和Pitts在1943年依據腦神經信號傳輸結構抽象出的簡單模型，所以也被稱作」M-P神經元模型「。

其中，

f函數像一般形如下圖的函數，既考慮階躍性，又考慮光滑可導性。

實際常用如下公式，因形如S，故被稱作sigmoid函數。

把很多個這樣的神經元按一定層次連接起來，就得到了神經網路。

兩層神經元組成，輸入層接收外界輸入信號，輸出層是M-P神經元(只有輸出層是)。

感知機的數學模型和單個M-P神經元的數學模型是一樣的，如因為輸入層只需接收輸入信號，不是M-P神經元。

感知機只有輸出層神經元是B-P神經元，學習能力非常有限。對於現行可分問題，可以證明學習過程一定會收斂。而對於非線性問題，感知機是無能為力的。

BP神經網路全稱叫作誤差逆傳播(Error Propagation)神經網路，一般是指基於誤差逆傳播演算法的多層前饋神經網路。這里為了不佔篇幅，BP神經網路將起篇另述。

BP演算法是迄今最為成功的神經網路學習演算法，也是最有代表性的神經網路學習演算法。BP演算法不僅用於多層前饋神經網路，還用於其他類型神經網路的訓練。

RBF網路全程徑向基函數(Radial Basis Function)網路，是一種單隱層前饋神經網路，其與BP網路最大的不同是採用徑向基函數作為隱層神經元激活函數。

卷積神經網路(Convolutional neural networks，簡稱CNNs)是一種深度學習的前饋神經網路，在大型圖片處理中取得巨大成功。卷積神經網路將起篇另述。

循環神經網路(Recurrent Neural Networks，RNNs)與傳統的FNNs不同，RNNs引入定向循環，能夠處理那些輸入之間前後關聯的問題。RNNs已經在眾多自然語言處理(Natural Language Processing, NLP)中取得了巨大成功以及廣泛應用[5]。RNNs將起篇另述。[5]

[1]、《機器學習》，周志華著

[2]、《模式識別（第二版）》，Richard O.Duda等著，李宏東等譯

[3]、《揭秘IARPA項目：解碼大腦演算法或將徹底改變機器學習》，Emily Singerz著，機器之心編譯出品

[4]、圖片來源於互聯網

[5]、循環神經網路(RNN, Recurrent Neural Networks)介紹

C. 一文讀懂神經網路

要說近幾年最引人注目的技術，無疑的，非人工智慧莫屬。無論你是否身處科技互聯網行業，隨處可見人工智慧的身影：從 AlphaGo 擊敗世界圍棋冠軍，到無人駕駛概念的興起，再到科技巨頭 All in AI，以及各大高校向社會輸送海量的人工智慧專業的畢業生。以至於人們開始萌生一個想法：新的革命就要來了，我們的世界將再次發生一次巨變；而後開始焦慮：我的工作是否會被機器取代？我該如何才能抓住這次革命？

人工智慧背後的核心技術是深度神經網路（Deep Neural Network），大概是一年前這個時候，我正在回老家的高鐵上學習 3Blue1Brown 的 Neural Network 系列視頻課程，短短 4 集 60 多分鍾的時間，就把神經網路從 High Level 到推導細節說得清清楚楚，當時的我除了獲得新知的興奮之外，還有一點新的認知，算是給頭腦中的革命性的技術潑了盆冷水：神經網路可以解決一些復雜的、以前很難通過寫程序來完成的任務——例如圖像、語音識別等，但它的實現機制告訴我，神經網路依然沒有達到生物級別的智能，短期內期待它來取代人也是不可能的。

一年後的今天，依然在這個春運的時間點，將我對神經網路的理解寫下來，算是對這部分知識的一個學習筆記，運氣好的話，還可以讓不了解神經網路的同學了解起來。

維基網路這樣解釋神經網路：

這個定義比較寬泛，你甚至還可以用它來定義其它的機器學習演算法，例如之前我們一起學習的邏輯回歸和 GBDT 決策樹。下面我們具體一點，下圖是一個邏輯回歸的示意圖：

其中 x1 和 x2 表示輸入，w1 和 w2 是模型的參數，z 是一個線性函數：

接著我們對 z 做一個 sigmod 變換（圖中藍色圓），得到輸出 y：

其實，上面的邏輯回歸就可以看成是一個只有 1 層 輸入層 ， 1 層 輸出層 的神經網路，圖中容納數字的圈兒被稱作 神經元 ；其中，層與層之間的連接 w1、w2 以及 b，是這個 神經網路的參數 ，層之間如果每個神經元之間都保持著連接，這樣的層被稱為 全連接層 （Full Connection Layer），或 稠密層 （Dense Layer）；此外，sigmoid 函數又被稱作 激活函數 （Activation Function），除了 sigmoid 外，常用的激活函數還有 ReLU、tanh 函數等，這些函數都起到將線性函數進行非線性變換的作用。我們還剩下一個重要的概念： 隱藏層 ，它需要把 2 個以上的邏輯回歸疊加起來加以說明：

如上圖所示，除輸入層和輸出層以外，其他的層都叫做 隱藏層 。如果我們多疊加幾層，這個神經網路又可以被稱作 深度神經網路 （Deep Neural Network），有同學可能會問多少層才算「深」呢？這個沒有絕對的定論，個人認為 3 層以上就算吧：）

以上，便是神經網路，以及神經網路中包含的概念，可見，神經網路並不特別，廣義上講，它就是

可見，神經網路和人腦神經也沒有任何關聯，如果我們說起它的另一個名字—— 多層感知機（Mutilayer Perceptron） ，就更不會覺得有多麼玄乎了，多層感知機創造於 80 年代，可為什麼直到 30 年後的今天才爆發呢？你想得沒錯，因為改了個名字……開個玩笑；實際上深度學習這項技術也經歷過很長一段時間的黑暗低谷期，直到人們開始利用 GPU 來極大的提升訓練模型的速度，以及幾個標志性的事件：如 AlphaGo戰勝李世石、Google 開源 TensorFlow 框架等等，感興趣的同學可以翻一下這里的歷史。

就拿上圖中的 3 個邏輯回歸組成的神經網路作為例子，它和普通的邏輯回歸比起來，有什麼優勢呢？我們先來看下單邏輯回歸有什麼劣勢，對於某些情況來說，邏輯回歸可能永遠無法使其分類，如下面數據：

這 4 個樣本畫在坐標系中如下圖所示

因為邏輯回歸的決策邊界（Decision Boundary）是一條直線，所以上圖中的兩個分類，無論你怎麼做，都無法找到一條直線將它們分開，但如果藉助神經網路，就可以做到這一點。

由 3 個邏輯回歸組成的網路（這里先忽略 bias）如下：

觀察整個網路的計算過程，在進入輸出層之前，該網路所做的計算實際上是：

即把輸入先做了一次線性變換（Linear Transformation），得到 [z1, z2] ，再把 [z1, z2] 做了一個非線性變換（sigmoid），得到 [x1', x2'] ，（線性變換的概念可以參考這個視頻）。從這里開始，後面的操作就和一個普通的邏輯回歸沒有任何差別了，所以它們的差異在於：我們的數據在輸入到模型之前，先做了一層特徵變換處理（Feature Transformation，有時又叫做特徵抽取 Feature Extraction），使之前不可能被分類的數據變得可以分類了。

我們繼續來看下特徵變換的效果，假設為，帶入上述公式，算出 4 個樣本對應的 [x1', x2'] 如下：

再將變換後的 4 個點繪制在坐標系中：

顯然，在做了特徵變換之後，這兩個分類就可以很容易的被一條決策邊界分開了。

所以， 神經網路的優勢在於，它可以幫助我們自動的完成特徵變換或特徵提取 ，尤其對於聲音、圖像等復雜問題，因為在面對這些問題時，人們很難清晰明確的告訴你，哪些特徵是有用的。

在解決特徵變換的同時，神經網路也引入了新的問題，就是我們需要設計各式各樣的網路結構來針對性的應對不同的場景，例如使用卷積神經網路（CNN）來處理圖像、使用長短期記憶網路（LSTM）來處理序列問題、使用生成式對抗網路（GAN）來寫詩和作圖等，就連去年自然語言處理（NLP）中取得突破性進展的 Transformer/Bert 也是一種特定的網路結構。所以， 學好神經網路，對理解其他更高級的網路結構也是有幫助的 。

上面說了，神經網路可以看作一個非線性函數，該函數的參數是連接神經元的所有的 Weights 和 Biases，該函數可以簡寫為 f(W, B) ，以手寫數字識別的任務作為例子：識別 MNIST 數據集中的數字，數據集（MNIST 數據集是深度學習中的 HelloWorld）包含上萬張不同的人寫的數字圖片，共有 0-9 十種數字，每張圖片為 28*28=784 個像素，我們設計一個這樣的網路來完成該任務：

把該網路函數所具備的屬性補齊：

接下來的問題是，這個函數是如何產生的？這個問題本質上問的是這些參數的值是怎麼確定的。

在機器學習中，有另一個函數 c 來衡量 f 的好壞，c 的參數是一堆數據集，你輸入給 c 一批 Weights 和 Biases，c 輸出 Bad 或 Good，當結果是 Bad 時，你需要繼續調整 f 的 Weights 和 Biases，再次輸入給 c，如此往復，直到 c 給出 Good 為止，這個 c 就是損失函數 Cost Function（或 Loss Function）。在手寫數字識別的列子中，c 可以描述如下：

可見，要完成手寫數字識別任務，只需要調整這 12730 個參數，讓損失函數輸出一個足夠小的值即可，推而廣之，絕大部分神經網路、機器學習的問題，都可以看成是定義損失函數、以及參數調優的問題。

在手寫識別任務中，我們既可以使用交叉熵（Cross Entropy）損失函數，也可以使用 MSE（Mean Squared Error）作為損失函數，接下來，就剩下如何調優參數了。

神經網路的參數調優也沒有使用特別的技術，依然是大家剛接觸機器學習，就學到的梯度下降演算法，梯度下降解決了上面迭代過程中的遺留問題——當損失函數給出 Bad 結果時，如何調整參數，能讓 Loss 減少得最快。

梯度可以理解為：

把 Loss 對應到 H，12730 個參數對應到 (x,y)，則 Loss 對所有參數的梯度可以表示為下面向量，該向量的長度為 12730：
$$
abla L(w,b) = left[

frac{partial L}{partial w_1},
frac{partial L}{partial w_2},...,
frac{partial L}{partial b_{26}}

ight] ^ op
$$
所以，每次迭代過程可以概括為

用梯度來調整參數的式子如下（為了簡化，這里省略了 bias）：

上式中，是學習率，意為每次朝下降最快的方向前進一小步，避免優化過頭（Overshoot）。

由於神經網路參數繁多，所以需要更高效的計算梯度的演算法，於是，反向傳播演算法（Backpropagation）呼之欲出。

在學習反向傳播演算法之前，我們先復習一下微積分中的鏈式法則（Chain Rule）：設 g = u(h) ， h = f(x) 是兩個可導函數，x 的一個很小的變化 △x 會使 h 產生一個很小的變化 △h，從而 g 也產生一個較小的變化 △g，現要求 △g/△x，可以使用鏈式法則：

有了以上基礎，理解反向傳播演算法就簡單了。

假設我們的演示網路只有 2 層，輸入輸出都只有 2 個神經元，如下圖所示：

其中是輸入，是輸出，是樣本的目標值，這里使用的損失函數 L 為 MSE；圖中的上標 (1) 或 (2) 分別表示參數屬於第 (1) 層或第 (2) 層，下標 1 或 2 分別表示該層的第 1 或第 2 個神經元。

現在我們來計算和，掌握了這 2 個參數的偏導數計算之後，整個梯度的計算就掌握了。

所謂反向傳播演算法，指的是從右向左來計算每個參數的偏導數，先計算，根據鏈式法則

對左邊項用鏈式法則展開

又是輸出值，可以直接通過 MSE 的導數算出：

而，則就是 sigmoid 函數的導數在處的值，即

於是就算出來了：

再來看這一項，因為

所以

注意：上面式子對於所有的和都成立，且結果非常直觀，即對的偏導為左邊的輸入的大小；同時，這里還隱含著另一層意思：需要調整哪個來影響，才能使 Loss 下降得最快，從該式子可以看出，當然是先調整較大的值所對應的，效果才最顯著。

於是，最後一層參數的偏導數就算出來了

我們再來算上一層的，根據鏈式法則：

繼續展開左邊這一項

你發現沒有，這幾乎和計算最後一層一摸一樣，但需要注意的是，這里的對 Loss 造成的影響有多條路徑，於是對於只有 2 個輸出的本例來說：

上式中，都已經在最後一層算出，下面我們來看下，因為

於是

同理

注意：這里也引申出梯度下降的調參直覺：即要使 Loss 下降得最快，優先調整 weight 值比較大的 weight。

至此，也算出來了

觀察上式， 所謂每個參數的偏導數，通過反向傳播演算法，都可以轉換成線性加權（Weighted Sum）計算 ，歸納如下：

式子中 n 代表分類數，(l) 表示第 l 層，i 表示第 l 層的第 i 個神經元。 既然反向傳播就是一個線性加權，那整個神經網路就可以藉助於 GPU 的矩陣並行計算了 。

最後，當你明白了神經網路的原理，是不是越發的認為，它就是在做一堆的微積分運算，當然，作為能證明一個人是否學過微積分，神經網路還是值得學一下的。Just kidding ..

本文我們通過

這四點，全面的學習了神經網路這個知識點，希望本文能給你帶來幫助。

參考：

D. 神經網路：卷積神經網路（CNN）

神經網路最早是由心理學家和神經學家提出的，旨在尋求開發和測試神經的計算模擬。

粗略地說，神經網路是一組連接的輸入/輸出單元，其中每個連接都與一個權相關聯。在學習階段，通過調整權值，使得神經網路的預測准確性逐步提高。由於單元之間的連接，神經網路學習又稱連接者學習。

神經網路是以模擬人腦神經元的數學模型為基礎而建立的，它由一系列神經元組成，單元之間彼此連接。從信息處理角度看，神經元可以看作是一個多輸入單輸出的信息處理單元，根據神經元的特性和功能，可以把神經元抽象成一個簡單的數學模型。

神經網路有三個要素：拓撲結構、連接方式、學習規則

神經網路的拓撲結構：神經網路的單元通常按照層次排列，根據網路的層次數，可以將神經網路分為單層神經網路、兩層神經網路、三層神經網路等。結構簡單的神經網路，在學習時收斂的速度快，但准確度低。

神經網路的層數和每層的單元數由問題的復雜程度而定。問題越復雜，神經網路的層數就越多。例如，兩層神經網路常用來解決線性問題，而多層網路就可以解決多元非線性問題

神經網路的連接：包括層次之間的連接和每一層內部的連接，連接的強度用權來表示。

根據層次之間的連接方式，分為：

1）前饋式網路：連接是單向的，上層單元的輸出是下層單元的輸入，如反向傳播網路，Kohonen網路

2）反饋式網路：除了單項的連接外，還把最後一層單元的輸出作為第一層單元的輸入，如Hopfield網路

根據連接的范圍，分為：

1）全連接神經網路：每個單元和相鄰層上的所有單元相連

2）局部連接網路：每個單元只和相鄰層上的部分單元相連

神經網路的學習

根據學習方法分：

感知器：有監督的學習方法，訓練樣本的類別是已知的，並在學習的過程中指導模型的訓練

認知器：無監督的學習方法，訓練樣本類別未知，各單元通過競爭學習。

根據學習時間分：

離線網路：學習過程和使用過程是獨立的

在線網路：學習過程和使用過程是同時進行的

根據學習規則分：

相關學習網路：根據連接間的激活水平改變權系數

糾錯學習網路：根據輸出單元的外部反饋改變權系數

自組織學習網路：對輸入進行自適應地學習

摘自《數學之美》對人工神經網路的通俗理解：

神經網路種類很多，常用的有如下四種：

1）Hopfield網路，典型的反饋網路，結構單層，有相同的單元組成

2）反向傳播網路，前饋網路，結構多層，採用最小均方差的糾錯學習規則，常用於語言識別和分類等問題

3）Kohonen網路：典型的自組織網路，由輸入層和輸出層構成，全連接

4）ART網路：自組織網路

深度神經網路：

Convolutional Neural Networks(CNN)卷積神經網路

Recurrent neural Network(RNN)循環神經網路

Deep Belief Networks(DBN)深度信念網路

深度學習是指多層神經網路上運用各種機器學習演算法解決圖像，文本等各種問題的演算法集合。深度學習從大類上可以歸入神經網路，不過在具體實現上有許多變化。

深度學習的核心是特徵學習，旨在通過分層網路獲取分層次的特徵信息，從而解決以往需要人工設計特徵的重要難題。

Machine Learning vs. Deep Learning

神經網路（主要是感知器）經常用於分類

神經網路的分類知識體現在網路連接上，被隱式地存儲在連接的權值中。

神經網路的學習就是通過迭代演算法，對權值逐步修改的優化過程，學習的目標就是通過改變權值使訓練集的樣本都能被正確分類。

神經網路特別適用於下列情況的分類問題：

1) 數據量比較小，缺少足夠的樣本建立模型

2) 數據的結構難以用傳統的統計方法來描述

3) 分類模型難以表示為傳統的統計模型

缺點：

1) 需要很長的訓練時間，因而對於有足夠長訓練時間的應用更合適。

2) 需要大量的參數，這些通常主要靠經驗確定，如網路拓撲或「結構」。

3) 可解釋性差。該特點使得神經網路在數據挖掘的初期並不看好。

優點：

1) 分類的准確度高

2)並行分布處理能力強

3)分布存儲及學習能力高

4)對噪音數據有很強的魯棒性和容錯能力

最流行的基於神經網路的分類演算法是80年代提出的後向傳播演算法。後向傳播演算法在多路前饋神經網路上學習。

定義網路拓撲

在開始訓練之前，用戶必須說明輸入層的單元數、隱藏層數（如果多於一層）、每一隱藏層的單元數和輸出層的單元數，以確定網路拓撲。

對訓練樣本中每個屬性的值進行規格化將有助於加快學習過程。通常，對輸入值規格化，使得它們落入0.0和1.0之間。

離散值屬性可以重新編碼，使得每個域值一個輸入單元。例如，如果屬性A的定義域為(a0,a1,a2)，則可以分配三個輸入單元表示A。即，我們可以用I0 ,I1 ,I2作為輸入單元。每個單元初始化為0。如果A = a0，則I0置為1；如果A = a1，I1置1；如此下去。

一個輸出單元可以用來表示兩個類（值1代表一個類，而值0代表另一個）。如果多於兩個類，則每個類使用一個輸出單元。

隱藏層單元數設多少個「最好」，沒有明確的規則。

網路設計是一個實驗過程，並可能影響准確性。權的初值也可能影響准確性。如果某個經過訓練的網路的准確率太低，則通常需要採用不同的網路拓撲或使用不同的初始權值，重復進行訓練。

後向傳播演算法學習過程：

迭代地處理一組訓練樣本，將每個樣本的網路預測與實際的類標號比較。

每次迭代後，修改權值，使得網路預測和實際類之間的均方差最小。

這種修改「後向」進行。即，由輸出層，經由每個隱藏層，到第一個隱藏層（因此稱作後向傳播）。盡管不能保證，一般地，權將最終收斂，學習過程停止。

演算法終止條件：訓練集中被正確分類的樣本達到一定的比例，或者權系數趨近穩定。

後向傳播演算法分為如下幾步：

1) 初始化權

網路的權通常被初始化為很小的隨機數（例如，范圍從-1.0到1.0，或從-0.5到0.5）。

每個單元都設有一個偏置（bias），偏置也被初始化為小隨機數。

2) 向前傳播輸入

對於每一個樣本X，重復下面兩步：

向前傳播輸入，向後傳播誤差

計算各層每個單元的輸入和輸出。輸入層：輸出=輸入=樣本X的屬性；即，對於單元j，Oj = Ij = Xj。隱藏層和輸出層：輸入=前一層的輸出的線性組合,即，對於單元j， Ij =wij Oi + θj，輸出=

3) 向後傳播誤差

計算各層每個單元的誤差。

輸出層單元j，誤差：

Oj是單元j的實際輸出，而Tj是j的真正輸出。

隱藏層單元j，誤差：

wjk是由j到下一層中單元k的連接的權，Errk是單元k的誤差

更新權和偏差，以反映傳播的誤差。

權由下式更新：

其中，△wij是權wij的改變。l是學習率，通常取0和1之間的值。

偏置由下式更新：

其中，△θj是偏置θj的改變。

Example

人類視覺原理：

深度學習的許多研究成果，離不開對大腦認知原理的研究，尤其是視覺原理的研究。1981 年的諾貝爾醫學獎，頒發給了 David Hubel（出生於加拿大的美國神經生物學家）和Torsten Wiesel，以及Roger Sperry。前兩位的主要貢獻，是「發現了視覺系統的信息處理」，可視皮層是分級的。

人類的視覺原理如下：從原始信號攝入開始（瞳孔攝入像素Pixels），接著做初步處理（大腦皮層某些細胞發現邊緣和方向），然後抽象（大腦判定，眼前的物體的形狀，是圓形的），然後進一步抽象（大腦進一步判定該物體是只氣球）。

對於不同的物體，人類視覺也是通過這樣逐層分級，來進行認知的：

在最底層特徵基本上是類似的，就是各種邊緣，越往上，越能提取出此類物體的一些特徵（輪子、眼睛、軀乾等），到最上層，不同的高級特徵最終組合成相應的圖像，從而能夠讓人類准確的區分不同的物體。

可以很自然的想到：可以不可以模仿人類大腦的這個特點，構造多層的神經網路，較低層的識別初級的圖像特徵，若干底層特徵組成更上一層特徵，最終通過多個層級的組合，最終在頂層做出分類呢？答案是肯定的，這也是許多深度學習演算法（包括CNN）的靈感來源。

卷積神經網路是一種多層神經網路，擅長處理圖像特別是大圖像的相關機器學習問題。卷積網路通過一系列方法，成功將數據量龐大的圖像識別問題不斷降維，最終使其能夠被訓練。

CNN最早由Yann LeCun提出並應用在手寫字體識別上。LeCun提出的網路稱為LeNet，其網路結構如下：

這是一個最典型的卷積網路，由卷積層、池化層、全連接層組成。其中卷積層與池化層配合，組成多個卷積組，逐層提取特徵，最終通過若干個全連接層完成分類。

CNN通過卷積來模擬特徵區分，並且通過卷積的權值共享及池化，來降低網路參數的數量級，最後通過傳統神經網路完成分類等任務。

降低參數量級：如果使用傳統神經網路方式，對一張圖片進行分類，那麼，把圖片的每個像素都連接到隱藏層節點上，對於一張1000x1000像素的圖片，如果有1M隱藏層單元，一共有10^12個參數，這顯然是不能接受的。

但是在CNN里，可以大大減少參數個數，基於以下兩個假設：

1）最底層特徵都是局部性的，也就是說，用10x10這樣大小的過濾器就能表示邊緣等底層特徵

2）圖像上不同小片段，以及不同圖像上的小片段的特徵是類似的，也就是說，能用同樣的一組分類器來描述各種各樣不同的圖像

基於以上兩個假設，就能把第一層網路結構簡化

用100個10x10的小過濾器，就能夠描述整幅圖片上的底層特徵。

卷積運算的定義如下圖所示：

如上圖所示，一個5x5的圖像，用一個3x3的卷積核：

   101

   010

   101

來對圖像進行卷積操作（可以理解為有一個滑動窗口，把卷積核與對應的圖像像素做乘積然後求和），得到了3x3的卷積結果。

這個過程可以理解為使用一個過濾器（卷積核）來過濾圖像的各個小區域，從而得到這些小區域的特徵值。在實際訓練過程中，卷積核的值是在學習過程中學到的。

在具體應用中，往往有多個卷積核，可以認為，每個卷積核代表了一種圖像模式，如果某個圖像塊與此卷積核卷積出的值大，則認為此圖像塊十分接近於此卷積核。如果設計了6個卷積核，可以理解為這個圖像上有6種底層紋理模式，也就是用6種基礎模式就能描繪出一副圖像。以下就是24種不同的卷積核的示例：

池化的過程如下圖所示：

可以看到，原始圖片是20x20的，對其進行采樣，采樣窗口為10x10，最終將其采樣成為一個2x2大小的特徵圖。

之所以這么做，是因為即使做完了卷積，圖像仍然很大（因為卷積核比較小），所以為了降低數據維度，就進行采樣。

即使減少了許多數據，特徵的統計屬性仍能夠描述圖像，而且由於降低了數據維度，有效地避免了過擬合。

在實際應用中，分為最大值采樣（Max-Pooling）與平均值采樣（Mean-Pooling）。

LeNet網路結構：

注意，上圖中S2與C3的連接方式並不是全連接，而是部分連接。最後，通過全連接層C5、F6得到10個輸出，對應10個數字的概率。

卷積神經網路的訓練過程與傳統神經網路類似，也是參照了反向傳播演算法

第一階段，向前傳播階段：

a）從樣本集中取一個樣本(X,Yp)，將X輸入網路；

b）計算相應的實際輸出Op

第二階段，向後傳播階段

a）計算實際輸出Op與相應的理想輸出Yp的差；

b）按極小化誤差的方法反向傳播調整權矩陣。

E. CNN、RNN、DNN的一般解釋

CNN(卷積神經網路)、RNN(循環神經網路)、DNN(深度神經網路)的內部網路結構有什麼區別？

轉自知乎科言君的回答

神經網路技術起源於上世紀五、六十年代，當時叫感知機（perceptron），擁有輸入層、輸出層和一個隱含層。輸入的特徵向量通過隱含層變換達到輸出層，在輸出層得到分類結果。早期感知機的推動者是Rosenblatt。（扯一個不相關的：由於計算技術的落後，當時感知器傳輸函數是用線拉動變阻器改變電阻的方法機械實現的，腦補一下科學家們扯著密密麻麻的導線的樣子…）

但是，Rosenblatt的單層感知機有一個嚴重得不能再嚴重的問題，即它對稍復雜一些的函數都無能為力（比如最為典型的「異或」操作）。連異或都不能擬合，你還能指望這貨有什麼實際用途么o(╯□╰)o

隨著數學的發展，這個缺點直到上世紀八十年代才被Rumelhart、Williams、Hinton、LeCun等人（反正就是一票大牛）發明的多層感知機（multilayerperceptron）克服。多層感知機，顧名思義，就是有多個隱含層的感知機（廢話……）。好好，我們看一下多層感知機的結構：

圖1 上下層神經元全部相連的神經網路——多層感知機

多層感知機可以擺脫早期離散傳輸函數的束縛，使用sigmoid或tanh等連續函數模擬神經元對激勵的響應，在訓練演算法上則使用Werbos發明的反向傳播BP演算法。對，這貨就是我們現在所說的神經網路 NN ——神經網路聽起來不知道比感知機高端到哪裡去了！這再次告訴我們起一個好聽的名字對於研（zhuang）究（bi）很重要！

多層感知機解決了之前無法模擬異或邏輯的缺陷，同時更多的層數也讓網路更能夠刻畫現實世界中的復雜情形。相信年輕如Hinton當時一定是春風得意。

多層感知機給我們帶來的啟示是，神經網路的層數直接決定了它對現實的刻畫能力 ——利用每層更少的神經元擬合更加復雜的函數[1]。

（Bengio如是說：functions that can be compactly

represented by a depth k architecture might require an exponential number of

computational elements to be represented by a depth k − 1 architecture.）

即便大牛們早就預料到神經網路需要變得更深，但是有一個夢魘總是縈繞左右。隨著神經網路層數的加深，優化函數越來越容易陷入局部最優解，並且這個「陷阱」越來越偏離真正的全局最優。利用有限數據訓練的深層網路，性能還不如較淺層網路。同時，另一個不可忽略的問題是隨著網路層數增加，「梯度消失」現象更加嚴重。具體來說，我們常常使用sigmoid作為神經元的輸入輸出函數。對於幅度為1的信號，在BP反向傳播梯度時，每傳遞一層，梯度衰減為原來的0.25。層數一多，梯度指數衰減後低層基本上接受不到有效的訓練信號。

2006年，Hinton利用預訓練方法緩解了局部最優解問題，將隱含層推動到了7層[2]，神經網路真正意義上有了「深度」，由此揭開了深度學習的熱潮。這里的「深度」並沒有固定的定義——在語音識別中4層網路就能夠被認為是「較深的」，而在圖像識別中20層以上的網路屢見不鮮。為了克服梯度消失，ReLU、maxout等傳輸函數代替了sigmoid，形成了如今DNN的基本形式。單從結構上來說，全連接的 DNN 和圖 1 的多層感知機是沒有任何區別的。

值得一提的是，今年出現的高速公路網路（highway network）和深度殘差學習（deep resial learning）進一步避免了梯度消失，網路層數達到了前所未有的一百多層（深度殘差學習：152層）[3,4]！具體結構題主可自行搜索了解。如果你之前在懷疑是不是有很多方法打上了「深度學習」的噱頭，這個結果真是深得讓人心服口服。

圖2 縮減版的深度殘差學習網路，僅有34 層，終極版有152 層，自行感受一下

如圖1所示，我們看到全連接 DNN 的結構里下層神經元和所有上層神經元都能夠形成連接，帶來的潛在問題是參數數量的膨脹。假設輸入的是一幅像素為1K*1K的圖像，隱含層有1M個節點，光這一層就有10^12個權重需要訓練，這不僅容易過擬合，而且極容易陷入局部最優。另外，圖像中有固有的局部模式（比如輪廓、邊界，人的眼睛、鼻子、嘴等）可以利用，顯然應該將圖像處理中的概念和神經網路技術相結合。此時我們可以祭出題主所說的卷積神經網路CNN。對於CNN來說，並不是所有上下層神經元都能直接相連，而是通過「卷積核」作為中介。同一個卷積核在所有圖像內是共享的，圖像通過卷積操作後仍然保留原先的位置關系。兩層之間的卷積傳輸的示意圖如下：

圖3 卷積神經網路隱含層（摘自Theano 教程）

通過一個例子簡單說明卷積神經網路的結構。假設圖3中m-1=1是輸入層，我們需要識別一幅彩色圖像，這幅圖像具有四個通道ARGB（透明度和紅綠藍，對應了四幅相同大小的圖像），假設卷積核大小為100*100，共使用100個卷積核w1到w100（從直覺來看，每個卷積核應該學習到不同的結構特徵）。用w1在ARGB圖像上進行卷積操作，可以得到隱含層的第一幅圖像；這幅隱含層圖像左上角第一個像素是四幅輸入圖像左上角100*100區域內像素的加權求和，以此類推。同理，算上其他卷積核，隱含層對應100幅「圖像」。每幅圖像對是對原始圖像中不同特徵的響應。按照這樣的結構繼續傳遞下去。CNN中還有max-pooling等操作進一步提高魯棒性。

圖4 一個典型的卷積神經網路結構，注意到最後一層實際上是一個全連接層（摘自Theano 教程）

在這個例子里，我們注意到輸入層到隱含層的參數瞬間降低到了 100*100*100=10^6 個！這使得我們能夠用已有的訓練數據得到良好的模型。題主所說的適用於圖像識別，正是由於 CNN 模型限制參數了個數並挖掘了局部結構的這個特點。順著同樣的思路，利用語音語譜結構中的局部信息，CNN照樣能應用在語音識別中。

全連接的DNN還存在著另一個問題——無法對時間序列上的變化進行建模。然而，樣本出現的時間順序對於自然語言處理、語音識別、手寫體識別等應用非常重要。對了適應這種需求，就出現了題主所說的另一種神經網路結構——循環神經網路RNN。

在普通的全連接網路或CNN中，每層神經元的信號只能向上一層傳播，樣本的處理在各個時刻獨立，因此又被成為前向神經網路(Feed-forward Neural Networks)。而在 RNN 中，神經元的輸出可以在下一個時間戳直接作用到自身，即第i層神經元在m時刻的輸入，除了（i-1）層神經元在該時刻的輸出外，還包括其自身在（m-1）時刻的輸出！表示成圖就是這樣的：

圖5 RNN 網路結構

我們可以看到在隱含層節點之間增加了互連。為了分析方便，我們常將RNN在時間上進行展開，得到如圖6所示的結構：

圖6 RNN 在時間上進行展開

Cool，（ t+1 ）時刻網路的最終結果O(t+1) 是該時刻輸入和所有歷史共同作用的結果！這就達到了對時間序列建模的目的。

不知題主是否發現，RNN可以看成一個在時間上傳遞的神經網路，它的深度是時間的長度！正如我們上面所說，「梯度消失」現象又要出現了，只不過這次發生在時間軸上。對於t時刻來說，它產生的梯度在時間軸上向歷史傳播幾層之後就消失了，根本就無法影響太遙遠的過去。因此，之前說「所有歷史」共同作用只是理想的情況，在實際中，這種影響也就只能維持若干個時間戳。

為了解決時間上的梯度消失，機器學習領域發展出了長短時記憶單元 LSTM ，通過門的開關實現時間上記憶功能，並防止梯度消失，一個LSTM單元長這個樣子：

圖7 LSTM 的模樣

除了題主疑惑的三種網路，和我之前提到的深度殘差學習、LSTM外，深度學習還有許多其他的結構。舉個例子，RNN既然能繼承歷史信息，是不是也能吸收點未來的信息呢？因為在序列信號分析中，如果我能預知未來，對識別一定也是有所幫助的。因此就有了雙向 RNN 、雙向 LSTM ，同時利用歷史和未來的信息。

圖8 雙向RNN

事實上，不論是那種網路，他們在實際應用中常常都混合著使用，比如 CNN 和RNN 在上層輸出之前往往會接上全連接層，很難說某個網路到底屬於哪個類別。不難想像隨著深度學習熱度的延續，更靈活的組合方式、更多的網路結構將被發展出來。盡管看起來千變萬化，但研究者們的出發點肯定都是為了解決特定的問題。題主如果想進行這方面的研究，不妨仔細分析一下這些結構各自的特點以及它們達成目標的手段。入門的話可以參考：

Ng寫的Ufldl： UFLDL教程 - Ufldl

也可以看Theano內自帶的教程，例子非常具體： Deep Learning Tutorials

歡迎大家繼續推薦補充。

當然啦，如果題主只是想湊個熱鬧時髦一把，或者大概了解一下方便以後把妹使，這樣看看也就罷了吧。

參考文獻：

[1]

Bengio Y. Learning Deep

Architectures for AI[J]. Foundations & Trends® in Machine Learning, 2009,

2(1):1-127.

[2]

Hinton G E, Salakhutdinov R R.

Recing the Dimensionality of Data with Neural Networks[J]. Science, 2006,

313(5786):504-507.

[3]

He K, Zhang X, Ren S, Sun J. Deep

Resial Learning for Image Recognition. arXiv:1512.03385, 2015.

[4]

Srivastava R K, Greff K,

Schmidhuber J. Highway networks. arXiv:1505.00387, 2015.

F. 什麼是全連接神經網路，怎麼理解「全連接」

1、全連接神經網路解析：對n-1層和n層而言，n-1層的任意一個節點，都和第n層所有節點有連接。即第n層的每個節點在進行計算的時候，激活函數的輸入是n-1層所有節點的加權。

2、全連接的神經網路示意圖：

3、「全連接」是一種不錯的模式，但是網路很大的時候，訓練速度回很慢。部分連接就是認為的切斷某兩個節點直接的連接，這樣訓練時計算量大大減小。

G. DNN、RNN、CNN分別是什麼意思

DNN（深度神經網路），是深度學習的基礎。

DNN可以理解為有很多隱藏層的神經網路。這個很多其實也沒有什麼度量標准, 多層神經網路和深度神經網路DNN其實也是指的一個東西，當然，DNN有時也叫做多層感知機（Multi-Layer perceptron,MLP）。

從DNN按不同層的位置劃分，DNN內部的神經網路層可以分為三類，輸入層，隱藏層和輸出層,如下圖示例，一般來說第一層是輸出層，最後一層是輸出層，而中間的層數都是隱藏層。

CNN（卷積神經網路），是一種前饋型的神經網路，目前深度學習技術領域中非常具有代表性的神經網路之一。

CNN在大型圖像處理方面有出色的表現，目前已經被大范圍使用到圖像分類、定位等領域中。相比於其他神經網路結構，卷積神經網路需要的參數相對較少，使的其能夠廣泛應用。

RNN（循環神經網路），一類用於處理序列數據的神經網路，RNN最大的不同之處就是在層之間的神經元之間也建立的權連接。

從廣義上來說，DNN被認為包含了CNN、RNN這些具體的變種形式。在實際應用中，深度神經網路DNN融合了多種已知的結構，包含卷積層或LSTM單元，特指全連接的神經元結構，並不包含卷積單元或時間上的關聯。

H. 什麼是全連接神經網路怎麼理解「全連接」

2、全連接的神經網路示意圖：

閱讀全文

與全連接神經網路和深度神經網路相關的資料

熱點內容

網路共享中心沒有網卡發布：2023-08-31 22:07:08 瀏覽：565

電腦無法檢測到網路代理發布：2023-08-31 22:06:18 瀏覽：1432

筆記本電腦一天會用多少流量發布：2023-08-31 21:50:29 瀏覽：742

蘋果電腦整機轉移新機發布：2023-08-31 21:50:25 瀏覽：1408

突然無法連接工作網路發布：2023-08-31 21:50:19 瀏覽：1168

聯通網路怎麼設置才好發布：2023-08-31 21:48:37 瀏覽：1269

小區網路電腦怎麼連接路由器發布：2023-08-31 21:47:34 瀏覽：1159

p1108列印機網路共享發布：2023-08-31 21:40:56 瀏覽：1244

怎麼調節台式電腦護眼發布：2023-08-31 21:37:28 瀏覽：802

深圳天虹蘋果電腦發布：2023-08-31 21:33:09 瀏覽：1039

網路總是異常斷開發布：2023-08-31 21:31:09 瀏覽：648

中級配置台式電腦發布：2023-08-31 21:27:42 瀏覽：1102

中國網路安全的戰士發布：2023-08-31 21:25:11 瀏覽：666

同志網站在哪裡發布：2023-08-31 21:21:19 瀏覽：1474

版觀看完整完結免費手機在線發布：2023-08-31 21:16:58 瀏覽：1491

怎樣切換默認數據網路設置發布：2023-08-31 21:15:57 瀏覽：1159

肯德基無線網無法訪問網路發布：2023-08-31 21:10:40 瀏覽：1379

光纖貓怎麼連接不上網路發布：2023-08-31 21:09:40 瀏覽：1597

神武3手游網路連接發布：2023-08-31 20:42:31 瀏覽：1004

局網列印機網路共享發布：2023-08-31 20:37:10 瀏覽：1029