導航:首頁 > 網路問題 > 如何輸出一個神經網路誤差

如何輸出一個神經網路誤差

發布時間:2023-03-09 00:10:23

㈠ 神經網路(Neural Network)

(1)結構:許多樹突(dendrite)用於輸入,一個軸突 (axon)用於輸出。

(2)特性:興奮性和傳導性。興奮性是指當信號量超過某個閾值時,細胞體就會被激活,產生電脈沖。傳導性是指電脈沖沿著軸突並通過突觸傳遞到其它神經元。

(3)有兩種狀態的機器:激活時為「是」,不激活時為「否」。神經細胞的狀態取決於從其他神經細胞接收到的信號量,以及突觸的性質(抑制或加強)。

(1)神經元——不重要

① 神經元是包含權重和偏置項的 函數 :接收數據後,執行一些計算,然後使用激活函數將數據限制在一個范圍內(多數情況下)。

② 單個神經元:線性可分的情況下,本質是一條直線, ,這條直線將數據劃分為兩類。而線性分類器本身就是一個單層神經網路。

③ 神經網路:非線性可分的情況下,神經網路通過多個隱層的方法來實現非線性的函數。

(2)權重/參數/連接(Weight)——最重要

每一個連接上都有一個權重。一個神經網路的訓練演算法就是讓權重的值調整到最佳,以使得整個網路的預測效果最好。

(3)偏置項(Bias Units)——必須

① 如果沒有偏置項,所有的函數都會經過原點。

② 正則化偏置會導致欠擬合:若對偏置正則化,會導致激活變得更加簡單,偏差就會上升,學習的能力就會下降。

③ 偏置的大小度量了神經元產生激勵(激活)的難易程度。

(1)定義:也稱為轉換函數,是一種將輸入 (input) 轉成輸出 (output) 的函數。

(2)作用:一般直線擬合的精確度要比曲線差很多,引入激活函數能給神經網路 增加一些非線性 的特性。

(3)性質:

① 非線性:導數不是常數,否則就退化成直線。對於一些畫一條直線仍然無法分開的問題,非線性可以把直線變彎,就能包羅萬象;

② 可微性:當優化方法是基於梯度的時候,處處可導為後向傳播演算法提供了核心條件;

③ 輸出范圍:一般限定在[0,1],使得神經元對一些比較大的輸入會比較穩定;

④ 非飽和性:飽和就是指,當輸入比較大的時候輸出幾乎沒變化,會導致梯度消失;

⑤ 單調性:導數符號不變,輸出不會上躥下跳,讓神經網路訓練容易收斂。

(1)線性函數 (linear function)—— purelin()

(2)符號函數 (sign function)—— hardlim() 

① 如果z值高於閾值,則激活設置為1或yes,神經元將被激活。

② 如果z值低於閾值,則激活設置為0或no,神經元不會被激活。

(3)對率函數 (sigmoid function)—— logsig()

① 優點:光滑S型曲線連續可導,函數閾值有上限。

② 缺點:❶ 函數飽和使梯度消失,兩端梯度幾乎為0,更新困難,做不深;

                ❷ 輸出不是0中心,將影響梯度下降的運作,收斂異常慢;

                ❸ 冪運算相對來講比較耗時

(4)雙曲正切函數(hyperbolic tangent function)—— tansig()

① 優點:取值范圍0中心化,防止了梯度偏差

② 缺點:梯度消失現象依然存在,但相對於sigmoid函數問題較輕

(5)整流線性單元 ReLU 函數(rectified linear unit)

① 優點:❶ 分段線性函數,它的非線性性很弱,因此網路做得很深;

                ❷ 由於它的線性、非飽和性, 對於隨機梯度下降的收斂有巨大的加速作用;

② 缺點:❶ 當x<0,梯度都變成0,參數無法更新,也導致了數據多樣化的丟失;

                ❷ 輸出不是0中心

(6)滲漏型整流線性單元激活函數 Leaky ReLU 函數

① 優點:❶ 是為解決「ReLU死亡」問題的嘗試,在計算導數時允許較小的梯度;

                ❷ 非飽和的公式,不包含指數運算,計算速度快。

② 缺點:❶ 無法避免梯度爆炸問題; (沒有體現優於ReLU)

                ❷ 神經網路不學習 α 值。

(7)指數線性單元 ELU (Exponential Linear Units)

① 優點:❶ 能避免「死亡 ReLU」 問題;

                ❷ 能得到負值輸出,這能幫助網路向正確的方向推動權重和偏置變化;

                ❸ 在計算梯度時能得到激活,而不是讓它們等於 0。

② 缺點:❶ 由於包含指數運算,所以計算時間更長;

                ❷ 無法避免梯度爆炸問題; (沒有體現優於ReLU)

                ❸ 神經網路不學習 α 值。

(8)Maxout(對 ReLU 和 Leaky ReLU的一般化歸納)

① 優點:❶ 擁有ReLU的所有優點(線性和不飽和)

                ❷ 沒有ReLU的缺點(死亡的ReLU單元)

                ❸ 可以擬合任意凸函數

② 缺點 :參數數量增加了一倍。難訓練,容易過擬合

(9)Swish

① 優點:❶ 在負半軸也有一定的不飽和區,參數的利用率更大

                ❷ 無上界有下界、平滑、非單調

                ❸ 在深層模型上的效果優於 ReLU

每個層都包含一定數量的單元(units)。增加層可增加神經網路輸出的非線性。

(1)輸入層:就是接收原始數據,然後往隱層送

(2)輸出層:神經網路的決策輸出

(3)隱藏層:神經網路的關鍵。把前一層的向量變成新的向量,讓數據變得線性可分。

(1)結構:僅包含輸入層和輸出層,直接相連。

(2)作用:僅能表示 線性可分 函數或決策,且一定可以在有限的迭代次數中收斂。

(3)局限:可以建立與門、或門、非門等,但無法建立更為復雜的異或門(XOR),即兩個輸入相同時輸出1,否則輸出0。 (「AI winter」)

(1)目的:擬合某個函數      (兩層神經網路可以逼近任意連續函數)

(2)結構:包含輸入層、隱藏層和輸出層 ,由於從輸入到輸出的過程中不存在與模型自身的反饋連接,因此被稱為「前饋」。    (層與層之間全連接)

(3)作用: 非線性 分類、聚類、預測等,通過訓練,可以學習到數據中隱含的知識。

(4)局限:計算復雜、計算速度慢、容易陷入局部最優解,通常要將它們與其他網路結合形成新的網路。

(5)前向傳播演算法(Forward Propagation)

① 方法:從左至右逐級依賴的演算法模型,即網路如何根據輸入X得到輸出Y,最終的輸出值和樣本值作比較, 計算出誤差 。

② 目的:完成了一次正反向傳播,就完成了一次神經網路的訓練迭代。通過輸出層的誤差,快速求解對每個ω、b的偏導,利用梯度下降法,使Loss越來越小。

② 局限:為使最終的誤差達到最小,要不斷修改參數值,但神經網路的每條連接線上都有不同權重參數,修改這些參數變得棘手。

(6)誤差反向傳播(Back Propagation)

① 原理:梯度下降法求局部極值

② 方法:從後往前,從輸出層開始計算 L 對當前層的微分,獲得各層的誤差信號,此誤差信號即作為修正單元權值的依據。計算結束以後,所要的兩個參數矩陣的 梯度 就都有了。

③ 局限:如果激活函數是飽和的,帶來的缺陷就是系統迭代更新變慢,系統收斂就慢,當然這是可以有辦法彌補的,一種方法是使用 交叉熵函數 作為損失函數。

(1)原理:隨著網路的層數增加,每一層對於前一層次的抽象表示更深入。在神經網路中,每一層神經元學習到的是前一層神經元值的更抽象的表示。通過抽取更抽象的特徵來對事物進行區分,從而獲得更好的區分與分類能力。

(2)方法:ReLU函數在訓練多層神經網路時,更容易收斂,並且預測性能更好。

(3)優點:① 易於構建,表達能力強,基本單元便可擴展為復雜的非線性函數

                      ② 並行性號,有利於在分布是系統上應用

(4)局限:① 優化演算法只能獲得局部極值,性能與初始值相關

                      ② 調參理論性缺乏

                      ③ 不可解釋,與實際任務關聯性模糊

(1)原理:由手工設計卷積核變成自動學習卷積核

(2)卷積(Convolutional layer): 輸入與卷積核相乘再累加 (內積、加權疊加)

① 公式:

② 目的:提取輸入的不同特徵,得到維度很大的 特徵圖(feature map)

③ 卷積核:需要訓練的參數。一般為奇數維,有中心像素點,便於定位卷積核

④ 特點:局部感知、參數變少、權重共享、分層提取

(3)池化(Pooling Layer):用更高層的抽象表達來表示主要特徵,又稱「降采樣」

① 分類: 最大 (出現與否)、平均(保留整體)、隨機(避免過擬合)

② 目的:降維,不需要訓練參數,得到新的、維度較小的特徵

(4)步長(stride):若假設輸入大小是n∗n,卷積核的大小是f∗f,步長是s,則最後的feature map的大小為o∗o,其中

(5)填充(zero-padding)

① Full模式:即從卷積核(fileter)和輸入剛相交開始做卷積,沒有元素的部分做補0操作。

② Valid模式:卷積核和輸入完全相交開始做卷積,這種模式不需要補0。

③ Same模式:當卷積核的中心C和輸入開始相交時做卷積。沒有元素的部分做補0操作。

(7)激活函數:加入非線性特徵

(8)全連接層(Fully-connected layer)

如果說卷積層、池化層和激活函數層等是將原始數據映射到隱層特徵空間(決定計算速度),全連接層則起到將學到的「分布式特徵表示」映射到樣本標記空間的作用(決定參數個數)。

參考:

[1]  神經網路(入門最詳細)_ruthy的博客-CSDN博客_神經網路演算法入門

[2]  神經網路(容易被忽視的基礎知識) - Evan的文章 - 知乎

[3]  人工神經網路——王的機器

[4]  如何簡單形象又有趣地講解神經網路是什麼? - 舒小曼的回答 - 知乎

[5]  神經網路15分鍾入門!足夠通俗易懂了吧 - Mr.括弧的文章 - 知乎

[6]  神經網路——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神經網路

[7]  直覺化深度學習教程——什麼是前向傳播——CSDN

[8]  「反向傳播演算法」過程及公式推導(超直觀好懂的Backpropagation)_aift的專欄-CSDN

[9]  卷積、反卷積、池化、反池化——CSDN

[10]  浙大機器學習課程- bilibili.com

閱讀全文

與如何輸出一個神經網路誤差相關的資料

熱點內容
網路共享中心沒有網卡 瀏覽:493
電腦無法檢測到網路代理 瀏覽:1350
筆記本電腦一天會用多少流量 瀏覽:476
蘋果電腦整機轉移新機 瀏覽:1349
突然無法連接工作網路 瀏覽:962
聯通網路怎麼設置才好 瀏覽:1191
小區網路電腦怎麼連接路由器 瀏覽:933
p1108列印機網路共享 瀏覽:1187
怎麼調節台式電腦護眼 瀏覽:603
深圳天虹蘋果電腦 瀏覽:841
網路總是異常斷開 瀏覽:584
中級配置台式電腦 瀏覽:895
中國網路安全的戰士 瀏覽:605
同志網站在哪裡 瀏覽:1380
版觀看完整完結免費手機在線 瀏覽:1432
怎樣切換默認數據網路設置 瀏覽:1080
肯德基無線網無法訪問網路 瀏覽:1254
光纖貓怎麼連接不上網路 瀏覽:1377
神武3手游網路連接 瀏覽:938
局網列印機網路共享 瀏覽:975