Ⅰ (BP進階1)從M-P模型到BP神經網路
經過兩天的研究,終於更加清晰地搞明白了所謂BP,做此記錄。
M-P模型,其實就是按照生物神經元的結構和工作原理來構造出來的比較簡單的模型。下圖為M-P模型的示意圖:
具體的推論詳見 http://blog.csdn.net/u013007900/article/details/50066315
拋去繁重的公式,我們可以把這個模型理解為:
要想下一個神經元接收到信息,那麼接收到的信號一定要大於某一個闕值θ才能由輸出信號yj輸出,該闕值由具體的神經元決定;也就是說,輸入的信號總和在經過神經元後失去了闕值θ的信號以後,轉化為輸出信號輸出。
我們假每一個輸出信號x都輸入一定的神經元Wij,那麼該神經元共接收到的輸入信號即為
這個公式不難理解,於是在神經元中失去了闕值量θ後:
經過信號轉化(激活函數f(x)的作用)為輸出信號:
然而神經元突觸的信號類型又分為興奮和抑制兩種狀態,於是,在M-P模型中,這種性質體現為權值w的正負,如果權值是負,那麼輸出y值就也為負,體現為抑制狀態;如果權值是正,那麼輸出y值就也為正,體現為興奮狀態。
這種「閾值加權和」的神經元模型稱為M-P模型 ( McCulloch-Pitts Model ),也稱為神經網路的一個處理單元( PE, Processing Element )。
常用的激活函數有五種:
線性激活函數:
非線性激活函數:
在進行BP神經網路進行訓練的時候,我們常用的函數是S形函數。
簡單來說,感知器就是一個簡單的神經網路模型,以下是感知器的拓撲結構圖:
而oi表現形式為兩種,1和-1,來表示興奮和抑制。
因此,單層感知器的作用為可以使用一條直線來對輸入數據進行線性分類,如果仍舊不太明白的話,可以從公式入手來進行分析:
所以可以得知,這是一個關於x1,x2的線性函數,而在圖1中用於分類的紅色直線,則是與函數w1j x1+w2j x2-θj=0成線性關系的函數。
到此,我們已經講解了單層感知器的實現分類原理,引入多層分類器的原因在於,單層感知器的局限性只能區分二維平面中的線性函數,而對於多維平面,或著非線性函數來說,則無法實現分類。
可以看出,在加入了隱層以後輸入層的數據不再直接經過簡單的權值激活運算就直接進入輸出層,而是在多層的隱層經過復雜計算後,再輸入層輸出,這樣的計算方法,可以保證輸出的o和輸入信號x1,x2,不再是簡單的線性關系,而其中的計算也將會隨著隱層的增加而無限度地復雜化。
我們可以比較一下單層感知器和多層感知器的分類能力:
由上圖可以看出,隨著隱層層數的增多,凸域將可以形成任意的形狀,因此可以解決任何復雜的分類問題。實際上,Kolmogorov理論指出:雙隱層感知器就足以解決任何復雜的分類問題。
異或問題的解決:
在M-P模型中,我們得知,為了實現有效的分類,需要加入一定數量的隱層來加強演算法的復雜性,而在隱層內部的計算我們是無法得知的,因此,我們需要進行神經網路的訓練。
這樣說可能有點突兀,我們不妨這樣想,我們已知的是一組數據和它們相對應的分類狀況,求解的是如何可以用同類的數據來得到正確的分類。
或者這樣說,我們已知:
x1=2,x2=3時,y=5,x1=4,x2=5時,y=9,那麼,求解x1=8,x2=0時,y的值,這樣是不是好理解很多?
總之,我們需要的是一個可以滿足當前條件的「公式」,讓它可以計算出更多的數據,這在我們的小學數學里叫做解算式,在這里就可以叫做訓練。
我們需要知道這些數據在隱層里是經過怎樣的計算,才得到了輸出結果,於是,我們需要先進性數據的訓練,然後再根據現有未知結果的數據套進去,得到預期結果。
而我們在這里,得出的所謂隱層結構的計算,就是需要訓練出的「公式」。
具體的BP訓練方式下次更新。
Ⅱ 神經網路專業術語基本介紹
1. 卷積層
(1)作用:提取圖像特徵,也稱作「特徵訓練分類器」。
2. 池化層
(1)作用:采樣,減小圖像尺寸,減少訓練參數,減輕模型過擬合程度。
(2)Max-Pooling和Mean-Pooling兩種
(3)重疊池化(Overlapping Pooling):strides < ksize
3. 激活函數
(1)作用:將卷積後得到的值限制在指定范圍內。
(2)函數形式
(a)sigmoid:f(x)=1/(1+exp(-x)) 值域為(0,1)
(b)tanh: f(x)=[exp(2x)-1]/[exp(2x)+1] 值域為(-1,1)
(c) 近似生物神經激活函數 ReLU(Rectified Linear Units): f(x)=max(0,x) 值域為[0,∞)
(d)近似生物神經激活函數Softplus:f(x)=log[1+exp(x)]
(3)後面兩個函數對比Sigmoid函數好在三點: ①單側抑制 ②相對寬闊的興奮邊界 ③稀疏激活性 (重點,可以看到紅框里前端狀態完全沒有激活)
4.局部響應歸一化(LRN:Local Response Normalization)
(1)作用:激活的神經單元會抑制臨近神經元。
5. DropOut
(1)作用:以一定的概率暫時丟棄神經元,使其不參與前向傳播與反向傳播,可減輕過擬合,加快計算速度,減少參數。
(2)工作特點:dropout在訓練時會隨機將部分節點的輸出改為0。
(3)工作方式:dropout一般只在全連接層而不再卷積或池化層使用。
AlexNet與LeNet除了層數之外設計不同的是,AlexNet還運用ReLU激活函數,局部反應歸一化,重疊池化(overlapping Pooling)
6. 知識拓展
(1)Top-5錯誤率
對一個圖片,如果分類概率前五中包含正確答案,才認為正確。
(2)Top-1錯誤率
對一個圖片,如果分類概率最大的是正確答案,才認為正確。
7. 泛化能力
深度神經網路往往帶有大量的參數,但依然表現出很強的泛化能力(指訓練好的模型在未見過的數據上的表現)。
泛化能力:指訓練好的模型在未見過的數據上的表現能力。良好泛化能力的網路在輸入數據與訓練數據稍有不同時也能得到比較好的結果
8. 正則化
(1)定義:深度學習中用以減小測試誤差,但可能會增加訓練誤差的策略稱為正則化。
(2)作用:避免過擬合
(3)方式:正則化項加在了成本函數中,而且只在全連接層的權重需要加入正則化
(a)L1正則項
α||w||即為L1正則化項
(b)L2正則項
(c)目前許多正規化方法,如神經網路、線性回歸、logistic回歸通過在目標函數J上加一個參數規范懲罰項 Ω(θ)公式如下:
9. 過擬合
(1)定義:指在模型參數擬合過程中的問題,由於訓練數據包含抽樣誤差,訓練時,復雜的模型將抽樣誤差也考慮在內,將抽樣誤差也進行了很好的擬合。
(2)具體表現:最終模型在訓練集上效果好,但是在測試集上效果差,模型泛化能力弱。
(3)解決原因:我們無法窮盡所有狀態,不可能將所有情況都包含在訓練集上
(4)解決辦法:
(a) 獲取更多數據。①數據增強;②採集更多數據;
(b) 使用合適的模型
(一)網路結構 Architecture
(二)訓練時間 Early stopping
(三)限制權值 Weight-decay,也叫正則化(regularization)
(四)增加雜訊 Noise。在輸入中加雜訊;在權值上加雜訊;對網路的響應加雜訊
(c) 結合多種模型
(一)Bagging
(二)Boosting
(三)Dropout
(d) 貝葉斯方法
10. Softmax函數
(1)定義:在 數學 ,尤其是 概率論 和相關領域中, Softmax函數 ,或稱 歸一化指數函數 ,是 邏輯函數 的一種推廣。它能將一個含任意實數的K維的向量 Z 「壓縮」到另一個K維實向量 f( Z ) 中,使得每一個元素的范圍都在(0,1)之間,並且所有元素的和為1。該函數的形式通常按下面的式子給出:
(2)通俗的講解:
參考:
[1] 星小環的AI讀書會—深度學習系列08經典卷積神經網路LeNet&AlexNet,https://zhuanlan.hu.com/p/31435647
[2] 深度學習:正則化 ,http://shartoo.github.io/regularization-deeplearning/
[3] ReLu(Rectified Linear Units)激活函數 ,http://www.cnblogs.com/neopenx/p/4453161.html
[4] 機器學習中用來防止過擬合的方法有哪些?https://www.hu.com/question/59201590
Ⅲ 神經網路 的四個基本屬性是什麼
神經網路 的四個基本屬性:
(1)非線性:非線性是自然界的普遍特徵。腦智能是一種非線性現象。人工神經元處於兩種不同的激活或抑制狀態,它們在數學上是非線性的。由閾值神經元組成的網路具有更好的性能,可以提高網路的容錯性和存儲容量。
(2)無限制性:神經網路通常由多個連接廣泛的神經元組成。一個系統的整體行為不僅取決於單個神經元的特性,而且還取決於單元之間的相互作用和互連。通過單元之間的大量連接來模擬大腦的非限制性。聯想記憶是一個典型的無限制的例子。
(3)非常定性:人工神經網路具有自適應、自組織和自學習的能力。神經網路處理的信息不僅會發生變化,而且非線性動態系統本身也在發生變化。迭代過程通常用來描述動態系統的演化。
(4)非凸性:在一定條件下,系統的演化方向取決於特定的狀態函數。例如,能量函數的極值對應於系統的相對穩定狀態。非凸性是指函數具有多個極值,系統具有多個穩定平衡態,從而導致系統演化的多樣性。
(3)神經網路抑制狀態是什麼意思擴展閱讀:
神經網路的特點優點:
人工神經網路的特點和優越性,主要表現在三個方面:
第一,具有自學習功能。例如實現圖像識別時,只在先把許多不同的圖像樣板和對應的應識別的結果輸入人工神經網路,網路就會通過自學習功能,慢慢學會識別類似的圖像。自學習功能對於預測有特別重要的意義。預期未來的人工神經網路計算機將為人類提供經濟預測、市場預測、效益預測,其應用前途是很遠大的。
第二,具有聯想存儲功能。用人工神經網路的反饋網路就可以實現這種聯想。
第三,具有高速尋找優化解的能力。尋找一個復雜問題的優化解,往往需要很大的計算量,利用一個針對某問題而設計的反饋型人工神經網路,發揮計算機的高速運算能力,可能很快找到優化解。
Ⅳ 人工神經網路綜述
文章主要分為:
一、人工神經網路的概念;
二、人工神經網路的發展歷史;
三、人工神經網路的特點;
四、人工神經網路的結構。
。。
人工神經網路(Artificial Neural Network,ANN)簡稱神經網路(NN),是基於生物學中神經網路的基本原理,在理解和抽象了人腦結構和外界刺激響應機制後,以網路拓撲知識為理論基礎,模擬人腦的神經系統對復雜信息的處理機制的一種數學模型。該模型以並行分布的處理能力、高容錯性、智能化和自學習等能力為特徵,將信息的加工和存儲結合在一起,以其獨特的知識表示方式和智能化的自適應學習能力,引起各學科領域的關注。它實際上是一個有大量簡單元件相互連接而成的復雜網路,具有高度的非線性,能夠進行復雜的邏輯操作和非線性關系實現的系統。
神經網路是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激活函數(activation function)。每兩個節點間的連接都代表一個對於通過該連接信號的加權值,稱之為權重(weight),神經網路就是通過這種方式來模擬人類的記憶。網路的輸出則取決於網路的結構、網路的連接方式、權重和激活函數。而網路自身通常都是對自然界某種演算法或者函數的逼近,也可能是對一種邏輯策略的表達。神經網路的構築理念是受到生物的神經網路運作啟發而產生的。人工神經網路則是把對生物神經網路的認識與數學統計模型相結合,藉助數學統計工具來實現。另一方面在人工智慧學的人工感知領域,我們通過數學統計學的方法,使神經網路能夠具備類似於人的決定能力和簡單的判斷能力,這種方法是對傳統邏輯學演算的進一步延伸。
人工神經網路中,神經元處理單元可表示不同的對象,例如特徵、字母、概念,或者一些有意義的抽象模式。網路中處理單元的類型分為三類:輸入單元、輸出單元和隱單元。輸入單元接受外部世界的信號與數據;輸出單元實現系統處理結果的輸出;隱單元是處在輸入和輸出單元之間,不能由系統外部觀察的單元。神經元間的連接權值反映了單元間的連接強度,信息的表示和處理體現在網路處理單元的連接關系中。人工神經網路是一種非程序化、適應性、大腦風格的信息處理,其本質是通過網路的變換和動力學行為得到一種並行分布式的信息處理功能,並在不同程度和層次上模仿人腦神經系統的信息處理功能。
神經網路,是一種應用類似於大腦神經突觸連接結構進行信息處理的數學模型,它是在人類對自身大腦組織結合和思維機制的認識理解基礎之上模擬出來的,它是根植於神經科學、數學、思維科學、人工智慧、統計學、物理學、計算機科學以及工程科學的一門技術。
在介紹神經網路的發展歷史之前,首先介紹一下神經網路的概念。神經網路主要是指一種仿造人腦設計的簡化的計算模型,這種模型中包含了大量的用於計算的神經元,這些神經元之間會通過一些帶有權重的連邊以一種層次化的方式組織在一起。每一層的神經元之間可以進行大規模的並行計算,層與層之間進行消息的傳遞。
下圖展示了整個神經網路的發展歷程:
神經網路的發展有悠久的歷史。其發展過程大致可以概括為如下4個階段。
(1)、M-P神經網路模型:20世紀40年代,人們就開始了對神經網路的研究。1943 年,美國心理學家麥克洛奇(Mcculloch)和數學家皮茲(Pitts)提出了M-P模型,此模型比較簡單,但是意義重大。在模型中,通過把神經元看作個功能邏輯器件來實現演算法,從此開創了神經網路模型的理論研究。
(2)、Hebb規則:1949 年,心理學家赫布(Hebb)出版了《The Organization of Behavior》(行為組織學),他在書中提出了突觸連接強度可變的假設。這個假設認為學習過程最終發生在神經元之間的突觸部位,突觸的連接強度隨之突觸前後神經元的活動而變化。這一假設發展成為後來神經網路中非常著名的Hebb規則。這一法則告訴人們,神經元之間突觸的聯系強度是可變的,這種可變性是學習和記憶的基礎。Hebb法則為構造有學習功能的神經網路模型奠定了基礎。
(3)、感知器模型:1957 年,羅森勃拉特(Rosenblatt)以M-P 模型為基礎,提出了感知器(Perceptron)模型。感知器模型具有現代神經網路的基本原則,並且它的結構非常符合神經生理學。這是一個具有連續可調權值矢量的MP神經網路模型,經過訓練可以達到對一定的輸入矢量模式進行分類和識別的目的,它雖然比較簡單,卻是第一個真正意義上的神經網路。Rosenblatt 證明了兩層感知器能夠對輸入進行分類,他還提出了帶隱層處理元件的三層感知器這一重要的研究方向。Rosenblatt 的神經網路模型包含了一些現代神經計算機的基本原理,從而形成神經網路方法和技術的重大突破。
(4)、ADALINE網路模型: 1959年,美國著名工程師威德羅(B.Widrow)和霍夫(M.Hoff)等人提出了自適應線性元件(Adaptive linear element,簡稱Adaline)和Widrow-Hoff學習規則(又稱最小均方差演算法或稱δ規則)的神經網路訓練方法,並將其應用於實際工程,成為第一個用於解決實際問題的人工神經網路,促進了神經網路的研究應用和發展。ADALINE網路模型是一種連續取值的自適應線性神經元網路模型,可以用於自適應系統。
人工智慧的創始人之一Minsky和Papert對以感知器為代表的網路系統的功能及局限性從數學上做了深入研究,於1969年發表了轟動一時《Perceptrons》一書,指出簡單的線性感知器的功能是有限的,它無法解決線性不可分的兩類樣本的分類問題,如簡單的線性感知器不可能實現「異或」的邏輯關系等。這一論斷給當時人工神經元網路的研究帶來沉重的打擊。開始了神經網路發展史上長達10年的低潮期。
(1)、自組織神經網路SOM模型:1972年,芬蘭的KohonenT.教授,提出了自組織神經網路SOM(Self-Organizing feature map)。後來的神經網路主要是根據KohonenT.的工作來實現的。SOM網路是一類無導師學習網路,主要用於模式識別﹑語音識別及分類問題。它採用一種「勝者為王」的競爭學習演算法,與先前提出的感知器有很大的不同,同時它的學習訓練方式是無指導訓練,是一種自組織網路。這種學習訓練方式往往是在不知道有哪些分類類型存在時,用作提取分類信息的一種訓練。
(2)、自適應共振理論ART:1976年,美國Grossberg教授提出了著名的自適應共振理論ART(Adaptive Resonance Theory),其學習過程具有自組織和自穩定的特徵。
(1)、Hopfield模型:1982年,美國物理學家霍普菲爾德(Hopfield)提出了一種離散神經網路,即離散Hopfield網路,從而有力地推動了神經網路的研究。在網路中,它首次將李雅普諾夫(Lyapunov)函數引入其中,後來的研究學者也將Lyapunov函數稱為能量函數。證明了網路的穩定性。1984年,Hopfield 又提出了一種連續神經網路,將網路中神經元的激活函數由離散型改為連續型。1985 年,Hopfield和Tank利用Hopfield神經網路解決了著名的旅行推銷商問題(Travelling Salesman Problem)。Hopfield神經網路是一組非線性微分方程。Hopfield的模型不僅對人工神經網路信息存儲和提取功能進行了非線性數學概括,提出了動力方程和學習方程,還對網路演算法提供了重要公式和參數,使人工神經網路的構造和學習有了理論指導,在Hopfield模型的影響下,大量學者又激發起研究神經網路的熱情,積極投身於這一學術領域中。因為Hopfield 神經網路在眾多方面具有巨大潛力,所以人們對神經網路的研究十分地重視,更多的人開始了研究神經網路,極大地推動了神經網路的發展。
(2)、Boltzmann機模型:1983年,Kirkpatrick等人認識到模擬退火演算法可用於NP完全組合優化問題的求解,這種模擬高溫物體退火過程來找尋全局最優解的方法最早由Metropli等人1953年提出的。1984年,Hinton與年輕學者Sejnowski等合作提出了大規模並行網路學習機,並明確提出隱單元的概念,這種學習機後來被稱為Boltzmann機。
Hinton和Sejnowsky利用統計物理學的感念和方法,首次提出的多層網路的學習演算法,稱為Boltzmann 機模型。
(3)、BP神經網路模型:1986年,儒默哈特(D.E.Ru melhart)等人在多層神經網路模型的基礎上,提出了多層神經網路權值修正的反向傳播學習演算法----BP演算法(Error Back-Propagation),解決了多層前向神經網路的學習問題,證明了多層神經網路具有很強的學習能力,它可以完成許多學習任務,解決許多實際問題。
(4)、並行分布處理理論:1986年,由Rumelhart和McCkekkand主編的《Parallel Distributed Processing:Exploration in the Microstructures of Cognition》,該書中,他們建立了並行分布處理理論,主要致力於認知的微觀研究,同時對具有非線性連續轉移函數的多層前饋網路的誤差反向傳播演算法即BP演算法進行了詳盡的分析,解決了長期以來沒有權值調整有效演算法的難題。可以求解感知機所不能解決的問題,回答了《Perceptrons》一書中關於神經網路局限性的問題,從實踐上證實了人工神經網路有很強的運算能力。
(5)、細胞神經網路模型:1988年,Chua和Yang提出了細胞神經網路(CNN)模型,它是一個細胞自動機特性的大規模非線性計算機模擬系統。Kosko建立了雙向聯想存儲模型(BAM),它具有非監督學習能力。
(6)、Darwinism模型:Edelman提出的Darwinism模型在90年代初產生了很大的影響,他建立了一種神經網路系統理論。
(7)、1988年,Linsker對感知機網路提出了新的自組織理論,並在Shanon資訊理論的基礎上形成了最大互信息理論,從而點燃了基於NN的信息應用理論的光芒。
(8)、1988年,Broomhead和Lowe用徑向基函數(Radialbasis function, RBF)提出分層網路的設計方法,從而將NN的設計與數值分析和線性適應濾波相掛鉤。
(9)、1991年,Haken把協同引入神經網路,在他的理論框架中,他認為,認知過程是自發的,並斷言模式識別過程即是模式形成過程。
(10)、1994年,廖曉昕關於細胞神經網路的數學理論與基礎的提出,帶來了這個領域新的進展。通過拓廣神經網路的激活函數類,給出了更一般的時滯細胞神經網路(DCNN)、Hopfield神經網路(HNN)、雙向聯想記憶網路(BAM)模型。
(11)、90年代初,Vapnik等提出了支持向量機(Supportvector machines, SVM)和VC(Vapnik-Chervonenkis)維數的概念。
經過多年的發展,已有上百種的神經網路模型被提出。
深度學習(Deep Learning,DL)由Hinton等人於2006年提出,是機器學習的一個新領域。深度學習本質上是構建含有多隱層的機器學習架構模型,通過大規模數據進行訓練,得到大量更具代表性的特徵信息。深度學習演算法打破了傳統神經網路對層數的限制,可根據設計者需要選擇網路層數。
突觸是神經元之間相互連接的介面部分,即一個神經元的神經末梢與另一個神經元的樹突相接觸的交界面,位於神經元的神經末梢尾端。突觸是軸突的終端。
大腦可視作為1000多億神經元組成的神經網路。神經元的信息傳遞和處理是一種電化學活動.樹突由於電化學作用接受外界的刺激,通過胞體內的活動體現為軸突電位,當軸突電位達到一定的值則形成神經脈沖或動作電位;再通過軸突末梢傳遞給其它的神經元.從控制論的觀點來看;這一過程可以看作一個多輸入單輸出非線性系統的動態過程。
神經元的功能特性:(1)時空整合功能;(2)神經元的動態極化性;(3)興奮與抑制狀態;(4)結構的可塑性;(5)脈沖與電位信號的轉換;(6)突觸延期和不應期;(7)學習、遺忘和疲勞。
神經網路從兩個方面模擬大腦:
(1)、神經網路獲取的知識是從外界環境中學習得來的。
(2)、內部神經元的連接強度,即突觸權值,用於儲存獲取的知識。
神經網路系統由能夠處理人類大腦不同部分之間信息傳遞的由大量神經元連接形成的拓撲結構組成,依賴於這些龐大的神經元數目和它們之間的聯系,人類的大腦能夠收到輸入的信息的刺激由分布式並行處理的神經元相互連接進行非線性映射處理,從而實現復雜的信息處理和推理任務。
對於某個處理單元(神經元)來說,假設來自其他處理單元(神經元)i的信息為Xi,它們與本處理單元的互相作用強度即連接權值為Wi, i=0,1,…,n-1,處理單元的內部閾值為θ。那麼本處理單元(神經元)的輸入為:
,而處理單元的輸出為:
式中,xi為第i個元素的輸入,wi為第i個處理單元與本處理單元的互聯權重即神經元連接權值。f稱為激活函數或作用函數,它決定節點(神經元)的輸出。θ表示隱含層神經節點的閾值。
神經網路的主要工作是建立模型和確定權值,一般有前向型和反饋型兩種網路結構。通常神經網路的學習和訓練需要一組輸入數據和輸出數據對,選擇網路模型和傳遞、訓練函數後,神經網路計算得到輸出結果,根據實際輸出和期望輸出之間的誤差進行權值的修正,在網路進行判斷的時候就只有輸入數據而沒有預期的輸出結果。神經網路一個相當重要的能力是其網路能通過它的神經元權值和閾值的不斷調整從環境中進行學習,直到網路的輸出誤差達到預期的結果,就認為網路訓練結束。
對於這樣一種多輸入、單輸出的基本單元可以進一步從生物化學、電生物學、數學等方面給出描述其功能的模型。利用大量神經元相互連接組成的人工神經網路,將顯示出人腦的若干特徵,人工神經網路也具有初步的自適應與自組織能力。在學習或訓練過程中改變突觸權重wij值,以適應周圍環境的要求。同一網路因學習方式及內容不同可具有不同的功能。人工神經網路是一個具有學習能力的系統,可以發展知識,以至超過設計者原有的知識水平。通常,它的學習(或訓練)方式可分為兩種,一種是有監督(supervised)或稱有導師的學習,這時利用給定的樣本標准進行分類或模仿;另一種是無監督(unsupervised)學習或稱無導師學習,這時,只規定學習方式或某些規則,而具體的學習內容隨系統所處環境(即輸入信號情況)而異,系統可以自動發現環境特徵和規律性,具有更近似於人腦的功能。
在人工神經網路設計及應用研究中,通常需要考慮三個方面的內容,即神經元激活函數、神經元之間的連接形式和網路的學習(訓練)。
Ⅳ 科學小知識!
鳥怎樣睡覺的
白天,鳥兒們在枝頭穿梭嗚叫,在藍天下自由飛翔,到了晚上,它們和我們人一樣也要休息、睡覺,恢復體力,不過它們睡覺的姿勢可是各不相同哦!
美麗的綠頭鴨和天鵝們,白天在水中捕食、戲耍,夜晚休息時也離不開它們最愛的水面。它們把優美的長脖子彎曲著,將頭埋在翅膀里,然後讓自己漂浮在水面上,一邊做著美夢,一邊隨波逐流,好不悠閑。
鶴、鸛、鷺等長腿鳥總是單腳獨立而睡,累了再換另一隻腳,是勞逸結合的典範。
鷓鴣休息時喜歡成群圍成一個大圈,然後一律頭朝外尾向內。這樣,不管敵人從哪個方向襲來,它們都能及時發現並逃走。
畫眉、百靈等叫聲悅耳的小鳥,睡覺時通常彎下兩腿,爪子則彎曲起來牢牢地抓住枝條,所以不用擔心它們會從樹上摔下來。
而貓頭鷹這種「值夜班」的猛禽,你總能在白天看見它睜一隻眼,閉一隻眼,站立在濃密的樹枝上,其實這時它正在睡覺呢。貓頭鷹的睡覺姿勢是不是很另類啊,它這樣可是為了時刻監視周圍環境防備著敵人的襲擊哦!
=================================
魚也會溺死嗎
魚有鰓,可以在水中呼吸,魚有鰾,可以在水中自由地沉浮。可是,有人說生活在水中的魚也會溺死,這是真的嗎?
雖然這聽起來很荒謬,但卻是事實。魚鰾是魚游泳時的「救生圈」,它可以通過充氣和放氣來調節魚體的比重。這樣,魚在游動時只需要最小的肌肉活動,便能在水中保持不沉不浮的穩定狀態。不過,當魚下沉到一定水深(即「臨界深度」)後,外界巨大的壓力會使它無法再凋節鰾的體積。這時,它受到的浮力小於自身的重力,於是就不由自主地向水底沉去,再也浮不起來了,並最終因無法呼吸而溺死。雖然,魚還可以通過擺動鰭和尾往上浮,可是如果沉得太深的話,這樣做也無濟於事。
另一方面,生活在深海的魚類,由於它們的骨骼能承受很大的壓力,所以它們可以在深水中自由地生活。如果我們把生活在深海中的魚快速弄到「臨界深度」以上,由於它身體內部的壓力無法與外界較小的壓力達到平衡,因此它就會不斷地「膨脹」直至浮到水面上。有時,它甚至會把內臟吐出來,「炸裂」而死。
=============================
貪吃孩子變笨
貪吃會降低大腦的血流量
若一次進食過量或一刻不停地進食,會把人體里的大量血液,包括大腦的血液調集到胃腸道來。而充足的血供應是發育前提,如果經常處於缺血狀態,其發育必然會受到影響。
貪吃會造成「肥胖腦」
吃得過飽,尤其是進食過量高營養食品,食入的熱量就會大大超過消耗的熱量,使熱能轉變成脂肪在體內蓄積。若腦組織的脂肪過多,就會引起「肥胖腦」。研究證實,人的智力與大腦溝回皺褶多少有關,大腦的溝回越明顯,皺褶越多,智力水平越高。而肥胖腦使溝回緊緊靠在一起,皺褶消失,大腦皮層呈平滑樣,而且神經網路的發育也差,所以,智力水平就會降低。
貪吃會抑制大腦智能區域的生理功能
人的大腦活動方式是興奮和抑制相互誘導的,即大腦某些部位興奮了,其相鄰部位的一些區域就處於抑制狀態,興奮越加強,周圍部位的抑制就越加深,反之亦然。因此,若主管胃腸道消化的植物神經中樞因貪吃過量食物而長時間興奮,這就必然引起鄰近的語言、思維、記憶、想像等大腦智能區域的抑制。這些區域如經常處於抑制狀態,智力會越來越差。
貪吃會因便秘而傷害大腦
孩子的零食大多以高營養的精細食品為主,吃了容易發生便秘。便秘時,代謝產物久積於消化道,經腸道細菌作用後產生大量有害物質,容易經腸吸收,進入血液循環,刺激大腦,使腦神經細胞慢性中毒,影響腦的正常發育。
貪吃還會促使大腦早衰
科學家在一項研究中發現,一種能促使大腦早衰的物質——纖維芽細胞生長因子,會因過飽食物而於飯後增加數萬倍,這是一種能促使動脈硬化的物質,因而從長遠意義上講,貪吃會使大腦過早衰老。
簡單易學的科學小知識
自動旋轉的奧秘
思考:裝滿水的紙盒為什麼會轉動?
材料:空的牛奶紙盒、釘子、60厘米長的繩子、水槽、水
操作:
1、用釘子在空牛奶盒上扎五個孔
2、一個孔在紙盒頂部的中間,另外四個孔在紙盒四個側面的左下角
3、將一根大約60厘米長的繩子系在頂部的孔上
4、將紙盒放在盤子上,打開紙盒口,快速地將紙盒灌滿水
5、用手提起紙盒頂部的繩子,紙盒順時針旋轉
講解:水流產生大小相等而方向相反的力,紙盒的四個角均受到這個推力。由於這個力作用在每個側面的左下角,所以紙盒按順時針方向旋轉
創造:
1、如果在每個側面的中心扎孔,紙盒會怎樣旋轉
2、如果孔位於每個側面的右下角的話,紙盒將向哪個方向旋轉
小船與船漿
思考:看過劃船嗎?親自動手劃過船?知道船在水上為什麼會向前移動嗎?
材料:剪刀1把、紙板1塊、橡皮筋1條、臉盆及水1盆
流程:
1. 剪下長約12厘米×8厘米的硬紙板
2. 一端剪成尖形為船頭,另一端中央剪下約5厘米的缺口為船尾
3. 剪一塊約3厘米×5厘米的紙板坐船漿
4. 用橡皮筋套在船尾處,並將船漿綁好
5. 將紙板槳逆時針轉緊橡皮筋,小船向前移動
6. 若把紙板槳順時針轉緊橡皮筋,小船向後移動
說明:
1、橡皮筋扭轉的方向不同,船行駛的方向也正好相反。
2、紙船運動的力量,是來自橡皮筋扭轉的能量。
Ⅵ 神經控制的意思是什麼是不是人白天的活動神經體現的狀態是興奮狀態學名被稱為(神經控制興奮)晚上人處
不是,神經控制叫做神經網路控制,而神經抑制才是形容我們人類的神經的
Ⅶ 什麼是神經網路的自抑制
1.概念:
神經網路
人工神經網路(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經網路(NNs)或稱作連接模型(Connection Model),它是一種模範動物神經網路行為特徵,進行分布式並行信息處理的演算法數學模型。這種網路依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。
神經網路是: 思維學普遍認為,人類大腦的思維分為抽象(邏輯)思維、形象(直觀)思維和靈感(頓悟)思維三種基本方式。 邏輯性的思維是指根據邏輯規則進行推理的過程;它先將信息化成概念,並用符號表示,然後,根據符號運算按串列模式進行邏輯推理;這一過程可以寫成串列的指令,讓計算機執行。然而,直觀性的思維是將分布式存儲的信息綜合起來,結果是忽然間產生想法或解決問題的辦法。這種思維方式的根本之點在於以下兩點:1.信息是通過神經元上的興奮模式分布儲在網路上;2.信息處理是通過神經元之間同時相互作用的動態過程來完成的。 人工神經網路就是模擬人思維的第二種方式。這是一個非線性動力學系統,其特色在於信息的分布式存儲和並行協同處理。雖然單個神經元的結構極其簡單,功能有限,但大量神經元構成的網路系統所能實現的行為卻是極其豐富多彩的。
Ⅷ 一文看懂四種基本的神經網路架構
原文鏈接:
http://blackblog.tech/2018/02/23/Eight-Neural-Network/
更多干貨就在我的個人博客 http://blackblog.tech 歡迎關注
剛剛入門神經網路,往往會對眾多的神經網路架構感到困惑,神經網路看起來復雜多樣,但是這么多架構無非也就是三類,前饋神經網路,循環網路,對稱連接網路,本文將介紹四種常見的神經網路,分別是CNN,RNN,DBN,GAN。通過這四種基本的神經網路架構,我們來對神經網路進行一定的了解。
神經網路是機器學習中的一種模型,是一種模仿動物神經網路行為特徵,進行分布式並行信息處理的演算法數學模型。這種網路依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。
一般來說,神經網路的架構可以分為三類:
前饋神經網路:
這是實際應用中最常見的神經網路類型。第一層是輸入,最後一層是輸出。如果有多個隱藏層,我們稱之為「深度」神經網路。他們計算出一系列改變樣本相似性的變換。各層神經元的活動是前一層活動的非線性函數。
循環網路:
循環網路在他們的連接圖中定向了循環,這意味著你可以按照箭頭回到你開始的地方。他們可以有復雜的動態,使其很難訓練。他們更具有生物真實性。
循環網路的目的使用來處理序列數據。在傳統的神經網路模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節點是無連接的。但是這種普通的神經網路對於很多問題卻無能無力。例如,你要預測句子的下一個單詞是什麼,一般需要用到前面的單詞,因為一個句子中前後單詞並不是獨立的。
循環神經網路,即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中,即隱藏層之間的節點不再無連接而是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。
對稱連接網路:
對稱連接網路有點像循環網路,但是單元之間的連接是對稱的(它們在兩個方向上權重相同)。比起循環網路,對稱連接網路更容易分析。這個網路中有更多的限制,因為它們遵守能量函數定律。沒有隱藏單元的對稱連接網路被稱為「Hopfield 網路」。有隱藏單元的對稱連接的網路被稱為玻爾茲曼機。
其實之前的帖子講過一些關於感知機的內容,這里再復述一下。
首先還是這張圖
這是一個M-P神經元
一個神經元有n個輸入,每一個輸入對應一個權值w,神經元內會對輸入與權重做乘法後求和,求和的結果與偏置做差,最終將結果放入激活函數中,由激活函數給出最後的輸出,輸出往往是二進制的,0 狀態代表抑制,1 狀態代表激活。
可以把感知機看作是 n 維實例空間中的超平面決策面,對於超平面一側的樣本,感知器輸出 1,對於另一側的實例輸出 0,這個決策超平面方程是 w⋅x=0。 那些可以被某一個超平面分割的正反樣例集合稱為線性可分(linearly separable)樣例集合,它們就可以使用圖中的感知機表示。
與、或、非問題都是線性可分的問題,使用一個有兩輸入的感知機能容易地表示,而異或並不是一個線性可分的問題,所以使用單層感知機是不行的,這時候就要使用多層感知機來解決疑惑問題了。
如果我們要訓練一個感知機,應該怎麼辦呢?
我們會從隨機的權值開始,反復地應用這個感知機到每個訓練樣例,只要它誤分類樣例就修改感知機的權值。重復這個過程,直到感知機正確分類所有的樣例。每一步根據感知機訓練法則來修改權值,也就是修改與輸入 xi 對應的權 wi,法則如下:
這里 t 是當前訓練樣例的目標輸出,o 是感知機的輸出,η 是一個正的常數稱為學習速率。學習速率的作用是緩和每一步調整權的程度,它通常被設為一個小的數值(例如 0.1),而且有時會使其隨著權調整次數的增加而衰減。
多層感知機,或者說是多層神經網路無非就是在輸入層與輸出層之間加了多個隱藏層而已,後續的CNN,DBN等神經網路只不過是將重新設計了每一層的類型。感知機可以說是神經網路的基礎,後續更為復雜的神經網路都離不開最簡單的感知機的模型,
談到機器學習,我們往往還會跟上一個詞語,叫做模式識別,但是真實環境中的模式識別往往會出現各種問題。比如:
圖像分割:真實場景中總是摻雜著其它物體。很難判斷哪些部分屬於同一個對象。對象的某些部分可以隱藏在其他對象的後面。
物體光照:像素的強度被光照強烈影響。
圖像變形:物體可以以各種非仿射方式變形。例如,手寫也可以有一個大的圓圈或只是一個尖頭。
情景支持:物體所屬類別通常由它們的使用方式來定義。例如,椅子是為了讓人們坐在上面而設計的,因此它們具有各種各樣的物理形狀。
卷積神經網路與普通神經網路的區別在於,卷積神經網路包含了一個由卷積層和子采樣層構成的特徵抽取器。在卷積神經網路的卷積層中,一個神經元只與部分鄰層神經元連接。在CNN的一個卷積層中,通常包含若干個特徵平面(featureMap),每個特徵平面由一些矩形排列的的神經元組成,同一特徵平面的神經元共享權值,這里共享的權值就是卷積核。卷積核一般以隨機小數矩陣的形式初始化,在網路的訓練過程中卷積核將學習得到合理的權值。共享權值(卷積核)帶來的直接好處是減少網路各層之間的連接,同時又降低了過擬合的風險。子采樣也叫做池化(pooling),通常有均值子采樣(mean pooling)和最大值子采樣(max pooling)兩種形式。子采樣可以看作一種特殊的卷積過程。卷積和子采樣大大簡化了模型復雜度,減少了模型的參數。
卷積神經網路由三部分構成。第一部分是輸入層。第二部分由n個卷積層和池化層的組合組成。第三部分由一個全連結的多層感知機分類器構成。
這里舉AlexNet為例:
·輸入:224×224大小的圖片,3通道
·第一層卷積:11×11大小的卷積核96個,每個GPU上48個。
·第一層max-pooling:2×2的核。
·第二層卷積:5×5卷積核256個,每個GPU上128個。
·第二層max-pooling:2×2的核。
·第三層卷積:與上一層是全連接,3*3的卷積核384個。分到兩個GPU上個192個。
·第四層卷積:3×3的卷積核384個,兩個GPU各192個。該層與上一層連接沒有經過pooling層。
·第五層卷積:3×3的卷積核256個,兩個GPU上個128個。
·第五層max-pooling:2×2的核。
·第一層全連接:4096維,將第五層max-pooling的輸出連接成為一個一維向量,作為該層的輸入。
·第二層全連接:4096維
·Softmax層:輸出為1000,輸出的每一維都是圖片屬於該類別的概率。
卷積神經網路在模式識別領域有著重要應用,當然這里只是對卷積神經網路做了最簡單的講解,卷積神經網路中仍然有很多知識,比如局部感受野,權值共享,多卷積核等內容,後續有機會再進行講解。
傳統的神經網路對於很多問題難以處理,比如你要預測句子的下一個單詞是什麼,一般需要用到前面的單詞,因為一個句子中前後單詞並不是獨立的。RNN之所以稱為循環神經網路,即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網路會對前面的信息進行記憶並應用於當前輸出的計算中,即隱藏層之間的節點不再無連接而是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,RNN能夠對任何長度的序列數據進行處理。
這是一個簡單的RNN的結構,可以看到隱藏層自己是可以跟自己進行連接的。
那麼RNN為什麼隱藏層能夠看到上一刻的隱藏層的輸出呢,其實我們把這個網路展開來開就很清晰了。
從上面的公式我們可以看出,循環層和全連接層的區別就是循環層多了一個權重矩陣 W。
如果反復把式2帶入到式1,我們將得到:
在講DBN之前,我們需要對DBN的基本組成單位有一定的了解,那就是RBM,受限玻爾茲曼機。
首先什麼是玻爾茲曼機?
[圖片上傳失敗...(image-d36b31-1519636788074)]
如圖所示為一個玻爾茲曼機,其藍色節點為隱層,白色節點為輸入層。
玻爾茲曼機和遞歸神經網路相比,區別體現在以下幾點:
1、遞歸神經網路本質是學習一個函數,因此有輸入和輸出層的概念,而玻爾茲曼機的用處在於學習一組數據的「內在表示」,因此其沒有輸出層的概念。
2、遞歸神經網路各節點鏈接為有向環,而玻爾茲曼機各節點連接成無向完全圖。
而受限玻爾茲曼機是什麼呢?
最簡單的來說就是加入了限制,這個限制就是將完全圖變成了二分圖。即由一個顯層和一個隱層構成,顯層與隱層的神經元之間為雙向全連接。
h表示隱藏層,v表示顯層
在RBM中,任意兩個相連的神經元之間有一個權值w表示其連接強度,每個神經元自身有一個偏置系數b(對顯層神經元)和c(對隱層神經元)來表示其自身權重。
具體的公式推導在這里就不展示了
DBN是一個概率生成模型,與傳統的判別模型的神經網路相對,生成模型是建立一個觀察數據和標簽之間的聯合分布,對P(Observation|Label)和 P(Label|Observation)都做了評估,而判別模型僅僅而已評估了後者,也就是P(Label|Observation)。
DBN由多個限制玻爾茲曼機(Restricted Boltzmann Machines)層組成,一個典型的神經網路類型如圖所示。這些網路被「限制」為一個可視層和一個隱層,層間存在連接,但層內的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。
生成對抗網路其實在之前的帖子中做過講解,這里在說明一下。
生成對抗網路的目標在於生成,我們傳統的網路結構往往都是判別模型,即判斷一個樣本的真實性。而生成模型能夠根據所提供的樣本生成類似的新樣本,注意這些樣本是由計算機學習而來的。
GAN一般由兩個網路組成,生成模型網路,判別模型網路。
生成模型 G 捕捉樣本數據的分布,用服從某一分布(均勻分布,高斯分布等)的雜訊 z 生成一個類似真實訓練數據的樣本,追求效果是越像真實樣本越好;判別模型 D 是一個二分類器,估計一個樣本來自於訓練數據(而非生成數據)的概率,如果樣本來自於真實的訓練數據,D 輸出大概率,否則,D 輸出小概率。
舉個例子:生成網路 G 好比假幣製造團伙,專門製造假幣,判別網路 D 好比警察,專門檢測使用的貨幣是真幣還是假幣,G 的目標是想方設法生成和真幣一樣的貨幣,使得 D 判別不出來,D 的目標是想方設法檢測出來 G 生成的假幣。
傳統的判別網路:
生成對抗網路:
下面展示一個cDCGAN的例子(前面帖子中寫過的)
生成網路
判別網路
最終結果,使用MNIST作為初始樣本,通過學習後生成的數字,可以看到學習的效果還是不錯的。
本文非常簡單的介紹了四種神經網路的架構,CNN,RNN,DBN,GAN。當然也僅僅是簡單的介紹,並沒有深層次講解其內涵。這四種神經網路的架構十分常見,應用也十分廣泛。當然關於神經網路的知識,不可能幾篇帖子就講解完,這里知識講解一些基礎知識,幫助大家快速入(zhuang)門(bi)。後面的帖子將對深度自動編碼器,Hopfield 網路長短期記憶網路(LSTM)進行講解。
Ⅸ 人工神經網路概述(更新中)
智能: 從感覺到記憶再到思維的過程稱為「智慧」,智慧的結果是語言和行為。行為和語言予以表達稱為「能力」。智慧和能力的總稱為「智能」。感覺、記憶、思維、行為、語言的過程稱為「智能過程」。
人工智慧: 人工構建的智能系統。
人工智慧是研究和開發用於模擬、延伸和擴展人類智能的理論、方法、技術及應用的技術學科,其主要研究內容可以歸納為以下四個方面。
人工神經網路是基於生物神經元網路機制提出的一種計算結構,是生物神經網路的某種模擬、簡化和抽象。神經元是這一網路的「節點」,即「處理單元」。
人工神經網路可用於逼近非線性映射、分類識別、優化計算以及知識挖掘。近年來,人工神經網路在模式識別、信號處理、控制工程和優化計算領域得到了廣泛的應用。
M-P模型由心理學家McCulloch和數學家W. Pitts在1943年提出。
M-P模型結構是一個多輸入、單輸出的非線性元件。其I/O關系可推述為
其中, 表示從其他神經元傳來的輸入信號; 表示從神經元 到神經元 的連接權值; 表示閾值; 表示激勵函數或轉移函數; 表示神經元 的輸出信號。
作為一種最基本的神經元數學模型,M-P模型包括了加權、求和和激勵(轉移)三部分功能。
神經元的數據模型主要區別於採用了不同的激勵函數。
概率型函數的輸入和輸出之間的關系是不確定的。分布律如下
其中, 被稱為溫度參數。
感知機(Perceptron)是美國學者Rosenblatt於1957年提出的一種用於模式分類的神經網路模型。
M-P模型通常叫做單輸出的感知機。按照M-P模型的要求,該人工神經元的激活函數為階躍函數。為了方便表示,M-P模型表示為下圖所示的結構。
用多個這樣的單輸入感知機可以構成一個多輸出的感知機,其結構如下
對於二維平面,當輸入/輸出為 線性可分 集合時,一定可以找到一條直線將模式分成兩類。此時感知機的結構圖3所示,顯然通過調整感知機的權值及閾值可以修改兩類模式的分界線:
線性可分: 這里的線性可分是指兩類樣本可以用直線、平面或超平面分開,否則稱為線性不可分。
感知機的基本功能是對外部信號進行感知和識別,這就是當外部 個刺激信號或來自其它 個神經元(的信號)處於一定的狀態時,感知機就處於興奮狀態,而外部 個信號或 個神經元的輸出處於另一個狀態時,感知機就呈現抑制狀態。
如果 、 是 中兩個互不相交的集合,且有如下方程成立
則稱集合 為感知機的 學習目標 。根據感知機模型,學習演算法實際上是要尋找權重 、 滿足下述要求:
感知機的訓練過程是感知機權值的逐步調整過程,為此,用 表示每一次調整的序號。 對應於學習開始前的初始狀態,此時對應的權值為初始化值。
Ⅹ 第五章 神經網路
神經網路 :神經網路是由具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所作出的交互反應。
神經網路中最基本的成分便是 神經元模型 。
M-P神經元模型:
感知機由兩層神經元組成,分別為輸入層、輸出層。
以下是具體過程:
多層神經網路的拓撲結構如圖:
如上圖可知,多層網路由輸入層、隱含層和輸出層組成,頂層是輸出層,底層是輸入層,中間的便是隱含層。隱含層與輸出層都具有功能神經元。
多層前饋神經網路的結構需要滿足:
1、每層神經元必須與下一層完全互連
2、神經元之間不存在同層連接
3、神經元不可跨層連接
只需包含一個足夠多神經元的隱層,就能以任意精度逼近任意復雜度的連續函數
BP神經網路由於學習能力太強大比較榮譽造成過擬合問題,故有兩種策略來減緩過擬合的問題:
1、早停:將數據分成訓練集和驗證集,訓練集學習,驗證集評估性能,在訓練過程中,若訓練集的累積誤差降低,而驗證集的累積誤差提高,則終止訓練;
2、引入正則化:其基本思想是在誤差目標函數中增加一個用於描述網路復雜程度的部分,有如連接權和閾值的平方和:
其中λ∈(0,1)用於對累積經驗誤差與網路復雜度這兩項進行折中,常通過交叉驗證法來估計。
神經網路的訓練過程可看作一個參數尋優的過程,即尋找到適當的參數使得E最小。於是我們時常會談及「全局最小」和「局部最小」。
1、全局最小:即全局最小解,在參數空間中,所有其他點的誤差函數值均大於該點;
2、局部最小:即局部最小解,在參數空間中,其鄰近的點的誤差函數值均大於該點。
我們要達到局部極小點,很容易,只要滿足梯度為零的點便是了,局部極小點可以有多個,但全局最小點只有一個。顯然,我們追求的是全局最小,而非局部極小,於是人們通常採用以下策略來試圖「跳出」局部極小,使其接近全局最小:
1、以多組不同參數值初始化多個神經網路,按標准方法訓練,在迭代停止後,取其中誤差最小的解作為最終參數;
2、使用隨機梯度下降(在計算梯度時加入了隨機因素),使得在局部最小時,計算的梯度仍可能不為0,從而可能跳出局部極小,繼續進行迭代;
3、「模擬退火」技術,在每一步都以一定的概率接受比當前解更差的結果,但接受「次優解」的概率要隨著迭代進行,時間推移而逐漸減低以確保演算法的穩定。
1、RBF網路
單隱層前饋神經網路 ,使用徑向基函數作為隱層神經元激活函數,輸出層是對隱層神經元輸出的線性組合。RBF網路可表示為:
2、ART網路
競爭型學習 (神經網路中一種常用的 無監督學習 策略),由 比較層、識別層、識別閾值和重置模塊 組成。接收到比較層的輸入信號後,識別層神經元相互競爭以產生獲勝神經元,最簡單的方式就是計算輸入向量與每個識別層神經元所對應的模式類代表向量間的距離,距離小者獲勝。若獲勝神經元對應的代表向量與輸入向量間 相似度大於識別閾值 ,則將輸入樣本歸為該代表向量所屬類別,網路 連接權 也會進行 更新 以保證後面接收到相似的輸入樣本時該模式類會計算出更大的相似度,使得這樣的樣本能夠歸於一類;如果 相似度不大於識別閾值 ,則 重置模塊 會在 識別層 加一個神經元,其 代表向量 就 設置 為當前 輸入向量 。
3、SOM網路
競爭型學習的無監督神經網路 ,將高維輸入數據映射到低維空間(通常是二維),且保持輸入數據在高維空間的拓撲結構。
4、級聯相關網路
結構自適應網路 。
5、Elman網路
遞歸神經網路 。
6、Boltzmann機
基於能量的模型,其神經元分為顯層與隱層,顯層用於數據輸入輸出,隱層被理解為數據的內在表達。其神經元皆為布爾型,1為激活,0為抑制。
理論上,參數越多的模型其復雜程度越高,能完成更加復雜的學習任務。但是復雜模型的訓練效率低下,容易過擬合。但由於大數據時代、雲計算,計算能力大幅提升緩解了訓練效率低下,而訓練數據的增加則可以降低過擬合風險。
於是如何增加模型的復雜程度呢?
1、增加隱層數;
2、增加隱層神經元數.
如何有效訓練多隱層神經網路?
1、無監督逐層訓練:每次訓練一層隱節點,把上一層隱節點的輸出當作輸入來訓練,本層隱結點訓練好後,輸出再作為下一層的輸入來訓練,這稱為預訓練,全部預訓練完成後,再對整個網路進行微調。「預訓練+微調」即把大量的參數進行分組,先找出每組較好的設置,再基於這些局部最優的結果來訓練全局最優;
2、權共享:令同一層神經元使用完全相同的連接權,典型的例子是卷積神經網路。這樣做可以大大減少需要訓練的參數數目。
深度學習 可理解為一種特徵學習或者表示學習,是通過 多層處理 ,逐漸將初始的 低層特徵表示 轉化為 高層特徵表示 後,用 簡單模型 即可完成復雜的分類等 學習任務 。