『壹』 數據中心網路架構扁平化到兩層的方式有何弊端
我是學信息管理與信息系統的。
首先說一下什麼是數據中心網路架構。顧名思義,不論是在酒店的管理系統中掌握的顧客信息、學校的學生教務系統中掌握的成績信息、還是醫院的醫療系統中掌握的病人信息,在管理系統中都稱之為數據。隨著網路技術以及管理系統的不斷演進和發展,利用網路平台管理信息數據的管理系統通常是以數據中心網路架構作為基礎,從而一步一步實現的。
數據中心網路架構扁平化設置主要是基於數據傳輸效率和容錯能力,存在不少缺點。默認的聚合設備導致埠號增多,對設備本身進行轉發,計算處理能力,甚至對產品架構提出更高的要求,設備損耗很快。
『貳』 自然和醫學圖像的深度語義分割:網路結構
原文鏈接: https://www.yanxishe.com/blogDetail/18223?from=jianshu0312
一、寫在前面:
網路架構的設計主要是基於 CNN 結構延伸出來的。主要的改進方式有兩點:新神經架構的設計(不同深度,寬度,連接性或者拓撲結構)或設計新的組件(或者層)。下面我們逐個去分析了解。
本文涉及到的論文范圍如下圖:
二、網路架構的改進
2.1.1 FCN
傳統的 CNN 分割,為了對一個像素分類,使用該像素周圍的一個圖像塊作為 CNN 的輸入用於訓練和預測。缺點很多:比如存儲開銷大,計算效率低,像素塊大小也限制了感知域的大小。基於存在的這些問題,由 Long 等人在 2015 年提出的 FCN 結構,第一個全卷積神經網路的語義分割模型。我們要了解到的是,FCN 是基於 VGG 和 AlexNet 網路上進行預訓練,然後將最後兩層全連接層改為的卷積層。
FCN 具體處理過程是怎麼樣的?從 pool1 開始,每個 pool 後圖像都會變為上個池化後圖像的 1/2。Pool1 為原圖的 1/2,以此類推,pool5 後為原圖的 1/2^5,conv6,和 conv7 之後的圖像保持不變,進行 stride=32 的反卷積,得到 FCN-32s。也就是直接對 pool5 進行 32 倍上采樣獲得 32 upsampled feature,再對 32 upsampled feature 每個點做 softmax prediction,就可以獲得 32*upsampled prediction(分割圖)。
FCN 這三個創新點有哪些? 全卷積 :用於解決逐像素的預測問題。通過將基礎網路最後面幾個全連接層換成卷積層,可實現任意大小的圖像輸入,並且輸入圖像大小與輸入相對應。 反卷積 :端到端的像素級語義分割需要輸出大小和輸入圖像大小一致。但是傳統的 conv+pooling 結構會縮小圖片尺寸。基於此作者引入反卷積(deconvolution)操作,對縮小後的特徵進行上采樣,恢復原始圖像大小。 跳躍結構 :語義分割包括語義識別和目標定位。卷積網路的高層特徵圖可以有效的反應語義信息,而低層特徵圖可以有效反應目標的位置信息。語義分割任務同時進行語義識別和目標定位。作者提出的跨層連接結構(skip architecture),將低層的目標位置信息和高層語義信息進行融合,以此來提升語義分割性能。在此基礎上進行 2 倍采樣,2 倍 upsample 之後與 pool4 的像素點相加,進行 stride=16 的 upsample,為此 FCN-16s,重復上面類似的步驟,得到 FCN-8s。
了解到以上信息,應該對 FCN 有個整體的認識了。還有一些細節部分,比如 FCN 採用的簡單的 softmax 分類損失函數,採用雙線性差值 + 反卷積進行上采樣,在微調的時候沒有採用類別平衡策略。分割結果來看,FCN-8s>FCN-16s>FCN-32s。也就是說使用多層特徵融合有利於提高分割准確性。
2.1.2 SegNet
SegNet 主要動機是在場景理解 。它在設計的時候考慮的是預測期間保證內存和計算時間上的效率。其中,SegNet 和 FCN 有很多相似之處,編碼網路使用 VGG16 的前 13 層卷積;移除全連接;解碼器使用從相應的編碼器的 max-pooling indices 進行 upsampling。
對比 SegNet 和 FCN 實現 Decoder 的過程。FCN 是利用雙線性插值初始化的反卷積進行上采樣。而 SegNet 則是在每次 pooling 時,都存下最大值的位置,在 upsample 時將 input 值直接賦給相應的位置,其他位置的值置零。
2.1.3 U-Net
接下來,我們需要了解的是 U-Net。U-net 網路架構,由收縮路徑(contracting path)和擴展路徑(expanding path)組成。每一層使用兩個 3 乘 3 的 conv kernel,每次卷積都進行 Relu 和 stride=2 的 maxpooling 進行下采樣。四次操作後輸出結果稱之為 feature map。
2 乘 2 的反卷積,上采樣,通道數減半,並將左邊對稱位置的 feature map 到右邊進行 concate 操作,來融合下采樣的淺層位置信息和高層語義信息。合並後在進行 3*3 的卷積操作。最後 output 之前,通道數表示分類的類別產生 N 類分割結果,最後選擇出概率值最大的分割結果,作為最後的分割圖。
U-Net 中常常會問為什麼適用於醫學圖像這個問題.。首先分析醫學影像數據特點:圖像語義較為簡單,結構較為固定:都是一個固定的器官的成像。而且器官本身結構固定,語義信息沒有特別豐富,所以高級語義信息和低級特徵都非常重要。(U-net 的 skip connection 可以解決這個問題);數據量少:醫學影像的數據較難獲取,為了防止過擬合,設計的模型不宜過大;多模態:醫學影像是具有多種模態的;可解釋性:醫生需要進一步指導病灶在哪一層,哪一層的哪個位置,分割結果能求體積么?而且 U-Net 在自然圖像分割也取得了不錯的效果。
需要注意的一點:Unet 融合淺層信息是 maxpooling 之前還是之後的結果?是 maxpooling 之前的結果。因為 Maxpooling 之後會丟失准確的位置信息。
2.1.4 V-Net
V-Net 也就是 3D 的 U-net 的一種版本,3D 卷積,引入殘差模塊和 U-Net 的框架。整個網路分為壓縮路徑和非壓縮路徑,也就是縮小和擴大 feature maps,每個 stage 將特徵縮小一半,也就是 128-128-64-32-16-8,通道上為 1-16-32-64-128-256。每個 stage 加入殘差學習以加速收斂。 圖中的圓圈加交叉代表卷積核為 5 乘 5 乘 5,stride 為 1 的卷積,可知 padding 為 2 乘 2 乘 2 就可以保持特徵大小不變。每個 stage 的末尾使用卷積核為 2 乘 2 乘 2,stride 為 2 的卷積,特徵大小減小一半(把 2x2 max-pooling 替換成了 2x2 conv.)。整個網路都是使用 keiming 等人提出的 PReLU 非線性單元。網路末尾加一個 1 乘 1 乘 1 的卷積,處理成與輸入一樣大小的數據,然後接一個 softmax。
而且 V-Net 採用 Dice coefficient 損失函數,如下:
Pi 為預測的前景,Gi 為標記的前景,使用這個函數能有效避免類別不平衡的問題。
2.1.5 Dense-UNet
Dense U-net(原名:one-hundred layers Tiramisu Network)該架構是由密集連接塊(dense block)構建的。該架構由向下過度的兩個下采樣路徑和向上過度的兩個上采樣路徑組成。且同樣包含兩個水平跳躍連接,下采樣 Dense 模塊的輸出與同水平的上采樣 Dense 模塊輸入的相應特徵圖拼接在一起。上采樣路徑和下采樣路徑的連接模式並不完全相同:下采樣路徑中,每個密集塊外有一條跳躍性連接,從而導致 feature map 數量線性增長,上采樣中沒有此操作。
主要創新點是融合了 Dense-Net 和 U-Net 網路。
2.1.6 DeepLab 系列網路
DeepLabV1:首次把空洞卷積(dilated convolution) 引入圖形分割領域, 融合卷積神經網路和概率圖模型:CNN + CRF,提高了分割定位精度。
DeepLabV2:ASPP (擴張空間金字塔池化):CNN+CRF。
DeepLabV3:改進 ASPP,多了 1 乘 1 卷積和全局平均池化(global avg pool);對比了級聯和並聯空洞卷積的效果。
DeepLabV3+:加入編解碼架構思想,添加一個解碼器模塊來擴展 DeepLabv3;將深度可分離卷積應用於 ASPP 和解碼器模塊;將改進的 Xception 作為 Backbone。
2.1.7 PSPNet
PSPNet 全名是 Pyramid Scene Parsing Network(金字塔場景解析網路)。提出了金字塔池化模塊(pyramid pooling mole)能夠聚合不同區域的上下文信息,從而提高獲取全局信息的能力。
輸入圖像後,使用預訓練的帶空洞卷積 ResNet 提取特徵圖。最終的特徵映射大小是輸入圖像的 1/8;在特徵圖上,我們使用 C 中的金字塔池化模塊收集上下文信息。使用 4 層金字塔結構,池化內核覆蓋了圖像的全部、一半和小部分。他們被融合為全局先驗信息;在 c 的最後部分將之前的金字塔特徵映射與原始特徵映射 concate 起來;在進行卷積,生成 d 中的最終預測圖。
總結
基於深度學習的圖像語義分割模型大多遵循編碼器-解碼器體系結構,如 U-Net。近幾年的研究成果表明,膨脹卷積和特徵金字塔池可以改善 U-Net 風格的網路性能。
參考文獻:
Deep Semantic Segmentation of Natural and Medical Images: A Review
『叄』 從網路安全角度出發,談談對該區域網安全性改進的建議。
其實,安全域的合理劃分也可以有效應對網路安全事件。從目前的拓撲來看,並沒有安全域這個概念。比如,web服務這一部分的伺服器,可以規劃一個DMZ域,資料庫伺服器可以規劃為資料庫域,核心交換可以規劃維網路交換域。各個部門之間規劃成業務處理域。等等。。這樣的話,安全域和安全域之間要有明確的邊界,在邊界處合理部署防火牆,通過防火牆進行有效限制。
為了預防黑客攻擊,僅僅通過安全域和合理劃分還是不夠的。安全產品可以彌補漏洞和其他脆弱點帶來的威脅。網站首頁被篡改,可以在web服務前段部署WAF,開啟網頁防篡改功能,WAF產品還可以有效的對sql注入,跨站等owasp統計的十大威脅。當然部分廠商的waf是可以繞過的,只需要通過某些組合,因此在產品測試期間,一個良好的測試工程師是很有必要的。在一個就是資料庫審計也很有必要,畢竟公司資料庫伺服器曾受過攻擊。資料庫審計可以有效的對資料庫進行行為審計,及時發現可疑行為。關於ddos防護,可以採用黑洞產品。通過防火牆來進行防ddos,當流量過大是防火牆產不多就已經死掉了(親自測試),所有黑洞產品一般部署在防火牆之前。在談一下防病毒。防病毒可以再網路當中部署防毒牆。最好的建議就是在每一個客戶端上安裝symantec殺毒軟體(企業版)或者趨勢的殺毒軟體。
上面都是從防來講的,其實我們也可以主動出擊,防患於未然。通過資料庫漏洞掃描。主機漏洞掃描web漏洞掃描系統,結合滲透測試,對網路做出合理的評價。
從題目當中,可以知道這是銳捷的出的題目,最好就是能夠運用上銳捷的產品。銳捷的下一代防護牆將前面的大部分的功能結合在一起,銳捷下一代防火牆,避開安全產品糖葫蘆是部署方式,可以同時開啟功能。考慮到網路延遲的問題,因此銳捷的下一代防火牆是最佳選擇。再價格方面也具有一定的優勢。要是成本不考慮的話對現有的網路進行改造,不建議採用銳捷下一代防火牆。畢竟銳捷是從網路產品起步,跟其他安全廠家,綠盟。啟明,天融信。迪普。。等。。。還存在部分差距。總體上講,銳捷產品還是不錯的。
以上回答並沒有完全回答完畢,要是完全回答完了,估計可以出本書了、、、只是撿了幾條相對重點來講的。望採納
『肆』 深度卷積神經網路各種改進結構塊匯總
這個網路主要源自於Resnet網路,其作用是:
將靠前若干層的某一層數據輸出直接跳過多層引入到後面數據層的輸入部分。
意味著後面的特徵層的內容會有一部分由其前面的某一層線性貢獻。
實驗表明,殘差網路更容易優化,並且能夠通過增加相當的深度來提高准確率。
最終可以使得網路越來越深,Resnet152就是一個很深很深的網路。
殘差網路的典型結構如下:
這個結構主要是在Inception網路結構中出現。
Inception網路採用不同大小的卷積核,使得存在不同大小的感受野,最後實現拼接達到不同尺度特徵的融合。
不同大小卷積核並行卷積的典型結構如下:
這種結構主要利用在InceptionV3中。
利用1x7的卷積和7x1的卷積代替7x7的卷積,這樣可以只使用約(1x7 + 7x1) / (7x7) = 28.6%的計算開銷;利用1x3的卷積和3x1的卷積代替3x3的卷積,這樣可以只使用約(1x3 + 3x1) / (3x3) = 67%的計算開銷。
下圖利用1x7的卷積和7x1的卷積代替7x7的卷積。
下圖利用1x3的卷積和3x1的卷積代替3x3的卷積。
這個結構在Resnet里非常常見,其它網路也有用到。
所謂Bottleneck結構就是首先利用1x1卷積層進行特徵壓縮,再利用3x3卷積網路進行特徵提取,再利用1x1卷積層進行特徵擴張。
該結構相比於直接對輸入進行3x3卷積減少了許多參數量。
當輸入為26,26,512時,直接使用3x3、filter為512的卷積網路的參數量為512x3x3x512=2,359,296。
採用Bottleneck結構的話,假設其首先利用1x1、filter為128卷積層進行特徵壓縮,再利用3x3、filter為128的卷積網路進行特徵提取,再利用1x1、filter為512的卷積層進行特徵擴張,則參數量為 512×1×1×128 + 128×3×3×128 + 128×1×1×512 = 278,528。
深度可分離卷積主要在MobileNet模型上應用。
其特點是3x3的卷積核厚度只有一層,然後在輸入張量上一層一層地滑動,每一次卷積完生成一個輸出通道,當卷積完成後,在利用1x1的卷積調整厚度。
假設有一個3×3大小的卷積層,其輸入通道為16、輸出通道為32。具體為,32個3×3大小的卷積核會遍歷16個通道中的每個數據,最後可得到所需的32個輸出通道,所需參數為16×32×3×3=4608個。
應用深度可分離卷積,用16個3×3大小的卷積核分別遍歷16通道的數據,得到了16個特徵圖譜。在融合操作之前,接著用32個1×1大小的卷積核遍歷這16個特徵圖譜,所需參數為16×3×3+16×32×1×1=656個。
這種結構主要存在在Xception網路中。
改進版深度可分離卷積就是調換了一下深度可分離的順序,先進行1x1卷積調整通道,再利用3x3卷積提取特徵。
和普通的深度可分離卷積相比,參數量也會有一定的變化。
改進版深度可分離卷積加上殘差網路的結構其實和它的名字是一樣的,很好理解。
如下圖所示:
在ResNet50里我們認識到一個結構,bottleneck design結構,在3x3網路結構前利用1x1卷積降維,在3x3網路結構後,利用1x1卷積升維,相比直接使用3x3網路卷積效果更好,參數更少,先進行壓縮,再進行擴張。
而Inverted resials結構,在3x3網路結構前利用1x1卷積升維,在3x3網路結構後,利用1x1卷積降維,先進行擴張,再進行壓縮。
這種結構主要用在MobilenetV2中。
其主要結構如下:
這個結構出現在Deeplabv3語義分割中。
其經過並行的空洞卷積,分別用不同rate的空洞卷積進行特徵提取,再進行合並,再進行1x1卷積壓縮特徵。
空洞卷積可以在不損失信息的情況下,加大了感受野,讓每個卷積輸出都包含較大范圍的信息。如下就是空洞卷積的一個示意圖,所謂空洞就是特徵點提取的時候會跨像素。
原文鏈接: https://blog.csdn.net/weixin_44791964/article/details/103042733
『伍』 數據中心網路架構扁平化到兩層的方式有何弊端
個人覺得從傳統的三層到二層,其實不能說有什麼弊端,只是說是還是有其缺點所在。
認真來說數據中心網路架構從傳統的三層架構到二層扁平化架構演進,技術路徑是正確的,在二層架構上帶來了大量的性能和管理上的好處,這些內容估計您已經聽夠了。
當然,變更成本太高,也應該是它的一個弊端了。
最後說一下,現在的每一種架構,理論上來講都是有前一種架構升級而來的,所以對方之前的都應該會是更有優勢的,但在流行性方面還需要人們花時間去改變。
『陸』 怎樣修改深度學習的網路結構
加入新型模塊,調整網路層數
『柒』 網路架構搜索
作為計算智能方法的代表,起源於上個世紀四十年代的人工神經網路經歷了五六十年代的繁榮,七十年代的低潮,八十年代的再次復甦,到近十年的廣泛關注,如今已經成為理論日趨完善,應用逐步發展的前沿方向。Hinton 等人2006 年在《Science》上發表的文章引發了深度神經網路研究的熱潮。面對大數據的諸多挑戰,以深度信念網路、卷積神經網路和遞歸神經網路為代表的深度神經網路模型在很多應用領域展示出明顯的優勢和潛力,特別是隨著數據量和數據維數的增加,深度學習的優勢愈加突出。例如,Google 藉助深度學習開發的AlphaGo 能從海量的對弈中學習正確的決策,微軟語音識別採用深度學習使識別錯誤率顯著降低,網路基於深度學習開發的機器人「小度」在跨年齡人臉識別上超越了人類。
經過多年的研究和發展,基於人工神經網路的識別方法也逐漸取代傳統的模式識別方法。神經網路已成為當前比較先進的技術,用來解決許多具有挑戰性的識別任務如文字識別、語音識別、指紋識別、遙感圖像識別、人臉識別、手寫體字元的識別等。其中主流的神經網路模型有卷積網路和遞歸神經網路,卷積神經網路由 Yann LeCun 在 1998 年提出,自從 AlexNe 在 2012 年的 ImageNet 比賽中使用了這一架構拔得頭籌,卷積神經網路迅速流行起來並廣泛應用到視覺任務。如今,最先進的卷積神經網路演算法在進行圖像識別時,甚至可以超過人類肉眼識別的准確率。遞歸神經網路網路提出於 1990 年,被視為循環神經網路的推廣,遞歸神經網路可以引入門控機制以學習長距離依賴,適用於包含結構關系的機器學習任務,在序列識別方面有重要應用。
深度神經網路和深度學習演算法因為在科研工作與工程任務中都取得了顯著的效果從而大受歡迎。它取代了傳統的手動提取特徵方法,夠端到端地自動提取和學習特徵。而其中取得顯著成功的深度神經網路通常是由於它們成功的架構設計,研究的工作重心從提取特徵轉移到了尋找最優架構上。通常來說,模型的容量越大網路的性能就越好,能夠擬合任意函數。因此為了提升網路性能,網路結構被設計的越來越復雜。例如,VGG-16 約有1.4億浮點數參數,整個網路佔用超過500兆存儲空間,需要153億次浮點操作來處理一個$224\times224$大小的圖像。雖然更深的網路層次和復雜的拓撲結構能夠更有效地學習特徵,但是網路規模的增大意味著人工設計網路時需要花費更多時間來反復試驗,即使是專家也需要大量的資源和時間來創建性能良好的模型。
神經網路架構搜索(NAS)是一種自動化學習網路結構的新方法,用於減少繁重的網路設計成本。目前為止,NAS方法設計的網路在識別任務上的表現已經超過了人工設計的架構。NAS可以視作自動機器學習(AutoML)的子領域,與超參數優化和元學習有明顯的重疊。不同的NAS方法的區別主要在於三個維度:搜索空間、搜索策略和性能評估,我們對此分別進行了調研。
搜索空間:搜索空間定義了網路的所有可選結構和操作,通常指數級大,甚至無界。在設計搜索空間時結合先驗知識,即參考現有的針對當前任務的先進結構設計知識,能夠有效減小搜索空間並簡化搜索。但這也會引入偏好,從而限制網路學習到超越當前人類知識的結構。
搜索策略:定義搜索空間後,搜索策略引導尋找高性能的模型架構,其中的難點是保證探索和利用的平衡。一方面,希望快速找到性能良好的架構,另一方面,需要避免過早收斂到次優的架構。
性能評估:NSA的目的是找到一個在未知數據上具有良好泛化性能的架構,一旦模型生成,就需要對其性能進行評估。直觀的方法是在訓練集上訓練收斂,並在驗證集上得到其性能,但是這種方法會耗費巨大的算力,從而限制了可探索的網路結構。一些先進的方法關注於減小性能評估時的計算代價,但會引入誤差。因此,平衡評價的效率和效果是一個需要研究的問題。
從計算的角度來看,神經網路代表了一個通過一系列操作將輸入變數 x 轉換為輸出變數 y 的函數。基於計算圖語言,神經網路可以表示為一個有向無環圖(DAG),其中每個節點表示一個張量 z ,通過邊連接其父節點 I(k),每條邊表示從候選操作集O中選擇的一個操作 o 。節點 k 的計算公式為:
其中候選操作集合$O$主要包括卷積、池化、激活函數、跳躍連接、拼接、加法等基本操作。此外,為了進一步提高模型的性能,一些先進的人工設計模塊也可以作為候選操作,如深度可分離卷積、膨脹卷積、組卷積。基於操作的類型可以選擇不同的超參數,例如輸入節點選取、卷積核數量、尺寸、步長等。不同的搜索空間設計,選擇和組合操作的方法也不同所以參數化的形式也不一樣。一般來說,一個好的搜索空間應該能夠排除人類的偏見,並且足夠靈活,能夠覆蓋更廣泛的模型架構。
全局搜索空間搜索一個完整的網路結構,具有很高的自由度。最簡單的例子是鏈式搜索空間,見圖1左。固定的數量的節點按順序堆疊,只有前一個節點的輸出提供給後一個節點作為輸入,每個節點代表一個層,並具有指定的操作。右圖引入更復雜的跳躍鏈接和多支路結構,此時當前節點可以結合前面所有節點的輸出作為輸入,使得搜索的自由度顯著增大。許多網路都是多分支網路的特例,比如
1)鏈式網路: ;
2)殘差網路: ;
3)DenseNets:
雖然整體結構搜索很容易實現,但它也有一些缺點。首先,搜索空間的大小與網路深度是指數級關系,尋找泛化性能好的深度網路計算成本高。此外,生成的架構缺乏可遷移性和靈活性,在小型數據集上生成的模型可能不適合較大的數據集。有研究提出,初始架構的選擇在搜索全局結構時十分重要。在適當的初始條件下,可以獲得與單元搜索空間性能相當的架構,但是初始架構選擇的指導原則仍然不明確。
基於單元的搜索空間受啟發於人工設計知識,許多有效的網路結構都會重復使用固定結構,例如在RNNs中重復LSTM塊或堆疊殘差模塊。因此可以只搜索這樣的重復單元(cells),整個神經結構的搜索問題被簡化為在單元搜索空間中搜索最優的單元結構,從而極大的減小搜索空間。大多數研究對比了基於全局搜索空間和單元搜索空間的實驗結果,證明在基於單元的搜索空間中可以獲得良好的性能。單元搜索空間的另一個優勢是能方便地在數據集和任務之間進行泛化,因為通過增減卷積核和單元的數量,架構的復雜性幾乎可以任意改變。
NASNet是最早提出的單元搜索空間之一,也是當前最熱門的選擇,之後的大部分改進只是在此基礎上對操作選擇和單元組合策略進行了少量修改。如圖2所示,它由兩種單元組成,分別為保持輸入特徵維度的標准單元(normal cell),和減小空間維度的簡化單元(rection cell)。每個單元由b個塊組成,每個塊由它的兩個輸入和相應的操作定義。可選的輸入包括前兩個單元的輸出和單元中先前定義的塊的輸出,所以它支持跨單元的跳躍連接。未使用的塊被連接起來並作為單元格的輸出,最終通過預定義好的規則級聯這些單元。
不同於上面將單元結構按照人工定義的宏結構進行連接,層次結構是將前一步驟生成的單元結構作為下一步單元結構的基本組成部件,通過迭代的思想得到最終的網路結構。Hier提出的層次搜索空間,通過合並低層單元生成高級單元實現單元級別和網路級別的同時優化。此方法具體分為3層。第一層包含一系列的基礎操作;第二層通過有向無環圖連接第一層的基礎操作,構建不同的單元,圖結構用鄰接矩陣編碼;第三層是網路級的編碼,決定如何連接第二層的單元,組合成一個完整的網路。基於單元的搜索空間可以看作是這種層次搜索空間的一個特殊情況。
強化學習方法(RL)能夠有效建模一個順序決策的過程,其中代理與環境相互作用,代理學會改善其行為從而使目標回報最大化。(圖3)給出了一個基於強化的NAS演算法的概述。代理通常是一個遞歸神經網路(RNN),它在每一步t執行一個動作 來從搜索空間采樣一個新的樣本,同時接收狀態 的觀察值和環境中的獎勵 ,以更新代理的采樣策略。這種方法非常適合於神經結構搜索,代理的行為是生成神經結構,行為空間是搜索空間,環境是指對代理生成的網路進行訓練和評估,獎勵是訓練後的網路結構對未知數據的預測性能,在最後一個行為之後獲得。
4.2進化演算法
進化演算法(EA)是一種成熟的全局優化方法,具有較高的魯棒性和廣泛的適用性。許多研究使用進化演算法來優化神經網路結構。進化演算法演化了一組模型,即一組網路;在每個世代中,至少從這組模型中選擇一個模型,作為親本在突變後作為生成子代。在對子代進行訓練之後,評估它們的適應度並將它們添加到種群中。
典型的進化演算法包括選擇、交叉、變異和更新等步驟。選擇時一般使用聯賽選擇演算法對父類進行采樣,其中適應性最好的一個作為親本。Lemonade對適應度使用核密度估計,使網路被選擇的概率與密度成反比。交叉方式因編碼方案的不同而不同。突變針對的是親本的部分操作,例如添加或移除層,改變層的超參數,添加跳躍連接,以及改變訓練超參數。對於產生的後代,大多數方法隨機初始化子網路權重,而Lemonade把父網路學習到的權重通過使用網路態射傳遞給其子網路。Real等人讓後代繼承其父母的所有不受突變影響的參數,雖然這種繼承不是嚴格意義上的功能保留,它可以加速學習。生成新的網路的同時需要從種群中移除一些個體。Real等人從群體中移除最差的個體,AmoebaNet移除最老的個體。也有一些方法定期丟棄所有個體,或者完全不移除個體。EENA通過一個變數調節最壞模型和最老模型的刪除概率。
基於代理模型的優化方法(SMBO)用一個代理模型來近似目標函數。即不需要訓練采樣到的網路結構,只需要訓練一個代理模型,使用代理模型預測網路的性能。通常在實踐中只需要得到架構的性能排序,而不一定要計算出具體的損失值,因此代理模型只需要預測相對得分並選出有前途的候選架構。然後只對預測性能好的架構進行評估,用它們的驗證精度更新代理模型,這樣只需要完全訓練少量候選架構,大大減少搜索時間。代理模型通常訓練為最小化平方誤差:
貝葉斯優化(BO)是用於超參數優化的最流行的方法之一。最經典的是基於高斯過程的BO,生成的神經結構的驗證結果可以建模為高斯過程,然而,基於高斯的BO方法在觀察次數上的推理時間尺度是立方的,並且不擅長處理變長神經網路。有些工作使用基於樹或者隨機森林的方法來在非常高維的空間中高效的搜索,並且在很多問題上取得了優異的效果。Negrinho利用其搜索空間的樹形結構,並使用蒙特卡洛樹搜索。雖然沒有完整的比較,但初步的證據表明這些方法可以超越進化演算法。
上面的搜索策略搜是從一個離散的搜索空間提取神經結構樣本。DARTS提出搜索空間的連續鬆弛,在連續可微的搜索空間上搜索神經架構如圖4所示,並使用如下softmax函數來鬆弛離散空間:
鬆弛後,架構搜索的任務轉化為網路架構與神經權值的聯合優化。這兩類參數分別在訓練集和驗證集上交替優化,表示為一個雙層優化問題。
為了對搜索過程進行引導,必須對產生的神經網路性能進行評估。一種直觀的方法是訓練網路至收斂,然後評估其性能。但是,這種方法需要大量的時間和計算資源。因此提出了幾種加速模型評估的方法。
為了減少計算負擔,可以用實際性能的低質近似來估測性能。實現方法包括: 縮短訓練時間、選擇數據集的子集、在低解析度的圖像上訓練、每層使用更少的通道數、堆疊更少的單元結構。在低質條件下搜索到的最優網路或單元,構建出最終結構在數據集上重新訓練,得到目標網路。雖然這些低精度的近似能夠減少訓練花費,但性能被低估的同時不可避免地引入了誤差。最近的研究表明,當這種低質評價與完全評價之間的差異較大時,網路性能的相對排名可能變化很大,並強調這種誤差會逐漸增加。
早停技術最初用於防止過擬合。一些研究通過在訓練初期預測網路性能,在驗證集上預計表現不佳的模型被強制停止訓練,以此來加速模型評估。一種在早期估計網路性能的方法是學習曲線外推法。Domhan 等提出訓練初期對學習曲線進行插值,並終止那些預測性能不好的網路結構的訓練。Swersky等在評估學習曲線的好壞時,把網路架構的超參數作為參考因素。另一種方法根據梯度的局部統計信息實現早期停止,它不再依賴驗證集,允許優化器充分利用所有的訓練數據。
代理模型可以被訓練用預測網路性能。PNAS提出訓練一個代理網路(LSTM)來預測網路結構的性能,他不考慮學習曲線而是基於結構的特點來預測性能,並在訓練時推斷更大的網路結構。SemiNAS是一種半監督NAS方法,利用大量的未標記架構進一步提高搜索效率。不需要在對模型進行訓練,只使用代理模型來預測模型精度。預測網路性能的主要難點是:為加快搜索過程,需要在對較大的搜索空間進行較少的評估的基礎上進行良好的預測。當優化空間過大且難以量化,且對每個結構的評估成本極高時,基於代理的方法就不適用。
代理模型還可以用來預測網路權重。超網路(Hypernetworks)是一種神經網路,被訓練來為各種架構生成網路權值。超網路在搜索過程中節省了候選體系結構的訓練時間,因為它們的權值是通過超網路的預測得到的。Zhang等人提出了一種計算圖表示,並使用圖超網路(GHN)比常規超網路(SMASH)更快更准確地預測所有可能架構的權值。
權重繼承是讓新網路結構繼承之前訓練完成的其他網路結構的權值。其中一種方法是網路態射,一般的網路設計方法是首先設計出一個網路結構,然後訓練它並在驗證集上查看它的性能表現,如果表現較差,則重新設計一個網路。可以很明顯地發現這種設計方法會做很多無用功,因此耗費大量時間。而基於網路態射結構方法能夠在原有的網路結構基礎上做修改,修改後的網路可以重用之前訓練好的權重。其特殊的變換方式能夠保證新的網路結構還原成原網路,因此子網路的表現至少不會差於原網路,並且能在較短的訓練時間內繼續成長為一個更健壯的網路。具體地,網路射態能夠處理任意非線性激活函數,可以添加跳躍連接,並且支持添加層或通道得到更深或更寬的等效模型。經典的網路態射只能使網路變大,這可能導致網路過於復雜,之後提出的近似網路態射通過知識蒸餾允許網路結構減小。進化演算法經常使用基於網路態射的變異,或者直接讓孩子繼承親本的權重,再執行一般變異操作,這樣產生的網路具有一個更好的初始值,而不用重頭開始訓練。
『捌』 網路體系結構為什麼要採用分層次的結構
原因:為把在一個網路結構下開發的系統與在另一個網路結構下開發的系統互聯起來,以實現更高一級的應用,使異種機之間的通信成為可能,便於網路結構標准化;
並且由於全球經濟的發展使得處在不同網路體系結構的用戶迫切要求能夠互相交換信息;
為此,國際標准化組織ISO成立了專門的機構研究該問題,並於1977年提出了一個試圖使各種計算機在世界范圍內互聯成網的標准框架,即著名的開放系統互連基本參考模型OSI/RM (Open System Interconnection Reference Model)。
1、網路體系結構(network architecture):是計算機之間相互通信的層次,以及各層中的協議和層次之間介面的集合。
2、網路協議:是計算機網路和分布系統中互相通信的對等實體間交換信息時所必須遵守的規則的集合。
3、語法(syntax):包括數據格式、編碼及信號電平等。
4、語義(semantics):包括用於協議和差錯處理的控制信息。
5、定時(timing):包括速度匹配和排序。
計算機網路是一個非常復雜的系統,需要解決的問題很多並且性質各不相同。所以,在ARPANET設計時,就提出了「分層」的思想,即將龐大而復雜的問題分為若干較小的易於處理的局部問題。