導航:首頁 > 異常信息 > 圖神經網路異常檢測

圖神經網路異常檢測

發布時間:2023-08-21 14:21:48

『壹』 什麼是BP神經網路

BP演算法的基本思想是:學習過程由信號正向傳播與誤差的反向回傳兩個部分組成;正向傳播時,輸入樣本從輸入層傳入,經各隱層依次逐層處理,傳向輸出層,若輸出層輸出與期望不符,則將誤差作為調整信號逐層反向回傳,對神經元之間的連接權矩陣做出處理,使誤差減小。經反復學習,最終使誤差減小到可接受的范圍。具體步驟如下:
1、從訓練集中取出某一樣本,把信息輸入網路中。
2、通過各節點間的連接情況正向逐層處理後,得到神經網路的實際輸出。
3、計算網路實際輸出與期望輸出的誤差。
4、將誤差逐層反向回傳至之前各層,並按一定原則將誤差信號載入到連接權值上,使整個神經網路的連接權值向誤差減小的方向轉化。
5、対訓練集中每一個輸入—輸出樣本對重復以上步驟,直到整個訓練樣本集的誤差減小到符合要求為止。

『貳』 入侵檢測技術基礎的異常檢測技術

●概率統計異常檢測
原理:每一個輪廓保存記錄主體當前行為,並定時將當前輪廓與歷史輪廓合並形成統計輪廓(更新),通過比較當前輪廓與統計輪廓來判定異常行為。
優點:可應用成熟的概率統計理論
缺點:①由於用戶行為的復雜性,要想准確地匹配一個用戶的歷史行為非常困難,容易造成系統誤報和漏報;
②定義入侵閾值比較困難,閾值高則誤報率提高,閾值低則漏報率增高。
●神經網路異常檢測
原理:對下一事件的預測錯誤率在一定程度上反映了用戶行為的異常程度。
優點:①更好地表達了變數間的非線性關系,能更好地處理原始數據的隨機特徵,即不需要對這些數據做任何統計假設,並且能自動學習和更新;②有較好的抗干擾能力
缺點:網路拓撲結構以及各元素的權重很難確定

『叄』 異常檢測有哪些主要的分析方法

1. 概率統計方法
在基於異常鋒姿檢測技術的IDS中應用最早也是最多的一種方法。
首先要對系統或用戶的行為按照一定的時間間隔進行采樣,樣本的內容包括每個會話的登錄、退出情況,CPU和內存的佔用情況,硬碟等存儲介質的使用情況等。
將每次採集到的樣本進行計算,得出一系列的參數變數對這些行為進行描述,從而產生行為輪廓,將每次采樣後得到的行為輪廓與已有輪廓進行合並,最終得到系統和用戶的正常行為輪廓。IDS通過將當前採集到的行為輪廓與正常行為輪廓相比較,來檢測是否存在網路入侵行為。
2. 預測模式生成法
假設條件是事件序列不是隨機的而是遵循可辨別的模式。這種檢測方法的特點是考慮了事件的序列及其相互聯系,利用時間規則識別用戶行為正常模式的特徵。通過歸納學習產生這些規則集,並能動態地修改系統中的這些規則,使之具有較高的預測性、准確性。如果規則在大部分時間是正確的,並能夠成功地運用預測所觀察到的數據,那麼規則就具有高可信度。
3. 神經網路方法
基本思想是用一系列信息單元(命令)訓練神經單元,這樣在給定一組輸入後、就可能預測出輸出。與統計理論相比,神經網路更好地表達了變數間的非線性關系,並且能自睜基兆動學習並更新。悉租實驗表明UNIX系統管理員的行為幾乎全是可以預測的,對於一般用戶,不可預測的行為也只佔了很少的一部分。

『肆』 人工神經網路可以解決什麼行業問題,怎麼解決,有什麼效果

人工神經網路可以應用在許多行業,解決各種問題,主要包括:
1. 圖像識別:人工神經網路可以用於圖像分類、目標檢測、語義分割等,廣泛應用於自動駕駛、醫療圖像舉明分析、人臉識別等領域。利用深度學習演算法可以實現高精度的圖像悶宴識別。
2. 自然語言處理:人工神經網路可用於機器翻譯、文本分類、情感分析、語義理解等,應用於聊天機器人、搜索引擎等。採用深度學習方法可以實現上下文理解和詞義消歧。
3.預測與決策:人工神經網路可以用於股票預測、商品銷量預測、疾病預測、推薦系統等,幫助企業進行數據分析與決策。
4.異常檢測:人工神經網路可用於欺詐檢測、網路入侵檢測、工業質量檢測等,通過模型學習大量樣本,可以高效識別異常數據。
5.控制與優化:人工神經網路可用於無人車控制、工廠自動化控制、能源供需預測與優化等,實現復雜問題的控制與優化。
人工神經網路主要通過深度學習演算法來訓練神經網路模型,可以自動學習特徵和模式,對樣本進行分類或預測。相比傳統演算法,人工神經網路可以實現更高精度的識別與決策,廣泛應用於各行業,獲取很好的效果。許多企業已經在關鍵業務流程中集成人工神經網路,提高生產力與產品體驗。
總的來說,人工正罩告神經網路是一個強大的機器學習工具,可以幫助企業利用海量數據進行自動化分類、預測與決策,從而優化運營效率,提高產品智能,取得競爭優勢。人工神經網路正在改變許多行業的未來,帶來巨大的技術和商業影響。
希望以上解釋可以概括人工神經網路在各行業的應用與效果。

『伍』 圖神經網路是大數據時代發展的必然(原創)

        大數據的核心是數據智能。數據智能的本質是在大量樣本中發現、評估若干概念之間的關聯性,歸納形成數學表達,再利用數學表達進行推理運算,從而完成對未知樣本的判斷決策。這就需要發現海量數據背後的規律,解決數據表徵問題。數據智能先後經歷了專家系統、傳統機器學習和神經網路三個階段,輸入的知識從具體到抽象,從規則到特徵再到模式,越來越宏觀,智能化處理效率越來越高,對底層的感知和模型的可解釋性越來越弱化。隨著專家系統逐漸淡出,傳統機器學習和神經網路成為數據智能的兩大常見技術。實踐證明,隨著數據集樣本的增多,傳統機器學習的性能不及神經網路(見圖一)。這主要歸結於前者的表達能力不如後者。Goodfellow在2013年ICML(國際機器學習大會)上發表了論文《MaxoutNetworks》(最大輸出網路)。在這篇論文中證明了MaxoutNetworks能夠無限逼近任意連續函數。也即是說,神經網路能夠擬合任意連續函數,與傳統機器學習相比,神經網路具有突出的表達能力優勢。

         (上圖):橫軸代表數據量,縱軸代表演算法精度     

        我們看到幾個純余趨勢:行業數據量指數級增長、以GPU為代表的專業晶元算力增長、新型演算法層出不窮、學術界的前沿研究、投資界的資金投入、工商業的多種場景,這些因素都促進了神經網路快速發展。神經網路的發展形態有兩種方向:一是以DNN深度全連接和CNN卷積神經網路為代表的縱向發展,即層數增多的縱向迭代,典型應用是CV計算機視覺;二是以RNN循環神經網路為代表的橫向發展,即神經元之間的橫向迭代,典型應用是以NLP自然語言理解為代表的序列處理。神經網路技術同時呈現兩種發展形態,並在多個領域有廣泛應用,就說明這個技術已經進入成熟期了。下一步往哪個方向發展?很有可能是:將縱向發展和橫向發展進行結合,滲透到更多的應用領域。這看似順水推舟的事情。事實證明,這個判斷是正確的,圖神經網路就是二者的結合。

        縱觀技術圈的發展歷史,可以總結出這樣的事實:一個理論技術能否在更多的領域推廣,關鍵取決於它能否真實地刻畫現實世界的實體特徵和關系。如果它刻畫得越真實,那麼它的應用場景就越多。比如馬爾科夫鏈這個理論,就真實地刻畫了現實世界中的時序對象的特徵和依賴關系,因此它廣泛應用在語音理解、機器翻譯、國民經濟、事件預測等領域;再如概唯褲森率圖理論,用圖來表示事件概率的依存關系,也是真實刻畫了現實世界中的實體關系,因此它也廣泛應用在反欺詐、圖像理解、事件預測等領域。從方法論看,要刻畫現實世界的實體,就必須在模型中置入代表這個實體的節點,並且設計出實體之間的依賴關系轉化。但無論是馬爾科夫鏈還是概率圖等方法,都弱化了嵌入表示,從而丟失了一些隱語義信息,是有缺憾的。

圖神經網路(GraphNeural Networks,GNN)的問世,使事情出現了轉機。在圖神經網路中,存在兩種網路。一種是拓撲結構網路,通常描述眾多實體及其關系;另一種是特徵變換神經網路,通常用於節點、邊、圖或子圖的特徵轉化。前者完成信息橫向傳播,實現圖信號的拓撲關系傳遞,理論依據是圖論;後者完成信息縱向傳播,實現原始特徵向嵌入表示的轉化,理論依據是深度學習。圖神經網路是圖論與深度學習的完美結合,它既考慮了實體關系,又考慮了實體特徵。與傳統圖方法和傳統深度學習相比,圖神經網路具有明顯的優勢:建模來源數據更充分,更能反映現實世界中實體之間的真實關系,它既能從圖結構代表的非歐式空間數據中學習到語義表示,又能讓學習到的語義表示最大限度地符合圖結構的實體關系。

        現實世界中80%以上的數據更適合用圖結構來刻畫,比如交通數據、社交數據、分子結構數據、行業經濟數據等。圖神經網路能適應這樣的數據,在分布式學習架構下,圖神經網路能處理的數據規模非常龐大,非常適合處理數億節點的產業數據。因此圖神經網路的應用場景更為廣泛。近三年來,各種國際頂會關於圖神經網路的論文頻頻發布,眾多互聯網科技公司(如阿里、網路、位元組跳動)花重金在這一領域布局,並取得重大進展,廣泛應用於關聯搜索、實時推薦、風險防控、異常檢測、行為預測、模式識別等。這些現象無疑說明了圖神經網路是未來技術發展的重要領域方向。

        綜上所述,在行業數據、演算法理論、算力支持、市場需求、資本湧入等背景下,圖神經網路的指畝迅速崛起是大數據時代發展的必然。

『陸』 大數據科學家需要掌握的幾種異常值檢測方法

引言

異常值檢測與告警一直是工業界非常關注的問題,自動准確地檢測出系統的異常值,不僅可以節約大量的人力物力,還能盡早發現系統的異常情況,挽回不必要的損失。個推也非常重視大數據中的異常值檢測,例如在運維部門的流量管理業務中,個推很早便展開了對異常值檢測的實踐,也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。

1、異常值檢測研究背景

2、異常值檢測方法原理

3、異常值檢測應用實踐

異常值檢測研究背景

異常值,故名思議就是不同於正常值的值。 在數學上,可以用離群點來表述,這樣便可以將異常值檢測問題轉化為數學問題來求解。

異常值檢測在很多場景都有廣泛的應用,比如:

1、流量監測

互聯網上某些伺服器的訪問量,可能具有周期性或趨勢性:一般情況下都是相對平穩的,但是當受到某些黑客攻擊後,其訪問量可能發生顯著的變化,及早發現這些異常變化對企業而言有著很好的預防告警作用。

2、金融風控

正常賬戶中,用戶的轉賬行為一般屬於低頻事件,但在某些金融詐騙案中,一些嫌犯的賬戶就可能會出現高頻的轉賬行為,異常檢測系統如果能發現這些異常行為,及時採取相關措施,則會規避不少損失。

3、機器故障檢測

一個運行中的流水線,可能會裝有不同的感測器用來監測運行中的機器,這些感測器數據就反應了機器運行的狀態,這些實時的監測數據具有數據量大、維度廣的特點,用人工盯著看的話成本會非常高,高效的自動異常檢測演算法將能很好地解決這一問題。

異常值檢測方法原理

本文主要將異常值檢測方法分為兩大類:一類是基於統計的異常值檢測,另一類是基於模型的異常值檢測。

基於統計的方法  

基於模型的方法

1、基於統計的異常值檢測方法

常見的基於統計的異常值檢測方法有以下2種,一種是基於3σ法則,一種是基於箱體圖。

3σ法則  

箱體圖

3σ法則是指在樣本服從正態分布時,一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本,其中μ為樣本均值,σ為樣本標准差。在實際使用中,我們雖然不知道樣本的真實分布,但只要真實分布與正太分布相差不是太大,該經驗法則在大部分情況下便是適用的。

箱體圖也是一種比較常見的異常值檢測方法,一般取所有樣本的25%分位點Q1和75%分位點Q3,兩者之間的距離為箱體的長度IQR,可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。

基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點,但缺點也非常明顯,例如需要大量的樣本數據進行統計,難以對高維樣本數據進行異常值檢測等。

2、基於模型的異常值檢測

通常可將異常值檢測看作是一個二分類問題,即將所有樣本分為正常樣本和異常樣本,但這和常規的二分類問題又有所區別,常規的二分類一般要求正負樣本是均衡的,如果正負樣本不均勻的話,訓練結果往往會不太好。但在異常值檢測問題中,往往面臨著正(正常值)負(異常值)樣本不均勻的問題,異常值通常比正常值要少得多,因此需要對常規的二分類模型做一些改進。

基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測,比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來,它用一個超球面替代了超平面,超球面以內的值為正常值,超球面以外的值為異常值。

經典的SVM  

1

 基於模型的方法

2

基於神經網路的自編碼器結構如下圖所示。

自編碼器(AE)

將正常樣本用於模型訓練,輸入與輸出之間的損失函數可採用常見的均方誤差,因此檢測過程中,當正常樣本輸入時,均方誤差會較小,當異常樣本輸入時,均方誤差會較大,設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點,就是對於訓練樣本比較相近的正常樣本判別較好,但若正常樣本與訓練樣本相差較大,則可能會導致模型誤判。

無監督模型的異常值檢測是異常值檢測中的主流方法,因為異常值的標注成本往往較高,另外異常值的產生往往無法預料,因此有些異常值可能在過去的樣本中根本沒有出現過, 這將導致某些異常樣本無法標注,這也是有監督模型的局限性所在。 較為常見的無監督異常值檢測模型有密度聚類(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一種典型的無監督聚類方法,對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多,本文不作詳細介紹。

IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出,是一種非常高效的異常值檢測方法,該方法不需要對樣本數據做任何先驗的假設,只需基於這樣一個事實——異常值只是少數,並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣,IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree,簡稱iTree。iTree樹和決策樹不太一樣,其構建過程也比決策樹簡單,因為其中就是一個完全隨機的過程。

假設數據集有N條數據,構建一顆iTree時,從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來,作為這顆樹的訓練樣本。

在樣本中,隨機選一個特徵,並在這個特徵的所有值范圍內(最小值與最大值之間)隨機選一個值,對樣本進行二叉劃分,將樣本中小於該值的劃分到節點的左邊,大於等於該值的劃分到節點的右邊。

這樣得到了一個分裂條件和左、右兩邊的數據集,然後分別在左右兩邊的數據集上重復上面的過程,直至達到終止條件。 終止條件有兩個,一個是數據本身不可再分(只包括一個樣本,或者全部樣本相同),另外一個是樹的高度達到log2(n)。 不同於決策樹,iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行,但出於效率考慮,演算法一般要求高度達到log2(n)深度即可。

把所有的iTree樹構建好了,就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走,直到達到葉子節點,並記錄這過程中經過的路徑長度h(x),即從根節點,穿過中間的節點,最後到達葉子節點,所走過的邊的數量(path length)。最後,將h(x)帶入公式,其中E(.)表示計算期望,c(n)表示當樣本數量為n時,路徑長度的平均值,從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質:

1)如果分數s越接近1,則該樣本是異常值的可能性越高;

2)如果分數s越接近0,則該樣本是正常值的可能性越高;

RCF演算法與IF演算法思想上是比較類似的,前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素,RCF演算法考慮了該因素,並且在數據樣本采樣策略上作出了一些改進,使得異常值檢測相對IF演算法變得更加准確和高效,並能更好地應用於流式數據檢測。

IF演算法

RCF演算法

上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值,對於後一個較大的突變異常值,IF演算法和RCF演算法都檢測了出來,但對於前一個較小的突變異常值,IF演算法沒有檢測出來,而RCF演算法依然檢測了出來,這意味著RCF有更好的異常值檢測性能。

異常值檢測應用實踐

理論還需結合實踐,下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例,對異常值檢測的實際應用場景予以介紹:

從上圖中可以看出該應用的日活存在著一些顯著的異常值(比如紅色圓圈部分),這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。

基於3σ法則(基於統計)

RCF演算法(基於模型)

從圖中可以看出,對於較大的突變異常值,3σ法則和RCF演算法都能較好地檢測出來, 但對於較小的突變異常值,RCF演算法則要表現得更好。

總結

上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看,異常值檢測演算法多種多樣 ,每一種都有自己的優缺點和適用范圍,很難直接判斷哪一種異常檢測演算法是最佳的, 具體在實戰中,我們需要根據自身業務的特點,比如對計算量的要求、對異常值的容忍度等,選擇合適的異常值檢測演算法。

接下來,個推也會結合自身實踐,在大數據異常檢測方面不斷深耕,繼續優化演算法模型在不同業務場景中的性能,持續為開發者們分享前沿的理念與最新的實踐方案。

閱讀全文

與圖神經網路異常檢測相關的資料

熱點內容
網路共享中心沒有網卡 瀏覽:510
電腦無法檢測到網路代理 瀏覽:1362
筆記本電腦一天會用多少流量 瀏覽:515
蘋果電腦整機轉移新機 瀏覽:1366
突然無法連接工作網路 瀏覽:999
聯通網路怎麼設置才好 瀏覽:1209
小區網路電腦怎麼連接路由器 瀏覽:972
p1108列印機網路共享 瀏覽:1200
怎麼調節台式電腦護眼 瀏覽:636
深圳天虹蘋果電腦 瀏覽:875
網路總是異常斷開 瀏覽:600
中級配置台式電腦 瀏覽:931
中國網路安全的戰士 瀏覽:620
同志網站在哪裡 瀏覽:1401
版觀看完整完結免費手機在線 瀏覽:1447
怎樣切換默認數據網路設置 瀏覽:1097
肯德基無線網無法訪問網路 瀏覽:1272
光纖貓怎麼連接不上網路 瀏覽:1412
神武3手游網路連接 瀏覽:953
局網列印機網路共享 瀏覽:989