導航:首頁 > 異常信息 > 網路異常攻擊檢測演算法

網路異常攻擊檢測演算法

發布時間:2023-08-09 17:39:21

❶ 簡述入侵檢測常用的四種方法

入侵檢測系統所採用的技術可分為特徵檢測與異常檢測兩種。

1、特徵檢測

特徵檢測(Signature-baseddetection)又稱Misusedetection,這一檢測假設入侵者活動可以用一種模式來表示,系統的目標是檢測主體活動是否符合這些模式。

它可以將已有的入侵方法檢查出來,但對新的入侵方法無能為力。其難點在於如何設計模式既能夠表達「入侵」現象又不會將正常的活動包含進來。

2、異常檢測

異常檢測(Anomalydetection)的假設是入侵者活動異常於正常主體的活動。根據這一理念建立主體正常活動的「活動簡檔」,將當前主體的活動狀況與「活動簡檔」相比較,當違反其統計規律時,認為該活動可能是「入侵」行為。

異常檢測的難題在於如何建立「活動簡檔」以及如何設計統計演算法,從而不把正常的操作作為「入侵」或忽略真正的「入侵」行為。

(1)網路異常攻擊檢測演算法擴展閱讀

入侵分類:

1、基於主機

一般主要使用操作系統的審計、跟蹤日誌作為數據源,某些也會主動與主機系統進行交互以獲得不存在於系統日誌中的信息以檢測入侵。

這種類型的檢測系統不需要額外的硬體.對網路流量不敏感,效率高,能准確定位入侵並及時進行反應,但是佔用主機資源,依賴於主機的可靠性,所能檢測的攻擊類型受限。不能檢測網路攻擊。

2、基於網路

通過被動地監聽網路上傳輸的原始流量,對獲取的網路數據進行處理,從中提取有用的信息,再通過與已知攻擊特徵相匹配或與正常網路行為原型相比較來識別攻擊事件。

此類檢測系統不依賴操作系統作為檢測資源,可應用於不同的操作系統平台;配置簡單,不需要任何特殊的審計和登錄機制;可檢測協議攻擊、特定環境的攻擊等多種攻擊。

但它只能監視經過本網段的活動,無法得到主機系統的實時狀態,精確度較差。大部分入侵檢測工具都是基於網路的入侵檢測系統。

3、分布式

這種入侵檢測系統一般為分布式結構,由多個部件組成,在關鍵主機上採用主機入侵檢測,在網路關鍵節點上採用網路入侵檢測,同時分析來自主機系統的審計日誌和來自網路的數據流,判斷被保護系統是否受到攻擊。

❷ 大數據科學家需要掌握的幾種異常值檢測方法

引言

異常值檢測與告警一直是工業界非常關注的問題,自動准確地檢測出系統的異常值,不僅可以節約大量的人力物力,還能盡早發現系統的異常情況,挽回不必要的損失。個推也非常重視大數據中的異常值檢測,例如在運維部門的流量管理業務中,個推很早便展開了對異常值檢測的實踐,也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。

1、異常值檢測研究背景

2、異常值檢測方法原理

3、異常值檢測應用實踐

異常值檢測研究背景

異常值,故名思議就是不同於正常值的值。 在數學上,可以用離群點來表述,這樣便可以將異常值檢測問題轉化為數學問題來求解。

異常值檢測在很多場景都有廣泛的應用,比如:

1、流量監測

互聯網上某些伺服器的訪問量,可能具有周期性或趨勢性:一般情況下都是相對平穩的,但是當受到某些黑客攻擊後,其訪問量可能發生顯著的變化,及早發現這些異常變化對企業而言有著很好的預防告警作用。

2、金融風控

正常賬戶中,用戶的轉賬行為一般屬於低頻事件,但在某些金融詐騙案中,一些嫌犯的賬戶就可能會出現高頻的轉賬行為,異常檢測系統如果能發現這些異常行為,及時採取相關措施,則會規避不少損失。

3、機器故障檢測

一個運行中的流水線,可能會裝有不同的感測器用來監測運行中的機器,這些感測器數據就反應了機器運行的狀態,這些實時的監測數據具有數據量大、維度廣的特點,用人工盯著看的話成本會非常高,高效的自動異常檢測演算法將能很好地解決這一問題。

異常值檢測方法原理

本文主要將異常值檢測方法分為兩大類:一類是基於統計的異常值檢測,另一類是基於模型的異常值檢測。

基於統計的方法  

基於模型的方法

1、基於統計的異常值檢測方法

常見的基於統計的異常值檢測方法有以下2種,一種是基於3σ法則,一種是基於箱體圖。

3σ法則  

箱體圖

3σ法則是指在樣本服從正態分布時,一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本,其中μ為樣本均值,σ為樣本標准差。在實際使用中,我們雖然不知道樣本的真實分布,但只要真實分布與正太分布相差不是太大,該經驗法則在大部分情況下便是適用的。

箱體圖也是一種比較常見的異常值檢測方法,一般取所有樣本的25%分位點Q1和75%分位點Q3,兩者之間的距離為箱體的長度IQR,可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。

基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點,但缺點也非常明顯,例如需要大量的樣本數據進行統計,難以對高維樣本數據進行異常值檢測等。

2、基於模型的異常值檢測

通常可將異常值檢測看作是一個二分類問題,即將所有樣本分為正常樣本和異常樣本,但這和常規的二分類問題又有所區別,常規的二分類一般要求正負樣本是均衡的,如果正負樣本不均勻的話,訓練結果往往會不太好。但在異常值檢測問題中,往往面臨著正(正常值)負(異常值)樣本不均勻的問題,異常值通常比正常值要少得多,因此需要對常規的二分類模型做一些改進。

基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測,比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來,它用一個超球面替代了超平面,超球面以內的值為正常值,超球面以外的值為異常值。

經典的SVM  

1

 基於模型的方法

2

基於神經網路的自編碼器結構如下圖所示。

自編碼器(AE)

將正常樣本用於模型訓練,輸入與輸出之間的損失函數可採用常見的均方誤差,因此檢測過程中,當正常樣本輸入時,均方誤差會較小,當異常樣本輸入時,均方誤差會較大,設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點,就是對於訓練樣本比較相近的正常樣本判別較好,但若正常樣本與訓練樣本相差較大,則可能會導致模型誤判。

無監督模型的異常值檢測是異常值檢測中的主流方法,因為異常值的標注成本往往較高,另外異常值的產生往往無法預料,因此有些異常值可能在過去的樣本中根本沒有出現過, 這將導致某些異常樣本無法標注,這也是有監督模型的局限性所在。 較為常見的無監督異常值檢測模型有密度聚類(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一種典型的無監督聚類方法,對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多,本文不作詳細介紹。

IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出,是一種非常高效的異常值檢測方法,該方法不需要對樣本數據做任何先驗的假設,只需基於這樣一個事實——異常值只是少數,並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣,IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree,簡稱iTree。iTree樹和決策樹不太一樣,其構建過程也比決策樹簡單,因為其中就是一個完全隨機的過程。

假設數據集有N條數據,構建一顆iTree時,從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來,作為這顆樹的訓練樣本。

在樣本中,隨機選一個特徵,並在這個特徵的所有值范圍內(最小值與最大值之間)隨機選一個值,對樣本進行二叉劃分,將樣本中小於該值的劃分到節點的左邊,大於等於該值的劃分到節點的右邊。

這樣得到了一個分裂條件和左、右兩邊的數據集,然後分別在左右兩邊的數據集上重復上面的過程,直至達到終止條件。 終止條件有兩個,一個是數據本身不可再分(只包括一個樣本,或者全部樣本相同),另外一個是樹的高度達到log2(n)。 不同於決策樹,iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行,但出於效率考慮,演算法一般要求高度達到log2(n)深度即可。

把所有的iTree樹構建好了,就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走,直到達到葉子節點,並記錄這過程中經過的路徑長度h(x),即從根節點,穿過中間的節點,最後到達葉子節點,所走過的邊的數量(path length)。最後,將h(x)帶入公式,其中E(.)表示計算期望,c(n)表示當樣本數量為n時,路徑長度的平均值,從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質:

1)如果分數s越接近1,則該樣本是異常值的可能性越高;

2)如果分數s越接近0,則該樣本是正常值的可能性越高;

RCF演算法與IF演算法思想上是比較類似的,前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素,RCF演算法考慮了該因素,並且在數據樣本采樣策略上作出了一些改進,使得異常值檢測相對IF演算法變得更加准確和高效,並能更好地應用於流式數據檢測。

IF演算法

RCF演算法

上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值,對於後一個較大的突變異常值,IF演算法和RCF演算法都檢測了出來,但對於前一個較小的突變異常值,IF演算法沒有檢測出來,而RCF演算法依然檢測了出來,這意味著RCF有更好的異常值檢測性能。

異常值檢測應用實踐

理論還需結合實踐,下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例,對異常值檢測的實際應用場景予以介紹:

從上圖中可以看出該應用的日活存在著一些顯著的異常值(比如紅色圓圈部分),這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。

基於3σ法則(基於統計)

RCF演算法(基於模型)

從圖中可以看出,對於較大的突變異常值,3σ法則和RCF演算法都能較好地檢測出來, 但對於較小的突變異常值,RCF演算法則要表現得更好。

總結

上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看,異常值檢測演算法多種多樣 ,每一種都有自己的優缺點和適用范圍,很難直接判斷哪一種異常檢測演算法是最佳的, 具體在實戰中,我們需要根據自身業務的特點,比如對計算量的要求、對異常值的容忍度等,選擇合適的異常值檢測演算法。

接下來,個推也會結合自身實踐,在大數據異常檢測方面不斷深耕,繼續優化演算法模型在不同業務場景中的性能,持續為開發者們分享前沿的理念與最新的實踐方案。

❸ 異常檢測(Anomaly Detection)

異常檢測(Anomaly Detection)是機器學習演算法的一個常見應用。它主要用於非監督學習,但又類似一些監督學習問題。

異常檢測常用在對網站異常用戶的檢測;還有在工程上一些零件,設備異常的檢查;還有機房異常機器的監控等等

假設有數據集 ,當又有一個新的測試樣本 ;
想要知道這個新樣本是否是異常的;
首先對x的分布概率建模p(x) ,用來說明這個例子不是異常的概率;
然後定一個閾值 ,當 時說明是異常的。

當出現在高概率分布的區域時,說明該例子時正常的;當出現在低概率的區域時,說明是異常的。

高斯分布又被稱之為正態分布,曲線呈鍾型,兩頭低,中間高,左右對稱因其曲線呈鍾形,因此人們又經常稱之為鍾形曲線

假設x是一個實數隨機變數,如果它的概率分布為高斯分布,定義幾個變數:
=平均值
=標准差
=方差
那麼x的概率分布可以用公式來表示:

其平均值 決定了其位置,其標准差 決定了分布的幅度

完整的高斯分布的概率公式為:

當參數平均值 和標准差 變化時:

關於平均值和方差的求解:

在一個異常檢測的例子中,有m個訓練樣本,每個樣本的特徵值數量有n個,那麼某個樣本的分布概率模型p(x)就可以用樣本的每個特徵值的概率分布來計算:

上面的式子可以用更簡潔的方式來表達

總計一下,異常檢測的過程:

如何評估一個異常檢測演算法,以及如何開發一個關於異常檢測的應用:

首先,在獲取到的一堆數據中,取一大部分正常的(可能包含少部分異常)的數據用於訓練集來訓練分布概率公式p(x)。

然後,在交叉驗證和測試集中使用包含正常和一定比例異常的數據,來通過查准率和召回率,以及F值公式來評價一個演算法。

舉個例子

假設有:

下面分割一下訓練集,交叉驗證集和測試集:

在訓練集上訓練出概率分布函數p(x)
在交叉驗證集上,預測y:

下面通過和真實標簽的比較,可以計算出 查准率(Precision)和召回率(Recall),然後通過F值公式來得到一個數值。

總結一下,我們將正常的數據分成60:20:20,分別給訓練集,交叉驗證集,測試集,然後將異常的數據分成兩半,交叉驗證集和測試集各一半。
我們可以通過改變不同的閾值 從而得到不同的評信檔價系數來選取一個最佳的閾值。
當得到的評價系數不佳時,也可以通過改變特徵值的種類和數量來獲取理想的評價系數

在使用異常檢測時,對性能影響最大的因素是特徵值的選擇。

首先要對特徵向量使用高斯分布來建模,通常情況下,我們得到的原始數據並沒有呈現高斯分布,例如這種:

有幾種方法可以實現:

通過上述辦法,可以將數據轉換成高斯分布的形式。

異常檢測有點類似監督學習中的二元分類問題。
我們的目標是使得p(x)對於正常的數據來說好坦中是大的,而對於異常的數據來說是很小的,而在異常檢測中一個常見的問題是最終我們的到的p(x)對於正常和異常的都很大。
在這種情況下需要觀察一下交叉驗證集中的異常示例,嘗試找出能更好區分數據的新特性。

例子

例如,有一個關於機房機器的樣本示例,開始收集的樣本示例中包含的特徵值有關於cpu負載和網路流量的。

cpu負載和網路流量是呈線性關系的,當網路流量變大時,cpu也會相應增大。

現在有一個異常的示例是網路流量不大,cpu確負載很大。假如在只有這兩個特徵值的情況下運行異常檢測演算法得出的p(x),可能就效果不佳。這時可以添加一個特徵值,是流量和cpu的比例關系,這樣就約束來上述的異常示例,通過這三個特徵值得到的異常檢測演算法可能就會好一點。

異常檢測一般用於:
樣友山本中 的數量非常少(0-50個),而 的非常多。這樣由於樣本數量的過少,達不到良好的訓練效果,而在異常檢測中確能夠表現良好。
還有就是導致 的情況非常多,且有不可預見性。

監督學習一般用於:
樣本中 和 的數量都非常多。這樣就有足夠的樣本數量去訓練演算法。

多元高斯分布是異常檢測的一種推廣,它可能會檢測到更多的異常。

在原始高斯分布中,模型p(x)的搭建是通過分別計算 來完成的,而多元高斯分布則是一步到位,直接計算出模型:

PS: 是一個協方差矩陣。

通過改變 和 可以得到不同的多元高斯分布圖:

原始高斯分布模型,它的多個特徵值之間的關系是軸對齊的(axis-aligned),兩個或多個高斯分布之間沒有相關性。
而多元高斯分布能夠自動捕獲x的不同特徵之間的相關性。因此它在圖像上會現實橢圓或有斜率的橢圓。

在平常的使用中,一般是使用原始高斯分布模型的,因為它的計算成本比較低。
在多元高斯分布中,因為要計算多個特徵值之間的相關性,導致計算會慢很多,而且當特徵值很多是,協方差矩陣就會很大,計算它的逆矩陣就會花費很多時間。

要保證樣本數量m大於特徵值數量n,否則協方差矩陣會不可逆;
根據經驗法則,當 時,多元高斯分布會表現良好。

在原始高斯分布模型中可以手動添加相關性高的特徵值之間的關系,可以避免了使用多元高斯分布,減小計算成本。

❹ 如何理解異常入侵檢測技術


入侵檢測是用於檢測任何損害或企圖損害系統的機密性、完整性或可用性等行為的一種網路安全技術。它通過監視受保護系統的狀態和活動,採用異常檢測或誤用檢測的方式,發現非授權的或惡意的系統及網路行為,為防範入侵行為提供有效的手段。入侵檢測系統(IDS)是由硬體和軟體組成,用來檢測系統或網路以發現可能的入侵或攻擊的系統。IDS通過實時的檢測,檢查特定的攻擊模式、系統配置、系統漏洞、存在缺陷的程序版本以及系統或用戶的行為模式,監控與安全有關的活動。



入侵檢測提供了用於發現入侵攻擊與合法用戶濫用特權的一種方法,它所基於的重要的前提是:非法行為和合法行為是可區分的,也就是說,可以通過提取行為的模式特徵來分析判斷該行為的性質。一個基本的入侵檢測系統需要解決兩個問題:
一是如何充分並可靠地提取描述行為特徵的數據;
二是如何根據特徵數據,高效並准確地判斷行為的性質。
入侵檢測系統主要包括三個基本模塊:數據採集與預處理、數據分析檢測和事件響應。系統體系結構如下圖所示。

數據採集與預處理。該模塊主要負責從網路或系統環境中採集數據,並作簡單的預處理,使其便於檢測模塊分析,然後直接傳送給檢測模塊。入侵檢測系統的好壞很大程度上依賴於收集信息的可靠性和正確性。數據源的選擇取決於所要檢測的內容。
數據分析檢測。該模塊主要負責對採集的數據進行數據分析,確定是否有入侵行為發生。主要有誤用檢測和異常檢測兩種方法。
事件響應。該模塊主要負責針對分析結果實施響應操作,採取必要和適當的措施,以阻止進一步的入侵行為或恢復受損害的系統。


異常入侵檢測的主要前提條件是入侵性活動作為異常活動的子集。理想狀況是異常活動集同入侵性活動集相等。在這種情況下,若能檢測所有的異常活動,就能檢測所有的入侵性活動。可是,入侵性活動集並不總是與異常活動集相符合。活動存在四種可能性:



異常入侵檢測要解決的問題就是構造異常活動集並從中發現入侵性活動子集。異常入侵檢測方法依賴於異常模型的建立,不同模型就構成不同的檢測方法。異常入侵檢測通過觀測到的一組測量值偏離度來預測用戶行為的變化,並作出決策判斷。異常入侵檢測技術的特點是對於未知的入侵行為的檢測非常有效,但是由於系統需要實時地建立和更新正常行為特徵輪廓,因而會消耗更多的系統資源。

❺ 入侵檢測系統的檢測方法

在異常入侵檢測系統中常常採用以下幾種檢測方法: 基於貝葉斯推理檢測法:是通過在任何給定的時刻,測量變數值,推理判斷系統是否發生入侵事件。 基於特徵選擇檢測法:指從一組度量中挑選出能檢測入侵的度量,用它來對入侵行為進行預測或分類。 基於貝葉斯網路檢測法:用圖形方式表示隨機變數之間的關系。通過指定的與鄰接節點相關一個小的概率集來計算隨機變數的聯接概率分布。按給定全部節點組合,所有根節點的先驗概率和非根節點概率構成這個集。貝葉斯網路是一個有向圖,弧表示父、子結點之間的依賴關系。當隨機變數的值變為已知時,就允許將它吸收為證據,為其他的剩餘隨機變數條件值判斷提供計算框架。
基於模式預測的檢測法:事件序列不是隨機發生的而是遵循某種可辨別的模式是基於模式預測的異常檢測法的假設條件,其特點是事件序列及相互聯系被考慮到了,只關心少數相關安全事件是該檢測法的最大優點。 基於統計的異常檢測法:是根據用戶對象的活動為每個用戶都建立一個特徵輪廓表,通過對當前特徵與以前已經建立的特徵進行比較,來判斷當前行為的異常性。用戶特徵輪廓表要根據審計記錄情況不斷更新,其保護去多衡量指標,這些指標值要根據經驗值或一段時間內的統計而得到。 基於機器學習檢測法:是根據離散數據臨時序列學習獲得網路、系統和個體的行為特徵,並提出了一個實例學習法IBL,IBL是基於相似度,該方法通過新的序列相似度計算將原始數據(如離散事件流和無序的記錄)轉化成可度量的空間。然後,應用IBL學習技術和一種新的基於序列的分類方法,發現異常類型事件,從而檢測入侵行為。其中,成員分類的概率由閾值的選取來決定。
數據挖掘檢測法:數據挖掘的目的是要從海量的數據中提取出有用的數據信息。網路中會有大量的審計記錄存在,審計記錄大多都是以文件形式存放的。如果靠手工方法來發現記錄中的異常現象是遠遠不夠的,所以將數據挖掘技術應用於入侵檢測中,可以從審計數據中提取有用的知識,然後用這些知識區檢測異常入侵和已知的入侵。採用的方法有KDD演算法,其優點是善於處理大量數據的能力與數據關聯分析的能力,但是實時性較差。
基於應用模式的異常檢測法:該方法是根據服務請求類型、服務請求長度、服務請求包大小分布計算網路服務的異常值。通過實時計算的異常值和所訓練的閾值比較,從而發現異常行為。
基於文本分類的異常檢測法:該方法是將系統產生的進程調用集合轉換為「文檔」。利用K鄰聚類文本分類演算法,計算文檔的相似性。 誤用入侵檢測系統中常用的檢測方法有: 模式匹配法:是常常被用於入侵檢測技術中。它是通過把收集到的信息與網路入侵和系統誤用模式資料庫中的已知信息進行比較,從而對違背安全策略的行為進行發現。模式匹配法可以顯著地減少系統負擔,有較高的檢測率和准確率。 專家系統法:這個方法的思想是把安全專家的知識表示成規則知識庫,再用推理演算法檢測入侵。主要是針對有特徵的入侵行為。 基於狀態轉移分析的檢測法:該方法的基本思想是將攻擊看成一個連續的、分步驟的並且各個步驟之間有一定的關聯的過程。在網路中發生入侵時及時阻斷入侵行為,防止可能還會進一步發生的類似攻擊行為。在狀態轉移分析方法中,一個滲透過程可以看作是由攻擊者做出的一系列的行為而導致系統從某個初始狀態變為最終某個被危害的狀態。

閱讀全文

與網路異常攻擊檢測演算法相關的資料

熱點內容
網路共享中心沒有網卡 瀏覽:511
電腦無法檢測到網路代理 瀏覽:1363
筆記本電腦一天會用多少流量 瀏覽:526
蘋果電腦整機轉移新機 瀏覽:1367
突然無法連接工作網路 瀏覽:1009
聯通網路怎麼設置才好 瀏覽:1211
小區網路電腦怎麼連接路由器 瀏覽:983
p1108列印機網路共享 瀏覽:1201
怎麼調節台式電腦護眼 瀏覽:646
深圳天虹蘋果電腦 瀏覽:885
網路總是異常斷開 瀏覽:601
中級配置台式電腦 瀏覽:942
中國網路安全的戰士 瀏覽:621
同志網站在哪裡 瀏覽:1402
版觀看完整完結免費手機在線 瀏覽:1448
怎樣切換默認數據網路設置 瀏覽:1098
肯德基無線網無法訪問網路 瀏覽:1273
光纖貓怎麼連接不上網路 瀏覽:1422
神武3手游網路連接 瀏覽:954
局網列印機網路共享 瀏覽:990