導航:首頁 > 異常信息 > 網路異常檢測方法研究

網路異常檢測方法研究

發布時間:2023-04-06 21:26:24

『壹』 什麼是異常檢測方法,有什麼優缺點

首先給系統對象(如用戶、文件、目錄和設備等)創建一個輪並統計描述、統計正常使用時的一些測量屬性(如訪問次數、操作失敗次數和延時等)。測量屬性的平均值將被用來與網路、系統的行為進行比較,任何觀察值在正常值范圍之外時,就認為有入侵發生。
其優點是可檢信桐激測到未知的入侵和更為復雜的入侵,缺點是誤報、漏報率高滑襪,且不適應用戶正常行為的突然改變。

『貳』 入侵檢測系統的檢測方法

在異常入侵檢測系統中常常採用以下幾種檢測方法: 基於貝葉斯推理檢測法:是通過在任何給定的時刻,測量變數值,推理判斷系統是否發生入侵事件。 基於特徵選擇檢測法:指從一組度量中挑選出能檢測入侵的度量,用它來對入侵行為進行預測或分類。 基於貝葉斯網路檢測法:用圖形方式表示隨機變數之間的關系。通過指定的與鄰接節點相關一個小的概率集來計算隨機變數的聯接概率分布。按給定全部節點組合,所有根節點的先驗概率和非根節點概率構成這個集。貝葉斯網路是一個有向圖,弧表示父、子結點之間的依賴關系。當隨機變數的值變為已知時,就允許將它吸收為證據,為其他的剩餘隨機變數條件值判斷提供計算框架。
基於模式預測的檢測法:事件序列不是隨機發生的而是遵循某種可辨別的模式是基於模式預測的異常檢測法的假設條件,其特點是事件序列及相互聯系被考慮到了,只關心少數相關安全事件是該檢測法的最大優點。 基於統計的異常檢測法:是根據用戶對象的活動為每個用戶都建立一個特徵輪廓表,通過對當前特徵與以前已經建立的特徵進行比較,來判斷當前行為的異常性。用戶特徵輪廓表要根據審計記錄情況不斷更新,其保護去多衡量指標,這些指標值要根據經驗值或一段時間內的統計而得到。 基於機器學習檢測法:是根據離散數據臨時序列學習獲得網路、系統和個體的行為特徵,並提出了一個實例學習法IBL,IBL是基於相似度,該方法通過新的序列相似度計算將原始數據(如離散事件流和無序的記錄)轉化成可度量的空間。然後,應用IBL學習技術和一種新的基於序列的分類方法,發現異常類型事件,從而檢測入侵行為。其中,成員分類的概率由閾值的選取來決定。
數據挖掘檢測法:數據挖掘的目的是要從海量的數據中提取出有用的數據信息。網路中會有大量的審計記錄存在,審計記錄大多都是以文件形式存放的。如果靠手工方法來發現記錄中的異常現象是遠遠不夠的,所以將數據挖掘技術應用於入侵檢測中,可以從審計數據中提取有用的知識,然後用這些知識區檢測異常入侵和已知的入侵。採用的方法有KDD演算法,其優點是善於處理大量數據的能力與數據關聯分析的能力,但是實時性較差。
基於應用模式的異常檢測法:該方法是根據服務請求類型、服務請求長度、服務請求包大小分布計算網路服務的異常值。通過實時計算的異常值和所訓練的閾值比較,從而發現異常行為。
基於文本分類的異常檢測法:該方法是將系統產生的進程調用集合轉換為「文檔」。利用K鄰聚類文本分類演算法,計算文檔的相似性。 誤用入侵檢測系統中常用的檢測方法有: 模式匹配法:是常常被用於入侵檢測技術中。它是通過把收集到的信息與網路入侵和系統誤用模式資料庫中的已知信息進行比較,從而對違背安全策略的行為進行發現。模式匹配法可以顯著地減少系統負擔,有較高的檢測率和准確率。 專家系統法:這個方法的思想是把安全專家的知識表示成規則知識庫,再用推理演算法檢測入侵。主要是針對有特徵的入侵行為。 基於狀態轉移分析的檢測法:該方法的基本思想是將攻擊看成一個連續的、分步驟的並且各個步驟之間有一定的關聯的過程。在網路中發生入侵時及時阻斷入侵行為,防止可能還會進一步發生的類似攻擊行為。在狀態轉移分析方法中,一個滲透過程可以看作是由攻擊者做出的一系列的行為而導致系統從某個初始狀態變為最終某個被危害的狀態。

『叄』 對於入侵檢測,統計異常檢測方法和特徵選擇異常檢測方法有什麼區別

統計異常檢測的方法用的是特徵輪廓的異常值加權,而特徵選擇異常檢測方法用的是特徵空間構成入侵的子集來判斷是否入侵。

這里ai表示與度量Mi的相關權重。一般而言,變數M1,M2…Mi 不是相互獨立的,需要更復雜的函數處理其相關性。異常性測量值僅僅是數字,沒有明確的理論依據支持這種處理方式。例如,使用多個獨立的異常性變數作為結合的依據,概率計算在理論上是正確的。但是,異常性測量和貝葉斯概率計算之間的關系並不是很清晰的。常見的幾種測量類型通常包括:



統計異常檢測方法的優點是所應用的技術方法在統計學中已經得到很好的研究。例如,位於標准方差兩側的數據可認為是異常的。但統計入侵檢測系統有以下幾點不足:



特徵選擇異常檢測方法

特徵選擇異常檢測方法是通過從一組度量中挑選能檢測出入侵的度量構成子集來准確地預測或分類已檢測到的入侵。判斷符合實際的度量是復雜的,因為合適地選擇度量子集依賴於檢測到的入侵類型,一個度量集對所有的各種各樣的入侵類型不可能是足夠的。預先確定特定的度量來檢測入侵可能會錯過單獨的特別的環境下的入侵。最理想的檢測入侵度量集必須動態地決策判斷以獲得最好的效果。假設與入侵潛在相關的度量有n 個,則這n個度量構成的子集數是2^n 個 。由於搜索空間同度量數是指數關系,所以窮盡搜索最理想的度量子集的開銷不是很有效的。Maccabe提出遺傳方法來搜索整個度量子空間以尋找正確的度量子集。其方法是使用學習分類器方法生成遺傳交叉運算元和基因突變運算元,除去降低預測入侵的度量子集,而採用遺傳運算元產生更強的度量子集取代。這種方法採用與較高的預測度量子集相結合,允許搜索的空間大小比其它的啟發式搜索技術更有效。

『肆』 win10連不上網,顯示無internet怎辦

計算機無法連接WLAN熱點,計算機無法訪問互聯網。問題原因:微軟Windows 10 系統隨機硬體地址功能異常。WLAN熱點本身出問題了,其他設備也連接不上此WLAN。網路系統的某些參數可能被軟體沖突、病毒等原因篡改。計算機無線網卡驅動丟失或者安裝了非官方驅動。解決方案:請按照下列方法依次排查:方法一:卸載第三方管家軟體,關閉WLAN隨機硬體地址。卸載第三方管家軟體,例如騰訊管家、360管家、金山殺毒等。關閉WLAN隨機硬體地址,具體操作如下:搜索框輸入「WLAN」,打開 「WLAN設置」,進入WLAN設置界面。找到隨機硬體地址開關,關閉開關即可。不接通電源,開機情況下長按開機鍵15s,然後再開機。方法二:通過手機或其他設備連接網路查看是否可以正常上網。如果網路正常,請重啟計算機並重新連接網路。如果網路異常,請重啟網路再排查。方法三:系統升級後網路系統的某些參數可能被軟體沖突、病毒等原因篡改,可以通過以下步驟將參數重置,重置網路前請記住網路密碼:在任務欄搜索框中搜索「cmd」。右鍵點擊「命令提示符」選擇「以管理員身份運行」。在彈出的命令提示符對話框中輸入「netsh winsock reset」後點擊 Enter。重啟計算機後嘗試重新連接網路。方法四:按照以下步驟檢查計算機網卡驅動:滑鼠右鍵點擊 Windows 圖標。點擊「設備管理器」。選擇「網路適配器」展開。查看 Intel Wireless 設備是否存在。若不存在,長按電源鍵 10 秒強制關機再開機嘗試。若存在且存在黃色感嘆號,請重新升級網卡驅動後重啟再嘗試。升級網卡驅動的方式有兩種:1.通過官網安裝最新的網卡驅動 2.通過電腦管家安裝最新的網卡驅動。可以使用有線或者USB共享網路確認是否可以上網,例如:手機端進入網路共享,勾選USB共享網路,使用USB連接手機和計算機,確保網路已連接。備註:AMD平台計算機的WLAN驅動為Realtek 8822CE Wireless LAN 802.11ac PCI-E NIC,MateBook E 2019 的網路適配器顯示的網卡驅動為Qualcomm(R)wi-fi B/G/N/AC(2X2)SVc。方法五:卸載WiFi驅動後,通過其他方式連接網路,電腦管家重新安裝,安裝後重啟計算機。方法六:若以上方法無法解決,請您備份好數據,在開機時不斷點按或者長按F10重置系統,或攜帶購機憑證前往華為客戶服務中心進行檢測。

『伍』 誰知道網路異常是什麼意思,怎麼辦

網路異常就是網路出現故障了,連接不上了,解決方法如下:
1、檢查所有線路,看看是否有不小心弄掉的,如果有接上,保證所有的供電線路和信號輸送線路都接通。

2、打電話給運營商,查看你的賬號是否正常,如果不正常那麼果斷把問題交給運營商。

3、如果你手機能連接你的無線WiFi電腦不能,那麼果斷重啟電腦,有時候你的電腦設置會被一些垃圾軟體修改,導致無法上網。

4、能上qq,網頁無法打開,這種問題當然不是網路的問題,在瀏覽器工具欄設置下Internet選項,將連接里的區域網設置為自動檢測,將無線網路屬性設置為自動獲取。

5、如果有多餘的Modem,換個測試下,看能否上網,如果可以那就是Modem有問題,可以嘗試下,重啟Modem,看是否能回復,如果不能就更換。

6、Modem能夠單機上網,接上路由器不行那麼重新設置路由器或者重啟路由器,如果不行,那可能就是路由器的問題了

7、重啟電腦或者是重新打開瀏覽器

『陸』 「宏觀網路流量」的定義是什麼有哪些異常檢測方法

一種互聯網宏觀流量異常檢測方法(2007-11-7 10:37) 摘要:網路流量異常指網路中流量不規則地顯著變化。網路短暫擁塞、分布式拒絕服務攻擊、大范圍掃描等本地事件或者網路路由異常等全局事件都能夠引起網路的異常。網路異常的檢測和分析對於網路安全應急響應部門非常重要,但是宏觀流量異常檢測需要從大量高維的富含雜訊的數據中提取和解釋異常模式,因此變得很困難。文章提出一種分析網路異常的通用方法,該方法運用主成分分析手段將高維空間劃分為對應正常和異常網路行為的子空間,並將流量向量影射在正常子空間中,使用基於距離的度量來檢測宏觀網路流量異常事件。公共互聯網正在社會生活的各個領域發揮著越來越重要的作用,與此同時,由互聯網的開放性和應用系統的復雜性所帶來的安全風險也隨之增多。2006年,國家計算機網路應急技術處理協調中心(CNCERT/CC)共接收26 476件非掃描類網路安全事件報告,與2005年相比增加2倍,超過2003—2005年3年的總和。2006年,CNCERT/CC利用部署的863-917網路安全監測平台,抽樣監測發現中國大陸地區約4.5萬個IP地址的主機被植入木馬,與2005年同期相比增加1倍;約有1千多萬個IP地址的主機被植入僵屍程序,被境外約1.6萬個主機進行控制。黑客利用木馬、僵屍網路等技術操縱數萬甚至上百萬台被入侵的計算機,釋放惡意代碼、發送垃圾郵件,並實施分布式拒絕服務攻擊,這對包括骨幹網在內的整個互聯網網路帶來嚴重的威脅。由數萬台機器同時發起的分布式拒絕服務攻擊能夠在短時間內耗盡城域網甚至骨幹網的帶寬,從而造成局部的互聯網崩潰。由於政府、金融、證券、能源、海關等重要信息系統的諸多業務依賴互聯網開展,互聯網骨幹網路的崩潰不僅會帶來巨額的商業損失,還會嚴重威脅國家安全。據不完全統計,2001年7月19日爆發的紅色代碼蠕蟲病毒造成的損失估計超過20億美元;2001年9月18日爆發的Nimda蠕蟲病毒造成的經濟損失超過26億美元;2003年1月爆發的SQL Slammer蠕蟲病毒造成經濟損失超過12億美元。針對目前互聯網宏觀網路安全需求,本文研究並提出一種宏觀網路流量異常檢測方法,能夠在骨幹網路層面對流量異常進行分析,在大規模安全事件爆發時進行快速有效的監測,從而為網路防禦贏得時間。1 網路流量異常檢測研究現狀在骨幹網路層面進行宏觀網路流量異常檢測時,巨大流量的實時處理和未知攻擊的檢測給傳統入侵檢測技術帶來了很大的挑戰。在流量異常檢測方面,國內外的學術機構和企業不斷探討並提出了多種檢測方法[1]。經典的流量監測方法是基於閾值基線的檢測方法,這種方法通過對歷史數據的分析建立正常的參考基線范圍,一旦超出此范圍就判斷為異常,它的特點是簡單、計算復雜度小,適用於實時檢測,然而它作為一種實用的檢測手段時,需要結合網路流量的特點進行修正和改進。另一種常用的方法是基於統計的檢測,如一般似然比(GLR)檢測方法[2],它考慮兩個相鄰的時間窗口以及由這兩個窗口構成的合並窗口,每個窗口都用自回歸模型擬合,並計算各窗口序列殘差的聯合似然比,然後與某個預先設定的閾值T 進行比較,當超過閾值T 時,則窗口邊界被認定為異常點。這種檢測方法對於流量的突變檢測比較有效,但是由於它的閾值不是自動選取,並且當異常持續長度超過窗口長度時,該方法將出現部分失效。統計學模型在流量異常檢測中具有廣闊的研究前景,不同的統計學建模方式能夠產生不同的檢測方法。最近有許多學者研究了基於變換域進行流量異常檢測的方法[3],基於變換域的方法通常將時域的流量信號變換到頻域或者小波域,然後依據變換後的空間特徵進行異常監測。P. Barford等人[4]將小波分析理論運用於流量異常檢測,並給出了基於其理論的4類異常結果,但該方法的計算過於復雜,不適於在高速骨幹網上進行實時檢測。Lakhina等人[5-6]利用主成分分析方法(PCA),將源和目標之間的數據流高維結構空間進行PCA分解,歸結到3個主成分上,以3個新的復合變數來重構網路流的特徵,並以此發展出一套檢測方法。此外還有一些其他的監測方法[7],例如基於Markov模型的網路狀態轉換概率檢測方法,將每種類型的事件定義為系統狀態,通過過程轉換模型來描述所預測的正常的網路特徵,當到來的流量特徵與期望特徵產生偏差時進行報警。又如LERAD檢測[8],它是基於網路安全特徵的檢測,這種方法通過學習得到流量屬性之間的正常的關聯規則,然後建立正常的規則集,在實際檢測中對流量進行規則匹配,對違反規則的流量進行告警。這種方法能夠對發生異常的地址進行定位,並對異常的程度進行量化。但學習需要大量正常模式下的純凈數據,這在實際的網路中並不容易實現。隨著宏觀網路異常流量檢測成為網路安全的技術熱點,一些廠商紛紛推出了電信級的異常流量檢測產品,如Arbor公司的Peakflow、GenieNRM公司的GenieNTG 2100、NetScout公司的nGenius等。國外一些研究機構在政府資助下,開始部署宏觀網路異常監測的項目,並取得了較好的成績,如美國研究機構CERT建立了SiLK和AirCERT項目,澳大利亞啟動了NMAC流量監測系統等項目。針對宏觀網路異常流量監測的需要,CNCERT/CC部署運行863-917網路安全監測平台,採用分布式的架構,能夠通過多點對骨幹網路實現流量監測,通過分析協議、地址、埠、包長、流量、時序等信息,達到對中國互聯網宏觀運行狀態的監測。本文基於863-917網路安全監測平台獲取流量信息,構成監測矩陣,矩陣的行向量由源地址數量、目的地址數量、傳輸控制協議(TCP)位元組數、TCP報文數、數據報協議(UDP)位元組數、UDP報文數、其他流量位元組數、其他流量報文書、WEB流量位元組數、WEB流量報文數、TOP10個源IP占總位元組比例、TOP10個源IP占總報文數比例、TOP10個目的IP占總位元組數比例、TOP10個目的IP占總報文數比例14個部分組成,系統每5分鍾產生一個行向量,觀測窗口為6小時,從而形成了一個72×14的數量矩陣。由於在這14個觀測向量之間存在著一定的相關性,這使得利用較少的變數反映原來變數的信息成為可能。本項目採用了主成份分析法對觀測數據進行數據降維和特徵提取,下面對該演算法的工作原理進行介紹。 2 主成分分析技術主成分分析是一種坐標變換的方法,將給定數據集的點映射到一個新軸上面,這些新軸稱為主成分。主成分在代數學上是p 個隨機變數X 1, X 2……X p 的一系列的線性組合,在幾何學中這些現線性組合代表選取一個新的坐標系,它是以X 1,X 2……X p 為坐標軸的原來坐標系旋轉得到。新坐標軸代表數據變異性最大的方向,並且提供對於協方差結果的一個較為簡單但更精練的刻畫。主成分只是依賴於X 1,X 2……X p 的協方差矩陣,它是通過一組變數的幾個線性組合來解釋這些變數的協方差結構,通常用於高維數據的解釋和數據的壓縮。通常p 個成分能夠完全地再現全系統的變異性,但是大部分的變異性常常能夠只用少量k 個主成分就能夠說明,在這種情況下,這k 個主成分中所包含的信息和那p 個原變數做包含的幾乎一樣多,於是可以使用k 個主成分來代替原來p 個初始的變數,並且由對p 個變數的n 次測量結果所組成的原始數據集合,能夠被壓縮成為對於k 個主成分的n 次測量結果進行分析。運用主成分分析的方法常常能夠揭示出一些先前不曾預料的關系,因而能夠對於數據給出一些不同尋常的解釋。當使用零均值的數據進行處理時,每一個主成分指向了變化最大的方向。主軸以變化量的大小為序,一個主成分捕捉到在一個軸向上最大變化的方向,另一個主成分捕捉到在正交方向上的另一個變化。設隨機向量X '=[X 1,X 1……X p ]有協方差矩陣∑,其特徵值λ1≥λ2……λp≥0。考慮線性組合:Y1 =a 1 'X =a 11X 1+a 12X 2……a 1pX pY2 =a 2 'X =a 21X 1+a 22X 2……a 2pX p……Yp =a p'X =a p 1X 1+a p 2X 2……a p pX p從而得到:Var (Yi )=a i' ∑a i ,(i =1,2……p )Cov (Yi ,Yk )=a i '∑a k ,(i ,k =1,2……p )主成分就是那些不相關的Y 的線性組合,它們能夠使得方差盡可能大。第一主成分是有最大方差的線性組合,也即它能夠使得Var (Yi )=a i' ∑a i 最大化。我們只是關注有單位長度的系數向量,因此我們定義:第1主成分=線性組合a 1'X,在a1'a 1=1時,它能夠使得Var (a1 'X )最大;第2主成分=線性組合a 2 'X,在a2'a 2=1和Cov(a 1 'X,a 2 'X )=0時,它能夠使得Var (a 2 'X )最大;第i 個主成分=線性組合a i'X,在a1'a 1=1和Cov(a i'X,a k'X )=0(k<i )時,它能夠使得Var (a i'X )最大。由此可知主成分都是不相關的,它們的方差等於協方差矩陣的特徵值。總方差中屬於第k個主成分(被第k個主成分所解釋)的比例為:如果總方差相當大的部分歸屬於第1個、第2個或者前幾個成分,而p較大的時候,那麼前幾個主成分就能夠取代原來的p個變數來對於原有的數據矩陣進行解釋,而且信息損失不多。在本項目中,對於一個包含14個特徵的矩陣進行主成分分析可知,特徵的最大變化基本上能夠被2到3個主成分捕捉到,這種主成分變化曲線的陡降特性構成了劃分正常子空間和異常子空間的基礎。3 異常檢測演算法本項目的異常流量檢測過程分為3個階段:建模階段、檢測階段和評估階段。下面對每個階段的演算法進行詳細的介紹。3.1 建模階段本項目採用滑動時間窗口建模,將當前時刻前的72個樣本作為建模空間,這72個樣本的數據構成了一個數據矩陣X。在試驗中,矩陣的行向量由14個元素構成。主成份分為正常主成分和異常主成份,它們分別代表了網路中的正常流量和異常流量,二者的區別主要體現在變化趨勢上。正常主成份隨時間的變化較為平緩,呈現出明顯的周期性;異常主成份隨時間的變化幅度較大,呈現出較強的突發性。根據采樣數據,判斷正常主成分的演算法是:依據主成分和采樣數據計算出第一主成分變數,求第一主成分變數這72個數值的均值μ1和方差σ1,找出第一主成分變數中偏離均值最大的元素,判斷其偏離均值的程度是否超過了3σ1。如果第一主成分變數的最大偏離超過了閾值,取第一主成份為正常主成分,其他主成份均為異常主成分,取主成份轉換矩陣U =[L 1];如果最大偏離未超過閾值,轉入判斷第下一主成分,最後取得U =[L 1……L i -1]。第一主成份具有較強的周期性,隨後的主成份的周期性漸弱,突發性漸強,這也體現了網路中正常流量和異常流量的差別。在得到主成份轉換矩陣U後,針對每一個采樣數據Sk =xk 1,xk 2……xk p ),將其主成份投影到p維空間進行重建,重建後的向量為:Tk =UU T (Sk -X )T計算該采樣數據重建前與重建後向量之間的歐氏距離,稱之為殘差:dk =||Sk -Tk ||根據采樣數據,我們分別計算72次采樣數據的殘差,然後求其均值μd 和標准差σd 。轉換矩陣U、殘差均值μd 、殘差標准差σd 是我們構造的網路流量模型,也是進行流量異常檢測的前提條件。 3.2 檢測階段在通過建模得到網路流量模型後,對於新的觀測向量N,(n 1,n 2……np ),採用與建模階段類似的分析方法,將其中心化:Nd =N -X然後將中心化後的向量投影到p維空間重建,並計算殘差:Td =UUTNdTd =||Nd -Td ||如果該觀測值正常,則重建前與重建後向量應該非常相似,計算出的殘差d 應該很小;如果觀測值代表的流量與建模時發生了明顯變化,則計算出的殘差值會較大。本項目利用如下演算法對殘差進行量化:3.3 評估階段評估階段的任務是根據當前觀測向量的量化值q (d ),判斷網路流量是否正常。根據經驗,如果|q (d )|<5,網路基本正常;如果5≤|q (d )|<10,網路輕度異常;如果10≤|q (d )|,網路重度異常。4 實驗結果分析利用863-917網路安全監測平台,對北京電信骨幹網流量進行持續監測,我們提取6小時的觀測數據,由於篇幅所限,我們給出圖1—4的時間序列曲線。由圖1—4可知單獨利用任何一個曲線都難以判定異常,而利用本演算法可以容易地標定異常發生的時間。本演算法計算結果如圖5所示,異常發生時間在圖5中標出。我們利用863-917平台的回溯功能對於異常發生時間進行進一步的分析,發現在標出的異常時刻,一個大規模的僵屍網路對網外的3個IP地址發起了大規模的拒絕服務攻擊。 5 結束語本文提出一種基於主成分分析的方法來劃分子空間,分析和發現網路中的異常事件。本方法能夠准確快速地標定異常發生的時間點,從而幫助網路安全應急響應部門及時發現宏觀網路的流量異常狀況,為迅速解決網路異常贏得時間。試驗表明,我們採用的14個特徵構成的分析矩陣具有較好的識別准確率和分析效率,我們接下來將會繼續尋找更具有代表性的特徵來構成數據矩陣,並研究更好的特徵矩陣構造方法來進一步提高此方法的識別率,並將本方法推廣到短時分析中。6 參考文獻[1] XU K, ZHANG Z L, BHATTACHARYYA S. Profiling Internet backbone traffic: Behavior models and applications [C]// Proceedings of ACM SIGCOMM, Aug 22- 25, 2005, Philadelphia, PA, USA. New York, NY,USA:ACM,2005:169-180.[2] HAWKINS D M, QQUI P, KANG C W. The change point model for statistical process control [J]. Journal of Quality Technology,2003, 35(4).[3] THOTTAN M, JI C. Anomaly detection in IP networks [J]. IEEE Transactions on Signal Processing, 2003, 51 )8):2191-2204.[4] BARFORD P, KLINE J, PLONKA D, et al. A signal analysis of network traffic anomalies [C]//Proceedings of ACM SIGCOMM Intemet Measurement Workshop (IMW 2002), Nov 6-8, 2002, Marseilles, France. New York, NY,USA:ACM, 2002:71-82.[5] LAKHINA A, CROVELLA M, DIOT C. Mining anomalies using traffic feature distributions [C]// Proceedings of SIGCOMM, Aug 22-25, 2005, Philadelphia, PA, USA. New York, NY,USA: ACM, 2005: 217-228.[6] LAKHINA A, CROVELLA M, DIOT C. Diagnosing network-wide traffic anomalies [C]// Proceedings of ACM SIGCOMM, Aug 30 - Sep 3, 2004, Portland, OR, USA. New York, NY,USA: ACM, 2004: 219-230.[7] SCHWELLER R, GUPTA A, PARSONS E, et al. Reversible sketches for efficient and accurate change detection over network data streams [C]//Proceedings of ACM SIGCOMM Internet Measurement Conference (IMC』04), Oct 25-27, 2004, Taormina, Sicily, Italy. New York, NY,USA: ACM, 2004:207-212.[8] MAHONEY M V, CHAN P K. Learning rules for anomaly detection of hostile network traffic [C]// Proceedings of International Conference on Data Mining (ICDM』03), Nov 19-22, Melbourne, FL, USA . Los Alamitos, CA, USA: IEEE Computer Society, 2003:601-604.

『柒』 大數據科學家需要掌握的幾種異常值檢測方法

引言

異常值檢測與告警一直是工業界非常關注的問題,自動准確地檢測出系統的異常值,不僅可以節約大量的人力物力,還能盡早發現系統的異常情況,挽回不必要的損失。個推也非常重視大數據中的異常值檢測,例如在運維部門的流量管理業務中,個推很早便展開了對異常值檢測的實踐,也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。

1、異常值檢測研究背景

2、異常值檢測方法原理

3、異常值檢測應用實踐

異常值檢測研究背景

異常值,故名思議就是不同於正常值的值。 在數學上,可以用離群點來表述,這樣便可以將異常值檢測問題轉化為數學問題來求解。

異常值檢測在很多場景都有廣泛的應用,比如:

1、流量監測

互聯網上某些伺服器的訪問量,可能具有周期性或趨勢性:一般情況下都是相對平穩的,但是當受到某些黑客攻擊後,其訪問量可能發生顯著的變化,及早發現這些異常變化對企業而言有著很好的預防告警作用。

2、金融風控

正常賬戶中,用戶的轉賬行為一般屬於低頻事件,但在某些金融詐騙案中,一些嫌犯的賬戶就可能會出現高頻的轉賬行為,異常檢測系統如果能發現這些異常行為,及時採取相關措施,則會規避不少損失。

3、機器故障檢測

一個運行中的流水線,可能會裝有不同的感測器用來監測運行中的機器,這些感測器數據就反應了機器運行的狀態,這些實時的監測數據具有數據量大、維度廣的特點,用人工盯著看的話成本會非常高,高效的自動異常檢測演算法將能很好地解決這一問題。

異常值檢測方法原理

本文主要將異常值檢測方法分為兩大類:一類是基於統計的異常值檢測,另一類是基於模型的異常值檢測。

基於統計的方法  

基於模型的方法

1、基於統計的異常值檢測方法

常見的基於統計的異常值檢測方法有以下2種,一種是基於3σ法則,一種是基於箱體圖。

3σ法則  

箱體圖

3σ法則是指在樣本服從正態分布時,一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本,其中μ為樣本均值,σ為樣本標准差。在實際使用中,我們雖然不知道樣本的真實分布,但只要真實分布與正太分布相差不是太大,該經驗法則在大部分情況下便是適用的。

箱體圖也是一種比較常見的異常值檢測方法,一般取所有樣本的25%分位點Q1和75%分位點Q3,兩者之間的距離為箱體的長度IQR,可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。

基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點,但缺點也非常明顯,例如需要大量的樣本數據進行統計,難以對高維樣本數據進行異常值檢測等。

2、基於模型的異常值檢測

通常可將異常值檢測看作是一個二分類問題,即將所有樣本分為正常樣本和異常樣本,但這和常規的二分類問題又有所區別,常規的二分類一般要求正負樣本是均衡的,如果正負樣本不均勻的話,訓練結果往往會不太好。但在異常值檢測問題中,往往面臨著正(正常值)負(異常值)樣本不均勻的問題,異常值通常比正常值要少得多,因此需要對常規的二分類模型做一些改進。

基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測,比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來,它用一個超球面替代了超平面,超球面以內的值為正常值,超球面以外的值為異常值。

經典的SVM  

1

 基於模型的方法

2

基於神經網路的自編碼器結構如下圖所示。

自編碼器(AE)

將正常樣本用於模型訓練,輸入與輸出之間的損失函數可採用常見的均方誤差,因此檢測過程中,當正常樣本輸入時,均方誤差會較小,當異常樣本輸入時,均方誤差會較大,設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點,就是對於訓練樣本比較相近的正常樣本判別較好,但若正常樣本與訓練樣本相差較大,則可能會導致模型誤判。

無監督模型的異常值檢測是異常值檢測中的主流方法,因為異常值的標注成本往往較高,另外異常值的產生往往無法預料,因此有些異常值可能在過去的樣本中根本沒有出現過, 這將導致某些異常樣本無法標注,這也是有監督模型的局限性所在。 較為常見的無監督異常值檢測模型有密度聚類(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一種典型的無監督聚類方法,對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多,本文不作詳細介紹。

IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出,是一種非常高效的異常值檢測方法,該方法不需要對樣本數據做任何先驗的假設,只需基於這樣一個事實——異常值只是少數,並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣,IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree,簡稱iTree。iTree樹和決策樹不太一樣,其構建過程也比決策樹簡單,因為其中就是一個完全隨機的過程。

假設數據集有N條數據,構建一顆iTree時,從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來,作為這顆樹的訓練樣本。

在樣本中,隨機選一個特徵,並在這個特徵的所有值范圍內(最小值與最大值之間)隨機選一個值,對樣本進行二叉劃分,將樣本中小於該值的劃分到節點的左邊,大於等於該值的劃分到節點的右邊。

這樣得到了一個分裂條件和左、右兩邊的數據集,然後分別在左右兩邊的數據集上重復上面的過程,直至達到終止條件。 終止條件有兩個,一個是數據本身不可再分(只包括一個樣本,或者全部樣本相同),另外一個是樹的高度達到log2(n)。 不同於決策樹,iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行,但出於效率考慮,演算法一般要求高度達到log2(n)深度即可。

把所有的iTree樹構建好了,就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走,直到達到葉子節點,並記錄這過程中經過的路徑長度h(x),即從根節點,穿過中間的節點,最後到達葉子節點,所走過的邊的數量(path length)。最後,將h(x)帶入公式,其中E(.)表示計算期望,c(n)表示當樣本數量為n時,路徑長度的平均值,從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質:

1)如果分數s越接近1,則該樣本是異常值的可能性越高;

2)如果分數s越接近0,則該樣本是正常值的可能性越高;

RCF演算法與IF演算法思想上是比較類似的,前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素,RCF演算法考慮了該因素,並且在數據樣本采樣策略上作出了一些改進,使得異常值檢測相對IF演算法變得更加准確和高效,並能更好地應用於流式數據檢測。

IF演算法

RCF演算法

上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值,對於後一個較大的突變異常值,IF演算法和RCF演算法都檢測了出來,但對於前一個較小的突變異常值,IF演算法沒有檢測出來,而RCF演算法依然檢測了出來,這意味著RCF有更好的異常值檢測性能。

異常值檢測應用實踐

理論還需結合實踐,下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例,對異常值檢測的實際應用場景予以介紹:

從上圖中可以看出該應用的日活存在著一些顯著的異常值(比如紅色圓圈部分),這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。

基於3σ法則(基於統計)

RCF演算法(基於模型)

從圖中可以看出,對於較大的突變異常值,3σ法則和RCF演算法都能較好地檢測出來, 但對於較小的突變異常值,RCF演算法則要表現得更好。

總結

上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看,異常值檢測演算法多種多樣 ,每一種都有自己的優缺點和適用范圍,很難直接判斷哪一種異常檢測演算法是最佳的, 具體在實戰中,我們需要根據自身業務的特點,比如對計算量的要求、對異常值的容忍度等,選擇合適的異常值檢測演算法。

接下來,個推也會結合自身實踐,在大數據異常檢測方面不斷深耕,繼續優化演算法模型在不同業務場景中的性能,持續為開發者們分享前沿的理念與最新的實踐方案。

『捌』 基於網路的入侵檢測數據集研究

摘要:標記數據集是訓練和評估基於異常的網路入侵檢測系統所必需的。本文對基於網路的入侵檢測數據集進行了重點的文獻綜述,並對基於包和流的底層網路數據進行了詳細的描述。本文確定了15種不同的屬性來評估單個數據集對特定評估場景的適用性。這些屬性涵蓋了廣泛的標准,並被分為五類,例如用於提供結構化搜索的數據量或記錄環境。在此基礎上,對現有數據集進行了全面的綜述。本綜述還強調了每個數據集的特性。此外,本工作還簡要介紹了基於網路的數據的其他來源,如流量生成器和數據存儲庫。最後,我們討論了我們的觀察結果,並為使用和創建基於網路的數據集提供了一些建議。

一、引言

信息技術安全是一個重要的問題,入侵和內部威脅檢測的研究已經投入了大量的精力。在處理與安全相關的數據[1]-[4]、檢測僵屍網路[5]-[8]、埠掃描[9]-[12]、蠻力攻擊[13]-[16]等方面已經發表了許多貢獻。所有這些工作的共同點是,它們都需要具有代表性的基於網路的數據集。此外,基準數據集是評價和比較不同網路入侵檢測系統(NIDS)質量的良好基礎。給定一個帶標簽的數據集,其中每個數據點都被分配給類normal或attack,可以使用檢測到的攻擊數量或虛警數量作為評估標准。

不幸的是,沒有太多具有代表性的數據集。Sommer和Paxson[17](2010)認為,缺乏具有代表性的公共可用數據集是基於異常的入侵檢測面臨的最大挑戰之一。Malowidzki等人(2015)和Haider等人(2017)也發表了類似的聲明。然而,社區正在解決這個問題,因為在過去幾年中已經發布了幾個入侵檢測數據集。其中,澳大利亞網路安全中心發布了UNSW-NB15[20]數據集,科堡大學發布了CIDDS-001[21]數據集,新布倫瑞克大學發布了CICIDS 2017[22]數據集。未來還會有更多數據集發布。然而,現有數據集沒有全面的索引,很難跟蹤最新的發展。

本文對現有的基於網路的入侵檢測數據集進行了文獻綜述。首先,對底層數據進行更詳細的研究。基於網路的數據以基於包或基於流的格式出現。基於流的數據只包含關於網路連接的元信息,而基於包的數據也包含有效負載。然後,對文獻中常用的評價網路數據集質量的不同數據集屬性進行了分析和分組。本調查的主要貢獻是對基於網路的數據集進行了詳盡的文獻綜述,並分析了哪些數據集滿足哪些數據集屬性。本文重點研究了數據集內的攻擊場景,並強調了數據集之間的關系。此外,除了典型的數據集之外,我們還簡要介紹了流量生成器和數據存儲庫作為網路流量的進一步來源,並提供了一些觀察和建議。作為主要的好處,本調查建立了一組數據集屬性,作為比較可用數據集和確定合適數據集的基礎,給出了特定的評估場景。此外,我們創建了一個網站1,其中引用了所有提到的數據集和數據存儲庫,我們打算更新這個網站。

本文的其餘部分組織如下。下一節將討論相關工作。第三部分詳細分析了基於包和流的網路數據。第四部分討論了文獻中常用來評價入侵檢測數據集質量的典型數據集屬性。第五節概述了現有的數據集,並根據第四節確定的屬性檢查每個數據集。第六節簡要介紹了基於網路的數據的進一步來源。在本文件以摘要結束之前,第七節討論了意見和建議。

二、相關工作

本節回顧基於網路的入侵檢測數據集的相關工作。需要注意的是,本文沒有考慮基於主機的入侵檢測數據集,比如ADFA[23]。讀者可以在Glass-Vanderlan等人的[24]中找到關於基於主機的入侵檢測數據的詳細信息。

Malowidzki等人[18]將缺失的數據集作為入侵檢測的一個重要問題進行了討論,對好的數據集提出了要求,並列出了可用的數據集。Koch等人的[25]提供了入侵檢測數據集的另一個概述,分析了13個數據源,並根據8個數據集屬性對它們進行了評估。Nehinbe[26]為IDS和入侵防禦系統(IPS)提供了關鍵的數據集評估。作者研究了來自不同來源的七個數據集(如DARPA數據集和DEFCON數據集),強調了它們的局限性,並提出了創建更真實數據集的方法。由於在過去的四年中發布了許多數據集,我們延續了2011年到2015年[18],[25],[26]的工作,但提供了比我們的前輩更最新和更詳細的概述。

雖然許多數據集論文(如CIDDS-002[27]、ISCX[28]或UGR ' 16[29])只對一些入侵檢測數據集做了一個簡要的概述,但Sharafaldin等人對[30]提供了更詳盡的綜述。他們的主要貢獻是一個生成入侵檢測數據集的新框架。Sharafaldin等人還分析了11個可用的入侵檢測數據集,並根據11個數據集屬性對其進行了評估。與早期的數據集論文相比,我們的工作重點是對現有的基於網路的數據集提供一個中立的概述,而不是提供一個額外的數據集。

最近的其他論文也涉及到基於網路的數據集,但主要關注的焦點有所不同。Bhuyan等人對網路異常檢測進行了全面的綜述。作者描述了現有的9個數據集,並分析了現有異常檢測方法所使用的數據集。類似地,Nisioti等人的[32]關注於用於入侵檢測的無監督方法,並簡要參考了現有的12個基於網路的數據集。Yavanoglu和Aydos[33]分析比較了最常用的入侵檢測數據集。然而,他們的審查只包含七個數據集,包括其他數據集,如HTTP CSIC 2010[34]。總而言之,這些作品往往有不同的研究目標,而且只是接觸對於基於網路的數據集,則略有不同。

三、數據

通常,網路流量以基於包或基於流的格式捕獲。在包級捕獲網路流量通常是通過鏡像網路設備上的埠來完成的。基於包的數據包含完整的有效載荷信息。基於流的數據更加聚合,通常只包含來自網路連接的元數據。Wheelus等人通過一個說明性的比較強調了這一區別:「捕獲包檢查和NetFlow之間的一個很好的區別示例是徒步穿越森林,而不是乘坐熱氣球飛越森林」[35]。在這項工作中,引入了第三類(其他數據)。另一個類別沒有標准格式,並且因每個數據集而異。

A基於分組的數據

基於包的數據通常以pcap格式捕獲,並包含有效負載。可用的元數據取決於使用的網路和傳輸協議。有許多不同的協議,其中最重要的是TCP、UDP、ICMP和IP。圖1顯示出了不同的報頭。TCP是一種可靠的傳輸協議,它包含諸如序列號、確認號、TCP標志或校驗和值之類的元數據。UDP是一種無連接的傳輸協議,它的頭比TCP小,TCP只包含四個欄位,即源埠、目標埠、長度和校驗和。與TCP和UDP相比,ICMP是一個包含狀態消息的支持協議,因此更小。通常,在報頭旁邊還有一個可用的IP報頭傳輸協議的。IP報頭提供源和目標IP地址等信息,如圖1所示。

b .流為基礎數據

基於流的網路數據是一種更簡潔的格式,主要包含關於網路連接的元信息。基於流的數據將所有在時間窗口內共享某些屬性的包聚合到一個流中,通常不包含任何有效負載。默認的五元組定義,即,源IP地址、源埠、目標IP地址、目標埠和傳輸協議[37],是一種廣泛使用的基於流的數據屬性匹配標准。流可以以單向或雙向格式出現。單向格式將主機A到主機B之間共享上述屬性的所有包聚合到一個流中。從主機B到主機A的所有數據包聚合為另一個單向流。相反,一個雙向流總結了主機a和主機B之間的所有數據包,不管它們的方向如何。

典型的基於流的格式有NetFlow[38]、IPFIX[37]、sFlow[39]和OpenFlow[40]。表I概述了基於流的網路流量中的典型屬性。根據特定的流格式和流導出器,可以提取額外的屬性,如每秒位元組數、每個包的位元組數、第一個包的TCP標志,甚至有效負載的計算熵。

此外,可以使用nfmp2或YAF3之類的工具將基於包的數據轉換為基於流的數據(但不是相反)。讀者如果對流導出器之間的差異感興趣,可以在[41]中找到更多細節,並分析不同的流導出器如何影響僵屍網路分類。

c .其他數據

這個類別包括所有既不是純基於包也不是基於流的數據集。這類的一個例子可能是基於流的數據集,這些數據集已經用來自基於包的數據或基於主機的日誌文件的附加信息進行了豐富。KDD CUP 1999[42]數據集就是這一類別的一個著名代表。每個數據點都有基於網路的屬性,比如傳輸的源位元組數或TCP標志的數量,但是也有基於主機的屬性,比如失敗登錄的數量。因此,這個類別的每個數據集都有自己的一組屬性。由於每個數據集都必須單獨分析,所以我們不對可用屬性做任何一般性的說明。

四、數據集屬性

為了能夠比較不同的入侵檢測數據集,並幫助研究人員為其特定的評估場景找到合適的數據集,有必要將公共屬性定義為評估基礎。因此,我們研究了文獻中用於評估入侵檢測數據集的典型數據集屬性。一般概念FAIR[43]定義了學術數據應該遵循的四個原則實現,即可查找性、可訪問性、互操作性和可重用性。在與這個一般概念相一致的同時,本工作使用更詳細的數據集屬性來提供基於網路的入侵檢測數據集的重點比較。通常,不同的數據集強調不同的數據集屬性。例如,UGR ' 16數據集[29]強調較長的記錄時間來捕捉周期效應,而ISCX數據集[28]強調精確的標記。由於我們的目標是研究基於網路的入侵檢測數據集的更一般的屬性,所以我們試圖統一和概括文獻中使用的屬性,而不是採用所有的屬性。例如,一些方法評估特定類型攻擊的存在,比如DoS(拒絕服務)或瀏覽器注入。某些攻擊類型的存在可能是評估這些特定攻擊類型的檢測方法的相關屬性,但是對於其他方法沒有意義。因此,我們使用一般的屬性攻擊來描述惡意網路流量的存在(見表三)。第五節提供了關於數據集中不同攻擊類型的更多細節,並討論了其他特定的屬性。

我們不像Haider et al.[19]或Sharafaldin et al.[30]那樣開發評估評分,因為我們不想判斷不同數據集屬性的重要性。我們認為,某些屬性的重要性取決於具體的評估場景,不應該在調查中普遍判斷。相反,應該讓讀者能夠找到適合他們需要的數據集。因此,我們將下面討論的數據集屬性分為五類,以支持系統搜索。圖2總結了所有數據集屬性及其值范圍。

A.一般資料

以下四個屬性反映了關於數據集的一般信息,即創建年份、可用性、正常網路流量和惡意網路流量的存在。

1)創建年份:由於網路流量受概念漂移影響,每天都會出現新的攻擊場景,因此入侵檢測數據集的年齡起著重要作用。此屬性描述創建年份。與數據集發布的年份相比,捕獲數據集的底層網路流量的年份與數據集的最新程度更相關。

2)公共可用性:入侵檢測數據集應公開可用,作為比較不同入侵檢測方法的依據。此外,數據集的質量只能由第三方檢查,如果它們是公開可用的。表III包含此屬性的三個不同特徵:yes, o.r. (on request)和no。On request是指在向作者或負責人發送消息後授予訪問許可權。

3)正常用戶行為:此屬性指示數據集中正常用戶行為的可用性,並接受yes或no值。值yes表示數據集中存在正常的用戶行為,但它不聲明是否存在攻擊。一般來說,入侵檢測系統的質量主要取決於其攻擊檢測率和誤報率。此外,正常用戶行為的存在對於評估IDS是必不可少的。然而,缺少正常的用戶行為並不會使數據集不可用,而是表明它必須與其他數據集或真實世界的網路流量合並。這樣的合並步驟通常稱為覆蓋或鹽化[44]、[45]。

4)攻擊流量:IDS數據集應包含各種攻擊場景。此屬性指示數據集中是否存在惡意網路通信,如果數據集中至少包含一次攻擊,則該屬性的值為yes。表四提供了關於特定攻擊類型的附加信息。

B.數據的性質

此類別的屬性描述數據集的格式和元信息的存在。

1)元數據:第三方很難對基於包和基於流的網路流量進行內容相關的解釋。因此,數據集應該與元數據一起提供關於網路結構、IP地址、攻擊場景等的附加信息。此屬性指示附加元數據的存在。

2)格式:網路入侵檢測數據集以不同的格式出現。我們大致將它們分為三種格式(參見第三節)。(1)基於分組的網路流量(例如pcap)包含帶負載的網路流量。(2)基於流的網路流量(如NetFlow)只包含關於網路連接的元信息。(3)其他類型的數據集可能包含基於流的跟蹤,帶有來自基於包的數據甚至來自基於主機的日誌文件的附加屬性。

3)匿名性:由於隱私原因,入侵檢測數據集往往不會公開,或者只能以匿名的形式提供。此屬性指示數據是否匿名以及哪些屬性受到影響。表III中的none值表示沒有執行匿名化。值yes (IPs)表示IP地址要麼被匿名化,要麼從數據集中刪除。同樣,值yes (payload)表示有效負載信息被匿名化,要麼從基於分組的網路流量中刪除。

C.數據量

此類別中的屬性根據容量和持續時間描述數據集。

1) Count:屬性Count將數據集的大小描述為包含的包/流/點的數量或物理大小(GB)。

2)持續時間:數據集應涵蓋較長時間內的網路流量,以捕捉周期性影響(如白天與夜晚或工作日與周末)[29]。屬性持續時間提供每個數據集的記錄時間。

D.記錄環境

此類別中的屬性描述捕獲數據集的網路環境和條件。

1)流量類型:描述網路流量的三種可能來源:真實的、模擬的或合成的。Real是指在有效的網路環境中捕獲真實的網路流量。模擬的意思是在測試床或模擬網路環境中捕獲真實的網路流量。綜合意味著網路流量是綜合創建的(例如,通過一個流量生成器),而不是由一個真實的(或虛擬的)網路設備捕獲的。

2)網路類型:中小企業的網路環境與互聯網服務提供商(ISP)有著本質的區別。因此,不同的環境需要不同的安全系統,評估數據集應該適應特定的環境。此屬性描述創建相應數據集的基礎網路環境。

3)完整網路:該屬性採用Sharafaldin等人的[30],表示數據集是否包含來自具有多個主機、路由器等網路環境的完整網路流量。如果數據集只包含來自單個主機(例如蜜罐)的網路流量,或者只包含來自網路流量的一些協議(例如獨佔SSH流量),則將值設置為no。

E.評價

以下特性與使用基於網路的數據集評估入侵檢測方法有關。更精確地說,這些屬性表示預定義子集的可用性、數據集的平衡和標簽的存在。

1)預定義的分割:有時,即使在相同的數據集上對不同的IDS進行評估,也很難對它們的質量進行比較。在這種情況下,必須明確是否使用相同的子集進行訓練和評估。如果數據集附帶用於訓練和評估的預定義子集,則此屬性提供信息。

2)均衡:基於異常的入侵檢測通常採用機器學習和數據挖掘方法。在這些方法的訓練階段(例如,決策樹分類器),數據集應該與其類標簽相平衡。因此,數據集應該包含來自每個類(normal和attack)的相同數量的數據點。然而,真實世界的網路流量是不平衡的,它包含了比攻擊流量更多的正常用戶行為。此屬性指示數據集是否與其類標簽相平衡。在使用數據挖掘演算法之前,應該通過適當的預處理來平衡不平衡的數據集。他和Garcia[46]提供了從不平衡數據中學習的良好概述。

3)帶標簽:帶標簽的數據集是訓練監督方法、評估監督和非監督入侵檢測方法所必需的。此屬性表示是否標記了數據集。如果至少有兩個類normal和attack,則將此屬性設置為yes。此屬性中可能的值為:yes, yes with BG。(yes with background)、yes (IDS)、indirect和no。是的,有背景意味著有第三類背景。屬於類背景的包、流或數據點可以是正常的,也可以是攻擊。Yes (IDS)是指使用某種入侵檢測系統來創建數據集的標簽。數據集的一些標簽可能是錯誤的,因為IDS可能不完美。間接意味著數據集沒有顯式標簽,但是可以通過其他日誌文件自己創建標簽。

五、數據集

我們認為,在搜索足夠的基於網路的數據集時,標記的數據集屬性和格式是最決定性的屬性。入侵檢測方法(監督的或非監督的)決定是否需要標簽以及需要哪種類型的數據(包、流或其他)。因此,表II提供了關於這兩個屬性的所有研究的基於網路的數據集的分類。表三給出了關於第四節數據集屬性的基於網路的入侵檢測數據集的更詳細概述。在搜索基於網路的數據集時,特定攻擊場景的存在是一個重要方面。因此,表III顯示了攻擊流量的存在,而表IV提供了數據集中特定攻擊的詳細信息。關於數據集的論文描述了不同抽象級別的攻擊。例如,Vasudevan等人在他們的數據集中(SSENET- 2011)將攻擊流量描述為:「Nmap、Nessus、Angry IP scanner、Port scanner、Metaploit、Backtrack OS、LOIC等是參與者用來發起攻擊的一些攻擊工具。」相比之下,Ring等人在他們的CIDDS-002數據集[27]中指定了執行埠掃描的數量和不同類型。因此,攻擊描述的抽象級別可能在表四中有所不同。對所有攻擊類型的詳細描述超出了本文的范圍。相反,我們推薦感興趣的讀者閱讀Anwar等人的開放存取論文「從入侵檢測到入侵響應系統:基礎、需求和未來方向」。此外,一些數據集是其他數據集的修改或組合。圖3顯示了幾個已知數據集之間的相互關系。

基於網路的數據集,按字母順序排列

AWID [49]。AWID是一個公共可用的數據集4,主要針對802.11網路。它的創建者使用了一個小型網路環境(11個客戶機),並以基於包的格式捕獲了WLAN流量。在一個小時內,捕獲了3700萬個數據包。從每個數據包中提取156個屬性。惡意網路流量是通過對802.11網路執行16次特定攻擊而產生的。AWID被標記為一個訓練子集和一個測試子集。

Booters[50]。Booters是罪犯提供的分布式拒絕服務(DDoS)攻擊。Santanna et. al[50]發布了一個數據集,其中包括九種不同的啟動程序攻擊的跟蹤,這些攻擊針對網路環境中的一個空路由IP地址執行。結果數據集以基於分組的格式記錄,包含超過250GB的網路流量。單獨的包沒有標記,但是不同的Booters攻擊被分成不同的文件。數據集是公開可用的,但是出於隱私原因,booters的名稱是匿名的。

僵屍網路[5]。僵屍網路數據集是現有數據集的組合,可以公開使用。僵屍網路的創建者使用了[44]的疊加方法來組合ISOT[57]、ISCX 2012[28]和CTU-13[3]數據集的(部分)。結果數據集包含各種僵屍網路和正常用戶行為。僵屍網路數據集被劃分為5.3 GB訓練子集和8.5 GB測試子集,都是基於包的格式。

CIC DoS[51]。CIC DoS是加拿大網路安全研究所的一組數據,可以公開使用。作者的意圖是創建一個帶有應用層DoS攻擊的入侵檢測數據集。因此,作者在應用層上執行了8種不同的DoS攻擊。將生成的跟蹤結果與ISCX 2012[28]數據集的無攻擊流量相結合生成正常的用戶行為。生成的數據集是基於分組的格式,包含24小時的網路流量。

CICIDS 2017 [22]。CICIDS 2017是在模擬環境中歷時5天創建的,包含基於分組和雙向流格式的網路流量。對於每個流,作者提取了80多個屬性,並提供了關於IP地址和攻擊的附加元數據。正常的用戶行為是通過腳本執行的。數據集包含了多種攻擊類型,比如SSH蠻力、heartbleed、僵屍網路、DoS、DDoS、web和滲透攻擊。CICIDS 2017是公開可用的。

cidds - 001 [21]。CIDDS-001數據集是在2017年模擬的小型商業環境中捕獲的,包含為期四周的基於單向流的網路流量,並附帶詳細的技術報告和附加信息。該數據集的特點是包含了一個在互聯網上受到攻擊的外部伺服器。與蜜罐不同,來自模擬環境的客戶機也經常使用此伺服器。正常和惡意的用戶行為是通過在GitHub9上公開可用的python腳本執行的。這些腳本允許不斷生成新的數據集,並可用於其他研究。CIDDS-001數據集是公開可用的,包含SSH蠻力、DoS和埠掃描攻擊,以及從野外捕獲的一些攻擊。

cidds - 002 [27]。CIDDS-002是基於CIDDS-001腳本創建的埠掃描數據集。該數據集包含兩個星期的基於單向流的網路流量,位於模擬的小型業務環境中。CIDDS-002包含正常的用戶行為以及廣泛的不同埠掃描攻擊。技術報告提供了關於外部IP地址匿名化的數據集的附加元信息。數據集是公開可用的。

閱讀全文

與網路異常檢測方法研究相關的資料

熱點內容
網路共享中心沒有網卡 瀏覽:515
電腦無法檢測到網路代理 瀏覽:1366
筆記本電腦一天會用多少流量 瀏覽:556
蘋果電腦整機轉移新機 瀏覽:1371
突然無法連接工作網路 瀏覽:1040
聯通網路怎麼設置才好 瀏覽:1215
小區網路電腦怎麼連接路由器 瀏覽:1015
p1108列印機網路共享 瀏覽:1205
怎麼調節台式電腦護眼 瀏覽:676
深圳天虹蘋果電腦 瀏覽:915
網路總是異常斷開 瀏覽:605
中級配置台式電腦 瀏覽:972
中國網路安全的戰士 瀏覽:626
同志網站在哪裡 瀏覽:1408
版觀看完整完結免費手機在線 瀏覽:1451
怎樣切換默認數據網路設置 瀏覽:1102
肯德基無線網無法訪問網路 瀏覽:1278
光纖貓怎麼連接不上網路 瀏覽:1454
神武3手游網路連接 瀏覽:959
局網列印機網路共享 瀏覽:994