A. 神经网络异常检测方法和机器学习异常检测方法对于入侵检测的应用
神经网络异常检测方法神经网络入侵检测方法是通过训练神经网络连续的信息单元来进行异常检测,信息单元指的是命令。网络的输入为用户当前输入的命令和已执行过的W个命令;用户执行过的命令被神经网络用来预测用户输入的下一个命令,如下图。若神经网络被训练成预测用户输入命令的序列集合,则神经网络就构成用户的轮郭框架。当用这个神经网络预测不出某用户正确的后继命令,即在某种程度上表明了用户行为与其轮廓框架的偏离,这时表明有异常事件发生,以此就能作异常入侵检测。
上面式子用来分类识别,检测异常序列。实验结果表明这种方法检测迅速,而且误警率底。然而,此方法对于用户动态行为变化以及单独异常检测还有待改善。复杂的相似度量和先验知识加入到检测中可能会提高系统的准确性,但需要做进一步工作。
B. 浅析局域网网络入侵检测技术
说实话这种东西要写也写得出来,不过把时间浪费在论文上和上课睡觉是一个道理,复制的吧。
随着无线技术和网络技术发展无线网络正成为市场热点其中无线局域网(WLAN)正广泛应用于大学校园、各类展览会、公司内部乃至家用网络等场合但是由于无线网络特殊性攻击者无须物理连线就可以对其进行攻击使WLAN问题显得尤为突出对于大部分公司来说WLAN通常置于后黑客旦攻破就能以此为跳板攻击其他内部网络使防火墙形同虚设和此同时由于WLAN国家标准WAPI无限期推迟IEEE 802.11网络仍将为市场主角但因其认证机制存在极大安全隐患无疑让WLAN安全状况雪上加霜因此采用入侵检测系统(IDS——rusion detection system)来加强WLAN安全性将是种很好选择尽管入侵检测技术在有线网络中已得到认可但由于无线网络特殊性将其应用于WLAN尚需进步研究本文通过分析WLAN特点提出可以分别用于有接入点模式WLAN和移动自组网模式WLAN两种入侵检测模型架构
上面简单描述了WLAN技术发展及安全现状本文主要介绍入侵检测技术及其应用于WLAN时特殊要点给出两种应用于区别架构WLAN入侵检测模型及其实用价值需要介绍说明是本文研究入侵检测主要针对采用射频传输IEEE802.11a/b/g WLAN对其他类型WLAN同样具有参考意义
1、WLAN概述
1.1 WLAN分类及其国内外发展现状
对于WLAN可以用区别标准进行分类根据采用传播媒质可分为光WLAN和射频WLAN光WLAN采用红外线传输不受其他通信信号干扰不会被穿透墙壁偷听而早发射器功耗非常低;但其覆盖范围小漫射方式覆盖16m仅适用于室内环境最大传输速率只有4 Mbit/s通常不能令用户满意由于光WLAN传送距离和传送速率方面局限现在几乎所有WLAN都采用另种传输信号——射频载波射频载波使用无线电波进行数据传输IEEE 802.11采用2.4GHz频段发送数据通常以两种方式进行信号扩展种是跳频扩频(FHSS)方式另种是直接序列扩频(DSSS)方式最高带宽前者为3 Mbit/s后者为11Mbit/s几乎所有WLAN厂商都采用DSSS作为网络传输技术 根据WLAN布局设计通常分为基础结构模式WLAN和移动自组网模式WLAN两种前者亦称合接入点(AP)模式后者可称无接入点模式分别如图1和图2所示
>
图1 基础结构模式WLAN
>
图2 移动自组网模式WLAN
1.2 WLAN中安全问题 WLAN流行主要是由于它为使用者带来方便然而正是这种便利性引出了有线网络中不存在安全问题比如攻击者无须物理连线就可以连接网络而且任何人都可以利用设备窃听到射频载波传输广播数据包因此着重考虑安全问题主要有:
a)针对IEEE 802.11网络采用有线等效保密(WEP)存在漏洞进行破解攻击
b)恶意媒体访问控制(MAC)地址伪装这种攻击在有线网中同样存在
C)对于含AP模式攻击者只要接入非授权假冒AP就可登录欺骗合法用户
d)攻击者可能对AP进行泛洪攻击使AP拒绝服务这是种后果严重攻击方式此外对移动自组网模式内某个节点进行攻击让它不停地提供服务或进行数据包转发使其能源耗尽而不能继续工作通常称为能源消耗攻击
e)在移动自组网模式局域网内可能存在恶意节点恶意节点存在对网络性能影响很大
2、入侵检测技术及其在WLAN中应用
IDS可分为基于主机入侵检修系统(HIDS)和基于网络入侵检测系统(NIDS)HIDS采用主机上文件(特别是日志文件或主机收发网络数据包)作为数据源HIDS最早出现于20世纪80年代初期当时网络拓扑简单入侵相当少见因此侧重于对攻击事后分析现在HIDS仍然主要通过记录验证只不过自动化程度提高且能做到精确检测和快速响应并融入文件系统保护和监听端口等技术和HIDS区别NIDS采用原始网络数据包作为数据源从中发现入侵迹象它能在不影响使用性能情况下检测入侵事件并对入侵事件进行响应分布式网络IDS则把多个检测探针分布至多个网段最后通过对各探针发回信息进行综合分析来检测入侵这种结构优点是管理起来简单方便单个探针失效不会导致整个系统失效但配置过程复杂基础结构模式入侵检测模型将采用这种分布式网络检测思路方法而对于移动自组网模式内入侵检测模型将采用基于主机入侵检测模型
当前对WLAN入侵检测大都处于试验阶段比如开源入侵检测系统Snort发布Snort-wire-less测试版增加了Wi字段和选项关键字采用规则匹配思路方法进行入侵检测其AP由管理员手工配置因此能很好地识别非授权假冒AP在扩展AP时亦需重新配置但是由于其规则文件无有效规则定义使检测功能有限而且不能很好地检测MAC地址伪装和泛洪拒绝服务攻击2003年下半年IBM提出WLAN入侵检测方案采用无线感应器进行监测该方案需要联入有线网络应用范围有限而且系统成本昂贵要真正市场化、实用化尚需时日此外作为概念模型设计WIDZ系统实现了AP监控和泛洪拒绝服务检测但它没有个较好体系架构存在局限性
在上述基础上我们提出种基于分布式感应器网络检测模型框架对含AP模式WLAN进行保护对于移动自组网模式WLAN则由于网络中主机既要收发本机数据又要转发数据(这些都是加密数据)文献提出了采用异常检测法对表更新异常和其他层活动异常进行检测但只提供了模型没有实现此外我们分析了移动自组网模式中恶意节点对网络性能影响并提出种基于声誉评价机制安全以检测恶意节点并尽量避开恶意节点进行选择其中恶意节点检测思想值得借鉴Snort-wireless可以作为基于主机入侵检测我们以此为基础提出种应用于移动自组网入侵检测基于主机入侵检测模型架构
3、WLAN中入侵检测模型架构
在含AP模式中可以将多个WLAN基本服务集(BSS)扩展成扩展服务集(ESS)甚至可以组成个大型WLAN这种网络需要种分布式检测框架由中心控制台和监测代理组成如图3所示
>
图3 含AP模式分布式入侵检测系统框架
网络管理员中心控制台配置检测代理和浏览检测结果并进行关联分析监测代理作用是监听无线数据包、利用检测引擎进行检测、记录警告信息并将警告信息发送至中心控制台
由此可见监测代理是整个系统核心部分根据网络布线和否监测代理可以采用两种模式:种是使用1张无线网卡再加1张以大网卡无线网卡设置成“杂凑”模式监听所有无线数据包以太网卡则用于和中心通信;另种模式是使用2张无线网卡其中张网卡设置成“杂凑”模式另张则和中心通信
分组捕获完成后将信息送至检测引擎进行检测目前最常用IDS主要采用检测思路方法是特征匹配即把网络包数据进行匹配看是否有预先写在规则中“攻击内容”或特征尽管多数IDS匹配算法没有公开但通常都和着名开源入侵检测系统Snort多模检测算法类似另些IDS还采用异常检测思路方法(如Spade检测引擎等)通常作为种补充方式无线网络传输是加密数据因此该系统需要重点实现部分由非授权AP检测通常发现入侵的后监测代理会记录攻击特征并通过安全通道(采用定强度加密算法加密有线网络通常采用安全套接层(SSL)协议无线网络通常采用无线加密协议(WEP))将告警信息发给中心控制台进行显示和关联分析等并由控制台自动响应(告警和干扰等)或由网络管理员采取相应措施
在移动自组网模式中每个节点既要收发自身数据又要转发其他节点数据而且各个节点传输范围受到限制如果在该网络中存在或加入恶意节点网络性能将受到严重影响恶意节点攻击方式可以分为主动性攻击和自私性攻击主动性攻击是指节点通过发送路由信息、伪造或修改路由信息等方式对网络造成干扰;自私性攻击是指网络中部分节点可能因资源能量和计算能量等缘故不愿承担其他节点转发任务所产生干扰因此对恶意节点检测并在相应路由选择中避开恶意节点也是该类型WLAN需要研究问题
我们检测模型建立在HIDS上甚至可以实现路由协议中部分安全机制如图4所示
>
图4 移动自组网模式中入侵检测架构
当数据包到达主机后如果属于本机数据数据包将被解密在将它递交给上层的前先送至基于主机误用检测引擎进行检测根据检测结果对正常数据包放行对攻击数据包则进行记录并根据响应策略进行响应此外还可以在误用检测模型基础上辅以异常检测引擎根据以往研究成果可以在网络层或应用层上进行也可以将其做入路由协议中以便提高检测速度和检测效率
4、结束语
传统入侵检测系统已不能用于WLAN而WLAN内入侵检测系统研究和实现才刚刚起步本文分析了WLAN特点及其存在安全问题提出了两种入侵检测系统架构可以分别用于基础结构模式WLAN和移动自组网模式WLAN具有实用价值基础结构模式WLAN采用分布式网络入侵检测可用于大型网络;移动自组网中采用基于主机入侵检测系统用于检测异常节点活动和发现恶
C. 简述入侵检测常用的四种方法
入侵检测系统所采用的技术可分为特征检测与异常检测两种。
1、特征检测
特征检测(Signature-based detection) 又称Misuse detection ,这一检测假设入侵者活动可以用一种模式来表示,系统的目标是检测主体活动是否符合这些模式。
它可以将已有的入侵方法检查出来,但对新的入侵方法无能为力。其难点在于如何设计模式既能够表达“入侵”现象又不会将正常的活动包含进来。
2、异常检测
异常检测(Anomaly detection) 的假设是入侵者活动异常于正常主体的活动。根据这一理念建立主体正常活动的“活动简档”,将当前主体的活动状况与“活动简档”相比较,当违反其统计规律时,认为该活动可能是“入侵”行为。
异常检测的难题在于如何建立“活动简档”以及如何设计统计算法,从而不把正常的操作作为“入侵”或忽略真正的“入侵”行为。
(3)如何用均值聚类算网络异常入侵扩展阅读
入侵分类:
1、基于主机
一般主要使用操作系统的审计、跟踪日志作为数据源,某些也会主动与主机系统进行交互以获得不存在于系统日志中的信息以检测入侵。
这种类型的检测系统不需要额外的硬件.对网络流量不敏感,效率高,能准确定位入侵并及时进行反应,但是占用主机资源,依赖于主机的可靠性,所能检测的攻击类型受限。不能检测网络攻击。
2、基于网络
通过被动地监听网络上传输的原始流量,对获取的网络数据进行处理,从中提取有用的信息,再通过与已知攻击特征相匹配或与正常网络行为原型相比较来识别攻击事件。
此类检测系统不依赖操作系统作为检测资源,可应用于不同的操作系统平台;配置简单,不需要任何特殊的审计和登录机制;可检测协议攻击、特定环境的攻击等多种攻击。
但它只能监视经过本网段的活动,无法得到主机系统的实时状态,精确度较差。大部分入侵检测工具都是基于网络的入侵检测系统。
3、分布式
这种入侵检测系统一般为分布式结构,由多个部件组成,在关键主机上采用主机入侵检测,在网络关键节点上采用网络入侵检测,同时分析来自主机系统的审计日志和来自网络的数据流,判断被保护系统是否受到攻击。
D. 简述入侵检测的过程
1.信息收集入侵检测的第一步是信息收集,内容包括网络流量的内容、用户连接活动的状态和行为。
2.信号分析对上述收集到的信息,一般通过三种技术手段进行分析:模式匹配,统计分析和完整性分析。其中前两种方法用于实时的入侵检测,而完整性分析则用于事后分析。
具体的技术形式如下所述:
1).模式匹配
模式匹配就是将收集到的信息与已知的网络入侵和系统误用模式数据库进行比较,从而发现违背安全策略的行为。该过程可以很简单(如通过字符串匹配以寻找一个简单的条目或指令),也可以很复杂(如利用正规的数学表达式来表示安全状态的变化)。一般来讲,一种进攻模式可以用一个过程(如执行一条指令)或一个输出(如获得权限)来表示。该方法的一大优点是只需收集相关的数据集合,显着减少系统负担,且技术已相当成熟。它与病毒防火墙采用的方法一样,检测准确率和效率都相当高。但是,该方法存在的弱点是需要不断的升级以对付不断出现的黑客攻击手法,不能检测到从未出现过的黑客攻击手段。
2).统计分析
分析方法首先给信息对象(如用户、连接、文件、目录和设备等)创建一个统计描述,统计正常使用时的一些测量属性(如访问次数、操作失败次数和延时等)。测量属性的平均值将被用来与网络、系统的行为进行比较,任何观察值在正常偏差之外时,就认为有入侵发生。例如,统计分析可能标识一个不正常行为,因为它发现一个在晚八点至早六点不登录的帐户却在凌晨两点试图登录。其优点是可检测到未知的入侵和更为复杂的入侵,缺点是误报、漏报率高,且不适应用户正常行为的突然改变。具体的统计分析方法如基于专家系统的、基于模型推理的和基于神经网络的分析方法,目前正处于研究热点和迅速发展之中。
3).完整性分析
完整性分析主要关注某个文件或对象是否被更改,包括文件和目录的内容及属性,它在发现被更改的、被特络伊化的应用程序方面特别有效。完整性分析利用强有力的加密机制,称为消息摘要函数(例如MD5),能识别及其微小的变化。其优点是不管模式匹配方法和统计分析方法能否发现入侵,只要是成功的攻击导致了文件或其它对象的任何改变,它都能够发现。缺点是一般以批处理方式实现,不用于实时响应。这种方式主要应用于基于主机的入侵检测系统(HIDS)。
3.实时记录、报警或有限度反击
IDS根本的任务是要对入侵行为做出适当的反应,这些反应包括详细日志记录、实时报警和有限度的反击攻击源。
E. “宏观网络流量”的定义是什么有哪些异常检测方法
一种互联网宏观流量异常检测方法(2007-11-7 10:37) 摘要:网络流量异常指网络中流量不规则地显着变化。网络短暂拥塞、分布式拒绝服务攻击、大范围扫描等本地事件或者网络路由异常等全局事件都能够引起网络的异常。网络异常的检测和分析对于网络安全应急响应部门非常重要,但是宏观流量异常检测需要从大量高维的富含噪声的数据中提取和解释异常模式,因此变得很困难。文章提出一种分析网络异常的通用方法,该方法运用主成分分析手段将高维空间划分为对应正常和异常网络行为的子空间,并将流量向量影射在正常子空间中,使用基于距离的度量来检测宏观网络流量异常事件。公共互联网正在社会生活的各个领域发挥着越来越重要的作用,与此同时,由互联网的开放性和应用系统的复杂性所带来的安全风险也随之增多。2006年,国家计算机网络应急技术处理协调中心(CNCERT/CC)共接收26 476件非扫描类网络安全事件报告,与2005年相比增加2倍,超过2003—2005年3年的总和。2006年,CNCERT/CC利用部署的863-917网络安全监测平台,抽样监测发现中国大陆地区约4.5万个IP地址的主机被植入木马,与2005年同期相比增加1倍;约有1千多万个IP地址的主机被植入僵尸程序,被境外约1.6万个主机进行控制。黑客利用木马、僵尸网络等技术操纵数万甚至上百万台被入侵的计算机,释放恶意代码、发送垃圾邮件,并实施分布式拒绝服务攻击,这对包括骨干网在内的整个互联网网络带来严重的威胁。由数万台机器同时发起的分布式拒绝服务攻击能够在短时间内耗尽城域网甚至骨干网的带宽,从而造成局部的互联网崩溃。由于政府、金融、证券、能源、海关等重要信息系统的诸多业务依赖互联网开展,互联网骨干网络的崩溃不仅会带来巨额的商业损失,还会严重威胁国家安全。据不完全统计,2001年7月19日爆发的红色代码蠕虫病毒造成的损失估计超过20亿美元;2001年9月18日爆发的Nimda蠕虫病毒造成的经济损失超过26亿美元;2003年1月爆发的SQL Slammer蠕虫病毒造成经济损失超过12亿美元。针对目前互联网宏观网络安全需求,本文研究并提出一种宏观网络流量异常检测方法,能够在骨干网络层面对流量异常进行分析,在大规模安全事件爆发时进行快速有效的监测,从而为网络防御赢得时间。1 网络流量异常检测研究现状在骨干网络层面进行宏观网络流量异常检测时,巨大流量的实时处理和未知攻击的检测给传统入侵检测技术带来了很大的挑战。在流量异常检测方面,国内外的学术机构和企业不断探讨并提出了多种检测方法[1]。经典的流量监测方法是基于阈值基线的检测方法,这种方法通过对历史数据的分析建立正常的参考基线范围,一旦超出此范围就判断为异常,它的特点是简单、计算复杂度小,适用于实时检测,然而它作为一种实用的检测手段时,需要结合网络流量的特点进行修正和改进。另一种常用的方法是基于统计的检测,如一般似然比(GLR)检测方法[2],它考虑两个相邻的时间窗口以及由这两个窗口构成的合并窗口,每个窗口都用自回归模型拟合,并计算各窗口序列残差的联合似然比,然后与某个预先设定的阈值T 进行比较,当超过阈值T 时,则窗口边界被认定为异常点。这种检测方法对于流量的突变检测比较有效,但是由于它的阈值不是自动选取,并且当异常持续长度超过窗口长度时,该方法将出现部分失效。统计学模型在流量异常检测中具有广阔的研究前景,不同的统计学建模方式能够产生不同的检测方法。最近有许多学者研究了基于变换域进行流量异常检测的方法[3],基于变换域的方法通常将时域的流量信号变换到频域或者小波域,然后依据变换后的空间特征进行异常监测。P. Barford等人[4]将小波分析理论运用于流量异常检测,并给出了基于其理论的4类异常结果,但该方法的计算过于复杂,不适于在高速骨干网上进行实时检测。Lakhina等人[5-6]利用主成分分析方法(PCA),将源和目标之间的数据流高维结构空间进行PCA分解,归结到3个主成分上,以3个新的复合变量来重构网络流的特征,并以此发展出一套检测方法。此外还有一些其他的监测方法[7],例如基于Markov模型的网络状态转换概率检测方法,将每种类型的事件定义为系统状态,通过过程转换模型来描述所预测的正常的网络特征,当到来的流量特征与期望特征产生偏差时进行报警。又如LERAD检测[8],它是基于网络安全特征的检测,这种方法通过学习得到流量属性之间的正常的关联规则,然后建立正常的规则集,在实际检测中对流量进行规则匹配,对违反规则的流量进行告警。这种方法能够对发生异常的地址进行定位,并对异常的程度进行量化。但学习需要大量正常模式下的纯净数据,这在实际的网络中并不容易实现。随着宏观网络异常流量检测成为网络安全的技术热点,一些厂商纷纷推出了电信级的异常流量检测产品,如Arbor公司的Peakflow、GenieNRM公司的GenieNTG 2100、NetScout公司的nGenius等。国外一些研究机构在政府资助下,开始部署宏观网络异常监测的项目,并取得了较好的成绩,如美国研究机构CERT建立了SiLK和AirCERT项目,澳大利亚启动了NMAC流量监测系统等项目。针对宏观网络异常流量监测的需要,CNCERT/CC部署运行863-917网络安全监测平台,采用分布式的架构,能够通过多点对骨干网络实现流量监测,通过分析协议、地址、端口、包长、流量、时序等信息,达到对中国互联网宏观运行状态的监测。本文基于863-917网络安全监测平台获取流量信息,构成监测矩阵,矩阵的行向量由源地址数量、目的地址数量、传输控制协议(TCP)字节数、TCP报文数、数据报协议(UDP)字节数、UDP报文数、其他流量字节数、其他流量报文书、WEB流量字节数、WEB流量报文数、TOP10个源IP占总字节比例、TOP10个源IP占总报文数比例、TOP10个目的IP占总字节数比例、TOP10个目的IP占总报文数比例14个部分组成,系统每5分钟产生一个行向量,观测窗口为6小时,从而形成了一个72×14的数量矩阵。由于在这14个观测向量之间存在着一定的相关性,这使得利用较少的变量反映原来变量的信息成为可能。本项目采用了主成份分析法对观测数据进行数据降维和特征提取,下面对该算法的工作原理进行介绍。 2 主成分分析技术主成分分析是一种坐标变换的方法,将给定数据集的点映射到一个新轴上面,这些新轴称为主成分。主成分在代数学上是p 个随机变量X 1, X 2……X p 的一系列的线性组合,在几何学中这些现线性组合代表选取一个新的坐标系,它是以X 1,X 2……X p 为坐标轴的原来坐标系旋转得到。新坐标轴代表数据变异性最大的方向,并且提供对于协方差结果的一个较为简单但更精练的刻画。主成分只是依赖于X 1,X 2……X p 的协方差矩阵,它是通过一组变量的几个线性组合来解释这些变量的协方差结构,通常用于高维数据的解释和数据的压缩。通常p 个成分能够完全地再现全系统的变异性,但是大部分的变异性常常能够只用少量k 个主成分就能够说明,在这种情况下,这k 个主成分中所包含的信息和那p 个原变量做包含的几乎一样多,于是可以使用k 个主成分来代替原来p 个初始的变量,并且由对p 个变量的n 次测量结果所组成的原始数据集合,能够被压缩成为对于k 个主成分的n 次测量结果进行分析。运用主成分分析的方法常常能够揭示出一些先前不曾预料的关系,因而能够对于数据给出一些不同寻常的解释。当使用零均值的数据进行处理时,每一个主成分指向了变化最大的方向。主轴以变化量的大小为序,一个主成分捕捉到在一个轴向上最大变化的方向,另一个主成分捕捉到在正交方向上的另一个变化。设随机向量X '=[X 1,X 1……X p ]有协方差矩阵∑,其特征值λ1≥λ2……λp≥0。考虑线性组合:Y1 =a 1 'X =a 11X 1+a 12X 2……a 1pX pY2 =a 2 'X =a 21X 1+a 22X 2……a 2pX p……Yp =a p'X =a p 1X 1+a p 2X 2……a p pX p从而得到:Var (Yi )=a i' ∑a i ,(i =1,2……p )Cov (Yi ,Yk )=a i '∑a k ,(i ,k =1,2……p )主成分就是那些不相关的Y 的线性组合,它们能够使得方差尽可能大。第一主成分是有最大方差的线性组合,也即它能够使得Var (Yi )=a i' ∑a i 最大化。我们只是关注有单位长度的系数向量,因此我们定义:第1主成分=线性组合a 1'X,在a1'a 1=1时,它能够使得Var (a1 'X )最大;第2主成分=线性组合a 2 'X,在a2'a 2=1和Cov(a 1 'X,a 2 'X )=0时,它能够使得Var (a 2 'X )最大;第i 个主成分=线性组合a i'X,在a1'a 1=1和Cov(a i'X,a k'X )=0(k<i )时,它能够使得Var (a i'X )最大。由此可知主成分都是不相关的,它们的方差等于协方差矩阵的特征值。总方差中属于第k个主成分(被第k个主成分所解释)的比例为:如果总方差相当大的部分归属于第1个、第2个或者前几个成分,而p较大的时候,那么前几个主成分就能够取代原来的p个变量来对于原有的数据矩阵进行解释,而且信息损失不多。在本项目中,对于一个包含14个特征的矩阵进行主成分分析可知,特征的最大变化基本上能够被2到3个主成分捕捉到,这种主成分变化曲线的陡降特性构成了划分正常子空间和异常子空间的基础。3 异常检测算法本项目的异常流量检测过程分为3个阶段:建模阶段、检测阶段和评估阶段。下面对每个阶段的算法进行详细的介绍。3.1 建模阶段本项目采用滑动时间窗口建模,将当前时刻前的72个样本作为建模空间,这72个样本的数据构成了一个数据矩阵X。在试验中,矩阵的行向量由14个元素构成。主成份分为正常主成分和异常主成份,它们分别代表了网络中的正常流量和异常流量,二者的区别主要体现在变化趋势上。正常主成份随时间的变化较为平缓,呈现出明显的周期性;异常主成份随时间的变化幅度较大,呈现出较强的突发性。根据采样数据,判断正常主成分的算法是:依据主成分和采样数据计算出第一主成分变量,求第一主成分变量这72个数值的均值μ1和方差σ1,找出第一主成分变量中偏离均值最大的元素,判断其偏离均值的程度是否超过了3σ1。如果第一主成分变量的最大偏离超过了阈值,取第一主成份为正常主成分,其他主成份均为异常主成分,取主成份转换矩阵U =[L 1];如果最大偏离未超过阈值,转入判断第下一主成分,最后取得U =[L 1……L i -1]。第一主成份具有较强的周期性,随后的主成份的周期性渐弱,突发性渐强,这也体现了网络中正常流量和异常流量的差别。在得到主成份转换矩阵U后,针对每一个采样数据Sk =xk 1,xk 2……xk p ),将其主成份投影到p维空间进行重建,重建后的向量为:Tk =UU T (Sk -X )T计算该采样数据重建前与重建后向量之间的欧氏距离,称之为残差:dk =||Sk -Tk ||根据采样数据,我们分别计算72次采样数据的残差,然后求其均值μd 和标准差σd 。转换矩阵U、残差均值μd 、残差标准差σd 是我们构造的网络流量模型,也是进行流量异常检测的前提条件。 3.2 检测阶段在通过建模得到网络流量模型后,对于新的观测向量N,(n 1,n 2……np ),采用与建模阶段类似的分析方法,将其中心化:Nd =N -X然后将中心化后的向量投影到p维空间重建,并计算残差:Td =UUTNdTd =||Nd -Td ||如果该观测值正常,则重建前与重建后向量应该非常相似,计算出的残差d 应该很小;如果观测值代表的流量与建模时发生了明显变化,则计算出的残差值会较大。本项目利用如下算法对残差进行量化:3.3 评估阶段评估阶段的任务是根据当前观测向量的量化值q (d ),判断网络流量是否正常。根据经验,如果|q (d )|<5,网络基本正常;如果5≤|q (d )|<10,网络轻度异常;如果10≤|q (d )|,网络重度异常。4 实验结果分析利用863-917网络安全监测平台,对北京电信骨干网流量进行持续监测,我们提取6小时的观测数据,由于篇幅所限,我们给出图1—4的时间序列曲线。由图1—4可知单独利用任何一个曲线都难以判定异常,而利用本算法可以容易地标定异常发生的时间。本算法计算结果如图5所示,异常发生时间在图5中标出。我们利用863-917平台的回溯功能对于异常发生时间进行进一步的分析,发现在标出的异常时刻,一个大规模的僵尸网络对网外的3个IP地址发起了大规模的拒绝服务攻击。 5 结束语本文提出一种基于主成分分析的方法来划分子空间,分析和发现网络中的异常事件。本方法能够准确快速地标定异常发生的时间点,从而帮助网络安全应急响应部门及时发现宏观网络的流量异常状况,为迅速解决网络异常赢得时间。试验表明,我们采用的14个特征构成的分析矩阵具有较好的识别准确率和分析效率,我们接下来将会继续寻找更具有代表性的特征来构成数据矩阵,并研究更好的特征矩阵构造方法来进一步提高此方法的识别率,并将本方法推广到短时分析中。6 参考文献[1] XU K, ZHANG Z L, BHATTACHARYYA S. Profiling Internet backbone traffic: Behavior models and applications [C]// Proceedings of ACM SIGCOMM, Aug 22- 25, 2005, Philadelphia, PA, USA. New York, NY,USA:ACM,2005:169-180.[2] HAWKINS D M, QQUI P, KANG C W. The change point model for statistical process control [J]. Journal of Quality Technology,2003, 35(4).[3] THOTTAN M, JI C. Anomaly detection in IP networks [J]. IEEE Transactions on Signal Processing, 2003, 51 )8):2191-2204.[4] BARFORD P, KLINE J, PLONKA D, et al. A signal analysis of network traffic anomalies [C]//Proceedings of ACM SIGCOMM Intemet Measurement Workshop (IMW 2002), Nov 6-8, 2002, Marseilles, France. New York, NY,USA:ACM, 2002:71-82.[5] LAKHINA A, CROVELLA M, DIOT C. Mining anomalies using traffic feature distributions [C]// Proceedings of SIGCOMM, Aug 22-25, 2005, Philadelphia, PA, USA. New York, NY,USA: ACM, 2005: 217-228.[6] LAKHINA A, CROVELLA M, DIOT C. Diagnosing network-wide traffic anomalies [C]// Proceedings of ACM SIGCOMM, Aug 30 - Sep 3, 2004, Portland, OR, USA. New York, NY,USA: ACM, 2004: 219-230.[7] SCHWELLER R, GUPTA A, PARSONS E, et al. Reversible sketches for efficient and accurate change detection over network data streams [C]//Proceedings of ACM SIGCOMM Internet Measurement Conference (IMC’04), Oct 25-27, 2004, Taormina, Sicily, Italy. New York, NY,USA: ACM, 2004:207-212.[8] MAHONEY M V, CHAN P K. Learning rules for anomaly detection of hostile network traffic [C]// Proceedings of International Conference on Data Mining (ICDM’03), Nov 19-22, Melbourne, FL, USA . Los Alamitos, CA, USA: IEEE Computer Society, 2003:601-604.
F. 如何理解异常入侵检测技术
入侵检测是用于检测任何损害或企图损害系统的机密性、完整性或可用性等行为的一种网络安全技术。它通过监视受保护系统的状态和活动,采用异常检测或误用检测的方式,发现非授权的或恶意的系统及网络行为,为防范入侵行为提供有效的手段。入侵检测系统(IDS)是由硬件和软件组成,用来检测系统或网络以发现可能的入侵或攻击的系统。IDS通过实时的检测,检查特定的攻击模式、系统配置、系统漏洞、存在缺陷的程序版本以及系统或用户的行为模式,监控与安全有关的活动。
入侵检测提供了用于发现入侵攻击与合法用户滥用特权的一种方法,它所基于的重要的前提是:非法行为和合法行为是可区分的,也就是说,可以通过提取行为的模式特征来分析判断该行为的性质。一个基本的入侵检测系统需要解决两个问题:
一是如何充分并可靠地提取描述行为特征的数据;
二是如何根据特征数据,高效并准确地判断行为的性质。
入侵检测系统主要包括三个基本模块:数据采集与预处理、数据分析检测和事件响应。系统体系结构如下图所示。
数据采集与预处理。该模块主要负责从网络或系统环境中采集数据,并作简单的预处理,使其便于检测模块分析,然后直接传送给检测模块。入侵检测系统的好坏很大程度上依赖于收集信息的可靠性和正确性。数据源的选择取决于所要检测的内容。
数据分析检测。该模块主要负责对采集的数据进行数据分析,确定是否有入侵行为发生。主要有误用检测和异常检测两种方法。
事件响应。该模块主要负责针对分析结果实施响应操作,采取必要和适当的措施,以阻止进一步的入侵行为或恢复受损害的系统。
异常入侵检测的主要前提条件是入侵性活动作为异常活动的子集。理想状况是异常活动集同入侵性活动集相等。在这种情况下,若能检测所有的异常活动,就能检测所有的入侵性活动。可是,入侵性活动集并不总是与异常活动集相符合。活动存在四种可能性:
异常入侵检测要解决的问题就是构造异常活动集并从中发现入侵性活动子集。异常入侵检测方法依赖于异常模型的建立,不同模型就构成不同的检测方法。异常入侵检测通过观测到的一组测量值偏离度来预测用户行为的变化,并作出决策判断。异常入侵检测技术的特点是对于未知的入侵行为的检测非常有效,但是由于系统需要实时地建立和更新正常行为特征轮廓,因而会消耗更多的系统资源。
G. 入侵检测系统的检测方法
在异常入侵检测系统中常常采用以下几种检测方法: 基于贝叶斯推理检测法:是通过在任何给定的时刻,测量变量值,推理判断系统是否发生入侵事件。 基于特征选择检测法:指从一组度量中挑选出能检测入侵的度量,用它来对入侵行为进行预测或分类。 基于贝叶斯网络检测法:用图形方式表示随机变量之间的关系。通过指定的与邻接节点相关一个小的概率集来计算随机变量的联接概率分布。按给定全部节点组合,所有根节点的先验概率和非根节点概率构成这个集。贝叶斯网络是一个有向图,弧表示父、子结点之间的依赖关系。当随机变量的值变为已知时,就允许将它吸收为证据,为其他的剩余随机变量条件值判断提供计算框架。
基于模式预测的检测法:事件序列不是随机发生的而是遵循某种可辨别的模式是基于模式预测的异常检测法的假设条件,其特点是事件序列及相互联系被考虑到了,只关心少数相关安全事件是该检测法的最大优点。 基于统计的异常检测法:是根据用户对象的活动为每个用户都建立一个特征轮廓表,通过对当前特征与以前已经建立的特征进行比较,来判断当前行为的异常性。用户特征轮廓表要根据审计记录情况不断更新,其保护去多衡量指标,这些指标值要根据经验值或一段时间内的统计而得到。 基于机器学习检测法:是根据离散数据临时序列学习获得网络、系统和个体的行为特征,并提出了一个实例学习法IBL,IBL是基于相似度,该方法通过新的序列相似度计算将原始数据(如离散事件流和无序的记录)转化成可度量的空间。然后,应用IBL学习技术和一种新的基于序列的分类方法,发现异常类型事件,从而检测入侵行为。其中,成员分类的概率由阈值的选取来决定。
数据挖掘检测法:数据挖掘的目的是要从海量的数据中提取出有用的数据信息。网络中会有大量的审计记录存在,审计记录大多都是以文件形式存放的。如果靠手工方法来发现记录中的异常现象是远远不够的,所以将数据挖掘技术应用于入侵检测中,可以从审计数据中提取有用的知识,然后用这些知识区检测异常入侵和已知的入侵。采用的方法有KDD算法,其优点是善于处理大量数据的能力与数据关联分析的能力,但是实时性较差。
基于应用模式的异常检测法:该方法是根据服务请求类型、服务请求长度、服务请求包大小分布计算网络服务的异常值。通过实时计算的异常值和所训练的阈值比较,从而发现异常行为。
基于文本分类的异常检测法:该方法是将系统产生的进程调用集合转换为“文档”。利用K邻聚类文本分类算法,计算文档的相似性。 误用入侵检测系统中常用的检测方法有: 模式匹配法:是常常被用于入侵检测技术中。它是通过把收集到的信息与网络入侵和系统误用模式数据库中的已知信息进行比较,从而对违背安全策略的行为进行发现。模式匹配法可以显着地减少系统负担,有较高的检测率和准确率。 专家系统法:这个方法的思想是把安全专家的知识表示成规则知识库,再用推理算法检测入侵。主要是针对有特征的入侵行为。 基于状态转移分析的检测法:该方法的基本思想是将攻击看成一个连续的、分步骤的并且各个步骤之间有一定的关联的过程。在网络中发生入侵时及时阻断入侵行为,防止可能还会进一步发生的类似攻击行为。在状态转移分析方法中,一个渗透过程可以看作是由攻击者做出的一系列的行为而导致系统从某个初始状态变为最终某个被危害的状态。
H. 对于入侵检测,统计异常检测方法和特征选择异常检测方法有什么区别
统计异常检测的方法用的是特征轮廓的异常值加权,而特征选择异常检测方法用的是特征空间构成入侵的子集来判断是否入侵。
这里ai表示与度量Mi的相关权重。一般而言,变量M1,M2…Mi 不是相互独立的,需要更复杂的函数处理其相关性。异常性测量值仅仅是数字,没有明确的理论依据支持这种处理方式。例如,使用多个独立的异常性变量作为结合的依据,概率计算在理论上是正确的。但是,异常性测量和贝叶斯概率计算之间的关系并不是很清晰的。常见的几种测量类型通常包括:
统计异常检测方法的优点是所应用的技术方法在统计学中已经得到很好的研究。例如,位于标准方差两侧的数据可认为是异常的。但统计入侵检测系统有以下几点不足:
特征选择异常检测方法是通过从一组度量中挑选能检测出入侵的度量构成子集来准确地预测或分类已检测到的入侵。判断符合实际的度量是复杂的,因为合适地选择度量子集依赖于检测到的入侵类型,一个度量集对所有的各种各样的入侵类型不可能是足够的。预先确定特定的度量来检测入侵可能会错过单独的特别的环境下的入侵。最理想的检测入侵度量集必须动态地决策判断以获得最好的效果。假设与入侵潜在相关的度量有n 个,则这n个度量构成的子集数是2^n 个 。由于搜索空间同度量数是指数关系,所以穷尽搜索最理想的度量子集的开销不是很有效的。Maccabe提出遗传方法来搜索整个度量子空间以寻找正确的度量子集。其方法是使用学习分类器方法生成遗传交叉算子和基因突变算子,除去降低预测入侵的度量子集,而采用遗传算子产生更强的度量子集取代。这种方法采用与较高的预测度量子集相结合,允许搜索的空间大小比其它的启发式搜索技术更有效。