1、硕士论文 基于粗糙集理论的入侵检测系统研究I摘 要入侵检测系统(Intrusion Detection System,IDS)就是通过分析计算机系统的网络连接数据和审计日志记录等相关数据信息,来检测入侵行为的系统。入侵行为是对目标系统的非授权访问或以降低目标系统性能为目的,以获取非法利益的行为。目前已有的入侵检测系统存在检测方法复杂,检测代价大,对新型入侵检测率低的缺点。粗糙集理论通过对信息决策系统数据中不可分辨关系的处理,能有效精简数据属性特征维数,提取更简单的规则以降低数据分析的代价。因此,粗糙集理论很适合网络入侵检测系统处理数据量大,实时性要求高的特点,适用于入侵检测系统的研究。本文首先
2、介绍了入侵检测系统的基本概念和研究现状,指出了传统的入侵检测方法存在的问题。接着介绍了粗糙集相关理论知识,在数据预处理环节提出了一种新的连续属性离散化方法,在保证信息不丢失的前提下,更方便粗糙集的处理。在粗糙集基本理论的基础上,不仅运用命中集的概念,提出了一种新的属性重要度的构成方法,以降低计算复杂性,还提出一种基于基因抽取的遗传算法,用于粗糙集属性精简的运算,提高了收敛速度。随后介绍了现有的入侵检测系统的模型,并在此基础上,结合粗糙集理论,设计了一种基于粗糙集属性精简的入侵检测系统模型。最后通过仿真实验,验证了本文提出的方法的可行性和有效性。关键词:入侵检测 粗糙集 命中集 属性重要度 遗传
3、算法Abstract 硕士论文IIAbstractThe Intrusion Detection System(IDS) can detect intrusions by analysing the computer systems network connection data and audit diary record. At present, the existing IDSs have complex methods, big operating prices and low detecting rate to new styles of intrusions. The rough
4、set theory can make use of the indiscernible relation of data in information decision systems to reduce the attribute features. It can reduce price of data analysis and simplify the rule extraction by reducing the attribute dimensions. Because of the large quantity and large number of the features t
5、hat network connection data have, the rough set theory is very suitable to the research of network intrusion detection systems to reach the real-time target.This thesis firstly introduced the IDSs basic concept and the research situation at present, and pointed out the defects of traditional intrusi
6、on detecting methods. Then we introduced the rough set theory and its related knowledge. Based on the discernibility matrix we proposed a new representation of attribute importance with the hitting set concept applied. And then, we proposed a genetic algorithm based on the gene extraction to reduce
7、the attribute features. Then we introduced the existing IDSs model, based on rough set theory we designed a new IDS model. The simulation experiment confirmed the feasibility and validity of the method this thesis proposed.Keyword: Intrusion Detection,Rough Set Theory,Hitting Set,Attribute Importanc
8、e,Genetic Algorithm硕士论文 基于粗糙集理论的入侵检测系统研究III目录摘 要 .IAbstract.II1 引言 .11.1 网络安全现状 .11.2 现有的入侵检测方法及其不足 .11.3 本文研究的内容和意义 .21.4 论文结构安排 .22 入侵检测系统概论 .42.1 入侵检测系统的演化简史 .42.2 入侵检测系统的性能评价指标 .42.3 入侵检测系统的分类 .52.3.1 按检测机理分类 .52.3.2 按保护对象分类 .52.3.3 其他形式分类 .92.4 入侵行为的分类 .102.4.1 拒绝服务攻击 .102.4.2 网络扫描探测攻击 .112.4.3
9、 远程用户非法盗取本地网络访问权限 .112.4.4 普通用户非法获得 root 权限 .112.5 现有的入侵检测方法 .112.5.1 监视端口 .112.5.2 数据包过滤 .122.5.3 专家知识系统 .122.5.4 智能化的检测方法 .122.5.5 现有入侵检测方法的不足 .132.6 本章小结 .133 粗糙集理论 .143.1 粗糙集基本概念和理论 .143.1.2 信息决策系统 .14目录 硕士论文IV3.1.2 不可分辨关系 .153.1.3 上近似和下近似的概念 .163.1.4 正域,负域和边界区域 .163.1.5 属性依赖度和重要度 .173.2 粗糙集属性精简
10、 .183.2.1 最小精简集和核属性 .183.2.2 分辨矩阵 .183.3 粗糙集属性精简方法 .193.3.1 启发式的属性精简方法 .193.3.2 基于属性重要度的规则提取算法 .203.3.3 基于遗传算法的属性精简 .203.4 KDDCUP99 数据集粗糙集属性精简方法 .213.4.1 数据离散化 .213.4.2 命中集(Hitting Set) .253.4.3 属性重要度的一种新的构成方法 .263.4.3 一种基于遗传算法的粗糙集精简方法 .273.5 本章小结 .294 入侵检测系统模型设计 .304.1 入侵检测的一般过程 .304.1.1 信息采集 .314.
11、1.2 数据分析 .314.1.3 事件响应 .324.2 Denning 模型 .324.2.1 Denning 模型概述 .324.2.2 Denning 模型模块组成 .324.2.3 Denning 模型工作流程 .334.3 通用入侵检测框架(CIDF) .334.3.1 CIDF 简介 .334.3.2 CIDF 的组成 .334.3.3 CIDF 的工作流程 .344.4 基于 CIDF 的网络入侵检测(NIDS)模型 .344.5 一种基于粗糙集属性精简的 NIDS 模型 .364.6 本章小结 .37硕士论文 基于粗糙集理论的入侵检测系统研究V5 实验过程和分析 .385.1
12、 KDDCUP99 数据集介绍 .385.1.1 连接的基本特征 .395.1.2 连接内容特征 .395.1.3 以 2 秒为时间窗口的流量统计特征 .405.1.4 以 100 个连接次数为窗口的主机流量统计特征 .405.2 实验过程 .415.2.1 实验数据预处理 .415.2.2 基于粗糙集原理精简 KDDCUP99 数据集属性 .425.2.3 样本分类 .435.3 本章小结 .456 总结 .46致谢 .47参考文献 .48硕士论文 基于粗糙集理论的入侵检测系统研究11 引言1.1 网络安全现状随着全球社会的信息化,网络作为信息化的载体早已普及,在中国也早已“飞入寻常百姓家”
13、 。目前,许多公司、机构和事业部门都通过网络提供服务,如电子商务、电子银行、网络行政服务等等,广泛涉及到商业、金融、技术服务类的行业。这些行业对于网络的安全性是高度敏感的。据国内的安全部门统计,中国网民每年因为网络攻击而损失的费用超过 150 亿元。而据美国联邦调查局统计,美国每年因网络安全事故造成的损失高达数百亿美元,全世界每 20 秒就会发生一起网络入侵事件。2011 年 2 月纳斯达克交易所就遭到一次入侵,对股票交易市场造成了较大的冲击。入侵 1,2是指,在未被授权的情况下,对目标系统的滥用(abuse)或误用(misuse) ,造成了系统的损失。入侵行为包括偷窃、篡改信息,攻击目标系统
14、至其性能降低或瘫痪等。对入侵行为的防范,提高网络系统的安全性已经成为刻不容缓的研究课题。现有的网络安全技术主要有:防火墙,身份认证(密码认证,指纹识别等) ,信息加密,可信通道等等,主要依靠现有的安全规则形成一种安全模式去保护系统的安全。如今,网络的入侵、攻击手段日新月异,规模不断扩大,网络中甚至能搜索到现成的黑客教程和攻击工具。国内安全厂商 360 公司的安全产品每小时能截获上万种新型的木马,2009 年上半年中国电信的 DNS 服务器遭到普通攻击后引发了新型的分布式拒绝服务(DDos)攻击,使得服务器瘫痪。传统的安全技术对不断更新的入侵行为的防御能力可谓“捉襟见肘” 。入侵检测 2作为一种
15、主动型安全技术已经有了近 30 年的发展,入侵检测系统(IDS)被看成是计算机网络系统的“看门狗” ,能够主动探测到已经发生的和正在发生的入侵行为,能弥补防火墙的不足 3,从而为系统提供高效的安全保护。1.2 现有的入侵检测方法及其不足现有的入侵检测系统(IDS)包括基于网络的(Network-based) ,基于主机的(Host-based) ,基于应用的(Application-based) ,基于协议的(Protocal-based)和混合型的(Hybrid)入侵检测系统。用户可以应场合的不同选择使用不同类型的 IDS,在复杂的环境中,可以综合配置不同类型的 IDS,达到协作防御的效果。
16、1 引言 硕士论文2入侵检测方法按检测机制可以分为误用检测和异常检测 4。误用检测是通过基于专家知识构建的规则集,去匹配被检测的网络连接数据或用户的行为记录,判断是否有入侵;异常检测是通过区分正常和异常行为模式的差异,来达到检测异常的目的。现有的 IDS 多是基于误用检测机制的,系统需要维持一个复杂而庞大的安全规则库或者入侵规则库 5,通过对已有的入侵行为特征进行匹配来达到检测的目的。这是一种被动防护的安全机制,需要不断地更新规则库来保证检测效果,且对于新出现的入侵类型不能有效地识别。20 世纪末,数据挖掘技术开始被运用到入侵检测系统中 6,研究者并为此专门设计了通用的入侵检测系统框架,为随后
17、的基于数据挖掘,模式识别,机器学习等智能化研究方法运用到入侵检测领域中奠定了基础。这类方法多是基于异常检测的方法。由于网络连接数据具有数据量大,形式复杂,特征不易被提取,且提取后的特征维数大的特点,对网络连接数据的分析代价是高昂的,对其分析生成的模式结构或规则也是很复杂的,这直接影响到网络数据入侵检测的速度性能。1.3 本文研究的内容和意义粗糙集理论 7,8于 1982 年被提出,是一种处理不确定和不精确问题的数学方法 9。它对人工智能领域的研究非常有帮助,为数据挖掘,模式识别,机器学习等研究方向提供了有用的理论框架。粗糙集理论已经在医学,金融,图像处理,交通安全等方面都得到了很好的应用,并且
18、在新的实用研究中越来越受重视。粗糙集(Rough Set,RS)理论的运用可以对数据集的特征属性进行精简 10,降低数据的特征维度,简化计算方法,降低计算代价,适合处理数据量大,复杂度高的数据。针对网络数据的数据量大、特征维度高的特点,运用粗糙集理论进行对其进行分析和处理,在智能化入侵检测系统研究中具有良好的应用和研究前景。本文的主要工作内容是基于粗糙集基本理论,结合命中集的概念,提出属性重要度的一种新的表示方法,并提出一种基于遗传算法求取特征属性最小精简的方法,将此方法运用到网络入侵检测系统的模型设计中,提出一种基于粗糙集属性精简的网络入侵检测系统模型。最后通过实验验证了该方法的可行性和有效
19、性。1.4 论文结构安排本文其他章节的安排如下:第二章先介绍了入侵检测系统的发展简史和相关基本概念,详细介绍了各类入侵检测系统的概念和结构,并分析了它们的优缺点,接着分类简要介绍了常见的入侵类型和基本原理,最后介绍了几种传统的入侵检测方法,并指出它们的不足之处。硕士论文 基于粗糙集理论的入侵检测系统研究3第三章先介绍了粗糙集的基本理论,详细介绍了粗糙集理论中的几个重要的基本概念。接着介绍了粗糙集属性精简的相关知识,并简要介绍了几种常用的属性精简算法。最后提出一种基于粗糙集对 KDDCUP99 数据集的进行属性精简的方法。第四章介绍了入侵检测的一般过程,介绍了 Denning 模型,通用入侵检测
20、框架(CIDF)和基于 CIDF 网络入侵检测系统模型,并在现有的模型基础上,设计出一种基于粗糙集属性精简的 NIDS 模型。第五章介绍了入侵检测模拟实验过程,对实验结果进行了分析,验证了系统的有效性。第六章对本论文中的工作进行了总结,并对未来工作进行了展望。2 入侵检测系统概论 硕士论文42 入侵检测系统概论入侵检测系统(IDS)是一种能够检测出网络数据中的恶意行为的检测系统 11,这些恶意行为中包括降低服务器主机的网络负载能力,通过监视网络通讯数据试图非法获得主机的权限等,从而谋取不正当利益。即使在系统安装了防火墙,操作系统也打上了补丁,管理员密码也保存得很妥善的情况下,我们还是会担心入侵
21、行为,因为入侵无时不在。而我们常常会因为一时的麻痹大意,防火墙也不会及时的更新新的防御规则,操作系统不时爆出的漏洞等等不可预见的情况,被入侵者有机可趁。所以一个稳定、高效的入侵检测系统对计算机安全至关重要,就像是一只嗅觉灵敏的看门狗的鼻子一样。2.1 入侵检测系统的演化简史早期的入侵检测系统通过审计计算机行为,检测到比如一个外出度假的用户在本地登录,或者一个不常用的老旧的打印机不识时务地启动了等等类似的异常情况,来判定是否有入侵行为。在 70 到 80 年代,主要靠人工统计计算机的使用记录来发现非正常或者恶意使用行为。再到 90 年代,计算机开始普及的时候,人们开始开发检测程序来分析记录数据,
22、并且具备了一定的实时性,而且随着互联网的普及,基于网络的入侵检测技术的研究成为主流 12。90 年代末、21 世纪初,基于数据挖掘的入侵检测技术研究开始出露端倪 6。再到现如今,入侵检测系统着重于处理分析海量的计算机系统和网络信息,多种分析方法如智能化的方法的运用 13,14,多种手段如分布式的 15,基于云计算的 16,Agent 代理技术 17等等的综合使用,使得 IDS 能够不断地满足日益提高的安全需求和检测日新月异新型的入侵手段。2.2 入侵检测系统的性能评价指标评价一个入侵检测系统的性能,主要有正确率的指标和速度指标。正确率指标包括漏报率和误报率,漏报率是指入侵行为发生,而系统未检测到这些行为的比例;误报率是指没有发生入侵行为,系统却误认为是入侵行为的比例。及时更新入侵特征库,建立更优异的检测模型,都能提高系统的正确率指标。速度指标一般指系统每秒检测的连接数量,精确、简练的特征库,高效的分析检测模型和处理数据的主机本身强劲的硬件性能都提高系统的速度指标。2.3 入侵检测系统的分类2.3.1 按检测机理分类入侵检测系统按检测机理主要分为误用检测和异常检测两种方式 18。