1、8 通 信 学 报 第 28 卷基于写相关支持向量描述的入侵防护审计模型研究罗隽,潘志松, 缪志敏,胡谷雨(解放军理工大学 指挥自动化学院,江苏 南京 210007)摘 要:设计了基于写相关支持向量描述的安全审计模型来实现一个新的单类分类器,对系统调用中“写性质”子集进行监视和分析,并以此训练单类分类器,使偏离正常模式的活动都被认为是潜在的入侵。该模型仅利用正常样本建立了单分类器,因此系统还具有对新的异常行为进行检测的能力。通过对主机系统执行迹国际标准数据集的优化处理,只利用少量的训练样本,实验获得了对异常样本 100%的检测率,而平均虚警率接近为 0。关键词:入侵防护;入侵检测;安全审计;单
2、类分类器;写相关支持向量描述 中图分类号:TP393.08 文献标识码:A 文章编号:1000-436X(2007)07-0008-07Research on the security audit model in intrusion preventionbased on write-related support vector data descriptionLUO Jun, PAN Zhi-song, MIAO Zhi-min, HU Gu-yu(Institute of Command Automation, PLA University of Science and Technolog
3、y, Nanjing 210007, China)Abstract:The security audit model based on write-related SVDD was designed to resolve the one-class problem. Once the classifier has been trained using the write-related subset, all activities deviated from the normal patterns are classified as potential intrusion. The propo
4、sed one-class classification algorithms can be implemented to build up an anomaly detection system by using only normal samples and the algorithms also makes the security audit system detect the new anomaly behaviors. In the experiments, the One-class classifier acquires nearly 100% detection rate a
5、nd average zero false alarm rate for sequences of system calls based on a small training dataset. Key words:intrusion prevention; intrusion detection; security audit; one-class classifier; write-related support vector data description1 引言 在 基 于 安 全 审 计 的 入 侵 防 护 中 , 攻 击 数 据 是“小 数 量 , 高 危 害 ”的 , 换 句
6、话 说 , 系 统 中 绝 大部 分 应 用 行 为 都 是 正 常 的 。 什 么 样 的 应 用 行 为 具有 “危 害 ”性 呢 ? U2R 和 R2L 这 类 模 拟 正 常 用户 行 为 的 攻 击 都 是 通 过 调 用 常 用 的 系 统 调 用 操 作来 获 取 管 理 员 权 限 以 实 现 自 身 目 的 , 而 要 获 得 管理 员 权 限 , 首 先 该 系 统 调 用 在 操 作 系 统 中 的 权 限应 该 很 高 , 其 次 , 该 调 用 必 须 能 够 更 改 系 统 或 文件 的 属 性 。 可 见 , 不 同 的 系 统 调 用 对 于 攻 击 的 贡献
7、是 截 然 不 同 的 , 本 文 将 根 据 应 用 行 为 对 攻 击 的不 同 贡 献 , 考 虑 训 练 集 的 重 构 。后续章节首先分析了入侵检测中的单类问题并提出了基于支持向量描述(SVDD)的检测模型,然后通过对大量数据的分析,讨论了调用序列的不同第 28 卷第 7 期 通 信 学 报 Vol.28 No.72007 年 7 月 Journal on Communications July 2007收稿日期:2006-07-31;修回日期:2007-05-30基金项目:国家自然科学基金资助项目(60603029);江苏省自然科学基金资助项目 (BK2005009) Founda
8、tion Items: The National Natural Science Foundation of China (60603029); The Natural Science Foundation of Jiangsu Province (BK2005009)第 7 期 罗隽等:基于写相关支持向量描述的入侵防护审计模型研究 9作用,提出了通过写相关调用子集,对大量的短序列样本进行数据归约的方法。在此基础上,对提出的检测模型进行改进,进一步降低了训练的复杂度。最后对该模型在 UNM 搜集的入侵检测数据集上的检测效果进行了验证,并将该方法与传统的方法进行了比较分析。2 入侵检测中的单类问
9、题目前的异常检测大都是在提供了大量的正常和攻击(异常)数据的基础上,建立两分类分类器来区分正常和异常数据。但在很多情况,得到攻击数据十分困难,即使得到个别的攻击数据,其也不能体现所有的攻击特性。这样,根据这些数据设计出的异常检测模型往往不能很好的区分正常与异常行为。在大多数情况,只能得到“Normal”数据,同时由于攻击的方法和手段不断的更新,系统管理员和安全专家无法对所有的攻击进行分析与学习并给出攻击模式。应当考虑如何通过这些数据建立一个正常模式,然后对当前的系统或用户的行为进行比较,从而判断出与正常模式的偏离程度。这样的问题可以转化为模式识别领域的单类问题(one-class proble
10、m) 。进而将问题转化为如何设计一个单类分类器,并设定一个边界,来判别当前入侵事件的归属。3 基于支持向量描述(SVDD)的单类分类器模型首先构建基本的审计模型框架 1,如图 1 所示,前文提到,构建审计信息的分类器是其中的关键,能否有效区分正常与异常,是评估该分类器的重要指标。图 1 审计模型基本框架Tax.D.M.J 建 立 了 支 持 向 量 数 据 描 述 ( SVDD)2, 其基本思想是:首先通过核函数将输入空间映射到一个高维空间,在这个高维空间构造一个包含所有训练样本点的球体;在球面上的样本点即为 SVDD 所求得的支持向量。由于支持向量的个数是稀疏的,因此计算量得到相应的减少。假
11、设模型 f(x;w)表示一类紧密的有界数据集,因此我们可以借助一个超球体去包含并描述它。这个球体可以用中心 a 和半径 R 表示,而且使训练集 Xtr 的所有样本都落在此球体内。这就表示经验风险等于 0,因此,类比于 SVM3,定义一个结构误差(1)2struc(,)Ra在如下的约束下对它最小化(2)2,ixaRi由于训练样本中一般含有噪声或野值(也叫新颖值) ,因此上述优化结果对噪声或野值敏感,缺少顽健性。为提高结果的顽健性,仿照 SVM 为每个样本引入松弛变量 ,以控制野值对0,ii解的影响。意即对于远离球心的样本点实施惩罚,因此,最小化问题变为如下形式(3)2struc(,)iRaC其约
12、束条件为(4)2,0,i ixi 参数 C 类似于 SVM 中的控制变量。10 通 信 学 报 第 28 卷利用 Lagrange 函数求解上述约束下的最小化问题,其约束条件不变。Lagrange 函数为(5)22(,)()iiiiiiLRaCxaggx其中, , 为 Lagrange 系数。0a kg令 L 分 别 对 求 偏 导 , 并 令 偏 导 为 0, 可 得,R(6),()()iiijijjxx约束为:1) ,2) 。i10,iiCa“ 对 上 述 问 题 相 对 求 最 大 , 可 以 用 标 准 的 二 次规 划 算 法 来 解 决 。 这 样 就 可 以 求 得 的 最 优
13、值 , 对于 , 其 对 应 的 样 本 点 是 支 持 向 量 , 位 于0iC 球 面 上 ; 而 则 表 示 对 应 的 样 本 点 位 于 球 体 内 。0i在 这 里 并 没 有 显 式 表 出 a 和 R, 它 们 可 以 用 隐 含表 出 。假设 z 为测试样本,那么当如下公式满足,即判 z 是正常类,否则为异常类。相当于 z 落在该超球体内部 2 2,()()()i ijijijazzxxRaa-=-+(7)其 中 , R 是 任 意 一 个 支 持 向 量 xk 到 球 心 a 的 距 离(8)2 ,()2()()ki ijijijx xa=-+当输入空间的样本点不满足球状分
14、布时,可以通过核技巧把输入空间先映射到高维空间,然后在映射后的高维空间内求解。也就是将上述公式中的内积形式都变换成核函数形式(9)()(,)ijijijxxKxf=其中, 为非线性映射,对于某些核函数可以显式的求出 ,而绝大多数则难以表出。选择一个适当的核函数也是比较重要的,如果选取的核函数能够将输入空间正好映射成高维空间的一个球体分布,那么所求得的分类器也会比较吻合实际的分布情况。常用的的核函数有:多项式核函数、高斯核函数以及 Sigmoid 核函数,本实验中选取高斯核函数Gaussian RBF 核函数 (10)()2,exp56yKys=引入核函数后,原来的公式变成了如下形式(11),(
15、,)(,)iiijijjLxxaa约束不变,而决策函数变为 2SVD 2(;)()()2(iiijij,jfz,R=IfzRSIKa,x+aKx, (12)这里判别函数 I 定义为(13)1, ifstrue()ohw AIA=-4 系统调用序列在异常检测中的不同作用Forrest 等在研究中发现:系统关键程序的执行,可通过程序执行过程中所使用的系统调用所组成的序列(SSC)来描述 4。Forrest 同时认为:一个程序的正常行为可以由其执行迹(trace)中的局部模式来描述,即短序列 5,6。但是,不同的系统调用对于系统产生的影响的截然不同的,这里考虑一个最基本的调用对,即 Read 和 W
16、rite,首先,Read 操作对于其他进程和系统的关键数据不会有任何影响,它仅仅会影响本进程的处理过程。诚然,在缓冲区溢出中,当 buff 变量被更改后,Read(buff)操作将会直接导致错误的发生,但是这个错误马上会通过段错误或者 Exec 调用显式的表现出来。而 Write 操作则不然,它有可能改变文件系统的数据,从而影响到其他进程,或者可能将数据通过网络传到本系统以外,进一步影响远程系统的运行。因此,Write 调用明显具有更强的“攻击性” ,在本文讨论的基于系统调用序列的入侵防护中,起着更为重要的作用。与 之 类 似 的 系 统 调 用 对 还 有 很 多 , 如getpriorit
17、y 和 setpriority, getsockopt 和 setsockopt 等 ,根 据 系 统 调 用 的 特 点 , 我 们 将 其 分 为 两 大 类 : 一 类第 7 期 罗隽等:基于写相关支持向量描述的入侵防护审计模型研究 11是 “读 ”相 关 的 , 它 们 类 似 于 Read 调 用 , 执 行 时 只会 对 进 程 本 身 的 运 行 产 生 影 响 , 而 对 之 外 的 系 统 和其 它 进 程 无 直 接 的 影 响 ; 另 一 类 是 “写 ”相 关 的 ,与 Write 调 用 一 样 , 它 们 的 执 行 将 可 能 直 接 影 响 到其 它 进 程 或
18、 系 统 资 源 的 状 态 , 具 有 很 强 的 “攻 击( 破 坏 ) 性 ”1。下面来讨论一下写相关调用对于入侵防护的意义。为了获得系统管理权限,入侵者必然要通过各种方法对系统数据和应用程序的行为模式进行必要的改变,替换被攻击的程序或者擦除入侵过程中留下的痕迹,这些改变都会或多或少的用到写相关的系统调用,也即攻击产生的异常行为必然会通过写相关的系统调用表现出来。本 文 采 用 的 主 机 系 统 执 行 迹 国 际 标 准 数 据 集 是基 于 SUN OS7的 , 包 含 了 182 个 可 用 的 系 统 调 用 ,根 据 其 执 行 特 征 , 按 之 前 的 划 分 方 式 ,
19、 写 相 关 的 调用 类 别 共 有 77 个 , 根 据 Forrest 的 思 想 , 在 划 分 系 统调 用 的 时 候 我 们 不 关 心 系 统 调 用 的 参 数 , 为 了 保 证对 攻 击 最 大 的 检 测 率 , 所 有 “可 能 ”或 “潜 在 ”具有 写 性 质 的 调 用 都 将 归 入 到 写 相 关 调 用 集 中 , 如exit、 fork、 read、 write、 open、 close 等 , 如 表 1 所示 。表 1 部分写相关调用exit fork read write open close creat link unlink execv mkn
20、od chmod chown lseek setuid stime ptrace utime access nice sync kill setpgrp dup pipe setgid acct ioctl reboot symlink execve umask chroot munmap vhangup setgroups setpgrp dup2 fcntl setpriority socket connect setsockopt sigvec sigblock 由此,采用 SVDD 算法,结合数据预处理过程,构建更为简洁的系统调用序列,并使用正常数据训练分类器,进行检测。审计信息分类器
21、框图如图 2 所示。图 2 审计信息分类器基本框架5 审计模型中的系统调用短序列及数据预处理通过对系统的审计系统进行配置,就可使审计系统根据用户的要求监控相关程序的执行过程 3。预处理的主要目的就是要得到执行迹的系统调用短序列。由于执行迹中系统调用的次序关系是描述该程序行为的重要特征,分析这种次序关系的最简单方法就是利用长度为 K 的滑动窗口(sliding window)技术构造系统调用短序列。根据 Prof. Lee的研究结果 8,本实验选取短序列的长度 K 为 6,为了测试根据写相关子集构建的调用序列应用于入侵检测的性能,同时进行基于完整的系统调用集所构建的调用序列的相关实验。方便起见,
22、将完整的系统调用集表示为 S,将写 相 关 子 集 记 为 W, 本 章 所 采 取 的 国 际 标 准 数 据 集中 包 含 正 常 执 行 序 列 N 以 及 带 攻 击 样 本 的 执 行 序 列A。 将 数 据 集 中 各 个 序 列 中 包 含 在 W 中 的 调 用 按 顺序 提 取 出 来 , 重 新 组 成 新 的 数 据 集 Nw 与 Aw, 显 然新 数 据 集 中 仍 包 含 2 704 个 正 常 执 行 序 列 与 1 001 个带 攻 击 样 本 的 执 行 序 列 。 用 W 对 数 据 进 行 处 理 的 过程 我 们 叫 做 W 规 约 , 相 应 地 , 用
23、 S 进 行 处 理 的 叫 做12 通 信 学 报 第 28 卷S 规 约 。 例 如 , 如 果 某 应 用 程 序 在 运 行 时 顺 序 执 行了 以 下 系 统 调 用 :open, create, read, write, read, write, read, write, read, write, close, close, exit; 该 序 列 包 含8 个 特 征 序 列 , 切 分 后 学 习 序 列 为 :open, create, read, write, read, write,create, read, write, read, write, read,read,
24、 write, read, write, read, write,write, read, write, read, write, read,read, write, read, write, read, write,write, read, write, read, write, close,read, write, read, write, close, close,write, read, write, close, close, exit。对于 W 检测,根据系统调用划分的原则,可以从原序列得到对应的 W 序列,即 open, create, write, write, write,
25、close, close, exit。该 W 序 列 包 含以 下 3 个 W 特 征 序 列 :open, create, write, write, write, close,create, write, write, write, close, close,write, write, write, close, close, exit。经 过 W 规 约 后 , 数 据 量 有 一 定 的 减 少 , 使 用 滑动 窗 口 进 行 切 分 后 , 得 到 的 大 量 的 短 序 列 样 本 将 存 入安 全 审 计 数 据 库 中 。 经 过 对 冗 余 短 序 列 的 数 据 约 简
26、,得 到 有 代 表 性 的 少 量 样 本 。 这 些 样 本 将 用 来 训 练 基 于支 持 向 量 描 述 的 单 类 分 类 器 。 表 正 显 示 了 各 个 数 据 集在 采 用 不 同 调 用 集 合 的 情 况 下 , 训 练 样 本 个 数 的 情 况 。表 2 同系统调用集下的实验使用的样本个数MIT lpr UNM lpr Named Stide Ftp UNM Sendmail CERT Sendmail数据集S W S W S W S W S W S W S W系统调用数目 2 914 837 164 247 2 027 468 153 693 9 230 572
27、6 590 324 205 935 132 751 1 363 945 6 755 4 602 8 316 6 955训练样本数目 512 187 470 373 1238 577 215 153 665 461 526 396 639 458可见,经过适当的数据预处理,利用少量的训练样本来训练 SVDD 分类器,大大减少了运算量,保证了实验的高效,顺利的进行,而使用 W规约进一步降低了样本个数,更加有助于满足入侵防护的实时性,同时也符合代价敏感学习的思想。本文将这种方法称之为 W-SVDD。W 规 约 可 看 作 S 规 约 的 一 个 简 化 , 为 了 验 证W 区 分 后 的 新 序
28、列 中 是 否 有 攻 击 信 息 的 丢 失 , 以MIT lpr 数 据 集 为 例 , 去 冗 余 后 , 将 两 种 方 法 所 获得 的 异 常 训 练 样 本 再 一 次 进 行 规 约 , 去 除 其 包 含在 相 应 正 常 训 练 样 本 中 的 序 列 , 从 而 得 到 纯 的 攻击 序 列 , 实 验 发 现 , 二 者 完 全 相 同 , 如 表 3( 数字 代 表 调 用 在 原 调 用 集 中 的 位 置 ) , 这 说 明 使 用写 相 关 调 用 子 集 进 行 规 约 并 不 会 损 失 攻 击 信 息 的完 整 性 。表 3 原序列和新序列中纯攻击样本对比
29、6 实验结果6.1 W-SVDD 针对不同数据集的检测结果在 进 行 检 测 时 , 首 先 对 数 据 集 中 的 系 统 执 行迹 进 行 预 处 理 , 获 得 的 长 度 为 K 的 正 常 系 统 调 用的 写 序 列 集 作 为 训 练 样 本 输 入 SVDD 单 类 分 类 器 ,训 练 后 的 分 类 器 就 可 以 实 现 对 在 线 样 本 的 异 常 检测 。 在 测 试 阶 段 , 将 测 试 的 程 序 执 行 迹 进 行 预 处理 , 得 到 的 一 系 列 的 短 序 列 输 入 单 类 分 类 器 , 由式 (13), 当 输 出 为 1 时 , 判 断 为
30、正SVD(;)fza,R常 的 短 序 列 ; 当 SVDD 输 出 为 1 时 , 可 以 认 为对 应 的 短 序 列 偏 离 了 正 常 模 式 , 判 断 为 异 常 短 序列 。 为 了 更 加 正 确 地 判 断 整 个 系 统 执 行 迹 的 异 常状 态 , 选 定 一 个 阈 值 , 当 该 执 行 迹 中 的 短 序 列被 判 断 为 异 常 的 数 目 超 过 , 则 判 定 该 系 统 调 用执 行 迹 为 异 常 。通过系统的检测率和误报率(即误报率,将正常误报为异常的比率)来评估系统的性能,相比之下,误报率更能反映检测系统的性能。实验中的参数为:1)SVDD 中选用
31、的核函数为 RBF 核,C =1;2)取核参数 =10,切分长度 K=6;3)根据不同阈值(本实验取值为 935) ,分别用两种方法对已切分的攻击数据和正常数据进行检测,从图 3 可以看到采用两种不同方法的检测系统的平均检测率和误报率。经过 W 规约后,系统对各种数据集的检测率均有一定的提高,大部分的检测率均已达到W 序列中纯攻击样本 S 序列中纯攻击样本6,9,10,6,6,64,4,4,33,51,594,4,33,51,59,1064,6,9,10,6,633,51,59,106,105,1059,10,6,6,6,14,33,51,59,106,1059,51,4,106,105,10
32、519,4,6,9,10,66,9,51,4,106,1053,19,4,6,9,5119,4,6,9,51,44,6,9,51,4,1066,9,10,6,6,64,4,4,33,51,594,4,33,51,59,1064,6,9,10,6,633,51,59,106,105,1059,10,6,6,6,14,33,51,59,106,1059,51,4,106,105,10519,4,6,9,10,66,9,51,4,106,1053,19,4,6,9,5119,4,6,9,51,44,6,9,51,4,106第 7 期 罗隽等:基于写相关支持向量描述的入侵防护审计模型研究 13100%
33、,对于在原模型中分类效果欠佳的 MIT lpr数据和 Stide 的识别率分别达到了 100%和99.83%,在保证较少数据量的同时,对异常的检测效果有较大提高。尤其是对于 MIT lpr 这类采集时间比较短的数据集,同样有较好的分类效果。相比而言,系统对于 Sendmail 数据集的检测率提升幅度有限,这是由于实际的 Sendmail 系统非常难配置,加上漏洞比较多,更关键的是该进程具有 Root 权限,被攻击的次数极多,以至于很难采集到纯净的正常数据,因而导致分类器的结果受到影响。图 3 两种方法对检测率与误报率对比对 于 正 常 样 本 的 误 报 率 在 本 章 的 W-SVDD 模
34、型中 也 有 一 定 幅 度 的 降 低 , 绝 大 部 分 数 据 集 的 误 报 率已 经 降 到 1%以 下 , 基 本 可 以 满 足 入 侵 检 测 的 需 要 。但 CERT 和 UNM 的 Sendmail 数 据 集 的 误 报 率 仍 然很 高 , 分 别 达 到 1.62%和 2.30%, 说 明 错 误 的 训 练 样本 对 于 分 类 器 的 误 导 作 用 是 不 可 忽 视 的 , 如 何 在 经常 受 到 攻 击 的 系 统 中 采 集 正 常 数 据 , 将 是 今 后 一 个 研究 方 向 。6.2 W-SVDD 方法与传统方法的对比前 面 叙 述 了 W-S
35、VDD 方 法 作 用 于 所 有 数 据 集 的分 类 效 果 , 本 节 将 具 体 例 举 其 中 比 较 典 型 的 MIT lpr 数 据 集 的 分 类 结 果 , 并 与 第 3 节 提 出 的 SVDD 方 法以 及 传 统 的 智 能 检 测 方 法 在 性 能 指 标 上 作 比 较 。与原 SVDD 模型相比,误报率和错分数目的情况如图 4,根据实验结果,两个系统在阈值调整的整个坐标系内,检测率和误报率一直维持在一个 100和平 均 接 近 于 0 的 范 围 , 再 一 次 证 明 了 系统 的 顽 健 性 ; 在 此 情 况 下 正 常 数 据 和 攻 击 数 据 可
36、 以被 完 全 得 到 区 分 。 采 用 写 相 关 方 法 的 误 报 率 曲 线 比较 平 稳 , 说 明 该 方 法 检 测 的 结 果 较 为 稳 定 , 在 实 际的 入 侵 防 护 系 统 中 , 将 具 有 更 高 的 效 率 和 更 强 的 稳定 性 。使 用 原 模 型 的 方 法 误 报 率 在0.44%0.96%( =923) , 错 分 个 数 最 大 则 达 到 了26 个 , 而 使 用 写 相 关 序 列 的 方 法 则 保 持 在0%0.11%( =923) 之 间 , 错 分 个 数 最 大 为 3, 大大 小 于 原 方 法 所 得 的 检 测 结 果 ,
37、 甚 至 在 915 的 阈值 范 围 内 , 错 分 个 数 为 的 0。 影 响 误 报 率 的 原 因 是多 方 面 的 , 算 法 的 迭 代 次 数 、 切 分 序 列 的 长 度 等 等都 与 之 有 着 密 切 的 关 系 , 而 且 这 两 种 方 法 在 原 理 上基 本 一 致 , 在 相 同 的 实 验 环 境 下 基 于 写 序 列 的 检 测方 法 优 于 原 始 方 法 。图 4 两种方法对正常样本的误报率与误报个数对比对于写序列的划分,我们的目标在于去粗取精,忽略影响较小的调用行为,将检测的重点放在对系统和其他进程更为关键的调用行为上,以达到降低误报率,保持检测率
38、。下面将使用写相关序列的方法与一些传统的检测方法进行比较。同 样 基 于 系 统 调 用 执 行 迹 方 法 和 采 用 MIT lpr 数据 集 进 行 训 练 和 验 证 , 文 献 9提 出 了 使 用 神 经 网 络和 贝 叶 斯 网 络 进 行 入 侵 检 测 的 方 法 , 以 及 使 用 随 机 隐马 尔 科 夫 模 型 和 改 进 的 ( 特 殊 的 ) 隐 马 尔 科 夫 模 型进 行 检 测 , 如 表 4, 如 前 所 述 , 在 现 实 网 络 中 , 攻 击样 本 是 极 难 获 取 的 , 而 此 类 方 法 需 要 将 正 常 和 异 常14 通 信 学 报 第
39、28 卷的 系 统 执 行 迹 样 本 同 时 输 入 网 络 进 行 训 练 , 且 对 于 训练 样 本 无 任 何 简 化 , 必 然 将 带 来 大 量 的 运 算 和 较 长 的匹 配 过 程 。表 4 几种方法基本参数的对比最终训练短序列样本输入数 测试数据集方法入侵样本 正常样本 入侵执行迹 正常执行迹马尔科夫传统神经网络SVDDW-SVDD164 24765 0780000000000000586 733696 728512000037500001 0011 0011 0011 0011 6451 5002 7042 704在 检 测 率 相 同 的 情 况 下 , 使 用 W
40、-SVDD 方 法 得到 的 误 报 率 远 远 小 于 以 上 几 种 方 法 。 如 图 5 所 示 ,虽 然 在 某 些 范 围 ( 0%0.2%) 中 , 使 用 马 尔 科 夫 模型 的 误 报 率 似 乎 更 为 理 想 , 但 该 方 法 对 于 异 常 样 本的 检 测 结 果 并 不 理 想 , 而 且 这 几 类 方 法 的 运 算 量 和数 据 量 甚 高 , 在 实 际 使 用 中 , 检 测 率 应 该 会 有 一 定程 度 的 降 低 。图 5 几种方法的检测率与误报(虚警)率关系通过实验可以看出,基于 W-SVDD 的单类分类器的审计模型与传统基于网络的防护审计模
41、型相比具有以下特点:首先,它不需要为系统提供异常的信息,避免了大规模的短序列匹配过程,减少了预处理时间;其次,该方法由于不需要入侵的先验知识,利用正常的样本建立正常的工作模式,所以该方法能够检测新的攻击和攻击的变种;第三,由于检测部分只需要简单的计算,能够满足入侵检测实时性的要求。相应的,对于普通的基于 SVDD的审计模型相比,还具有以下特点:1)通过写性质规约,进一步简化了待训练的数据,提高了检测系统的实时性和及时性;2)优化的检测序列更适于检测隐藏在海量正常调用中的攻击,具有更强的实用性。7 结束语绝 对 安 全 无 缺 陷 的 系 统 是 不 存 在 的 , 因 此 入 侵防 护 系 统
42、 已 成 为 系 统 安 全 防 护 中 最 重 要 的 组 成 部 分 ,本 文 利 用 主 机 系 统 调 用 安 全 审 计 信 息 为 数 据 源 , 将写 相 关 规 约 和 频 度 规 约 思 想 引 入 数 据 采 集 预 处 理 过程 , 避 免 了 对 入 侵 知 识 进 行 大 规 模 匹 配 和 提 取 的 复杂 工 作 , 但 仍 应 该 认 识 到 , 一 方 面 , 应 用 程 序 具 有多 样 性 和 复 杂 性 , 不 同 的 程 序 具 有 不 同 的 功 能 、 处理 对 象 和 工 作 方 式 , 另 一 方 面 , 新 的 入 侵 手 段 层 也是 层
43、出 不 穷 , 对 异 常 行 为 特 点 的 研 究 任 重 而 道 远 ,在 实 际 的 入 侵 防 护 系 统 中 , 仍 需 要 将 各 种 有 效 的 检测 方 式 有 机 结 合 , 才 能 更 好 地 保 护 系 统 的 安 全 。参考文献:1 ZHANG X F, SUN Y F, ZHAO Q S. Intrusion detection based on sub-set of system callsJ. Acta Electronic Sinica, 2004:1339-1341.2 TAX D M J. One-Class Classification D. Ph d
44、Dissertation,ICT Group Delft Netherland, 1999.第 7 期 罗隽等:基于写相关支持向量描述的入侵防护审计模型研究 153 CRISTIANINI N, TAYLOR J S. An Introduction to SVM and Other Kernel-based Learning MethodsM. Cambridge Univ Press, 2000.4 FORREST S, HOFMEYR S A. Computer immunologyJ. Communications of the ACM, 1997, 40(10):88-96.5 WA
45、RRENDER C, FORREST S, PEARLMUTTER B. Detecting intrusion using system calls: alternative data models EB/OL. http:/www.cs. unm.edu/forrest/publications/Oaklandwith-cite.pdf, 2000.6 FORREST S, HOFMEYR S A, LONGSTAFF T A. A Sense of Self for Unix processesM. IEEE Computer Society Press. 1996.7 UNM&MIT
46、DataSetEB/OL. http:/www.cs.unm.edu/ immsec/data/, 2000.8 LEE W, STOLFO S J, MOK K W. A data mining framework for building intrusion detection models A. The 1999 IEEE Symposium on Security and PrivacyC. Berkely, California, 1999.120-132.9 WARRENDER C, FORREST S, PEARLMUTTER B. Detecting intrusions using system calls:alternative data modelsJ. IEEE Computer Society, 1999:133-145.作者简介:罗隽 (1981-),男,湖南邵阳人,解放军理工大学硕士生,主要研究方向为网络安全、模式识别。潘志松 (1973-),男,江苏南京人,解放军理工大学副教授、博士后,主要研究方向为网络安全、网络管理、模式识别。缪志敏 (1978-),女,湖南华容人,解放军理工大学博士生,主要研究方向为网络安全、故障关联。胡谷雨(1963-) ,男,浙江东阳人,解放军理工大学教授、博士生导师,主要研究方向为网络安全、网络管理。