收藏 分享(赏)

基于文本剩余度的文本隐藏信息检测方法研究.doc

上传人:dwy79026 文档编号:7285588 上传时间:2019-05-13 格式:DOC 页数:8 大小:486KB
下载 相关 举报
基于文本剩余度的文本隐藏信息检测方法研究.doc_第1页
第1页 / 共8页
基于文本剩余度的文本隐藏信息检测方法研究.doc_第2页
第2页 / 共8页
基于文本剩余度的文本隐藏信息检测方法研究.doc_第3页
第3页 / 共8页
基于文本剩余度的文本隐藏信息检测方法研究.doc_第4页
第4页 / 共8页
基于文本剩余度的文本隐藏信息检测方法研究.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、2009 年 6 月 Journal on Communications June 2009第 30 卷第 6 期 通 信 学 报 Vol.30 No.6基于文本剩余度的文本隐藏信息检测方法研究罗纲, 孙星明(湖南大学 计算机与通信学院,湖南 长沙 410082)摘 要:针对 Mimic 模式的文本信息隐藏技术,提出了一种基于文本剩余度的文本隐藏信息检测方法。该方法将待检测的文本作为 m 阶马尔可夫信源,将文本中的单词作为信源符号,计算该信源剩余度,通过剩余度与文本大小的关系判断文本中是否含有隐藏信息。通过对 NiceText、Texto、Stego 和 Sams Big Play Maker

2、 等 4 种主要工具软件生成的 8 000 个隐写文本,及随机选择的 2 400 个正常文本的测试,该检测方法的虚警率为 0.5%,漏警率为 3.9%。实验和分析结果表明,该方法可以对 Mimic 模式的基于自然语言处理的文本信息隐藏方法进行有效检测。关键词:信息隐藏;隐藏信息检测;马尔可夫信源;剩余度;Mimic中图分类号:TP391 文献标识码:A 文章编号:1000-436X(2009)06-0019-07Steganalysis for stegotext based on text redundancyLUO Gang, SUN Xing-ming(School of Compute

3、r and Communication, Hunan University, Hunan 410082, China)Abstract: Targeted at the text steganography with mimic model, a steganalysis method based on source redundancy for stegotexts was proposed. This method processed the text and the words in it as the m-order Markov source and the source symbo

4、ls respectively, then computed the redundancy of the source. Through analyzing the relationship between the redundancy and the size of the text, the existence of hidden information could be determined. With testing of 8 000 stegotexts produced by the four main softwares NiceText, Texto, Stego and Sa

5、ms Big Play Maker, and 2 400 normal texts randomly sampled from innocuous texts downloaded from the Internet, the results show that the false positive rate of our steganalysis method is 0.5% and the false negative rate is 3.9%. Experiments and analyzing results indicate that the steganalysis method

6、can effectively detect stegotexts based on natural language processing with mimic model.Key words: steganography; steganalysis; Markov source; redundancy; Mimic1 引言文 本 信 息 隐 藏 技 术 1是 基 于 文 本 载 体 的 信 息 隐藏 技 术 。 由 于 文 本 具 有 编 码 简 单 、 使 用 灵 活 等 特 点 ,它 已 成 为 互 联 网 中 一 种 最 常 见 的 信 息 载 体 , 文 本 信息 隐 藏 技 术

7、也 因 此 得 到 了 广 泛 的 研 究 , 目 前 已 出 现很 多 实 用 的 文 本 信 息 隐 藏 工 具 。 文 本 信 息 隐 藏 方 法大 体 可 分 为 3 类 : 基 于 不 可 见 字 符 的 文 本 信 息 隐藏 方 法 , 这 类 方 法 通 过 对 不 可 见 字 符 进 行 添 加 、 删除 、 替 换 等 操 作 来 进 行 信 息 隐 藏 , 这 些 不 可 见 字 符主 要 包 括 文 本 中 显 示 为 空 白 的 字 符 或 某 些 情 况 下 不显 示 的 字 符 ; 基 于 格 式 的 文 本 信 息 隐 藏 方 法 , 这收稿日期:2007-06-

8、14;修回日期:2009-04-06基金项目:国家重点基础研究发展计划(“973”计划)基金资助项目(2006CB303000) ;国家自然科学基金资助项目(60736016) ;国家“973”前期专项基金资助项目(2009CB326202)Foundation Items: The National Basic Research Program of China (973 Program)(2006CB303000); The National Natural Science Foundation of China (60736016); Special Prophase Project o

9、n the National Basic Research Program of China (973 Program)(2009CB326202)20 通 信 学 报 第 30 卷类 方 法 通 过 对 文 本 中 字 、 行 、 段 落 等 的 格 式 在 人 眼不 可 察 觉 的 范 围 内 进 行 微 调 来 嵌 入 隐 藏 信 息 ; 基于 自 然 语 言 处 理 的 文 本 信 息 隐 藏 方 法 , 这 类 方 法 基于 自 然 语 言 处 理 技 术 , 使 隐 藏 了 信息的文本具有正常自然语言文本的特性,甚至是在不改变载体语义的情况下进行信息隐藏,这类方法主要包括基于语义的

10、文本信息隐藏方法(如用同义词替换的方法来保 证 载 体 嵌 入 信 息 前 后 语 义 的 不 变 2) 、 基 于语 法 的 文 本 信 息 隐 藏 方 法 ( 如 用 Mimic 模 式 来 保 证嵌 入 信 息 后 载 体 语 法 的 正 确 性 3) 、 同 时 基 于 语 法 与语 义 的 文 本 信 息 隐 藏 方 法 ( 如 使 用 语 法 的 方 法 对 句子 结 构 进 行 调 整 来 保 证 载 体 嵌 入 信 息 前 后 语 义 的 不变 4,5) 等 。Mimic 模式 6由 Peter Wayner 提出,它通过使用一种被称之为 Mimic Function 的处理方

11、法,将要隐藏的信息 进行伪装,使得 与无辜信息AA具有相同的统计特性。由于该模式具有实现比B较容易、抗检测能力强等优点,现已成为基于自然语言处理的文本信息隐藏方法中一种很常用的模式。目前基于自然语言处理的文本信息隐藏工具软件就以 Mimic 模式居多,如 NiceText3、Texto1、Stego 1、Sams Big Play Maker7(本文将其简称为 PlayMaker)等。正因为 Mimic 模式抗检测能力强,对该模式的文本隐藏信息检测的研究比较难,目前研究成果较少 8,9。本文将对 Mimic 模式文本信息隐藏方法的检测进行深入研究,并提出一种基于文本剩余度的检测方法。该方法没有

12、过多地依赖自然语言处理技术,实现比较容易,对检测 Mimic 模式文本信息隐藏方法具有较低的虚警率和漏警率。2 Mimic 模式文本信息隐藏方法的分析为不引起混淆,本文约定秘密信息指需要被隐藏的数据,载体文本指用于隐藏秘密信息的文本,隐写文本指隐藏了秘密信息的文本,正常文本指没有隐藏秘密信息的文本。现有使用 Mimic 模式的文本信息隐藏工具中,Stego、Texto 、 NiceText 都是使用字典进行 Mimic模式隐藏,PlayMaker 使用正常句子进行 Mimic 模式隐藏。其中,Stego 使用无分类的字典,因而比较容易被语法分析等发现;Texto 不仅使用了包含多个分类的字典,

13、还使用了句型库以增加隐蔽性,使隐写文本具有正常文本的语法特性和部分正常的词频特性,从而可以比较成功地逃避语法分析的检测;NiceText 与 Texto 类似,但是比 Texto 更加灵活,它可以控制字典中每个分类单词的数目来使隐写文本中的词频更接近正常文本中的词频特性,可以更灵活地产生句法库使得语法与词频分析对它更难以奏效;PlayMaker 是一种使用正常语句库进行 Mimic 模式信息隐藏的工具,因为它产生的隐写文本中每个单独的句子都是正常的,所以针对句子内部的任何分析对它已经没有效果。虽然 Mimic 模式文本信息隐藏方法产生的隐写文本能够符合自然语言的某些统计特性,如句法、词频甚至局

14、部的语义,但是其句子内部或句子之间的意义关联比较弱,即在不同程度上存在俗称的前言不搭后语。从信息论的角度上看,这是因为任意一篇自然语言文本中每个单词都与前后 个单词之间具有一定的相关性,而 Mimic 模m式产生的隐写文本中每个单词与前后 个单词之m间很难具有与自然语言文本相似的相关性。也就是说,Mimic 模式产生的隐写文本虽然句法、词频甚至局部的语义上能模拟自然语言文本,但是 Mimic 模式将很难保证连续 个单词之间的相关性与正常文本相似。比如,基于句子库的Mimic 通常会导致连续 个单词之间的相关性都m较大;而仅仅只基于词典的 Mimic 通常会导致连续 个单词之间的相关性都比较小;

15、引入了句型m库的基于词典的 Mimic 要复杂一些,通常如果这连续 个单词中包含有词典中的单词,那么相关性会较小,反之,如果这连续 个单词都是句型的组成词,那么相关性通常比较大,这与正常文本中连续 个单词之间的相关性也有明显不同。这连续 个单词之间的相关性不仅可以反应m句内意义关联程度的信息,也能反应句间意义关联程度的信息,可以用来作为区分正常文本与隐写文本的依据。因此,本文将把文本作为 阶时m齐马尔可夫信源,文本中的单词作为信源符号,用 阶时齐马尔可夫信源的特性计算得到这个文本中连续 个单词之间的一些相关特性,并根据m这些相关特性对 Mimic 模式产生的隐写文本进行有效的检测。3 文本剩余

16、度的计算本文提出的方法是将每一个被检测的文本都第 6 期 罗纲等:基于文本剩余度的文本隐藏信息检测方法研究 21当作一个独立的 阶时齐遍历马尔可夫信源,以m该文本中的单词作为信源符号;也就是说,本文只考虑每一篇文本内部单词间的关系,而不将该文本与其所属语种的总体特征进行对比。一般传统意义上关于文本的剩余度 10是指将某种自然语言作为信源并计算该语言的剩余度,每个单独的文本只是作为该信源的一个输出,所以本文所说的文本剩余度与传统意义上文本的剩余度有一些区别。设 为自然语言文本, 中所有单词组成的集TT合为 。12,qAa将 文 本 作 为 阶 时 齐 遍 历 马 尔 可 夫 信 源m, 则 即

17、为 该 信 源 的 符 号 集 , 包 含 元 素 个 数XAq=|A|即 为 信 源 符 号 数 , 该 信 源 可 以 达 到 的 最 大 信息 熵 为(1)0lbHq令 ; 表示具有mJq12,JE形式的信源状态,即 中 个单词12()kka Tm连续出现的状态,其中,m 12,k。 m把信源处于状态 下,输出符号为 的概率iEka记为 ,则对文本 而言, 就是(|)kiPaT(|)iPE所对应的单词序列后出现的第一个单词为 的iEk概率。信源 在状态 下的条件熵就可以由下式计Xi算= (2)(|)iHE1(|)lb(|)qkikiPaE令 为马尔可夫信源的状态极限概率,在iQ文本 中

18、即为 所对应的单词序列在 中出T()i T现的联合概率,则对于 阶时齐遍历马尔可夫信m源 ,由式(3) 可以计算得到该信源的实际信息熵。X(3)1()|)JiiiHQEX由信源剩余度的定义,可得到文本 的剩余T度为(4)01T4 文本剩余度的分布统计规律本文从网上下载了 14 655 个英文自然语言文本文件,从中随机选取了 2 400 个作为正常文本测试集。另使用 2 000 个较小的文件作为秘密信息,分别用 NiceText、Texto 、Stego 和 PlayMaker 对这些秘密信息进行隐藏后得到英文隐写文本(共 8 000 个) ,组成隐写文本测试集。隐写文本测试集与正常文本测试集一

19、起构成本文工作的总测试集,总测试集按预先确定的文件数量被随机分为 2 部分:分析测试集和实验测试集;分析测试集用于本文提出的检测方法的分析,实验测试集用于本文第 6 节的实验,以检验本文提出的检测方法的性能。测试集划分的具体细节见表 1。表 1 本文测试集的划分测试集 正常文本 Nicetext Texto Stego PlayMaker总测试集 2 400 2 000 2 000 2 000 2 000分析测试集 2 000 1 800 1 800 1 800 1 800实验测试集 400 200 200 200 200在隐写文本测试集生成过程中,本文发现Mimic 模式在隐藏信息过程中通常

20、会导致信息量的大量膨胀。经分析主要原因在于:Mimic 模式承载隐藏信息的载体单元通常是单词甚至是句子,使得每个单词最多只能承载几个比特的隐藏信息,而为了使隐写文本具有更好的自然语言特性,Mimic模式需要使用更多的单词提高隐蔽性,使得在实际使用中,Mimic 模式隐写文本中每个单词平均承载的隐藏信息有可能远少于 1bit,导致 Mimic 模式隐写文本无论是体积还是信息量都远大于原始的隐藏信息。但是因为在实际的隐写分析中,原始的隐藏信息通常是不可预知的,使得难以进行信息隐藏前后的对比;而直接进行信息量的判断也不是很合适,本文进行过一些相关实验,比如计算被检测文本中实词的熵,在测试集比较小的时

21、候确实具有很好的效果,远优于计算文本中所有单词的熵,但是一旦增加测试集中文件的数量,这个特性就越来越难以区分正常文本与 Mimic 隐写文本,所以本文认为这种膨胀特性难以直接用于隐写分析,但是可以作为隐写分析的依据之一。本文使用式(5)对秘密信息与对应的隐写文本大小进行了统计,计算得到了常用 Mimic 模式文22 通 信 学 报 第 30 卷本隐写工具软件在隐藏信息过程中导致信息量膨胀的平均倍数(见表 2) 。表 2 各种文本隐写工具软件在隐藏信息过程中导致信息量膨胀的平均倍数Nicetext Texto Stego PlayMaker66.6 14.6 5.0 33.8设秘密信息文件 的大

22、小为 ,使用某种iMiMS隐写工具软件进行隐藏后得到的隐写文本 的大iH小为 ,则该隐写工具软件在隐藏信息过程中导iHS致信息量膨胀的平均倍数为(5)iiHiMiSAIE接下来,本文取不同的 进行了 的分析,mT结果表明,取 =2 时 对正常文本与隐写文本的T区分效果比较好,如果取更大的 ,不仅速度将难以承受,区分效果也反而变差。在 =2 时,对分析测试集的测试表明:mNiceText、Stego 的隐写文本的剩余度比正常文本偏高,而 Texto、PlayMaker 的隐写文 本 的 剩 余 度比 正 常 文 本 偏 低 , 文 件 长 度 越 大 , 这 种 差 距 越 明显 。 图 1 为

23、 =2 时 分 析 测 试 集 中 文 本 大 小 与 对应 文 本 的 的 关 系 , 图 中 X 轴 为 文 本 的 大 小TT, Y 轴 为 对 应 文 本 在 =2 时 计 算 得 到 的 ;TSmT因 为 在 本 文 的 正 常 文 本 测 试 集 中 单 个 文 件 的 大 小都 没 有 超 过 3.6 字 节 , 所 以 对 于 隐 写 文 本 测410试 集 中 文 件 长 度 大 于 3.6 字 节 的 数 据 没 有 在4图 1 中 显 示。图 1 m=2 时分析测试集中文本的大小与 的关系T根据图 1,本文可以用 2 根分段曲线把正常文本和隐写文本大致区分开来,令 为文件

24、大小,单x位为 字节,则有40(6)0.4.62.max17.98.e3.1x(7)0.64in1250.985ex这样,正常文本的 主要集中在 范Tminax,围,而隐写文本的 则主要落在这个范围之外。令= (8)maxini()2Tmaxin()T由式(8)可知,当 时,1,,即 时主要是正常文本,minax,T否则主要是隐写文本。对分析测试集中所有文件求 值,可以发现 能比较好地区分正常文本与隐写文本,表 3 为分析测试 集 中 文 本 的 值 在与 范 围 的 分 布 情 况 , 图 2 为 取1,1区 间 长 为 0.03 时 计 算 得 到 的 值 线 形 直 方 图 , 因 为主

25、 要 为 了 体 现 正 常 文 本 与 隐 写 文 本 值 的 区 别 , 所以 图 2 只 显 示 了 部 分 。,2表 3 分析测试集 值分布概率测试集 的概率1,的概率1,Nicetext 0% 100%Texto 1.55% 98.45%Stego 10.25% 89.75%PlayMaker 0.2% 99.8%隐写文本平均 3% 97%正常文本 98.4% 1.6% 第 6 期 罗纲等:基于文本剩余度的文本隐藏信息检测方法研究 23图 2 m=2 时分析测试集中文本的 值线形直方图分析(区间长 0.03)5 基 于 文 本 剩 余 度 的 文 本 隐 藏 信 息 检 测 算 法根

26、据前面的理论与实验分析,本文设计了基于文本剩余度的文本隐藏信息检测算法,其中的词形还原部分主要基于 Wordnet 2.011内置的词形还原功能,本文在上面进行了一些拓展,使其能更好地适用于本文提出的检测算法。算法 1 基于文本剩余度的文本隐藏信息检测算法输入:待检测的文本 T输出:是否是 Mimic 模式产生的隐写文本1) 预处理:按顺序提取文本 中所有单词,并进行词形还原;2) 由式(1)计算 ,由式 (2)、式(3)计算把0H作为 2 阶马尔可夫信源时的 ,并由式(4)计算T得到对应的文本剩余度 ;T3) 提取文件大小 ,把 代入式(6)、S410Tx式(7)分别计算得到对应的 和 ;m

27、ain4) 把 、 和 代入式(8)计算得到 ,maxinT如果 ,则认为被检测的文本是正常文本,1,否则认为是隐写文本。6 对比实验与相关分析6.1 相关文献算法的分析6.1.1 基于句间相关度的检测方法基于句间相关度的检测方法设计用于检测多种基于自然语言处理的文本信息隐藏方法,该方法在文献8中进行了 2 种 Mimic 模式的文本信息隐藏工具软件(NiceText、Texto)和一种基于同义词替换的文本信息隐藏工具软件(TextHide )的检测。该方法针对基于自然语言处理的文本信息隐藏方法可能会导致载体文本句子之间相关性很弱、甚至导致语义混乱的特性,通过先建立常用动词正则图数据库、词汇的

28、类属关系数据库,在正则图基础上建立歧义语义判定规则、句间相关性度量判定门限 和 是 否 含 有 隐 藏 信 息 判 断 门 限 ; 然 后 对待 检 测 的 文 本 做 句 法 分 析 , 找 到 每 个 句 子 的 谓 语 动词 并 画 出 它 的 正 则 图 , 再 判 断 该 句 是 否 有 歧 义 , 并计 算 相 邻 句 子 的 相 关 性 度 量 值 , 最 后 综 合 各 项 计 算结 果 进 行 判 断 ; 从 而 实 现 对 这 类 文 本 信 息 隐 藏 方 法的 检 测 。该方法的优点是具有很好的理论价值,其检测理论仍然有很多值得借鉴的地方。但是正如文献8中所说, “由于

29、伪自然语言的处理是一个庞大繁杂的工作检测算法没能工程化,即使进行仿真测试也是困难的” 。因此该方法的不足在于这种对自然语言处理技术的过度依赖,导致实现难度比较大,而且目前自然语言处理技术的不成熟也必然会进一步对该方法的成功率造成影响。6.1.2 基于首字母频率的检测方法基于首字母频率的检测方法设计用于检测只使用了无分类字典而没有使用句型库的 Mimic 模式的信息隐藏方法(如 Stego) ,其实验描述中并没有具体指明实验使用的信息隐藏工具名称。表 4 相关算法综合对比对比项目 本文提出的方法 基于句间相关度的检测方法 基于首字母频率的检测方法可检测的文本信息隐藏方法 Mimic 模式 Mim

30、ic 模式、同义词 只使用字典的 Mimic 模式实验测试工具软件 NiceText、Texto、 Stego、PlayMaker NiceText、Texto、 TextHide NiceText、Texto、 Stego、PlayMaker检测方式 程序自动检测 手工模拟检测 程序自动检测测试量正常文本 400 50 400测试量隐藏文本 800 50 800漏警数 31 1 158漏警率 3.9% 2% 19.75%虚警数 2 11 162虚警率 0.5% 22% 40.5%成功率 95.6% 76% 39.75%24 通 信 学 报 第 30 卷该方法由式 计算出 ,2612|()|i

31、fi并通过 来判断是否是隐写文本,其中 和1()f分别为待检测文本与字典中首字母序号为2()fi的所有单词的出现频率。该方法认为:嵌入的秘密信息是伪随机的,那么如果使用某个字典 隐D藏信息后得到了隐写文本 ,则 中单词出现的频T率必然与 中的单词频率接近, 中单词按首字D母序号分类后每类的频率应该也与 中的单词对应类的频率近似,即应该有 ,()TDfifi,此时求得的 值应该比较大,而自然语1,26i言文本中的单词频率则会与字典 中对应的单词频率相差较远,此时求得的 值应该相对较小,所以如果 大于某个阈值则可以认为是隐写文本。6.2 实验对比使用算法 1,本文对实验测试集进行了测试,结果见表

32、4。基于 6.1 节所述原因,这里基于句间相关度的检测方法的数据取自文献8。表 4 中,成功率=1 漏警率 虚警率 8。从表 4 中可以看到,本文提出的方法相对于基于句间相关度的检测方法,主要优势在于比较容易用程序实现,而且总体成功率明显高于基于句间相关度的检测方法。相对于基于首字母频率的检测方法,本文提出的方法在虚警率方面也具有明显优势,在漏警率方面也具有优势。综合性能上,本文提出的方法明显优于基于句间相关度的检测方法和基于首字母频率的方法。但是因为基于首字母频率的检测方法设计上主要针对使用无分类字典的 Mimic 模式工具软件,所以本文在表 5 中展示了本文提出的方法与基于首字母频率的方法

33、对于Nicetext、PlayMaker、Stego 和 Texto 的漏警率的细节。表 5 相关算法漏警率细节对比测试集 本文提出方法的漏警率 基于首字母频率的检测方法的漏警率Nicetext 2% 69%PlayMaker 1.5% 0.5%Stego 11.5% 8.5%Texto 0.5% 1%在表 5 中可以看到,如果不考虑虚警率,单就漏警率而言,基于首字母频率的检测方法不仅对只使用了无分类字典的 Stego 的漏警率比较低,对使用了句型库的 Texto 和使用句子库的PlayMaker 的漏警率也很低,甚至比检测 Stego 的漏警率更低。这与本文前面的分析有出入,所以本文进行了分

34、析与测试,发现原因为:对于Texto,应该是本文在产生测试集的时候使用了Texto 自带的句型库,而该句型库中句型数目不多,因而可能同一句型在文本中反复使用,结果使得其产生的隐写文本体现出只使用无分类字典的隐写工具类似的词频特征;对于 PlayMaker,虽然它使用的是句子库,但同样因为其句子库中句子数量不多,同一个句子可能高概率地反复使用,结果同样使得隐写文本中的单词体现出无分类字典的隐写工具类似的词频特征。而 Nicetext 的产生的测试集就因为句型库比较大,而且使用的是大字典模式隐藏,所以基于首字母频率的检测方法检测 Nicetext 的漏警率就很高。而从表 5 来看,漏警率方面主要是

35、对于Nicetext 的检测文本提出的方法具有明显优势,而对于 PlayMaker、Stego 和 Texto 的漏警率与基于首字母频率检测方法差别不明显,甚至PlayMaker、Stego 的漏警率比基于首字母频率的检测方法还稍微高了一点,但是本文的方法测试的漏警率是在虚警率为 0.5%时的结果,而基于首字母频率的检测方法的漏警率是在虚警率为 40.5%的测试结果。所以综合考虑虚警率与漏警率,本文提出的方法在对于这 4 个工具软件产生的隐写文本的检测上相对于基于首字母频率的检测方法都具有明显优势。当然,本文提出的方法还有一些不足。6.3 不足与后续研究方向首先,对于其他基于自然语言处理的文本

36、信息隐藏方法,本文提出的方法暂时不能检测,比如基于句间相关度的检测方法可以检测的TextHide,虽然理论上该软件使用同义词替换时同样会改变连续 个单词之间的相关性,并进而导m致 值的改变,但实际上,本文使用 TextHide 及其自带的同义词字典测试时发现,该软件使用同义词替换方法时嵌入率极低,根据载体文本的不同,平均几十至几百个单词中才会替换一个单词,这种极低的改变率导致 值的改变也非常有限。第 6 期 罗纲等:基于文本剩余度的文本隐藏信息检测方法研究 25所以针对基于同义词替换文本信息隐藏方法的检测笔者另外进行了单独的研究。其次,由图 1 可以看出,本文提出的算法在检测小文 本 的 时

37、候 将 会 出 现 比 较 高 的 虚 警 和 漏 警 。本 文 针 对 这 种 情 况 做 了 测 试 和 分 析 , 并 根 据 实 验 结果 计 算 了 具 体 的 建 议 检 测 下 限 ( 见 表 6) 。 也 就 是 说 ,如 果 隐 藏 的 秘 密 信 息 或 隐 写 文 件 小 于 表 6 中 对 应 的值 , 则 使 用 本 文 提 出 的 方 法 将 难 以 取 得 满 意 的 效 果 。表 6 本 文 提 出 的 检 测 方 法 对 于 各 隐 写 工 具 的 建 议 检 测 下 限秘密信息 隐写文件隐写工具单词数 字节数 单词数 字节数Nicetext 3 15 200

38、 1 000Texto 34 171 500 2 500Stego 40 200 200 1 000PlayMaker 0 0 0 0从表 6 可以看出,本文提出的方法在小隐写文本的检测方面对 PlayMaker 和 Nicetext 仍然比较有效,而对 Stego 与 Texto 的检测效果稍差。而且,根据表 2,Mimic 模式在隐藏信息过程中通常会导致信息量的大量膨胀,这种特性也会减少本文难以正确检测的小隐写文本出现的概率。因此,本文后续研究的主要方向是基于自然语言处理的文本信息隐藏方法中其他类型 4,5的检测,其次是如何提高对小隐写文本检测的成功率。7 结束语基于自然语言处理的文本信息

39、隐藏方法中的Mimic 模式具有实现比较容易、抗检测能力强等优点,因而比较难以进行有效的检测。本文通过分析前人工作的优点与不足,以及对 Mimic 模式特点的分析,基于信息论,把被检测的文本作为阶马尔可夫信源,把文本中的单词作为信源符m号,计算得到该文本的剩余度,综合考虑该剩余度与该文本大小的关系,来判定该文本是否采用Mimic 模式的文本信息隐藏方法隐藏信息。该检测方法没有过多地依赖自然语言处理技术,实现比较容易,而且具有比较高的检测成功率。参考文献:1 BERGMAIR R. A comprehensive bibliography of linguistic steganographyA

40、. Proceedings of the SPIE International Conference on Security, Steganography, and Watermarking of Multimedia ContentsC. San Jose, CA, 2007.333-338.2 TOPKARA U, TOPKARA M, ATALLAH M J. The hiding virtues of ambiguity: quantifiably resilient watermarking of natural language text through synonym subst

41、itutionsA. ACM Multimedia and Security WorkshopC. Geneva, Switzerland, 2006. 164-174.3 CHAPMAN M, DAVIDA G. Plausible deniability using automated linguistic steganographyA. InfraSec 2002C. Bristol, UK, 2002. 276-287.4 ATALLAH M J, RASKIN V, HEMPELMANN C F, et al. Natural language watermarking and ta

42、mperproofingA. Information HidingC. Noordwijkerhout, Netherlands, 2002.196-212.26 通 信 学 报 第 30 卷罗纲(1976-),男,湖南冷水江人,博士,湖南大学讲师,主要研究方向为信息安全、信息隐藏与隐写分析。5 TOPKARA M, TOPKARA U, ATALLAH M J. Words are not enough-sentence level natural language watermarkingA. The 4th ACM International Workshop on Contents P

43、rotection and SecurityC. Santa Barbara, California, USA, 2006, 37-46.6 WAYNER P. Mimic functionsJ. Cryptologia, 1992, 16(3):193-214. 7 SECURSTAR GMBH. Sams big play makerEB/OL. http:/www. scramdisk. 2006-10-12.8 周继军, 杨著, 钮心忻等. 文本信息隐藏检测算法研究J.通信学报,2004,25(12):97-101.ZHOU J J, YANG Z, NIU X X, et al.

44、Research on the detecting algorithm of text document information hidingJ. Journal on Communications, 2004,25(12):97-101.9 SUI X G, LUO H, ZHU Z L. A steganalysis method based on the distribution of first letters of wordsA. IEEE 2006 International Conference on Intelligent Information Hiding and Mult

45、imedia Signal processingC. Pasadena, California, USA, 2006. 369-372.10 DAVID J M. Information Theory, Inference and Learning AlgorithmsM. London: Cambridge Unversity Press,2003.11 MILLER G A. WordNet: a lexical database for the English languageEB/OL. http:/wordnet.princeton.edu/,2006-12-7.作者简介:孙星明(1963-),男,湖南益阳人,博士,湖南大学教授、博士生导师,主要研究方向为网络信息安全、数字水印、自然语言处理。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 教学研究

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报