信息隐藏技术与应用-音频水印.doc-道客多多

资源描述

1、信息隐藏技术与应用-音频水印音频水印 13.1 音频水印特点 13.2 音频水印算法评价标准 13.3 音频水印分类及比较 13.4 DCT 域分段自适应音频水印算法实例 13.5 小结互联网技术的迅速发展和音频压缩技术的日益成熟使得以MP3 为代表的网络音乐在互联网上广泛传播。但是，肆无忌惮的复制和传播盗版音乐制品使得艺术作品的作者和发行者的利益受到极大损害。在这种背景下，能够有效地实行版权保护的音频数字水印 Digital Audio Watermarking 技术变得越来越重要，已成为一个十分热门的研究领域。数字音频水印技术将具有特定意义的信息嵌入到原始音频中而不显著地影响其质量。根

2、据不同的应用，嵌入的水印数据可以是版权信息、序列号、文本如音乐或艺术家的名字、一个小的图像甚至是一小段音频。水印隐藏在宿主音频数据中通常不为人所感知，此外还必须能够抵抗常规音频信号处理以及某些恶意的攻击。一个好的音频水印算法应该具备如下性质： 1 水印必须嵌入到宿主音频数据中，否则很容易被修改或除去。 2 水印必须具有感知透明性，即不能对原始音频的质量产生明显的影响。 3 为保证水印的安全性，一般在嵌入过程和检测过程中要使用密钥。 4 水印应该对 MP3 有损压缩、低通滤波、噪声、重采样等音频信号处理具有鲁棒性。 5 嵌入和检测的计算代价要足够小以进行实时处理。 6 在大多数情形下，水印

3、检测不应该需要原始音频，即进行盲检测，因为寻找原始音频是十分困难的。 7 水印算法最好是公开的，即安全性应依赖于密钥的选择而不是对算法进行保密。设计一个水印系统满足以上全部要求是很困难的。有些性质如鲁棒性、透明性和数据容量之间是相互矛盾的，因此，在这些要求中寻找最佳平衡是水印系统设计的目标。 13.1 音频水印特点在音频中加入水印，要考虑到音频载体信号的在人类听觉系统、音频格式以及传送环境等方面的特点。与图像和视频相比，音频信号在相同的时间间隔内采样的点数少。这使得音频信号中可嵌入的信息量要比可视媒体也要少。并且由于人耳听觉系统 HAS 要比人眼视觉系统 HVS 敏感得多，因此听觉上的不可知

4、觉性实现起来要比视觉上困难得多。 13.1.1 人类听觉系统 HAS-Human Auditory System 人耳的机理相当复杂，它就像一个频率分析仪，能够探测到从 10Hz 至 20000Hz 的声音。描述人类听觉系统的感知特性一般从下面三个方面来分析：响度、音高和掩蔽效应。 1 对响度的感知声音的响度即声音的强弱。在物理上，声音的响度使用客观测量单位来度量，即声压单位（达因/平方厘米）或声强单位瓦特/平方厘米。在心理上，主观感觉的声音强弱使用响度级“方 phon ”或“宋 sone ”来度量。这两种感知声音强弱的计量单位是完全不同的两个概念，但它们之间又有一定的联系。当声音弱到

5、人耳刚刚可以听见时，称此时的声音强度为“听阈” 。例如，1KHz 纯音的声强达到时，人耳刚能听见，此时的客观响度级定义为零 dB 声强级，而主观响度级定义为零方。另一种极端的情况是声音强到是人耳感到疼痛，我们称这个阈值为“痛阈” 。例如，当频率为 1KHz 的纯音声强达到 120dB 左右时，人耳感到疼痛，此时主观响度级为 120 方。实验表明， “听阈”和“痛阈”都随频率变化。图 13.1 说明了人耳对响度的感知随频率变化的特性。图中最上面的一条曲线是“痛阈”随频率变化的曲线，最下面的一条曲线是“听阈” 随频率变化的曲线，这两条曲线之间的区域就是人耳的听觉范围。由图 13.1 可见，1KHz

6、的 10dB 的声音和200Hz 的 30dB 的声音，在人耳听起来具有相同的响度。 2 对音高的感知客观上用频率来表示声音的音高，单位为 Hz。而主观感觉的音高单位则是“ 美 ” 。它们也是两个不同又有联系的概念。主观音高与客观音高的关系可用下式表示。人耳对响度的感知有一个从听阈到痛阈的范围，对频率同样也有一个感知范围。人耳可以听见的最低频率约为 20Hz，最高频率约为 18000Hz。图 13.2就反映了人耳对响度感知能力随着信号频率变化的规律。 3 掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音，这种现象称为听觉掩蔽效应。前者称为掩蔽声音，后者称为被掩蔽声音。听觉掩蔽取决

7、于屏蔽声音与被掩蔽声音的幅值与时域特性，可分为频域掩蔽和时域掩蔽。频域掩蔽是指听觉信号中，若两个信号的频率相近，那么较强的信号将淹没较弱的信号。实验证明低频信号可以有效地掩蔽高频信号，但高频信号对低频信号的掩蔽作用不明显。在当代高质量声音编码技术中就使用了频率掩蔽模型。时域掩蔽比较直观，它是指强音和弱音同时或几乎同时出现时，强音屏蔽弱音的现象。时域掩蔽包括超前掩蔽与滞后掩蔽。超前掩蔽是指在强掩蔽声音出现前，被掩蔽声音不可听见。滞后掩蔽是指在强掩蔽声音消失后，被掩蔽声音不可听见。产生时域掩蔽的主要原因是人的大脑处理信息需要花费一定的时间。一般来说，超前掩蔽大约只有 520ms，而滞后掩蔽可以

8、持续 50200ms。 4 对于频域信号中的相位分量和幅值分量，人耳对幅值和相对相位更为敏感，而对绝对相位不敏感。 5 人耳对不同频段声音的敏感程度不同，通常人耳可以听见 20Hz18KHz 的信号，对 2KHz4KHz 范围内的信号最为敏感，在此范围内幅度很低的信号也能被听见，而在低频区和高频区，同样低幅度的信号就可能无法被听见。即使对同样声压级的声音，人耳实际感觉到的音量也是随频率而变化的。 6 人类听觉系统对声音文件中附加的随机噪声敏感，并能觉察出微小扰动。 7 人类听觉系统有很大的动态范围及较小的分辨范围，HAS 能察觉到大于 100,000,000:1 的能量，也能感觉大于 1000

9、:1 的频率范围，对加性随机干扰也同样敏感。可以测出音频文件中低于 1/10,000,000 低于外界水平 80dB 的扰动。因此，较大的声音可屏蔽较小的声音。 13.1.2 音频文件格式对高质量数字音频的描述样本最流行的格式是 16 比特线性量化，如：Windows 中的 WAV 格式音频文件和 AIFF 音频交换文件格式。另一种对较低质量声音的流行版本是采用 8 比特?律的对数分度。这些量化方法使信号产生了一些畸变，在 8 比特?律中显得更为明显。一般声音的流行采样频率包括 8KHz，9.6KHz，10KHz，12KHz，16KHz，22.05KHz 和44.1KHz。采样频率影响数据

10、隐藏，因为它给出了可用频谱的上限如果信号的采样频率为 8KHz，则由采样定理，引入的修改分量的频率不会超过 4KHz 。对于大多数已有的数据隐藏技术而言，可用的数据空间与采样频率的增长至少呈线性关系。需要考虑的是由有损压缩算法如 ISO MPEG-AUDIO 引起的变化。这些变化彻底改变了信号的数据结构，它们仅仅保留了听者能感觉到的特性部分，也就是说，它听起来与原来的相似，即使信号在最小平方意义上完全不同。 13.1.3 声音传送环境音频信息隐藏是指通过对声音文件作一些修改来嵌入信息，如作者信息、产品序号、提示旁白等，这种修改的作用效果类似于向声音文件中添加噪声数据。一般而言，此类修改必

11、须做到不可觉察和难以在不损坏原始信号的情况下去除。其实由环境因素引起的声音变形也很常见，如周围的噪声、电路中的信号干扰等，且易被听者所忽略。尤其是在将模拟声音信号转换到数字音频时需要进行 A/D 转换，这就不可避免地要引入量化噪声。一个数字格式的声音文件可在多种环境中传送。在图 13.3 中描述了几种可能的形式。第一种为无损传输，如图 13.3 a 所示，即信号是在未作修改的环境中传送的，因此相位和幅值都没改变。在第二种情况中图 13.3 b ，信号以更高或更低的采样率重新采样，未改变相位和幅值，但改变了时域特性。第三种情况是将信号转换成模拟的形式来传送图 13.3 c 。在这种情况下，

12、即使认为模拟线路是无干扰的，相位、幅值和采样率都改变了。最后一种情况如图 13.3 d 所示，当环境有干扰存在时，信号将被非线性地传送，从而导致相位和幅值改变，以及引起回声等。 13.2 音频水印算法评价标准 13.2.1 感知质量评测标准 1 主观感知质量评测标准在音频水印中，一个常用的主观评价指标称为平均观点分 Mean OpinionScore，MOS ，即测试者根据音频的好坏，给音质打分。一般按五分制评分。显然，得分为 5 或接近于 5 意味着两个音频数据之间几乎没有差别。MOS 分值的含义如表 13.1 所示。此外，在 ITU-R BS.1116 中也定义了一个主观评分标准主观听觉

13、质量区分度 SDG 。 2 客观感知质量评测标准 ITU-R 推荐的 BS.1387 音频质量听觉评测标准通常用于音频编码器的质量评价，但也可作为一个很好的客观听觉质量评价标准用于音频水印技术。BS.1387 有基本版本和高级版本两种，基本版本使用基于 FFT 的人耳模型，高级版本使用基于滤波器组的人耳模型。在两种情况下，模型输出变量与神经网络结合给出一个量值作为听觉质量客观区分度 ODG Objective Difference Grade ，其含义如表 13.2 所示。早期的音频水印算法也采用公式 13.1 所示带水印信号对原始信号的信噪比 SNR 来度量感觉质量, 但它并不是一个好的音

14、频听觉质量评价标准，比如在极轻微的同步攻击下即使听觉质量实际上几乎没有变化但 SNR 却会降到很低。 13.2.2 鲁棒性评测标准鲁棒性的级别包括以下几种：零级没有鲁棒性、低级、中级、中高级、较高级、高级和最高级。比特率是指在单位时间内可靠地植入宿主信号中的水印数据量，例如比特数/秒。鲁棒性可用提取出的水印误码率 BER 来衡量。设嵌入和抽取的水印序列长度为 B 位比特, 则 BER 按如下公式计算： 13.2.3 虚警率虚警率是指在没有嵌入水印的媒体中地检测出水印的概率。计算虚警率十分困难，目前的办法一般是建立一个模型再估计它的值。但这样会产生两个问题：首先现实的水印技术难以模拟，再

15、者建立模型就需要理解算法的细节，而这通常是商业机密，尽管它违反了Kerckhoffs 准则。再有一种直观的方法就是根据大量实验进行统计，但这又经常由于实验数量巨大而不现实。 13.3 音频水印分类及比较 13.3.1 经典的音频信息隐藏技术音频信息隐藏技术之间的区别主要体现在数据嵌入/提取方案的不同，早期的方法主要有以下四种3-8：最不重要位方法、扩展频谱方法、相位编码方法、回声隐藏方法。分别介绍如下： 1 最不重要位:最不重要位 LSB-Least Significant Bit 方法是一种最简单的数据嵌入方法。 2 扩展频谱方法:借鉴扩频通信的思想，可以在编码音频数据流时把秘密数据分散在

16、尽可能多的频率谱分量中以达到隐藏数据的目的。 3 相位编码:相位编码 Phase Coding 是最为有效的编码方法之一。它充分地利用了人类听觉系统 HAS 的一种特性：即人耳对绝对相位的不敏感性及对相对相位的敏感性。基于这个特点，将代表秘密数据位的参考相位替换原音频段的绝对相位，并对其它的音频段进行调整，以保持各段之间的相对相位不变。 4 回声隐藏方法 :回声隐藏 Echo Hiding 是通过引入回声来将秘密数据嵌入到载体数据中。它利用了音频信号在时域中的后屏蔽作用，即弱信号在强信号消失之后变得无法听见。它可以在强信号消失之后 50200ms 作用而不被人耳觉察。载体数据和经过回声隐藏的隐

17、秘数据对于人耳来说，前者就像是从耳机里听到的声音，没有回声。而后者就像是从扬声器里听到的声音，由所处空间诸如墙壁、家具等物体产生的回声。 13.3.2 变换域的音频信息隐藏技术变换域信息隐藏技术有许多空域信息隐藏技术所不具备的优点，最突出的一点是其鲁棒性得到了加强。 1 付氏变换域方法 2 离散余弦变换域方法 3 小波变换域方法 13.3.3 MP3 压缩域的音频信息隐藏技术目前，围绕 MP3 格式音频信息隐藏技术的研究很多，归纳起来主要有三大类，分别介绍如下。 1 方案 1:该方案中将 MP3文件先解压，然后嵌入水印，最后将含有水印的码流重新压缩成 MP3 文件，如图 13.4 所示。

18、2 方案 2:此方案是在 MPEG 编码过程中将水印嵌入进去，直接形成含有水印的 MP3 文件。 3 方案 3:方案 3 是直接对 MP3 文件进行水印嵌入，这样不用进行编解码，速度上有了保证，有利于在线实现。 13.4 DCT 域分段自适应音频水印算法实例由人耳的时域掩蔽效应，在安静的环境信号的能量较小中我们能听见微小的响动，而当环境嘈杂信号的能量较大时则常常觉察不到相对较低的声音。因此，可以利用此特性，当音频信号比较嘈杂时，考虑加大数据嵌入量或增强水印强度，而当音频信号较为安静时，则适当减小数据嵌入量或降低水印强度，这就是本节所提出的利用段分类的 DCT 域自适应音频水印算法的基

19、本思想，该水印算法可以应用于版权保护的音频水印嵌入，也是对 DCT 域隐藏算法的一种改进。水印编码过程的主要工作过程如下：第 1 步分段。将原始音频信号分为长度为 N 的段。第 2 步分类。利用听觉系统 HAS 的掩蔽效应，将声音段分为三类。第 3 步水印嵌入。首先对各段数据进行 DCT 变换，然后根据各段的分类结果，不同强度的水印分量被嵌入到不同声音段中的部分 DCT 低频系数中，最后对各段数据进行 IDCT 变换。第 4 步重构。将变换后的各段信号组合成隐秘信号。对于接收方来说，主要是检测水印是否存在。 13.4.1 声音段分类方法假设我们将音频信号分为三类，第一类是能量较高的，

20、根据 HAS 的屏蔽效应，人耳对其中能量值的改变敏感性最弱，可以考虑迭加强度较强的水印分量；第三类是能量较低的，因为对其修改的修改量之相对幅值高，因而人耳对其中能量值的改变最敏感，所以能迭加的水印分量强度应最弱；其它情况属于第二类。令 fk 为第 k 段音频信号，为的能量均值。当 Mk T1 时，；当 Mk T3 时，；若以上两种情况都不满足，则。 T1，T3 为门限值，由实验确定。本章的实验中取 T1 0.03， T3 0.01 经归一化处理之后。 13.4.2 水印嵌入水印嵌入的过程大致可分为以下四步： 1 DCT 变换假设在第一步中，原始音频信号被分为长度为 N 的

21、K 个互不重叠的音频信号，，。那么，对做 DCT 变换，得到。 2 产生水印任何水印信号都可看作一个二值序列 V。为了保证水印的不可感知性，可以用 3.4 节定义的混沌二值序列 C 将 V调制成一个伪随机序列 W。即 3 水印分量嵌入水印分量采用如下方法嵌入到音频段的 DCT 系数中。将含有水印的序列 W 嵌入到 DCT 系数的低频分量中。具有 l 个元素，选自的低频分量。为拉伸因子，根据段的类别而定。本章中选择 l 个 DCT 低频系数来嵌入水印，是因为：低频系数集中了信号的大部分能量，对信号来说较为重要，嵌入水印具有足够的鲁棒性。低频系数通常有较大的值，水印信号嵌入

22、后对音频信号的影响较小，有利于保证不可见性。上述两点可以由图 13.8 中对播音“书山有路勤为径，学海无涯苦作舟” 如图 13.7 所示所作的频域分析中可见一斑。需要注意的是不宜取太大，否则会影响水印的不可感知性和鲁棒性。 4 DCT 反变换对 DCT 域中调整后的各段进行 DCT 反变换。即 13.4.3 水印检测水印检测基于相关检测技术。水印检测方案可用图 13.9来说明。具体步骤如下： 1 信号与原始音频信号的差值为将差值信号分为互不重叠的段，段的大小与水印编码时的一样。 2 差值信号分段做 DCT变换 3 相关检测 13.4.4 仿真结果研究中对一段采样率为 22.05

23、KHz，每个样本 8 位数据，长度大约为 4 秒的话音信号进行了该方案的仿真实验。话音的内容是“书山有路勤为径，学海无涯苦作舟” ，其时域信号分布如图 13.7 所示。我们尝试对嵌入水印的隐秘信号图 13.11 进行加噪攻击。具体做法是用 Matlab 中的 RANDN 函数产生一个具有正态分布的伪随机噪声序列，将其幅值缩小 m 倍并叠加到隐秘信号上。表 13.3 说明随着攻击强度的加大，水印检测器响应的灵敏度逐渐降低，同时听觉效果也逐渐受到影响。图 13.14 绘出了时，水印检测器对上述 1000 个水印序列的响应。由图中可见，水印检测器仍然保持了较高的正确率，而此时噪声信号已经明显

24、地降低了隐秘载体信号的音质，以至于人耳能觉察到异常。因此从这个意义上说，攻击者若想在不破坏原始隐秘载体信号的可用性前提下破坏水印是不可能的，即方案对加性噪声攻击具备了一定的鲁棒性。 13.5 小结音频信息隐藏技术的研究是目前信息隐藏技术研究领域中仅次于图像的热点方向，本章首先较为详细地介绍了音频信息隐藏技术的工作原理及其主要技术要求，然后按照“经典的音频信息隐藏技术” 、 “变换域的音频信息隐藏技术”和“MP3 压缩域的音频信息隐藏技术”这三大类进行了分析对比。随后介绍了一种基于 DCT 域分段的自适应音频水印算法。随着人们对信息隐藏技术理解的加深，嵌入的信息容量和算法的鲁棒性都会增加。因

25、此，未来的数据嵌入算法可能会对音频段进行主动控制。如结合对原始音频信号的预处理和分析，采用针对某些特征的自适应数据嵌入策略，如嵌入位置、嵌入量、嵌入算法等。另外，更多地利用原始音频信息的某些特征，如数据段的统计特征（时域、频域）或声学特征，将数据嵌入到某些知觉显著位置，可极大地提高其抵抗各种攻击的鲁棒性。 13.5 13.6 图 13.7 一段音频信号的时域分布图 13.8 一段音频信号的 DCT 域分布 13.7 图 13.9 水印检测方案 13.8 13.9 13.10 13.11 13.12 13.13 图 13.10 原始声音信号时域图 13.11 嵌入水印后的声音信号时域图

26、 13.12 水印检测器对图 13.11 的响应表 13.3 噪声攻击实验分析有明显噪声 15.7989 m 300 有轻微噪声 17.6748 m 600 几乎无影响 19.8555 m 1000 主观听觉效果水印检测器响应的相似度噪声攻击强度图13.13 声音信号受噪声干扰的情况图 13.14 水印检测器的响应 * * 图 13.1 人耳对响度的感知随频率变化的曲线图 13.2 “音高-频率”曲线图 13.3 传送媒体表 13.1 MOS 主观评分标准语音不清楚，基本被破坏。不能分辨 1 语音质量很差，很难理解。差 2 达到通信质量，听起来仍有一定困难。中 3 相

27、当于长距离 PSTN 网上的语音质量，语音自然流畅。良 4 相当于在专业录音棚的录音质量，语音非常清晰。优异 5 描述音频质量分数表 13.2 ODG 客观评分标准非常刺耳 -4.0 刺耳 -3.0 轻微刺耳 -2.0 可感觉但不刺耳 -1.0 不可感觉 0.0 描述 ODG 13.1 13.2 含有水印的 MP3 文件水印嵌入数据未压缩域重新压缩 MP3 文件解压图 13.4 方案 1还原到未压缩域进行数据嵌入 MP3 编码器水印原始音频码流 WAVE 文件含有水印的 MP3 文件图 13.5 方案 2在 MP3 编码过程中进行数据嵌入嵌入方案压缩域水印 MP3文件含有水印的 MP3 文件图 13.6 方案 3在 MP3 文件中进行数据嵌入 13.3 13.4

展开阅读全文