1、第2章 基础知识,1 . 人类听觉特点 2. 语言信号处理基础 3. 人类视觉特点与图像质量评价 4.图像信号处理基础,1 . 人类听觉特点,2.1.1语音产生的过程及其声学特性,1 . 人类听觉特点,212语音信号产生的数字模型 语音信号产生的数字模型,可以分为三个部分:激励源、声道模型和辐射模型(嘴唇)。 语音通常分为浊音和清音,因此激励源分浊音和清音两个分支,按照浊音倩音开关所处的位置来决定产生的语音是浊音还是清音。在浊音的情况下,激励信号由一个周期脉冲发生器产生,其周期称为基音周期。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使这一脉冲序列通过一个声门脉冲模型滤波器,其传输函
2、数为G(Z),再经过一个幅度控制,调节输出浊音的能量,系统输出即为所要求的浊音激励,,1 . 人类听觉特点,图2-1浊音激励的产生,图2-2清音激励的产生,图2-3声道全极点模型,图2-4 嘴唇辐射模型,图2-5语音信号产生的数字模型,213听觉系统和语音感知,图2-6语言通道,人的听觉范围 正常人的听觉系统是极为灵敏的,正常人可听声音的频率范围为001616kHz,年轻人可听到20 kHz的声音,而老年人可听到的最高频率为10 kHz左右。 掩蔽效应 当人耳听到两个强度不同的声音时,强的声音的频率成分会影响人耳对弱的声音的频率成分的收听,这种现象称为掩蔽效应。通常,低音容易掩蔽高音,而高音掩
3、蔽低音较难。 另一种掩蔽是噪音对单音的掩蔽。一个单音可以被以它为中心频率,具有一定频带宽度的连续噪音所掩蔽。如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚能被听到的临界状态,即称这一带宽为临界带宽。临界带宽可以通过实验来测得。,对清晰度有影响的一些因素 (1)语音强度对清晰度的影响 实验表明,平均语音强度为2527dB时,测听材料约有一半可以听清楚。如果要使其中有80可以正确分辨,语音强度一般要达到60dB以上。 (2)对语音的掩蔽作用 对于纯音掩蔽而言,低频纯音对语音的掩蔽要大于高频纯音。在纯音强度较大时,300Hz左右的纯音产生最大的掩蔽作用,当其强度较小时,500Hz左右的纯
4、音影响最大。,(3)频率选择性 研究结果表明,对于低通滤波而言,去掉5 kHz以上的频率成分清晰度不受影响;滤掉1.5 kHz以上的成分清晰度约下降一半,而当滤掉200 Hz以上的成分时,清晰度降为零。对于高通滤波而言,保留400Hz以上的频率成分清晰度基本不受影响;保留2300Hz以上的频率成分,清晰度下降一半左右,而若仅保留6 kHz以上的成分时,清晰度降为零。 (4)限幅的影响,214语音信号的统计特性,(1)静息波:它是音节之间的间隙,在波形上是一条细线(图b)(2)准周期波:它是浊音的波形,如ing,ang等,它们具有比较明显的周期性(图c)。各个浊音的波形是不同的。(3)噪声波:摩
5、擦音的波形(图d)(4)脉冲波:塞音g的起始段波形(图d),215语音的质量评价,1基于SNR的评价方法 2基于LPC技术的评价方法 3基于谱距离的评价方法 4基于听觉模型评价方法 5基于判断模型的评价方法 6其他评价方法主要有一致函数法,信息指数法,专家模式识别法等。,22语音信号处理基础 信息隐藏和数字水印中,采用的主要方法都是以数字信号处理为基础,因此本节主要介绍在语音信号处理中常用的方法。,221语音波形编码 1PCM编码 2ADPCM编码 3子带编码(SBC) 4变换域编码(TC),222语音短时特性 1语音信号的存储和加窗 矩形窗:(其中N为帧长)哈明窗,2语音信号的短时能量、短时
6、平均幅度和短时过零率 语音信号的短时能量 语音信号的短时平均幅度 语音信号的短时过零率,223线性预测分析 声道模型可以用一个全极点模型来模拟当阶数N足够大时,这个全极点模型几乎可以模拟所有的声道系统(包括清音、浊音、鼻音和摩擦音)。,线性预测的基本原理是:语音信号的当前估计值 ,可以用前N个值, , , 的加权线性组合来逼近,即,224常用处理算法1傅立叶变换与短时傅立叶变换 短时傅立叶变换(STFT:Short Time Fourier Transform)就是使用预先加窗的方法,取得某一段时问信号,再分析其频谱特性。,加窗的作用就是取出在时刻t附近的信号,STFT可以看作是信号在时刻t附
7、近的局部谱,所有在窗函数里的信号特征都被看成是时刻的信号特征。因此,我们希望用短的时间窗来刻画时刻t的信号特征,获得好的时间分辨率。另一方面,在频率厂处的STFT可以看作是信号通过带通滤波器得到的,因此,要得到好的频率分辨率,则希望窄带的滤波器,即意味着长的时间窗,可见,好的时间分辨率和好的频率分辨率是相互矛盾的。 短时傅立叶变换的问题是,如果取一个较窄的时间窗,可以得到较好的时间分辨率,但是其频率分辨率降低;取较宽的时间窗,可以得到较高的频率分辨率,但是时域信号的细节特性就无法分辨。因此要同时满足时间分辨率和频率分辨率,短时傅立叶变换是无法实现的。而小波变换正是能够满足这一要求。,2小波变换
8、 小波分析方法是一种窗口大小(即窗口面积)固定但其形状可变的时一频局部化分析方法。即在低频部分具有较高的频率分辨率和较低的时问分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,这正符合低频信号变化缓慢而高频信号变化迅速的特点,所以被称为数学显微镜。小波分析优于傅立叶变换的地方是,它在时域和频域同时具有良好的局部化性质。,3离散余弦变换(DCT)可以利用FFT计算DCT,23 人类视觉特点与图像质量评价 231人类视觉特点1视觉范围 视觉范围是指人眼所能感觉的亮度范围。这一范围非常宽,但是人眼并不能同时感受这样宽的亮度范围,当人眼适应了某一个平均的亮度环境后,它所能感受的亮度范围是有限的
9、。并且,当平均亮度比较适中时,能分辨的亮度范围较大;而当平均亮度较低时,能分辨的亮度范围较小。而即使是客观上相同的亮度,当平均亮度不同时,主观感觉的亮度也不相同。如同样的亮度,在白天和在黑夜,主观亮度感觉是不同的。,2分辨力人眼的分辨力是指人眼在一定距离上能区分开相邻两点的能力。人眼的分辨力与环境照度有关,照度太低和太高都会影响分辨力。分辨力还与物体的运动速度有关,速度大,则分辨力下降。人眼对彩色的分辨力要比对黑白的分辨力低,如果把刚能分辨出来的黑白相间的条纹换成红绿条纹,则无法分辨出红绿条纹,只能看出一片黄色。3视觉适应性当我们从明亮的阳光下走进黑暗的电影院时,会感到一片漆黑,但是过一会后,
10、视觉会逐渐恢复,人眼这种适应暗环境的能力称为暗适应性。而从电影院走到阳光下时,又会感到“眩目”,也需要一个恢复过程才能适应,这种适应亮环境的能力称为亮适应性。通常亮适应性比暗适应性要快得多。,4视觉惰性 人眼对于亮度的突变需要一个适应的时间,人眼这种对亮度改变进行跟踪的滞后性质称为视觉惰性。因此当亮度突然消失时,人眼的亮度感觉并不马上消失,而是按指数规律逐渐消失。因此电影的拍摄和放映就是利用了人眼的视觉惰性,电影胶片是用一张张相隔一定时间拍摄的图片组成的,连续放映时,可以给人以连续运动的感觉。这种特性又称为人眼的记忆特性,或称为视觉暂留。,232图像的质量评价,客观评价是以机器为主体对图像质量
11、进行评价,它是对一个系统中输人和输出的图像信号做处理和分析,一般是从图像中提取一些特征参量作为研究分析对象,处理并作比较。一般是从总体上反映图像问的差别。得出的数据如均方误差(MSE),峰值信噪比(PSNR)等作为对图像的客观质量评价,这就是图像质量客观评价的简单原理。还有一些更复杂的客观评价方法也都是以此为基础发展而来的。,高斯噪声对图像产生的影响是模糊的,在图像的每一个地方产生麻点。当噪声小的时候,人眼可能区分不出是否受到干扰;而当噪声大的时候,感觉图像质量下降。 而对于椒盐噪声,从第一组图像的对比可以看出,在相同的PSNR情况下,高斯噪声的干扰可忽略,而加入椒盐噪声的图像,经仔细观察能明
12、显地发现图像中存在少量的黑白点。 从第二组图像看,高斯噪声是可以接受的,或者说一般的观察者如果没有对比,也会认为没有干扰,而椒盐噪声则对视觉有太明显的影响,在这组图中,图中的黑白点已经很多了。这些极强和极突出的噪声点对人的感观刺激比较强,直接影响了图像的主观评分。,对于干扰,用PSNR值无法对图像的质量给出准确的评价,24 图像信号处理基础,241图像的基本表示一幅图像是由很多个像素(Pixel)点组成的,像素是构成图像的基本元素。比如,我们说一幅图像的大小是640480,则说明这个图像在水平方向上有640个像素,在垂直方向上有480个像素。 图像可分为灰度图像和彩色图像。 彩色图像可以用红、
13、绿、蓝三基色组成,任何颜色都可以用这三种颜色以不同的比例调和而成。彩色图像可以用类似于灰度图像的矩阵表示,只是在彩色图像中,由三个矩阵组成,每一个矩阵代表三基色之一。,1BMP文件格式BMP(bitmap)图像文件格式是由Microsoft公司推出的位图文件格式。BMP图像文件格式一般由三个部分组成:位图文件头、位图信息和位图阵列信息。位图文件头由14个字节组成;位图信息由位图信息头和色彩表组成,其中位图信息头由40个字节组成,而色彩表的大小取决于色彩数。位图信息头中就包含了图像的宽度、高度和位图大小等信息。位图阵列信息按行的顺序依次记录图像的每一个像素的数据。2PCX文件格式PCX是由Zso
14、ft开发的图像文件格式。PCX文件结构大致分为三个部分,文件头占128个字节,中间是被编码的光栅图像数据,文件尾部是扩充调色板信息,占769字节。其中光栅图像数据是采用PLL编码方法进行压缩存储的。压缩的基本思想是用一个重复计数值来记录相邻重复的字节数。压缩仅对每一条扫描线进行。,3GIF文件格式GIF文件的压缩编码方法采用的是散列法(Hasth-method)。GIF文件分为文件头和文件体两部分。文件头包括文件标志、图像水平分辨率、垂直分辨率、彩色表、图像宽度、图像高度、图像偏移量、编码的初始值等关于图像的参数。4TIF文件格式TIF(Tag Inaage File F0nnat)是一种复杂的图像文件格式。它一般分为四个部分:文件头、参数指针表、参数数据表和图像数据。其中文件头长度为8B,包含字节顺序、标记号和指向第一个参数指针表的偏移量。参数指针表占12B,它包含了描述图像的压缩种类、长度、彩色数以及扫描密度等参数,在参数指针表中列出了参数的偏移指针。而实际参数数据放在参数数据表中,其中比较常见的是16色或者256色的调色板。最后一部分是图像数据,它们按照参数表中描述的形式按行排列。,242常用图像处理方法 1二维离散傅立叶变换(DFT),2二维离散小波变换(DWT),3二维离散余弦变换(DCT),