1、哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 1 - 页 共 10 页第一章 绪论1、什么是信息?香农对于信息是如何定 义的。答:信息是事物运动状态或存在方式的不确定性的描述(Information is a measure of ones freedom of choice when one selects a message)。2、简述通信系统模型的组成及各部分的含 义。答:(1)、信源:信源是产生消息的源。信源产生信息的速率-熵率。(2)、编码 器:编码器是将消息变成适合于信道传送的信号的设备。包括信源编码器(提高传输效率) 、信道编码器(提高传输可靠性) 、调制器。(3)、信
2、道:信道是信息传输和存储的媒介。(4)、译码 器:译码是编码的逆变换,分为信道译码和信源译码。(5)、信宿:信宿是消息的接收者(人或机器) 。3、简述香农信息论的核心及其特点。答:(1)、香 农信息 论的核心:在通信系统中采用适当的编码后能够实现高效率和高可靠性的信息传输,并得出了信源编码定理和信道编码定理。(2)、特点:、以概率论、随机过程为基本研究工具。、研究的是通信系统的整个过程,而不是单个环节,并以编、译码器为重点。、关心的是最优系统的性能和怎样达到这个性能(并不具体设计系统) 。、要求信源为随机过程,不研究信宿。第二章 信息的度量2.1 自信息和互信息1、自信息(量):(1)、定义
3、:一个事件(消息)本身所包含的信息量,它是由事件的不确定性决定的。某个消息 出现的不确定性ix的大小定义为自信息,用这个消息出现的概率的对数的负值来表示:(2)、性质 :、 是 的严格递减函数。当 时ixIip21xp概率越小,事件发生的不确定性越大,事件发生以后所包21xI含的自信息量越大。、极限情况下,当 时 ;当0ixpiI时, 。1ixp0ixI、两个相对独立的不同的消息所提供的信息量应等于它们分别提供的信息量之和,即自信息论满足可加性。 。21212121;xIxIpxpiii xpxpxI 1loglog哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 2 - 页 共 10
4、页(3)、例 2.1:、英文字母中“a”出现的概率为 0.064, “c”出现的概率为 0.022,分别计算他们的自信息量。、假定前后字母出现是互相独立的,计算“ac”的自信息。、假定前后字母出现不是互相独立的,当“a”出现以后, “c”出现的概率为 0.04,计算“a”出现以后, “c”出现的自信息量。2、互信息:一个事件 所给出关于另一个事件 的信息定义为互信息,用 表示:jyixjiyxI;jijiijjijjiiji ypxpxyIpyxIyxI log|log|log|;2.2 平均自信息1、定义:随机变量 X 的每一个可能取值的自信息 ixI的统计平均值定义为随机变量 X 的平均自
5、信息量。2、熵 函数的性 质 :(1) 、对称性:(2) 、确定性:(3) 、非负性:(4) 、扩展性:(5) 、连续性:(6) 、递推性:(7) 、极值性:(8) 、上凸性:3、联 合熵 :联合自信息的数学期望。它是二维随机变量 XY 的不确定性的度量。4、条件熵 : 5、各 类熵 之间的关系:(1) 、联合熵与信息熵、条件熵之间的关系: 。)/()(XYHXY推广: ;12112121 / NNNHXH当二维随机变量 X,Y 相互独立时,联合熵等于 X,Y 各自熵之和。 。)()((2) 、条件熵与信息熵的关系: ; 。)(/(XY/YH(3) 、联合熵与信息熵的关系: 当 X、Y 相互独
6、立时等号成立。)H推广到 N 个随机变量: 。NNXH 212121()()()log()qiiiiHXEIxx21 1()()()log()nmnmijij ijijij ijHXYpxyIpxyxy2 2/(/)()log(/) (/)()log(/)ii iijji ijijij ijxYYpyxpxyy由 于 不 同 的 , 是 变 化 的 , 对 的 所 有 可 能 值 进 行 统 计 平 均 ,就 得 出 给 定 时 , 的 条 件 熵12211(,)(,)(,)qqqqHppp0,0,=,1)q2120li(,)(,)q qqH ,1211,(,)mn nnnp2 2()(,)l
7、og21()fxffx哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 3 - 页 共 10 页6、例 2.5:随机变量 X,Y 的联合概率分布如表 2.1 所示,求联合熵 和条件熵 。XYHX|2.3 平均互信息1、定义:从整体上表示从一个随机变量 Y 所给出关于另一个随机变量 X 的信息量,定义互信息在 XY 的联合空间中的统计平均值为随机变量 X 和 Y 间的平均互信息。jiyxI;YHyxpy xpyxpyyxIYXmj jijini mj ijinimj ijjinij jijini |1log; 1log;|log;1 111 条件熵 表示给定随机变量 Y 后,对随机变量 X
8、 仍然存在的不确定度。所以 Y 关于 X 的平均互YH|信息是收到 Y 前后关于 X 的不确定度减少的量,也就是从 Y 获得的关于 X 的平均信息量。2、平均互信息的性质:(1) 、非负性: ;0;I(2) 、互易性(对称性): ;XIYI;(3) 、平均互信息与各类熵之间的关系:XYHHXHYI /;;当 X,Y 统计独立时, 。 (请补充完善右图)0;YI(4) 、极值性: ;YXI;,(5) 、凸函数性:、当条件概率分布 给定时,平均互信息 是输入分布 的上凸函数。|ijxypXI;ixp、对于固定的输入分布 ,平均互信息量 是条件概率分布 的下凸函数。i Y|ijy3、例 2.15:给
9、定 X,Y 的联合概率分布,如表所示。求:(1)、H(X),H(Y); (2)、H(X|Y),H(Y|X); (3)、H(XY);表 2.1 X,Y 的联合概率分布 PYX 0 1ixp011/4 1/41/2 01/21/2jyp3/4 1/4 1表 2.2 条件概率分布 P|YX 0 1011/2 1/21 0哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 4 - 页 共 10 页(4)、H(Y)-H(Y|X);(5)、I(X;Y);第三章 信源及信源熵3.1 信源的分类(弄清楚以下信源分类的标准)非 平 稳 信 源 连 续 平 稳 信 源 马 尔 科 夫 信 源记 忆 长 度 有
10、 限记 忆 长 度 无 限离 散 有 记 忆 信 源离 散 无 记 忆 信 源离 散 平 稳 信 源平 稳 信 源波 形 信 源随 机 过 程 :3.3 离散多符号信源1、离散平稳信源的特征: 统计特性不随时间推移而变化。2、熵 率: 随机变量序列中,对前 N 个随机变量的联合熵求平均: 称为平均NNXHX21符号熵。如果当 时上式极限存在,则 称为熵率,或称为极限熵,记为Nlim。XHNlim3、离散平稳信源的几点 结论(小题 ):(1) 、条件熵 随 N 的增加是递减的(即已知条件越多,不确定性越少) ;121|(2) 、N 给定时平均符号熵大于等于条件熵,即 ;121|NNXHX(3)
11、、平均符号熵 随 N 的增加是递减的;XH(4) 、如果 ,则 存在,并且1 Nlim;121|limNN X4、马尔 科夫信源:信源在某一时刻发出某一符号的概率除与该符号有关外,只与此前发出的有限个符号有关。M 阶马尔可夫信源只与前面发出的 m 个符号有关,1 阶马尔可夫信源只与前面一个符号有关。5、例 题 3.3:信源 X 的信源模型为输出符号序列中,只有前后两个符号有记忆,条件概率 给出,求熵率,并比较 、 和 的12|XP12|XH21XH1234()96x哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 5 - 页 共 10 页大小。第五章 无失真信源编码5.1 信源编码的相关
12、概念1、各种码 的分类 :(1) 、分组码和非分组码:、分组码:将信源符号集中的每个信源符号 si 固定地射成一个码字 wi。 (一个信源符号一个码字)、非分组码:又称树码,编码器输出的码符号通常与编码器的所有信源符号都有关。(2) 、奇异码与非奇异码:定义 若一种分组码中的所有码字都不相同,则称此分组码为非奇异码,否则称为奇异码。非奇异码是分组码能够正确译码的必要条件,而不是充分条件。(3) 、唯一可译码与非唯一可译码:定义 任意有限长的码元序列,如果只能唯一地分割成一个个码字,便称为唯一可译码。条件:、此码本身是非奇异的;、对于任意有限的整数 N,其 N 次扩展码均为非奇异的。唯一可译码首
13、先是非奇异码,且任意有限长的码字序列不会雷同。(4) 、即时码与非即时码:定义 无需考虑后续的码符号就可以从 码符号序列中译出码字,这样的唯一可译码称为即时码。条件:、此码是唯一可译码;、不需要通过接收到后面的码字才能译出前面的码字,在收到一个完整的码字后即可以及时译出。一个唯一可译码成为即时码的充要条件是其中任何一个码字都不是其他码字的前缀。5.3、变长码及变长信源编码定理1、Kraft 不等式 McMillan 不等式:(1) 、Kraft 不等式:设信源符号集为 S=s1,s2,sq,码符号集为 X=x1,x2,xr,对信源进行编码,得到的码为 C= w1,w2,wq,码长分别为 l1,
14、l2,lq.即时码存在的充要条件是 这称为1qilirKraft 不等式(其中 r 是被编码的符号个数;q 是信源个数;l i是码的长度) 。这也就意味着即时码存在于二叉树的叶子节点处。(2) 、McMillan 不等式:判断唯一可译码的条件与即时码条件一致,都是 ,条件并不比即时1qilir码判断条件宽松。2、唯一可译码的判 别准则:定理 一个码是唯一可译码的充要条件是 F1,F2,的并集中没有 C 中的码字。设 C 为码字集合,我们要构造尾随后缀的集合 F1,F2,和 F。(1) 、F1 是 C 中所有码字尾随后缀的集合:若 C 中的码字 是码字 的前缀,即 = ,则将尾jwiiwAj随后
15、缀 A 列为 F1 中的元素,所有这样的尾随后缀构成了 F1;(2) 、考查 C 和 Fi 两个集合,若 C 中任意码字是 Fi 中元素的前缀,或者 Fi 中任意元素是 C 中码字的前缀,则将其相应的尾随后缀放入集合 ;1iF非 及 时 码及 时 码唯 一 可 译 码非 唯 一 可 译 码非 奇 异 码奇 异 码分 组 码非 分 组 码码哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 6 - 页 共 10 页(3) 、 (即 F 为码 C 的尾随后缀集合) ;i(4) 、若 F 中出现了 C 中的元素,则算法终止,判断 C 不是唯一可译码;若出现 为空集或 中的1iF1i元素在 F 中
16、已经全部存在了,则算法终止,判断 C 是唯一可译码。总而言之,判断一个码是唯一可译码的充要条件是 F 中不含有 C 中的码字。3、例 5.4:设消息集合共有 7 个元素 s1,s2,s3,s4,s5,s6,s7,他们分别被编码为a,c,ad,abb,bad,deb,bbcde,判断是否为唯一可译码。5.4 变长码的编码方法1、香 农编码 的方法:(1) 、信源的 q 个消息概率从大到小排序, ;qspsp21(2).计算各个信源符号的累加概率 ;isFiki ,11(3).按公式 计算第 个消息的码长 ;qisplii ,21ogiil(4).将累加概率 变换成二进制小数得到其码字。将累加概率
17、 变换成二进制小数,取小数iFisF点后 位数作为第 个信源符号的码字。il2、列 5.6:参照下表按以上步骤对一个有 7 个信源符号的信源进行编码。例如当 时,先求第四个信源4i符号的二元码码长 : ,因此码长取 3.4l3log4sp香农编码信源符号 is概率 i累加概率 iFisplog码长 il 二元码S1S2S3S4S5S6S70.200.190.180.170.150.100.0100.200.390.570.740.890.992.342.412.482.562.743.346.663333347000001011100101111011111103、二元霍夫曼编码 的方法:(1
18、) 、信源的 q 个消息概率从大到小排序 。qspsp21(2) 、0,1 码分别代表概率最小的两个信源符号,并将这两个概率最小的信源符号合并成一个,从而得到只包括 q-1 个符号的新信源。(3) 、将新信源仍按概率从大到小排序,再将最后两个概率最小的信源符号分别用 0 和 1 码符号表示,合并成一个新符号,这样形成了 q-2 个符号的新信源。(4) 、依次继续下去,直至信源最后只剩下两个信源符号为止。将这最后两个信源符号用 0 和 1 表示。哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 7 - 页 共 10 页(5) 、从最后一级缩减信源开始,进行回溯,将每次标注的码符号连接起来就
19、得到各信源符号所对应的码符号序列,即相应的码字。4、例 5.7:以例 5.6 为例编制二元霍夫曼码。霍夫曼编码码字 信源符号 编码过程 码长101100000101001100111S1s2s3s4s5s6s70.20 0.20 0.26 0.35 0.39 0.61 00.19 0.19 0.20 0.26 0.35 0 0.39 10.18 0.18 0.19 0.20 0 0.26 10.17 0.17 0.18 0 0.19 10.15 0.15 0 0.17 10.10 0 0.11 10.01 122333445、费诺编码的过 程:(1) 、信源的 q 个消息概率从大到小排序。即
20、。qspsp21(2) 、将依次排列的信源符号以概率分为两组,使两组的概率和基本相等。并赋予符号 0 和 1。(3) 、再分组,使划分后的两组的概率和基本相等,并赋予符号 0 和 1。(4) 、重复,直至每组只剩下一个信源符号为止。(5) 、信源符号对应的码符号序列即为费诺码。6、例 5.9:信源与例 5.6 和例 5.7 相同,请编制费诺码。费诺码信源符号 概率 第 1 次分组 第 2 次分组 第 3 次分组 第 4 次分组 二元码 码长S1 0.20 0 00 2S2 0.19 0 010 3S3 0.180 11 011 3S4 0.17 0 10 2S5 0.15 0 110 3S6
21、0.10 0 1110 4S7 0.0111 11 1111 47、总结 :霍夫曼码是即时码,他的两个特点:(1)保证了概率大的信源符号对应的码长小,概率小的信源符号对应的码长大,充分利用了短码;(2)每次缩减信源的最长两个码字有相同的码长,最后一位码符号不同。 (码长相差的小)编码最短,传输效率最高。8、习题 5.8:下面是 4 种不同的编码:000,10,00,11;100,101,0,11;01,100,011,00,111,1010,1011,1101;01,111,011,00,010,110;请计算:(1) 、此码的码长分布是否满足 Kraft-McMillan 不等式?(2) 、
22、此码是否为即时码?如果不是,请说明。(3) 、此码是否为唯一可译码?如果不是,请说明(可以画出树图说明) 。5.5 实用的无失真编码方法各种编码的应用(小题):(1) 、游程编码(REL,REC)应用于:BMP TIF AVI;(2) 、LZW 码应用于:GIF ZIP ARC;哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 8 - 页 共 10 页(3) 、算术编码应用于:JPEG2000;参考答案例 2.1:、由于前后字母出现是互相独立的, “ac”出现的概率为 0.064*0.022,所以即两个相对独立的事件的自信息量满足可加性,也就是由两个相对独立的事件的积事件所提供的信息量应
23、等于他们分别提供的信息量之和。、“a”出现的条件下, “c”出现的频率变大,它的不确定性变小。例 2.5: 联 合 符 号比 特 /23142log1l42/1log4/l1/log4 XYH由联合概率分布得 X 的边缘概率分布: 和条件概率分布,0XP(如表 2.2 所示) ,得到 和ijxyp| |,|YHY。21021| YH注意到 。X|83.4例 2.15:由 X,Y 的联合概率分布求出 X,Y 的边缘概率分布如下图表所示:例 3.3:(1) 、熵率: ;符 号比 特 /870.1|2XH(2) 、如果不考虑符号间的相关性,则信源熵为 符 号比 特 /54.136log49llog4
24、XH2I()log0.643.951abitc2 22I()l(.*.)(log0.64l.0)I(+)=9.47bitac2I()log0.6it哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 9 - 页 共 10 页由此可见, ,这是由于 之间存在统计依赖关系,在 已212| XHXH21X、 1X知的情况下, 的不确定性减少,即条件熵 小于无条件熵 。因此在考虑序列符号| H之间相关性之后,序列的熵减小。如果信源输出的符号序列看成是分组发出的,每两个符号作为一组,这样可以把符号序列看成是由一个新信源发出的,新信源每次发出的是由两个符号构成的消息。新信源的数学模型是一个二维的随机变
25、量,新信源的熵为 ,平均符号熵为两 个 符 号比 特 /412.870.542.1|2121 XHXH,由此可见大小关系为 。这是符 号比 特 /06.21X |X21HX因为 考虑了同一组的两个符号之间的相关性,因此 小于不考虑符号间相关性时的信2 21源熵 ,但是 没有考虑前一组的后一符号与后一组的前一符号之间的关联,因此H21X 。1|2X例 5.4:按照步骤构造如下图所示的尾随后缀表集:C F1 F2 F3 F4 F5a d eb de b adc bb cde bcdeadabbbaddebbbcdeF5 中第一个元素正好是 C 中的第三个码字,所以 C 不是唯一可译码。习题 5.8:哈尔滨医科大学生物信息科学与技术学院信息论基础 第 - 10 - 页 共 10 页