1、,本章第二次课,本章第三次课,本章第四次课,本章第五次课,复习:,1. 信息的基本理论的出处,美国科学家C.E.Shannon 于1948年发表的著名论文通信的数学理论.,2.什么是信息,信息是事物运动状态或存在方式的不确定性的描述。,(香农),3.基本通信系统的组成,2.1信源及分类 2.2单符号离散信源 2.3多符号离散信源 2.4连续信源 2.5冗余度,第2章 信源及信源熵,概率论知识复习,基本事件:随机试验的每一个可能的结果(样本点)。 样本空间:基本事件的集合。 复杂事件:多个基本事件所组成的事件。 随机事件:无论基本事件还是复杂事件,它们在试验中发生与否,都带有随机性。,相关知识复
2、习,事件域: 基本事件和复杂事件是样本空间的子集,所有子集的全体。 概率空间:三要素 样本空间、事件域(集合)、概率。 事件A的概率:A中样本点数与样本空间中样本点之比。 先验概率:根据以往的统计规律得到的。,相关知识复习,必须掌握的概率论知识,1)条件概率2)联合概率,相关知识复习,3)全概率: 设 B1 , B2 , 是一列互不相容的事件(B i B j = 0), 且有B1B2=(样本空间); P(Bi)0,i=1,2,则对任一事件A,有:,相关知识复习,4)贝叶斯(Bayes)公式:设B1,B2 , 是一列互不相容的事件(B i B j = 0), 且有B1B2 =(样本空间);p(B
3、i)0 ,i=1,2,则对任一事件A,有:,相关知识复习,第2章 信源及信源熵,2.1信源及分类 1.信源的描述 直观地说:信源就是信息的来源。 确切地说:信源是产生消息(符号)、消息序列、连续消息的来源。,2.1信源及分类,信源发出了消息,消息载荷着信息,信息具有不确定性。从数学分析上看,由于消息具有的不确定性,因此信源可以看成是产生随机变量、随机序列(矢量)和随机过程的源。在实际通信中最常见的信源有话音、文字、图像、数据等。,2.1信源及分类,从信源发出的消息在时间上和幅度上的分布来考虑分类,可将其分为离散信源和连续信源。 离散信源:指发出在时间和幅度上都是离散分布的离散消息的信源。如:文
4、字、数字、数据、字母等。,2.信源的分类,2.1信源及分类,离散信源又可分为无记忆离散信源和有记忆离散信源。 无记忆离散信源:发出的各个符号是相互独立的;各符号序列中的各个符号之间是没有统计关联的关系。各个符号的出现概率是它自身的先验概率。无记忆离散信源包含发出单符号的无记忆离散信源和发出符号序列的无记忆离散信源。,2.1信源及分类,有记忆离散信源: 发出的各个符号是相关联的。表述起来很困难。有记忆离散信源又可分为发出符号序列的有记忆离散信源和发出符号序列的马尔可夫信源。,2.1信源及分类,当记忆长度为m+1时称这种记忆信源为m阶马尔可夫信源,即信源每次发出的符号与前m个符号有关,与更前面的符
5、号无关。假设m阶马尔可夫信源输出的随机序列为X=X1 X2Xi-1Xi XN。在这序列中某i时刻的随机变量X取什么符号只与前m个随机变量Xi-1 Xi-2 Xi-m取什么符号有关,与其更前面的随机变量以及后面的随机变量取什么符号都无关。这样就可以用马尔可夫链来描述此信源。,2.1信源及分类,连续信源:指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源。如:语言、图像、视频等。,2.1信源及分类,2.2单符号离散信源,2.2.1 单符号离散信源的数学模型单符号离散信源输出的消息是以一个符号的形式出现.如:文字、数字、字母、等符号。信源每次只发出一个符号代表一个消息,可用离散随机变量来描
6、述。,2.2单符号离散信源,2.2单符号离散信源,定义一个离散无记忆信源是由n个符号消息组成的集合:X= a1,a2 an ,,这n个符号消息的概率分布是:,称为符号ai 的先验概率,散信源数学模型表示为:,从概率的角度看,可以将符号消息ai 看一个随机事件。因此ai 具有不确定性。,0p(ai)1,,注意:大写字母X、Y、Z等代表随机变量,指的是信源的整体;而带有下标的小写字母ai,bj,ck等代表随机事件的某一结果或信源的某个元素。,2.2单符号离散信源,【例2.2-1】掷一颗质地均匀的骰子研究其下落后朝上一面的点数,每次实验结果必然是1,26点中的某一个面朝上。信源输出的消息是“朝上面是
7、一点”,“朝上面是两点”,“朝上面是六点等,六6个不同的消息。每次实验只能出现一种消息,出现哪一种消息是随机的,但必是六6种情况中的一种。用ai,(i=1,6)来表示这些消息,得到信源的样本空间为符号集A=a1,a2,a3,a4,a5,a6。,2.2单符号离散信源,各消息都是等概率出现的,用一个离散型随机变量X来描述这个信源的输出的消息。这个随机变量X的样本空间就是符号集A,X的概率分布就是各消息出现的先验概率:p(a1)=p(a2)=p(a3)=p(a4)=p(a5)=p(a6)=1/6,信源的数学模型为:,2.2单符号离散信源,2.2.2 自信息量1.自信息量定义定义:一个随机事件发生某一
8、结果后所带来的信息量称为自信息量,简称自信息。,2.2单符号离散信源,当随机事件ai发生以前,I(ai)表示事件ai的不确定性;当随机事件ai发生以后,I(ai)表示事件ai所含有(或所提供)的信息量。注意:信息量是数值,信息量单位只是为了表示不同底数的对数值,并没有量纲的含义。,2自信息量的意义,2.2单符号离散信源,2.2单符号离散信源,【例2.2-2】英文字母中“e”出现的概率是0.105,“c”出现的概率是0.023,“o”出现的概率是0.001。分别计算其自信息量。 解:“e”:I(e)=20.105=3.25(比特)“c”:I(c)=20.023=5.44(比特)“o”:I(o)=
9、20.001=9.97(比特),2.2单符号离散信源,【例2.2-3】某地二月份天气的概率分布统计如下:晴天的概率是1/2,阴天的概率是1/4,雨天的概率是1/8,雪天的概率也是1/8。求此四种气候的自信息量分别的是多少?,解:数学模型如下:这四种气候的自信息量分别为:I(a2)=2(比特),I(a3)=3(比特),I(a4)=3(比特)。,2.2单符号离散信源,(1) I(ai)是非负值 随机事件发生的概率为p(a),则p(a)0,1,p(a)为负值,由对数性质可知,若 p(a)为负值,则- p(a)恒为非负值.,3.自信息量I(ai)性质,2.2单符号离散信源,当p(a)=1时,I(a)=
10、0 P(a)=1说明该事件是必然事件,不含有任何不确定性,所以不含有任何信息量。, 当p(a)=0时,I(a) = P(x)=0说明该事件是不可能事件。不可能事件一旦发生,带来的信息量非常大。称信息爆炸。,2.2单符号离散信源, I(a)是p(a)的单调递减函数,p(a)0,1,1/ p(a)1,,且随着p(a)的增大而减小。 由式I(a)=p(a)可知 I(a)=1/p(a)也随着p(a)的增大而减小。 用求导的方法也很容易证明I(a)是p(a)的单调递减函数。,2.2单符号离散信源,I(a,b)= I(a)+ I(b),可加性,注:a是一个随机变量,I(a)是a的函数,也是一个随机变量。,
11、如两个独立信源符号一起出现,P(a,b)=p(a)p(b);,2.2单符号离散信源,2.2单符号离散信源,4.联合自信息量,两个随机事件的离散信源数学模型为,其中0p( )1(i=1,2,n;j=1,2,m)。,联合自信息量,用I( )表示,即:,I( )=2p( ),当X与Y相互独立时,I( )=2p( ),说明两个随机事件相互独立时,同时发生得到的自信息量,等于这两个随机事件各自独立发生得到的自信息量之和。,2.2单符号离散信源,5.条件自信息量,定义:在二维联合集XY中,设在bj条件下,发生ai的条件概率为p(ai/bj),那么它的条件自信息量I(a/bj)定义为:,表示在特定的条件(b
12、j已定)下,随机事件ai发生所带来的信息量。,2.2单符号离散信源,6.自信息量、联合自信息量和条件自信息量 三者之间的关系,2.2单符号离散信源,【例2.2-4】居住某地区的女孩中有25%是大学生,在女大学生中有75%是身高1.6米以上,而女孩中身高1.6米以上的占总数一半。假如我们得知“身高1.6米以上的某女孩是大学生”的消息,问获得多少信息量?,解:设事件A为女孩是大学生;设事件B为女孩身 高1.6米以上。则: p(A)=0.25p(B)=0.50p(B/A)=0.75,2.2单符号离散信源,2.2单符号离散信源,“身高1.6米以上的某女孩是大学生” 表明在B事件发生的条件下,A事件发生
13、,所以其概率为p(A/B)。由贝叶斯定律公式:由 “身高1.6米以上的某女孩是大学生” ,获得信息量为,【例2.2-4】居住某地区的女孩中有25%是大学生,在女大学生中有75%是身高1.6米以上,而女孩中身高1.6米以上的占总数一半。假如我们得知“身高1.6米以上的某女孩是大学生”的消息,问获得多少信息量?,【例2.2-5】一信源有4种输出符号码,Xi(i=0,1,2,3),且p(Xi)=1/4。设信源向信宿发出X3,但由于传输中的干扰,接收者收到X3后,认为其可信度为0.9。于是信源再次向信宿发送该符号(X3),信宿无误收到。问信源在两次发送中发出的信息量各是多少?信宿在两次接收中得到的信息
14、量又各是多少?,2.2单符号离散信源,解:第一次收到的符号为y,第二次发送无误收到,发、收信息量相等,则I(X3/y)=-log2p(Xi/y)=-log20.9=0.15(比特)第一次发出的信息量为I(X3)=-log2p(Xi)=-log20.25=2(比特)第一次传送的信息量为两次发送信息量之差,即 I(X3;y)=I(X3)-I(X3/y)=1.85(比特),2.2单符号离散信源,2-1同时掷2颗色子,事件A、B、C分别表示:(A)仅有一个色子是3;(B)至少有一个色子是4;(C)色子上点数的总和为偶数。试计算事件A、B、C发生后所提供的信息量。,2-2设在一只布袋中装有100只对人手
15、的感觉完全相同的木球,每只球上涂有一种颜色。100只球的颜色有下列三种情况: (1)红色球和白色球各50只; (2)红色球99只,白色球1只;(3)红、黄、蓝、白色各25只。 求从布袋中随意取出一只球时,猜测其颜色所需要的信息量。,2-3一信源有6种输出状态,概率分别为p(A)=0.5,p(B)=0.25,p(C)=0.125,p(D)=p(E)=0.05,p(F)=0.025。试计算H(X),然后求消息ABABBA和FDDFDF的信息量(设信源先后发出的符号相互独立的),并将其与长度为6位的消息序列信息量的期望值相比较。,1.什么是信源:,是发出消息的源,是信息的来源。,2.信源的分类,连续
16、信源,离散信源,复习,例: 离散无记忆信源 单个符号 X=0, 1 X=A, B , ,Z 符号序列 X=00, 01, 10, 11 X=AA, AB , ,AZ, BA, BB, , BZ , , ZZ,3.信源的数学模型,复习,4、自信息一个随机事件发生某一结果后所带来的信息量称为自信息量,简称自信息。 I(xi)=logp(xi),复习,1信源熵定义 我们已知单符号离散无记忆信源的数学模型,2.2.3 信源熵,2.2.3 信源熵,自信息量指的是某一信源发出某一消息所含的信息,不能作为整个信源的信息测度。信源整体的信息量如何测定呢?我们可以定义信源各个离散消息的自信量的数学期望为信源的平
17、均信息量,以此来测定信源整体的信息量。,2.2.3 信源熵,这个平均信息量的表达式与统计物理学中热熵的表达式很相似,在概念上两者也有相似之处。因此,借用“熵”这个词,把信源整体的信息量称为信息熵,也叫信源熵或香农熵.用H(X)来表示.,2.2.3 信源熵,信源熵定义: 概率空间中每个事件所含有的自信息量的数学期望称信源熵。,单位:以2为底的对数时是比特/符号(bit/symbol);以e为底的对数时是奈特/符号(nat/symbol);以10为底的对数时是哈特/符号( hart/symbol),2.2.3 信源熵,2信源熵物理含义 (1)信息熵H(X)表示了信源输出前,信源的平均不确定性; (
18、2)信息熵H(X)表示了信源输出后,每个消息或符号所提供的平均信息量; (3)信息熵H(X)反映了随机变量X的随机性。,2.2.3 信源熵,【例2.2-6】一个布袋内放有100个球,其中80个球是红色的,20个球是白色的,问:(1)若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。(2)若每次摸出一个球后又放回袋中,再进行下一次的摸取,那么如此摸取n次后,求平均摸取一次所能获得的自信息量。,2.2.3 信源熵,【例2.2-6】一个布袋内放有100个球,其中80个球是红色的,20个球是白色的,问:(1)若随机摸取一个球,猜测其颜色,求平均摸取一次所能获得的自信息量。(2)若每次摸出
19、一个球后又放回袋中,再进行下一次的摸取,那么如此摸取n次后,求平均摸取一次所能获得的自信息量。,解:(1)概率空间为:x1表示摸出的球为红球,x2表示摸出的球为白球 当被告知摸出的是红球,则获得的信息量是: I(x1)=p(x1)=0.8(比特) 当被告知摸出的是白球,则获得的信息量是:I(x2)=p(x2)=0.2(比特),2.2.3 信源熵,(2)每次摸出一个球后又放回袋中,再进行下一次的摸取,如此摸取n次后,红球出现的次数为np(x1)次,白球出现的次数为np(x2)次。随机摸取n次后共获得信息量为: 平均摸取一次所能获得的自信息量为:,=0.72(比特/次),np(x1)I(x1)+n
20、p(x2)I(x2),2.2.3 信源熵,此例说明: 自信息量I(x1)和I(x2)只是表征信源中各个符号的不确定度,一个信源总是包含着多个符号消息,各个符号消息又按概率空间的先验概率分布,因此各个符号的自信息量就不同。所以自信息量不能作为信源总体的信息量; 可以用平均自信息量H(x),即信息熵H(x)从平均意义上来表征信源的总体特征,也可以表征信源的平均不确定性。,2.2.3 信源熵,【例2.2-7】某地二月份天气的概率分布统计如下:晴天的概率是1/2,阴天的概率是1/4,雨天的概率是1/8,雪天的概率也是1/8。求信源熵是多少? 解:信源的概率空间,=1.75(比特/符号),2.2.3 信
21、源熵,3条件熵 定义: 在联合符号集XY上的条件自信息量的数学期望,用H(X/Y)表示。在已知随机变量Y的条件下,随机变量X的条件熵H(X/Y)定义为,2.2.3 信源熵,在已知随机变量X的条件下,随机变量X的条件熵H(Y/X)定义为,条件熵表示信宿在收到Y后,信源X仍然存在的不确定度。这是传输失真所造成的。 称H(X/Y)称为信道疑义度,或损失熵;H(Y/X)称为信道散布度,或噪声熵。,2.2.3 信源熵,【例2.2-8】已知X,Y0,1,X,Y构成的联合概率为p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。解:,题中已知p(xiyj),需求p(xi/
22、yj) p(xi/yj)= p(xiyj)/p(yj),已知p(xiyj),求p(yj),2.2.3 信源熵,当j=0时, p(y1=0)=p(x1y1=00)+p(x2y1=10)=1/8+3/8=4/8=1/2 当j=1时, p(y2=1)=p(x1y2=01)+p(x2y2=11)=1/8+3/8=4/8=1/2 P(0/0)=p(x=0,y=0)=p(x1y1)/p(y1)=p(00)/p(0)=(1/8)(1/2)=1/4 = p(1/1) 同理有p(1/0)=p(0/1)=3/4 H(X/Y) =-1/8(1/4)-3/8(3/4)-3/8(3/4)-1/8(1/4) =0.406
23、(比特/符号),2.2.3 信源熵,4联合熵(共熵) 定义:联合离散符号集XY上的每个元素对xiyj的 联合自信息的数学期望.,H(XY)表示XY同时发生的不确定度。,2.2.3 信源熵,5信源熵、条件熵、联合熵之间的关系H(XY)= H(X)H(Y/X) H(XY)= H(Y)H(X/Y) 条件熵小于无条件熵, H(Y/X)H(Y)。当且仅当y和x相互独立p(y/x)=p(y),H(Y/X)=H(Y)。 两个条件下的条件熵小于一个条件下的条件熵H(Z/X,Y)H(Z/Y)当且仅当p(z/x,y)=p(z/y)时取等号。,2.2.3 信源熵,联合熵小于信源熵之和,H(YX)H(Y)+H(X)
24、当两个集合相互独立时得联合熵的最大值H(XY)max=H(X)+H(Y),信源熵、条件熵、联合熵之间的关系,2.2.3 信源熵,例2.2-9二进制通信系统采用符号“0”和“1”,由于存在失真,传输时会产生误码,用符号表示下列事件,u0:一个“0”发出;u1:一个“1”发出;v0:一个“0”收到;v1:一个“1”收到。给定下列概率,p(u0)=1/2,p(v0/u0)=3/4, p(v0/u1)=1/2。 求:(1)已知发出一个“0”,收到符号后得到信息量; (2)已知发出的符号,收到符号后得到的信息量; (3)知道发出的和收到的符号能得到的信息量; (4)已知收到的符号,被告知发出的符号得到信
25、息量。,2.2.3 信源熵,解: (1)已知发出一个“0”,收到符号后得到的信息,2.2.3 信源熵,例2.2-9二进制通信系统采用符号“0”和“1”,由于存在失真,传输时会产生误码,用符号表示下列事件,u0:一个“0”发出;u1:一个“1”发出;v0:一个“0”收到;v1:一个“1”收到。给定下列概率,p(u0)=1/2,p(v0/u0)=3/4, p(v0/u1)=1/2。,(2)已知发出的符号,收到符号后得到的信息量.,2.2.3 信源熵,联合概率,例2.2-9二进制通信系统采用符号“0”和“1”,由于存在失真,传 输时会产生误码,用符号表示下列事件,u0:一个“0”发出;u1:一个“1
26、”发出;v0:一个“0”收到;v1:一个“1”收到。给定下列概率,p(u0)=1/2,p(v0/u0)=3/4, p(v0/u1)=1/2。,(3)知道发出的和收到的符号能得到的信息量;H(UV)=H(U)+H(V/U)因为 p(u0)p(u1)1/2,所以 H(U)1(比特/符号)H(UV)=H(U)+H(V/U)=1+0.91=1.91(比特/符号),2.2.3 信源熵,例2.2-9二进制通信系统采用符号“0”和“1”,由于存在失真,传 输时会产生误码,用符号表示下列事件,u0:一个“0”发出;u1:一个“1”发出;v0:一个“0”收到;v1:一个“1”收到。给定下列概率,p(u0)=1/
27、2,p(v0/u0)=3/4, p(v0/u1)=1/2。,(4)已知收到的符号,被告知发出的符号得到的信息量。,2.2.3 信源熵,例2.2-9二进制通信系统采用符号“0”和“1”,由于存在失真,传 输时会产生误码,用符号表示下列事件,u0:一个“0”发出;u1:一个“1”发出;v0:一个“0”收到;v1:一个“1”收到。给定下列概率,p(u0)=1/2,p(v0/u0)=3/4, p(v0/u1)=1/2。,1信源熵的基本性质(1)非负性因为信源熵是自信息的数学期望,自信息是非负数,所以信源熵一定满足非负性。非负性表明,从平均意义上来说,信源在发出符号以前,总存在一定的不确定性,在发出符号
28、后,总可以提供一定的信息。,2.2.4 信源熵的基本性质和定理,2.2.4 信源熵的基本性质和定理,(2)对称性当信源含有n个离散消息时,信源熵H(x)是这n个消息发生概率的函数。,熵的对称性指p(a1),p(a2),p(an)的顺序任意互换时,熵的值不变。即,2.2.4 信源熵的基本性质和定理,熵函数的对称性表明:信源熵只与信源概率空间的总体结构有关,与概率分量和各信源符号的对应关系,乃至各信源符号本身无关。,2.2.4 信源熵的基本性质和定理,(3)确定性 只要信源符号表中,有一个信源符号的出现概率为1,信源熵就等于零。这就是熵函数的确定性.它表明当信源任意符号以概率1必然出现时,其他符号
29、均不可能出现。这个信源是一个确知信源,在发符号前,不存在不确定性,在发符号后不提供任何信息。,2.2.4 信源熵的基本性质和定理,(4)扩展性 若信源符号集中增加了若干符号,当这些符号出现的概率很小时,信源的熵不变。 (5)可加性 统计独立的两个信源X和Y,下式成立。 H(XY)=H(X)+H(Y),2.2.4 信源熵的基本性质和定理,(6)强可加性 任意两个相互关联的信源X和Y,其联合熵等于 H(XY)=H(X)+H(Y/X)或H(XY)=H(Y)+H(X/Y) (7)递增性 若原信源中某一个符号划分成m个符号,这m个符号的概率之和等于原某一符号的概率,则由于符号个数增多而产生新的不确定性,
30、新信源的熵增加了。,2.2.4 信源熵的基本性质和定理,2信源熵的定理 香农辅助定理:对于任意n维概率矢量 P=(p1,p2,pn)和Q=(q1,q2,qn) 如下不等式成立,上式表明,对任意概率分布pi,它对其他概率分布qi的自信息量-logqi取数学期望时,必不小于pi本身的熵。等号仅当P=Q时成立。,2.2.4 信源熵的基本性质和定理,最大离散熵定理:离散无记忆信源输出M个不同的信息符号,当且仅当各个符号出现概率相等时(即pi=1/M),熵最大。,证明,2.2.4 信源熵的基本性质和定理,【例2.2-10】设随机变量X的概率分布为随机变量Y是X的函数,其分布为将X的4个最小的概率分布合并
31、为一个: (1)显然H(X)log27,请解释原因; (2) 计算H(X),H(Y); (3)计算H(X/Y)并解释其结果。,2.2.4 信源熵的基本性质和定理,解:(1) H(X)log27,请解释原因根据熵的极值性,当随机变量等概分布时,随机变量的熵最大。有7个可能取值的随机变量的最大熵为Hmax(X)=log27,而随机变量X不是等概分布,所以H(X)log27。,2.2.4 信源熵的基本性质和定理,(2)计算H(X),H(Y),2.2.4 信源熵的基本性质和定理,(3)计算H(X/Y)并解释其结果。因为随机变量Y是X的函数,所以 H(Y/X)=0(比特/符号)H(X/Y)=H(XY)-
32、H(Y)=H(X)+H(Y/X)-H(Y)=2.722-1.922=0.8(比特/符号),2.2.4 信源熵的基本性质和定理,2-6设信息源为,求:信源熵,并解释为什么H(X)log6不满足信源熵的极值性。,上次课内容,2.2.3信源熵 2.2.4信源熵的基本性质和定理,复习,信息源的平均不确定度.或信源中各个符号不确定度的数学期望.,1、信源熵,复习,概率空间中每个事件所含有的自信息量的数学期望称信源熵。,2、信源熵、条件熵、联合熵之间的关系H(XY)= H(X)H(Y/X) H(XY)= H(Y)H(X/Y) 条件熵小于无条件熵, H(Y/X)H(Y)。当且仅当y和x相互独立p(y/x)=
33、p(y),H(Y/X)=H(Y)。 两个条件下的条件熵小于一个条件下的条件熵H(Z/X,Y)H(Z/Y),复习,3、信源熵的定理 对于任意n维概率矢量P=(p1,p2,pn)和Q=(q1,q2,qn) 如下不等式成立,2.2.4 信源熵的基本性质和定理,4最大离散熵定理:离散无记忆信源输出M个不同的信息符号,当且仅当各个符号出现概率相等时熵最大。,复习,本次课内容:2.2.5互信息量2.2.6数据处理中信息的变化2.3多符号离散信源2.3.1离散无记忆序列信源,2.2.5互信息量 1.互信息量,信源发出符号xi,由于信道存在干扰,收到的不是xi而是yj,我们可从yj中获取有关xi的信息量。,2
34、.2.5互信息量,(1)互信息量定义信源发出的消息xi的概率p(xi)称为先验概率。消息xi通过有噪声干扰的信道传输后,信宿收到的可能是由于干扰作用引起的某种变形的消息yj,从yj来推测信源发出的xi概率,这一过程可由后验概率来描述。我们将从yj中获取有关xi的信息量称为互信息量。,2.2.5互信息量,定义:xi的后验概率与先验概率比值的对数,为yj 对xi的互信息量,也称为交互信息量(简称互信息),用I(xi;yj)表示,即:(i=1,2,n;j=1,2,m),2.2.5互信息量,【例2.2-11】某地二月份天气的概率分布统计如下:晴天的概率是1/2,阴天的概率是1/4,雨天的概率是1/8,
35、雪天的概率也是1/8。有人告诉你:“今天不是晴天。”把这句话作为收到的消息y1。求:互信息量,2.2.5互信息量,2.2.5互信息量,解:收到y1后,各种天气发生的概率变成后验概率了,计算y1与各种天气之间的互信息量。x1与y1之间的互信息量为零。对x2可以计算出:,【例2.2-11】某地二月份天气的概率分布统计如下:晴天的概率是1/2,阴天的概率是1/4,雨天的概率是1/8,雪天的概率也是1/8。有人告诉你:“今天不是晴天。”把这句话作为收到的消息y1。,同理计算y1分别得到了x2、x3 、x4各1比特的信息量。也可以理解为消息y1使x2、x3、x4的不确定度各减少1比特。,(2)互信息量性
36、质对称性I(xi;yj)=I(yj;xi)反映了输入、输出之间“你中有我,我中有你”的交互关系,表示从yj得到xi的信息量和xi从yj得到的信息量一样多;当xi与yj相互独立时,互信息为0表明xi与yj之间不存在统计约束性,从yj中得不到xi的信息;反之亦然;,2.2.5互信息量,互信息可为正值也可为负值互信息为负值说明信宿收到yj后,不仅没有使xi的不确定度减少;反而使之更大了。这是通信受到干扰或发生错误造成的。,2.2.5互信息量,2.条件互信息量 定义:在给定zk的条件下,xi与yj之间的互信息 量,即条件互信息量。用I(xi;yj/zk)表示。,消息xi与消息对yjzk之间的互信息可定
37、义为,2.2.5互信息量,此式表明:一个联合事件yjzk发生后所提供的有关xi信息量I(xi;yjzk),等于zk发生后提供的有关xi的信息量I(xi;zk)与给定zk条件下再出现yj后所提供的有关xi的信息量I(xi;yj/zk)之和。,由式,2.2.5互信息量,3平均互信息量 (1)平均互信息量定义 定义;互信息量I(xi ;yj)在联合概率空间P(XY)上的统计平均值称为平均互信息量。用I(X;Y)表示,单位-比特/消息,平均互信息量I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量,可作为信道中流通信息量的整体测度。,2.2.5互信息量,(2)平均互信息量的物理意义如
38、果X与Y是相互独立的,无法从Y中去提取关于X的信息,即H(X/Y)=H(X),故称为全损离散信道。如果Y是X确定的一一对应函数,I(X;Y)H(X),已知Y就完全解除了关于X的不确定度,所获得的信息就是X的不确定度或熵,可看成是无扰离散信道。疑义度H(X/Y)为零,噪声熵也为零。,2.2.5互信息量,一般情况下,X和Y既非相互独立,也不是一一对应,那么从Y获得X的信息必须在零与H(X)之间,即常小于X的熵。,图2-6收发两端熵的关系,2.2.5互信息量,【例2.2-12】把已知信源接到下图所示的信道上,求在该信道上传输的平 均互信息量I(X;Y)、疑义度H(X/Y)、噪声熵 H(Y/X)和联合
39、熵H(XY)。,2.2.5互信息量,解:由p(xiyj)=p(xi)p(yj/xi)求出各联合概率:p(x1y1)=p(x1)p(y1/x1)=0.50.98=0.49p(x1y2)=p(x1)p(y2/x1)=0.50.02=0.01p(x2y1)=p(x2)p(y1/x2)=0.50.20=0.10p(x2y2)=p(x2)p(y2/x2)=0.50.80=0.40,2.2.5互信息量,由 得到Y集各消息概率:,由 求X的各后验概率:,同样可推出 p(x1/y2)=0.024,p(x2/y2)=0.976,2.2.5互信息量, =0.5log20.5+0.5log20.5=l(比特/符号)
40、,平均互信息 I(X;Y)=H(X)+H(Y)-H(XY)=1+0.98-1.43=0.55(比特/符号),2.2.5互信息量,疑义度,H(X/Y)也可由下式简单计算得到 H(X/Y)=H(XY)-H(Y)=1.43-0.98=0.45(比特/符号),2.2.5互信息量,噪声熵,=-0.49log20.98+0.01log20.02+0.1log20.20+0.4log20.80 =0.43(比特/符号),噪声熵也可通过下式计算: H(Y/X)=H(XY)-H(X)=0.43(比特/符号),2.2.5互信息量,(3)平均互信息量的性质对称性I(X;Y)=I(Y;X)对于信道两端的随机变量X和Y
41、,由Y提取到的关于X的信息量与从X中提取到的关于Y的信息量是一样的。I(X;Y)和I(Y;X)只是观察者的立足点不同,是对信道两端的随机变量X和Y之间信息流通的总体测度的两种不同表达形式。,2.2.5互信息量,非负性 即I(X;Y)0平均互信息量不是从两个具体消息出发,而是从随机变量X和Y的整体角度出发,在平均意义上观察问题,所以平均互信息量不会出现负值。从整体和平均的意义上来说,信道每传递一条消息,总能提供一定的信息量,或者说接收端每收到一条消息,总能提取到关于信源X的信息量,使信源的不确定度有所下降。,2.2.5互信息量,极值性 即I(X;Y)H(X),I(Y;X)H(Y)从一个事件提取关
42、于另一个事件的信息量,至多是另一个事件熵那么多,不会超过另一个事件自身所含的信息量。 凸函数性,2.2.5互信息量,(4)三维联合集XYZ上平均互信息量三维联合集XYZ上平均互信息量有:I(X;YZ)=I(X;Y)+I(X;Z/Y) I(YZ;X)=I(Y;X)+I(Z;X/Y) I(X;YZ)=I(X;ZY)=I(X;Z)+I(X;Y/Z),2.2.5互信息量,2.2.6数据处理中信息的变化,数据处理定理:当消息经过多级处理后,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。实际的通信系统中,常会出现串联信道,如微波中继接力通信,数据处理系统一般也可看成是一种信道,它与前
43、面传输数据的信道也构成串联的关系。,2.2.6数据处理中信息的变化,二级处理器示意图,在Y条件下,X与Z是相互独立的,由I(X;YZ)=I(X;Y)+I(X;Z/Y) I(YZ;X)=I(Y;X)+I(Z;X/Y)两式可得到 I(X;Z)=I(X;Y)+I(X;Z/Y)-I(X;Y/Z),2.2.6数据处理中信息的变化,I(X;Z)=I(X;Y)+I(X;Z/Y)-I(X;Y/Z) 将公式I(YZ;X)=I(Y;X)+I(Z;X/Y)中的集合符号替代(X代Y,Y代Z,Z代X)得 I(XY;Z)=I(X;Z)+I(Y;Z/X) 将右边的X和Y互换得 I(XY;Z)=I(Y;Z)+I(X;Z/Y)
44、 由上两式得: I(X;Z)=I(Y;Z)+I(X;Z/Y)-I(Y;Z/X),2.2.6数据处理中信息的变化,假设在Y条件下X与Z相互独立 I(X;Z/Y)=0,而且I(X;Y/Z)和I(Y;Z/X)均非负量,则得出I(X;Z)I(Y;Z) I(X;Z)I(X;Y),2.2.6数据处理中信息的变化,I(X;Z)=I(Y;Z)+I(X;Z/Y)-I(Y;Z/X),结论:两级串联信道输入与输出消息之间的平均互信息量既不会超过第一级信道输入与输出消息之间的平均互信息量,也不会超过第二级信道输入与输出消息之间的平均互信息量。对信号、数据或消息进行多级处理时,每处理一次,就有可能损失一部分信息,这就是
45、所谓的信息不增原理。,2.2.6数据处理中信息的变化,2.3多符号离散信源,2.3.1离散无记忆序列信源1定义定义: 若信源输出的消息是取值离散的平稳随机序列,并且序列中各随机变量之间彼此统计独立,则此信源称为离散无记忆序列信源.序列中符号组的长度即为扩展次数。,2.3多符号离散信源,离散无记忆序列信源的数学模型与基本离散信源的数学模型相同,用x,P(x)概率空间来描述,是离散无记忆信源X的N次扩展信源。它的输出消息由N个符号序列组成,前后符号的出现是彼此独立的。它的数学模型是x,P(x)的N重概率空间XN,P(aj)。,2数学模型,2.3多符号离散信源,设离散无记忆信源的概率空间为,则信源X
46、的N次扩展信源xN的N重概率空间为,XN=(X1X2.XN),,2.3多符号离散信源,定义:离散平稳、无记忆信源X的N次扩展信源的熵,即N个符号序列组成的序列信源熵为,3信源熵,H(X)=,2.3多符号离散信源,4两个结论 (1)序列信源熵是离散信源X熵的N倍,即:,【例2.3-1】有一离散平稳无记忆信源,求:这个信源的二次扩展信源的熵,2.3多符号离散信源,解:求二次扩展信源。扩展信源是长度为2的消息序列。信源有3个不同的消息,每两个消息组成的不同排列共有32=9种,构成二次扩展信源的9个不同元素.,(il,i2 =1,2,3; i=1,2.9),二次扩展信源,2.3多符号离散信源,二次扩展
47、信源的熵为,将表中的数据代入可得,2.3多符号离散信源,如果先计算信源X的熵,再利用式同样可得,2.3多符号离散信源,结论:计算扩展信源熵时,不必构造新的信源,可直接从原信源X的熵导出,即一个离散平稳无记忆信源X的N次扩展信源的熵等于信源X熵的N倍。注: 信源X的熵和序列信息熵的单位都是比特/符号,但两个单位中符号的意义不同, 信源X熵是指某一个符号,而序列信息的熵是指符号序列。,2.3多符号离散信源,(2)当信源无记忆、满足平稳特性时平均每个符号熵为:,即平均每个符号熵等于单个符号熵。,【例2.3-2】一个无记忆信源,随机变量X0;1等概分布.求(1)以单个消息出现的信源熵;(2)两个消息出
48、现信源熵;(3)信源的平均符号熵 .,2.3多符号离散信源,解: (1)以单个消息出现:,H(X)=,(2)两个消息出现:(N=2的序列)随机序列,或 (比特/符号),(3)信源的平均符号熵:,2.3多符号离散信源,2-5己知二维随机变量XY的联合概率分布p(xiyj)为: p(0,0)=p(1,1)=1/8,p(0,1)=p(1,0)=3/8, 求H(X/Y)。,上次课内容:2.2.5互信息量2.2.6数据处理中信息的变化2.3多符号离散信源2.3.1离散无记忆序列信源,1、互信息量xi的后验概率与先验概率比值的对数,为yj 对xi的互信息量,也称为交互信息量(简称互信息),用I(xi;yj)表示,即:(i=1,2,n;j=1,2,m),2.2.5互信息量,复习,2、什么是平均互信息量互信息量I(xi ;yj)在联合概率空间P(XY)上的统计平均值称为平均互信息量。用I(X;Y)表示,