1、1,复 习,1、信息的定义:信息是指各个事物运动的状态及状态变化的形式。是事物运动状态或存在方式的不确定性的描述。,2、信息论的定义关于信息的本质和传输规律的科学理论,是研究信息的度量、发送、传递、交换、接收和储存的一门新兴学科。它为各种具体的信息技术提供理论依据,而信息技术则以此为根据去研究如何实现、怎样实现的问题。,3、信息、消息和信号的关系:消息是含有信息的语言,文字和图像等,是具体的,它承载信息.信号是消息的物理体现,是信息的载体。,2,4、数字通信系统的模型,信源,编码器,信道,干扰源,信宿,解码器,编码器:把消息变成适合信道传输的信号。信源编码:对信源输出的消息(符号)进行变换和处
2、理,提高信息传输效率。 信道编码:对信源编码器的输出进行检错和纠错处理, 提高信息传输的可靠性,信源:离散信源、连续信源。核心问题是信息的度量。,信道:传递信息的通道。信道的核心问题是信道容量的大小,通信系统的中心问题是在噪声下如何有效而可靠地传送信息, 实现这一目标的主要方法是编码。-香农,3,第二章 信源及信源熵,第一节 信源的描述和分类,第二节 离散信源熵和互信息,第三节 连续信源的熵和互信息,第四节 离散序列信源的熵,第五节 冗余度,4,第一节 信源的描述和分类,一、消息的统计特征,香农信息论运用概率论和随机过程的理论来研究信息。有必 要首先了解消息的统计特征。,信源发出的消息,表现形
3、式是符号或符号序列。符号的出现 是随机的,事先无法确定的,因而符号的出现(即信源发出某一 消息)才提供一定的信息。否则,若符号的出现是预先能确知的 ,就不能提供任何信息。,举例1:随机取球试验 袋子里有100个球,其中80个红球,2 个白球。每次取一个球,记录颜色,放回。 试验即信源,发出两种消息:红球,白球。显然,两种消息出 现的概率分别是0.8和0.2。,5,举例2:掷骰子试验 试验即信源,发出六种消息:“朝上的面 是n点” ,n=1,2 6。显然,每种消息出现的概率都是1/6。,举例3:随机取球试验 袋子里有100个球,全是红球。随机取球,记录颜色,放回。几种消息?概率?提供多少信息?,
4、初步理解为什么香农从随机不确定性的角度研究信息,二、用概率空间来描述信源(信源的数学模型),信源发出的消息具有随机性,因而可以用一个随机变量X来 描述消息。每个消息都有其统计概率,因而可以用所有消息的 概率(构成概率空间)来描述信源。,如:例2的随机取球试验.6种消息分别用符号a1,a2a6表示 。随机变量X的样本空间为符号集A=a1,a2,a3,a4,a5,a6.各符 号的先验概率:P(X=ai)=P(ai)=1/6,i=1,26. 该信源可以描述为:,6,三、信源的分类,1、按照信源发出的消息在幅度上的分布情况分类:,7,(1)离散信源离散信源是指发出在幅度上离散分布的消息的信源,如文字、
5、数字、数据等符号都是离散消息。 或:消息数量有限的信源。或:可以用离散型随机变量及其概率空间来描述的信源,举例:掷骰子试验。随机变量X为离散型随机变量。若把消息变换成信号,用六种幅度的电脉冲表示6种符号 ,输出幅度上离散的信号。,(2)连续信源连续信源是指发出在幅度上连续分布的消息的信源,如语言、图像、图形等都是连续消息。或:消息数量无限的信源。或:可以用连续型随机变量及其概率空间来描述的信源,举例:随机取电池试验(测量电压值)。该如何描述此信源?,8,2、按照信源发出的符号之间的关系分类:,任意连续信源 的数学模型为,(1)单符号信源和符号序列信源前述各离散或连续信源都是单符号信源-信源(试
6、验) 每次发出一个符号(消息的长度为1)。更多信源输出的消息需要用多个符号(即符号序列)来表示 ,如:随机取球试验,一次取两个球。多少种消息?,9,3种消息:“红红”、“白白”、“红白或白红”;用符号序列表示 个消息。这种信源称为符号序列信源。,(2)符号序列信源用多维随机变量(随机矢量或随机序列)及 其概率空间来描述。如上面的离散符号序列信源:,10,离散无记忆信源所发出的各个符号是相互独立的,发出 的符号序列中的各个符号之间没有统计关联。,离散有记忆信源所发出的各个符号的概率是有关联的。,(3)符号序列信源分为无记忆信源和有记忆信源,自己举例:? 如:随机取球,自己分析英语信源的记忆性,3
7、、连续信源的进一步讨论,(1)时间连续、幅度连续信源(随机波形信源)人就是一种随机波形信源。语音是时间和幅度都连续的消 息。由换能器(如:话筒)转换成模拟电信号,称为语音信号 。它是随机信号(随机过程)。因而随机波形信源用随机过程 来描述。,11,补充内容:随机过程,定义:设随机试验E的可能结果为 ,试验的样本空间S为 x1(t),x2(t),xi(t),,i为正整数。xi(t)是第i个样本函 数(又称为第i个实现),每次试验之后, 随机地取样本空 间S中的某一个样本函数,于是称 为随机函数。当t为时间变 量时,称 为随机过程。,注意:与随机变量的区别。,随机过程举例:通信机输出的噪声。,12
8、,平稳随机过程过程的统计特性不随时间的推移而变化。X(t)的联合概率密度函数:则称该随机过程为严(格)平稳随机过程。,宽(广义)平稳随机过程:统计均值=时间均值 , 统计自相关=时间自相关*(补充完毕),(2)时间离散、幅度连续信源时间离散、幅度连续信号。抽样器对后面的电路而言,就是时间离散、幅度连续信源。,13,(1)一种离散有记忆信源输出符号序列,符号之间有统计依赖性。但依赖性是有限 的。某时刻输出的符号只与前面的m个符号有关,而与更前面 的那些符号无关,此时称信源的记忆长度为m+1,这样的信源 叫做m阶马尔可夫信源。,可以用信源发出符号序列内各个符号之间的条件概率来反 映记忆特征。符号序
9、列中各符号的联合概率为:,4、马尔可夫信源,14,m=1,1阶的马尔可夫信源:,某时刻输出的符号只与前面的1个符号有关,而与更前面的 那些符号无关。,(2)马尔可夫信源用马尔可夫链描述其实,马尔可夫信源输出的符号序列就是数学上的马尔 可夫链。马尔可夫链是一种马尔可夫过程。,15,(3)马尔可夫信源的状态转移概率,状态:m阶的马尔可夫信源在某时刻输出的符号取决于之前输出的m个符号。就定义这m个符号为此时刻的状态。,16,信源在某时刻的输出符号与此时刻所处的状态有关:,状态转移概率:,17,齐次马尔可夫信源的状态转移概率:,齐次:状态转移概率与时间无关,(4)马尔可夫信源的状态转移矩阵: 转移概率
10、构成的矩阵,18,(5)C-K方程(Chapman-Kormotopob,切普曼-柯尔莫郭洛夫),转移概率之间的关系:,证明:(略)参考书1 理解: 全概率公式,对于齐次链,方程为:,证明:用C-K方程证明。思路:,(6)无条件概率 :除了状态转移概率(条件概率),还关心某时刻处于各状态的概率。,与初始状态有关(遍历的马氏链则无关),19,复习:马尔可夫信源,(2)马尔可夫信源用马尔可夫链描述,(1)马尔可夫性,(3)马尔可夫信源的状态转移概率,20,(4)马尔可夫信源的状态转移矩阵,(5)C-K方程,(转移概率之间的关系),对于齐次链,,(6)无条件概率 :某时刻处于各状态的概率,21,(7
11、)遍历的马尔可夫链及其稳态分布:,遍历的马尔可夫链:,理解:无论从哪个状态开始,经过多次(m次)转移,到达任 意另一个状态的概率都不为0,即随着马氏信源的不断输出,一 定经历过所有状态。,遍历的马尔可夫链,其 具有渐近性:,22,结论:k趋于无穷大时,矩阵的每一行趋于相等。无论从哪个状 态开始,经过若干步转移,到达任意另一个状态的概率都相等. 即 存在极限值。此时,马尔可夫链处于某种状态的概率不再 随时间而变化,称它达到平稳,呈稳态分布。,23,遍历马氏链的稳态概率分布:,24,(8)马尔可夫链遍历性的判断定理:,一个不可约、非周期的有限状态的马尔可夫链一定是遍历的,(9)马尔可夫链的状态转移
12、图:,不可约性:在随机过程中,用子集来分析设C是状态空间的一个子集,如果从C内任意状态i不能到 达C外的任意状态,则称C为闭集。如:下图中(S2,S3)构成一 个闭集。整个状态空间也是一个闭集(S1,S2,S3)。,25,如:右图中(S2,S3)构成一个 闭集。整个状态空间也是一 个闭集(S1,S2,S3),如果除了整个状态空间外,没 有别的闭集。则称这个马氏链 是不可约的。,26,周期性:,定义:如果有正整数d,d1。只有当n=d,2d,3d,时, 或者说:当n 不能被d整除时, 。则称i状态是具有 周期性的状态,该马氏链为周期性的马氏链。,非周期性:,27,(10)马尔可夫链信源举例:,例
13、2-1 相对编码器,输出序列是不是马尔可夫链?,1阶的马尔可夫链,r=2时,考察各时刻的状态转移矩 阵 :1阶,两个状态(0和1),28,齐次的 马尔可 夫链?,状态转移图:,遍历?,稳态分布:,29,经过长时间转移,马尔可夫信源进入平稳状态,各状态 的概率不再随时间而改变,都为1/2。,例2-2 2阶的马尔可夫链。X0,1,即:二进制马氏信源。 已知条件概率P(aj|Si),求状态转移概率。判断遍历性。若 是遍历的,求稳态分布,并求稳态时各个符号出现的概率。,解:,某状态下某 符号出现的 概率,矩阵 表示如下:,由此求出 状态转移 概率,30,方法:状态为S0=00时,若输 出符号1,到达状
14、态S1=01,此 概率为1/2,状态转移图:,31,稳态分布:,解得:w0=3/35 w1=6/35w2=6/35w3=4/7,稳态时,符号0 和符号1出现的概率,32,第二节 离散信源熵和互信息,主要内容:单符号离散信源的信息度量。包括:每个符号的自 信息量,平均信息量(熵),互信息。,自信息量,定义:一个随机事件的自信息量定义为其出现概率对数的 负值(或对概率的倒数取对数) 。即:,33,单位:若以2为对数底,-lbP(xi)单位为比特(bit);若取自然对数, -lnP(xi)单位为奈特(nat);若以10为对数底,单位为笛特(det)。三个信息量单位之间的转换关系如下:1 natlog
15、2e = l.433 bit, l detlog210 =3.322 bit,34,举例2:一个以等概率出现的二进制码元(0,1)两符号的 自信息量为: I(0)= I(1)= - log2 (1/2)=lb2=1 bit 例题2-3:英文字母中“e” 出现的概率为0.105,I(e)= - log20.105=3.25 bit,自信息量I(xi)的性质:,条件自信息量:,35,自信息量和不确定度,2、离散信源的熵,定义:,随机事件的自信息量在数量上等于它的不确定度。两者 的单位相同,但含义却不相同。具有某种概率分布的随机事件不管发生与否,都存在 不确定度,不确定度表征了该事件的随机特性。自信
16、息量是在该事件发生后给予观察者的信息量。 所以:I(xi) 表示符号发出前的不确定度;又表示符号发 出后所携带的信息量。,36,所以:H(X) 表示信源(输出前的)不确定度;又表示输出后 符号的平均信息量。,单位:以2为底时,单位为bit/符号,37,物理含义: 信源输出前的平均不确定度为1.5/符号;信源 输出后平均每个消息提供的信息量为1.5bit/符号;表明和区 分信源中的每个符号需要用1.5bit 。,例题2-6:电视屏上约有 500 600= 3 105个格点,按每 点有 10个不同的灰度等级考虑,则共能组成n=103x10个不 同的画面。按等概率1/103x10计算,平均每个画面可
17、提供的 信息量为 :,38,例题2-7 该信源X输出符号只有两个,设为0和1。 输出符号发生的概率分别为p和q,pq=l。 即信源的概率空间为 :,则二元信源熵为:H(X)= -plogp-qlogq = -plogp-(1-p)log(1-p)=H(p),从图中看出,如果二元信源的输出符号是确定的,即 p=1或q=1,则该信源不提供任何信息。极值点为p=1/2,当符号0和1以等概率发生时,信源熵达 到极大值,lb2=1(bit/符号)。,结论推广:n个符号组成的离散信源,最大熵为lbn(bit/符号),39,例题2-4一个布袋内放100个球,其中80个球是红色的,20个球 是白色的,若随机摸
18、取一个球,猜测其颜色,求平均摸取一次 所能获得的自信息量。 解: 信源模型为,1)如果摸出的是红球,则获得的信息量是I(x1)= -lbp(x1)= - lb0.8 bit 2)如果摸出的是白球,则获得的信息量是I(x2)= -lbp(x2)= -lb0.2 bit,3) 如果每次摸出一个球后又放回袋中,再进行下一次摸取。 则如此摸取n次,红球出现的次数为np(x1)次,白球出现的 次数为 np(x2)次。随机摸取n次后总共所获得的信息量为np(x1)I(x1)+np(x2)I(x2),40,条件熵:H(X|Y) I(x|y),两个信源X,Y。符号集分别为X=x1,x2xixn和 Y=y1,y
19、2yjyn。两个信源发出符号时并不相互独立。在符号 yj出现的条件下,符号xi出现的概率为P(xi|yj)。条件自信息量 为: I(xi|yj)=-log P(xi|yj),在给定符号yj的条件下,信源X 的条件熵H(X|yj)为:,41,在给定信源Y(即各符号yj )的条件下,信源X 的条件熵为:,结论:条件熵H(X|Y)是条件自信息量I(xi|yj)在联合符号集 (X,Y)上的联合概率加权统计平均值,在给定信源X(即各符号xi )的条件下,信源Y 的条件熵为:,联合熵:H(X,Y),联合熵是联合符号集(X,Y)上的每对符号(xi,yj) 的 联合自信息量I(xi,yj)的联合概率加权统计平
20、均值。,42,H(XY)H(X)H(Y|X)H(XY)H(Y)H(X|Y),联合熵H(X,Y)与熵H(X)及条件熵H(X|Y)之间的关系,理解和记忆:从信息的可加性角度来理解。两个信源的联合 熵H(X,Y)一定大于其中一个信源的熵。它等于一个信源的熵 再加上给定该信源后另一个信源的熵。当二者相互独立时, H(Y|X)=H(Y),联合熵就等于它们熵的和,H(XY)H(X) H(Y),43,44,例题2.8 二元信源X, 经过离散无记忆信道后,输出(构成一 个信源)用Y表示。符号转移矩阵为: 试求:H(X),H(Y|X),H(X,Y),H(Y),H(Y|X),解:(1)据定义:,(2)已知P(yj
21、|xi),只要求出P(xi,yj),即可求得H(Y|X),45,(3)H(Y,X)=H(X)+H(Y|X)=0.92+0.88=1.8(bit/符号),(4)已知P(xi, yj),可求出P(yj),从而求得H(Y),46,(5) H(X|Y)=? 代关系式: H(X|Y)= H(Y,X)-H(Y)=1.8-1.47=0.33(bit/符号),也可以先求出P(xi|yj), 然后由定义计算H(X|Y).,47,例题2.9 二进制通信系统使用符号0和1 。由于存在失真,传 输时会产生误码。用符号表示以下事件:u0=1个0发出,u1=1 个1发出;v0=1个0收到,v1=1个1收到。且给定下列概率
22、 P(u0)=1/2,P(v0|u0)=3/4,P(v0|u1)=1/2 已知发出1个0,求收到符号后得到的信息量。 已知发出的符号,求收到符号后得到的信息量。 已知发出和收到的符号,求能得到的信息量。 已知收到的符号,求被告知发出的符号得到的信息量。,48,解:可以理解为两个信源之间的关系。发送端为信源U,接收端 为信源V。发送0,接收到的符号可能为0也可能为1,所以第1问 求给定u0条件,信源V的熵H(V|u0)。,49,50,3、互信息,回顾: 消息发出前,不确定度为I(xi);消息发出后,提供的信息量为I(xi);,同理:在例2.8中,信源不确定度为H(X)=0.92bit/符号;条件
23、熵 H(X|Y)=0.33bit/符号。接收端收到消息后,不确定度没有被完全 消除,仍存在的不确定度(又叫疑义度)为H(X|Y)=0.33bit/符号,如果消息被受信者完全接收,不确定性被完全消除,那么 受信者获得了全部的信息量I(xi);,如果由于信道的干扰,不确定性没有被完全消除,仍存 在不确定度,那么接收者只获得了部分信息量(小于I(xi).,消除的不确定度为H(X)- H(X|Y)=0.59bit/符号,或者说接收 者获得的信息量为0.59bit/符号。这就是(平均)互信息。,51,后验概率与先验概率比值的对数 :,(2)平均互信息:互信息量I(xi;yj)在(X,Y) 上的统计平均值
24、,(1)互信息的定义,(3)互信息的物理意义,讨论:什么情况下,I(X;Y)=0? ; 何时I(X;Y)=H(X)?,为什么?,52,若干扰足够大,X与Y相互独立,H(X|Y)=H(X),则 I(X;Y)=0就收不到任何关于X的信息.全损离散信道,若没有干扰,Y是X的确知一一对应函数,疑义度 H(X|Y)=0, ,完全收到了X的信息H(X)。无扰离散信道,(4) 证明,I(X;Y)H(X)-H(X|Y ),53,互信息I(X;Y)就是信道中传输的信息量。,(5) 从信道的角度理解互信息:,由于信道中的干扰,传输过程中会丢失信息;收到消息后 仍存在对信源X的不确定性。可以认为,丢失的信息量为 H
25、(X|Y),那么收到的信息就是 H(X)-H(X|Y)=I(X;Y)。,H(Y|X) 又叫噪声熵。假设信道中的噪声为n,发送符号为x, 则接收符号为y=x+n。已知发送符号x,要确定接收符号y,就需 要知道噪声的大小。确定噪声所需要的平均信息量就是H(Y|X), 叫作噪声熵。正像区分X中的每个符号所需要的平均信息量就 是信源的熵H(X).,(6)收、发两端的熵关系,54,例题2-10 加深对互信息的理解,序列信源,发送其中的011序列。接收时,符号一个个地被接收,接收到第1个符号0时,消除了部分不确定性,获得了部分关于序列011的信息:,接收到第2个符号1时,又消除了部分不确定性,获得的关于序
26、列011的信息量为:,接收到第3个符号1时,又消除了部分不确定性,获得的关于序列011的信息量为,,55,(7)I(X;Y)是关于P(xi)和P(yj|xi)的凸函数,56,57,4、数据处理中信息的变化(互信息应用),首先了解三变量情况下的互信息及平均互信息,58,意义: 联合事件(yj,zk)出现后所提供的关于xi的信息量 I(xi;yjzk)等于zk事件出现后提供的关于xi的信息量I(xi;zk),加上在 给定zk条件下再出现yj事件后所提供的有关xi的信息量 I(xi;yj|zk),59,60,61,经过两级处理,信息的变化:,假设条件:给定Y条件下,X与Z是相互独立的,I(X;Z|Y
27、)=0.假设是合理的。因为,给定Y时,Z不必关心X的取值( 如图形处理),62,63,5、熵的性质,(1)非负性:,(2)对称性:,熵函数对于所有变元可以互换,而不影响函数值的大小,(3)确定性:,某一个符号的概率为1(必然事件),不存在不确定性。,(4)香农辅助定理: (香农不等式),64,(5)最大熵定理:,离散无记忆信源输出M个不同的符号,当且仅当各个符号出现的概率相等(Pi=1/M)时,信源的熵最大,logM. 此时各个符号的不确定性最大。,(6)条件熵小于无条件熵;两个条件下的熵小于1个条件下的熵,H(Y|X)H(Y),I(X;Y)=H(Y)-H(Y|X)0,H(Z|X,Y)H(Z|
28、Y),H(X,Y)H(X)+H(Y),自己能证明吗?,何时取等号?,65,互信息量与熵之间的关系图(总结),H(X,Y)= H(X)H(Y/X) =H(Y)H(X|Y) H(X) H(X|Y),H(Y) H(Y|X) I(X;Y)= H(X)- H(X|Y)= H(Y)- H(Y|X)= H(X)H(Y)-H (XY) H(XY) H(X)H(Y) 如果X与Y互相独立,则I(X:Y)0此时:H(XY)H(X)+H(Y) H(X)H(X|Y)H(Y)H(Y|X),66,复习 与作业讲评,自信息量,自信息量I(xi)的性质:,条件自信息量,自信息量和不确定度:数量相等、单位相同,但含义不同 。 I
29、(xi)表示符号发出前的不确定度;又表示符号发出后所携 带的信息量。,2、离散信源的熵,67,物理含义: 信源输出前的平均不确定度;信源输出后平均每 个消息提供的信息量;表明和区分信源中的每个符号需要的 信息量。,条件熵:,条件自信息量I(xi|yj)在联合符号集(X,Y)上的联合概率加权统 计平均值。,联合熵:联合符号集(X,Y)上的每对符号(xi,yj) 的联合自信息 量I(xi,yj)的联合概率加权统计平均值。,H(X,Y)H(X)H(Y|X) ; H(X,Y)H(Y)H(X|Y),H(X,Y)与H(X)及H(X|Y) 的关系(理解、证明和计算),68,3、互信息,平均互信息:互信息量I
30、(xi;yj)在(X,Y) 上的统计平均值,物理意义:,条件熵H(X|Y):接收端收到消息后, 仍存在的不确定度(疑义度),消除的不确定度或接收者获得的信息量为:H(X)- H(X|Y)。即互 信息I(X;Y)= H(X)- H(X|Y),信道的角度互信息I(X;Y)就是信道中传输的信息量。由于信道 中的干扰,仍存在对信源X的不确定性,丢失的信息量H(X|Y) ,收到的信息就是 H(X)-H(X|Y)=I(X;Y)。,69,噪声熵H(Y|X) :假设信道中的噪声为n,发送符号为x, 则接收符号为y=x+n。已知发送符号x,要确定接收符号y,就需 要知道噪声的大小。确定噪声所需要的平均信息量就是
31、H(Y|X), 叫作噪声熵。正像区分X中的每个符号所需要的平均信息量就 是信源的熵H(X).,70,4、数据处理中信息的变化(互信息应用),5、熵的性质,非负性,对称性,确定性,香农辅助定理,最大熵定理,条件熵小于无条件熵;两个条件下的熵小于1个条件下的熵,6、 互信息量与熵之间的关系,71,第三节 离散序列信源的熵,回顾:离散序列信源 (单符号信源的L次扩展),设单符号信源X,Xx1,x2,xn,经过L次扩展后输出的随机序 列为:,序列信源可以描述为:,其中:各符号序列的概率为:,72,定义:符号序列信源的序列熵为,73,一、离散无记忆信源的序列熵,H(X)为扩展前单 符号信源的熵,二、离散
32、有记忆信源的序列熵,74,l =2(二维)时,有: H(X1,X2)=H(X1)+H(X2|X1),75,例题2-11,已知: 离散有记忆信源中各符号的概率为: 现信源发出二重符号序列消息(ai,aj),这两个符号的概率关 联性用条件概率p(aj/ai)表示,并由下表给出。求离散信源的序 列熵和平均每个符号的熵?,76,序列熵: H(X1,X2)=H(X1)+H(X2|X1)=1.543+0.872=2.415 比特/符号 平均符号熵 : H2(X)=H(X2)/2=1.21 比特/符号,解:,比较: H2(X)H1(X),即二重序列的符号熵值较单符号 熵变小了, 也就是不确定度减小了。或者说
33、,信源2次扩展 后,平均每个符号携带的信息量,比扩展前减少了。,这是由于符号之间存在相关性造成的。,77,3、离散有记忆平稳信源的几个结论,平稳:统计特性时间推移不变。,条件熵H(XL/XL-1) 是L的单调递减函数H(XL|X1X2XL-1)H(XL-1|X1X2XL-2) H(XL-2|X1X2XL-3) 证明: H(XL/X1X2XL-1)H(XL/X2X3XL-1)(熵的性质:条件较多的熵小于或等于减少一些条件的熵)=H(XL-1/X1X2XL-2)(平稳性)H(XL-1/X2X3XL-2)=H(XL-2/X1X2XL-3)H(X2/X1),78,(2) HL(X) H(XL/XL-1
34、) (单符号信源,无条件熵大于条件熵) 证明: (公式编辑器下可以加矢量箭头符号,这里X为矢量) HL(X)=H(X1,X2,,XL)/L= H(X1)+H( X2|X1)+H(XL|X1X2XL-1)/L LH(XL|X1X2XL-1)/L 根据:结论(1) = H(XL/XL-1),(3) HL(X) 是L的单调递减函数 证明: LHL(X)= H(X1,X2,,XL)=H(X1X2XL-1)+ H(XL|X1X2XL-1)= (L-1)HL-1(X)+ H(XL/ XL-1) (L-1)HL-1(X)+ HL(X)所以 HL(X) HL-1(X) 同理,有H (X) HL+1(X) HL
35、(X) HL-1(X) H0(X),H0(X)为等概率单符号信源的熵, H1(X)为一般单符号信源信源的熵, H2(X)为2次扩展的序列信源的平均 符号熵,依次类推。,79,(4) H (X) HL(X)= H(XL/ X1X2XL-1) H (X)叫极限熵或极限信息量。 证明: HL+k(X) = H( X1X2XL-1)+H(XL/ X1X2XL-1)+ H(XL+k/ X1X2XL+k-1) H( X1X2XL-1)+ H(XL/ X1X2XL-1)+ H(XL/ X1X2XL-1) = H( X1X2XL-1)+ H(XL/ X1X2XL-1),80,当固定L,取K时,上式第1项为0,
36、有HL+k(X) H(XL|X1X2XL-1)=H(XL|XL-1) 又因为 H(XL|XL-1) HL(X) (条件熵 H(XL|XL-1) 在HL(X) 和HL+k(X) 之间) 所以,当 L 时,若HL+k(X)的极限存在,则 HL(X) = HL+k(X) 得: HL(X) = H(XL|X1X2XL-1) 证毕。,说明: (i) 计算极限熵是一个十分困难的问题. (ii) 在实际应用中常取有限L下的条件熵 H(XL /XL-1)作为H (X)的近似值。,81,(5)平稳的马尔可夫信源的极限熵H (X)H (X)= H(XL|X1X2XL-1)= H(XN+m+1|X1X2XN+m)=
37、 H(Xm+1|X1X2Xm) (平稳),齐次、遍历的马尔可夫信源的极限熵H (X),82,证明: 对于齐次、遍历的马尔可夫链,其状态 由 唯一确定 因此有: 对上式两边同取对数,并用 和 取统计平均, 然后取负,得到:,83,84,85,连续信源回顾:时间离散、幅度连续的信源,如随机取电池的试验,用一维或多维的连续型随机变量及 其概率密度空间来描述。,第四节 连续信源的熵和互信息,时间和幅度都连续的信源,即随机波形信源,如人、电视。用随机过程来描述。随机过程一般用n维概率密度函数族来表示其统计特性, 它一次输出的不是单个符号或符号序列,而是一个以时间为变量的函数(样本函数)。,86,一、单符
38、号连续信源的熵,1、讨论方法: 用离散变量来逼近连续变量。将连续型信源离散化成离散信源,对离散信源的熵求极限,即得连续信源的熵。,设连续型随机信源为X,px(x)为连续变量X的概率密度函数 X a, b。对取值范围离散化,令 x (b-a)n,即n等分那么X处于第i个区间的概率为,87,2、连续信源的熵当 n 即 x 0 时,得连续信源的熵:,因此连续信源X被离散化成离散信源Xn,n取值越大,误差越小.求出离散信源Xn的熵Hn(X),令n,即是连续信源的熵。,88,上式中的第二项为无穷大,丢掉该项,将第一项定义为连 续信源熵:,(2)连续信源的熵Hc(X)是相对熵(差熵)在实际问题中,常遇到问
39、题涉及的熵之间的差,如互信息 量。只要两者逼近时所取的x 一致,上式中第二项无穷大量 可以抵消的。,3、讨论:连续信源熵与离散信源熵具有相同的形式,但其意义 不同。(1)连续信源的不确定度应为无穷大,这是因为连续信源输出 符号的可能取值是无穷个(或某一符号出现的概率为0 ),因 而它的绝对熵为无穷大。,89,例2-13 已知信源概率密度,求连续熵?,90,信号放大后,信息量不会增加。 计算结果是相对熵,相对熵增加了1 bit ,而无穷大项减少了1bit.绝对熵不变。,信号放大后,信息量增加?,91,4、连续信源的联合熵、条件熵、互信息量,I(X;Y)I(Y;X)Hc(X)- Hc(X|Y)Hc
40、(X)Hc(Y)- Hc(XY)Hc(Y)- Hc(Y|X)Hc(XY)Hc(X)Hc(Y|X)Hc(Y) Hc(X|Y),92,二、波形信源的熵,1、讨论方法: 一个消息就是一个样本函数,根据时域抽样定理,只要抽样速率fs 2fm ,则样本函数被抽样点所确定(可由抽样点无失真恢复)。或者说,该消息的自信息量没有变化。,同理:对波形信源输出的随机信号进行抽样,变换成时间离散而幅度连续的随机序列;波形信源变成了多维的连续信源(连续的序列信源) ,只要抽样速率fs 2fm ,波形信源的熵就等于序列信源的熵,无信息丢失。,93,94,三、 连续信源最大熵定理,离散信源最大熵定理回顾,对于连续信源,概
41、率密度函数满足什么条件才能使连续 信源的熵最大?,1、峰值功率受限的最大熵定理对于定义域为有限的随机变量X,当它是均匀分布时, 其熵最大。(注:定义域为有限即幅度有限即最大功率有限),95,限平均功率最大熵定理,平均功率限定为P,概率密度函数为,对于相关矩阵一定的随机矢量X,当它是正态分布时具 有最大相对熵。 (注:相关矩阵一定即平均功率一定),96,第五节 冗余度,一、冗余度的概念(多余度、剩余度)表示给定信源在实际发出消息时所包含的多余信息。,例如电报: 母亲病愈。修改为:母病愈。二者表达了相同的意思。,哪封电报的自信息量大?,第1封。有多余信息,如果一个消息所包含的符号比表达这个 消息所
42、需要的符号多,那么这样的消息就存在冗余度。,二、冗余度产生的原因一是信源符号间的相关性,二是信源符号分布的不均匀性,97,1、符号间的相关性上例中第一封电报的自信息量大于第二封,但平均每个符号的信息量小于第二封(因为HL(X)是L的非增函数 )。显然平均每个符号的信息量越大,冗余就越小。,正是符号间的相关性,使得平均每个符号的信息量减少。相关性越强,记忆长度越大,平均每个符号的信息量就越小,冗余就越大。,2、符号分布的不均匀性由上分析知道,平均符号熵越小,冗余越大;平均符号熵越大,冗余越小;如果平均符号熵达到最大值(是什么?),那么就没有冗余。由于符号分布的不均匀性也会使得平均符号熵达不到最大值,而产生冗余。,98,三、冗余的定义,相关性越强,各维条件熵就越小,极限熵就越小,熵的相对率就越小,冗余度就越大。反之,冗余度就越小。,99,四、冗余的压缩,信源输出存在着冗余信息,可以想法去除冗余,减少表达消息所使用的符号数(往往是用其它的符号来重新表示信源输出的符号,即信源编码),达到压缩目的。如果用于存储,节省存储空间;如果用于通信,提高传输效率。,100,作业:21 24 25 33(2)(3),