1、上节课内容回顾,信息、信息科学与信息论信息、信息技术、信息科学、信息理论信息论研究的对象、目的和内容信息论发展简史与现状信息论的形成与发展信息论方法的应用及其取得的成果,信息论的基本概念,杨杰,熵熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵,互信息互信息的定义多个随机变量下的互信息互信息函数的性质,连续随机变量下的熵与互信息,信息无处不在,但:信息用什么表示?如何表示?,不确定性携载的信息,可用随机变量的不确定性或随机性作为信息的表示,非负性连续性可加性等概时与取值空间N的关系(单调增)与发生的概率P的关系(单调减),考察、分析信息的特征,熵的引入,一个离散随机
2、变量X,以不同的取值概率有N个可能取值,信息论关心:X的不确定性不确定性大,获取的信息多,熵的引入,不确定性分析:随机变量X、Y、Z,问题:能否度量、如何度量?,小,大,香农指出:存在熵函数 满足先验条件,1、连续性条件: 是 的连续函数,2、等概时为单调增函数: 是N的增函数,3、可加性条件:多次试验确定取值时,X在各次试验中的不确定性可加。,结论:唯一的形式:,C=常数0, 即:,熵的单位,信息熵的单位与公式中的对数取底有关。通信与信息中最常用的是以2为底,这时单位为比特(bit);理论推导中用以e为底较方便,这时单位为奈特(Nat);工程上用以10为底较方便,这时单位为笛特(Det)。它
3、们之间可以引用对数换底公式进行互换。比如: 1 bit = 0.693 Nat = 0.301 Det,香农熵与热力学中热熵的关系,熵这个名词是仙农从物理学中的统计热力学借用过来的,在物理学中称它为热熵是表示分子混乱程度的一个物理量,这里,仙农引用它来描述信源的平均不确定性,含义是类似的。但是在热力学中已知任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为负热熵。二者还有一个重大差别:热熵是有量纲的,而香农熵是无量纲的。,(不确定性),熵可以作为信息的量度,对于随机变量而言:试验前试验后,各取值的概率分布,确切取值 (0),(不确定性)
4、,熵,一定的确切性,多次试验后,通过试验消除了不确定性获得了信息信息的数量,对于单个消息随机变量U,出现某个消息,对应概率为 ,这时可获得的信息量为 ,则有:解释:小概率事件,一当出现必然使人感到意外,因此产生的信息量就大;几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当必然事件发生了,它不会给人以任何信息量。,注:I自信息,例1.1: 试验前:试验后:,H(x) = log6 = 2.58bits = 1.79nats,H(x1) = 0,H(x) H(x1) = log6,例1.2:,试验前:,H(x) = log8 =
5、3(bit/符号),H(x2) H(x3) =1 获得1bit信息量,1,2,3,1,2,3,4,5,6,7,8,H(x) H(x1) = 1获得1bit信息量,H(x1) H(x2) =1 获得1bit信息量,H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得3个bit的信息量,才能完全消除不确定性。?必须测3次吗?,熵的物理含义,观察随机变量X、Y、Z,H(X) = -0.01log0.01-0.99log0.99 =0.08(比特/符号),H(Y) = -0.5log0.5-0.5log0.5 =1(比特/符号),H(Z) =
6、5(-0.2log0.2) =2.32(比特/符号),熵的物理含义,熵是随机变量的随机性的描述。变量Y、Z等概,随机性大,变量X不等概,则随机性小等概情况下,可取值越多,随机性越大H()是描述随机变量所需的比特数熵是随机变量平均不确定性的描述X试验中发生a1,获得的自信息为-log0.01=6.64(bit)Y试验中发生a1,获得的自信息为-log0.5=2.32(bit)H()反映的是平均的不确定性,熵函数的性质,香农熵是概率矢量的非负的上凸函数性质1:非负性性质2:上凸性性质3:唯一性(连续性、可加性、等概单调增),熵函数的性质非负性,证明一:,而:,故:,所以:,熵函数的性质非负性,证明
7、二:,有:,或:,所以:,熵函数的性质上凸性,凸性的概念:若对区域D中任意两点 和 , 均有:则称:区域D是凸域。,理解:若两点 和 在凸域D内,则 和 之间的线段也整个在区域D内。,在a,b上定义的下凸函数,在a,b上定义的上凸函数,熵函数的性质上凸性,上凸性:熵函数具有凸性,即H(P)是P的上凸函数。证明:作业一,熵函数的性质,定理2.1 对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:,其中:N为X可能取值得个数。,例1.3:二元熵函数是对01分布的随机变量所求的熵:,H(X) = -plogp-(1-p)log(1-p)=H(p),H(X) = -logp-p/p+lo
8、g(1-p)+(1-p)/(1-p)=log(1-p)/p,则:,而:,可以证明,p1/2时,H(p)取最大值,为log2=1。而p=0或1时,H(p)0,故二元熵函数的曲线如图所示:,1.0,1.0,0.5,0,p,H(p)/bit,二元熵函数曲线,等概时(p=0.5):随机变量具有最大的不确定性,p=0,1时:随机变量的不确定性消失。,定理2.2 设离散随机变量的概密矩阵为 函数 是随机变量不确定性的量度,若此函数满足条件连续性等概时单调增函数性可加性则此函数必为,熵函数的性质唯一性,证明:作业二,熵函数的性质唯一性,唯一性限制条件,D.A.Fadiev:连续性可加性对称性,A.I.Khi
9、nchin:连续性可加性极值条件:等概事件集合中零概率事件不影响确定性,其它熵,联合熵与条件熵,物理含义:已知一随机变量的情况下,对另一随机变量不确定性的量度观测Y以后,仍保留的关于X的不确定量。,一个随机变量-两个随机变量-多个随机变量条件熵:,则,联合熵与条件熵,联合熵物理意义:二元随机变量不确定性的量度,联合熵、条件熵的关系:,当X,Y相互独立时,有:,于是有:,理解:当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等于无条件熵。,联合熵、条件熵的关系:,一般情况下,理解:表明一般情形下:条件熵总是小于无条件熵。,注意:这是平均意义上的,熵熵的引入香农熵与热力学熵的关系熵
10、可以作为信息的度量熵函数的性质联合熵和条件熵,互信息互信息的定义多个随机变量下的互信息互信息函数的性质,连续随机变量下的熵与互信息,离散互信息,定义:离散随机变量X和Y之间的互信息,离散互信息,和 是随机变量X和Y之间相互提供的信息量称为互信息是完全确切的,证明略。,一般情况下:,理解:了解一事物总对另一事物的了解有所帮助,离散互信息,当随机变量X和Y之间有确定的关系时,1、X可以唯一确定Y,,此时:,故:,2、 Y 可以唯一确定X ,,此时:,故:,是对X和Y之间统计依存程度的信息量度,离散互信息,另一种定义:,这里:,变换得到互信息的另一种表达式:I(X;Y)是随机变量X的概率矢量p 和条
11、件概率矩阵Q的函数,互信息函数的性质,互信息与p(x)(信道输入概率分布)的关系性质1 :I(p;Q)是p(x)的上凸函数.,互信息函数的性质,互信息与Q矩阵(信道转移概率分布)的关系 性质2 :I(p;Q)是Q的下凹函数.,互信息函数的性质,互信息与随机变量X(信道输入符号)的相关性的关系 性质3: 若概率矢量p是离散无记忆的,互信息函数的性质,互信息与随机变量Q(信道)相关性的关系 性质4: 若条件概率矩阵Q是离散无记忆的,互信息函数的性质,互信息与信道输入符号及信道相关性的关系 推论: 若概率矢量p和条件概率矩阵Q都是离散无记忆的,熵 VS 互信息,信息熵是表征随机变量本身统计特性的一个
12、物理量,它是随机变量平均不确定性的度量,是从总体统计特性上对随机变量的一个客观描述。互信息I(U;V),我们又称它信息量一般是针对观测到另一个随机变量时而言的,是一个相对量,是指观测者从随机变量V中所获得的关于随机变量U的信息度量。在通信中,互信息是针对接收者而言的,是指接收者收到的关于信源的信息度量,当通信中无干扰时,接受者获得的信息量数量上就等于信源给出的信息熵,但是两者的概念不一样;当信道有干扰时,不仅概念上不一样,而且数量上也不相等。信息熵也可理解为信源输出的信息量。,熵熵的引入香农熵与热力学熵的关系熵可以作为信息的度量熵函数的性质联合熵和条件熵,互信息互信息的定义多个随机变量下的互信
13、息互信息函数的性质,连续随机变量下的熵与互信息,连续随机变量下的熵,实际中:离散随机变量、连续随机变量熵的引入:观察随机变量微积分中:某种函数问题的极限连续问题存在问题:数学处理上、概念和含义上,连续随机变量下的熵,单个连续消息的随机变量 连续随机变量可以看作是离散随机变量的极限,故可采用离散随机变量来逼近。下面,将采用这一观点讨论连续随机变量的信息熵与信息量。 首先类比概率 与概率密度p(u):,连续随机变量下的熵,令ua,b,且ab,现将它均匀的划分为n份,每份宽度为 ,则u处于第i个区间的概率为 ,即 = (中值定理)即当p(u)为u的连续函数时,由中值定理,必存在一个 值,使上式成立。
14、,连续随机变量下的熵,考虑离散随机变量熵的定义为: H(X) 则有: Hn(u)= = =,连续随机变量下的熵,连续随机变量下的熵,=,=,按照离散熵的概念,连续随机变量的熵应为无穷大,失去意义。1948年,香农直接定义: h(U) - 其中R1 表示实轴。即定义取有限值的项为连续信源的信息熵,也称微分熵。,连续随机变量下的熵,连续分布随机变量的微分熵VS离散随机变量的熵,实际应用中,数据都只有有限精度,在有限精度下随机变量熵表达式中的第二项取值相同,因此微分熵可以作为连续随机变量不确定程度的相对度量。应注意的是h(U)是连续随机变量的熵,而不是连续随机变量输出的信息量,而连续随机变量输出的信
15、息量是Hn(U).这就是说,在离散随机变量中随机变量输出信息量就是信源熵,两者是一个概念;但是在连续随机变量中则是两个概念,且不相等。连续随机变量输出信息量Hn(U)是一个绝对值,他取值于,而连续随机变量的熵Hc(U)则是一个相对值,取值是有限的。连续随机变量的熵Hc(U)是一个过渡性的概念,它虽然也具有可加性、凸状性和极值性,但不一定满足非负性,它可以不具有信息的全部特征。,均匀分布连续随机变量的熵,例1.4:对一个均匀分布的随机变量,按照定义,有显然, 时,Hc(U)0,这说明它不具备非负性。但是连续随机变量输出的信息量由于有一个无限大量的存在,Hn(U)仍大于。,均匀分布连续随机变量的微
16、分熵,高斯分布连续随机变量的熵,例1.5:高斯分布的连续随机变量的微分熵,按照定义,有,可见:高斯分布的连续随机变量的熵与数学期望(均值)m无关,只与方差 有关。,具有最大熵的连续随机变量,离散随机变量,等概分布时具有极值连续随机变量,不同的约束条件,具有极值的连续随机变量的分布不同峰值功率受限时:均匀分布随机变量具有最大熵平均功率受限时:高斯分布随机变量具有最大熵,连续随机变量下的互信息,类似于离散随机变量,也可以引入连续随机变量的互信息:,可见,由于它是决定于熵的差值,所以连续随机变量的互信息与离散随机变量的互信息一样,它仍具有信息的一切特征。,对信息论基本概念的若干评注,信息论基本概念熵
17、、互信息分别给出了随机变量不确定性的度量以及消除或减少这一不确定性时所获信息的度量。香农定义的熵是随机变量不确定性最合理的度量。减少或消除随机变量的不确定性的两条途径和信息的两种度量。从统计数学的角度看:熵是一个系统无序性的度量互信息是两个随机变量之间统计依存性的度量二者关系互信息熵性质相似,特别:均有凸性,表达式中均有对数函数凸性:二者都特别适合作为优化问题中的目标函数对数函数:实际应用有一定困难,作业,1、令X为掷钱币直至其正面第一次向上所需的次数,求H(X)。2、已知12个球中有一个球的重量与其他球不同,其他球均等重,问如何用天平称3次找出此球?,作业:,一、证明:熵函数具有凸性,即H(P)是P的上凸函数二、证明:满足条件连续性、等概时单调增函数性、可 加性的熵函数是唯一的三、已知随机变量X和Y地联合概率分布 满足 试求能使H(XY)取最大值的联合概率分布。,