1、Chapter 4信源编码,4-1 离散信源的信源编码,通信的根本目的就是有效而可靠地传输信息。Shannon信息论中的一个重要内容就是它给出了信息传输的有效性和可靠性的极限能力。具体表现为两个编码定理;一般称为Shannon第一编码定理(信源编码定理,有效性编码定理)和Shannon第二编码定理(信道编码定理,抗干扰编码定理)。,编码器(Encoder),我们前面考虑的信源都是离散化的信源,实际上没有考虑到编码的问题。编码的作用可以分为以下编两点:一些原始信源的符号不适应信道的传输;原始信源符号的传输效率很低;码器可以看作这样一个系统,它的输入端为原始信源u,其符号集为u:u1,u2,un;
2、ui(i=1,2,n);而信道所能传输的符号集为x:x1,x2,xq;编码器的功能是用符号集x中的元素,将原始信源的符号ui变换为相应的码字符号Wi,(i=1,2,n),所以编码器输出端的符号集为W:W1,W2,Wn。,u=原始信源符号集;x=码元符号集;W=码字符号集;(码组),4-2 唯一可译性(Uniquely decodable code),1. 唯一可译码定义: 如果一个码组的任一有限长的码字序列(一串码字),只能唯一地被译成一个一个码字,则称为唯一可译码,也称为异前置码。例如:u: u1,u2,u3; x:0,1; W: w1=0, w2=10, w3=11, 为单义可译码。当接收
3、码字序列为:10011001111 时,可以唯一地译为:w2,w1,w3,w1,w1,w3,w3; 如果码字集合为:W:0,01,1 则为非单义可译码。 当接收码字序列为:001 时,可以译为:w1,w1(w2),2. 非续长码定义,如果一个码组中的任一个码字都不是另一个码字的续长,或者说,任何一个码字后加上若干码元后都不是码组中另一个码字。则称为瞬时可译码,也称为非续长码。例如:W:0,10,100,111不是非续长码,100为10的续长。,非续长码一定是唯一的,唯一可译码却不一定是非续长码。例如:W:0,01是唯一可译码,但不是非续长码。,3.唯一可译码定理,设原始信源符号集为u:u1,u
4、2,uq,码元符号集为x:x1,x2,xr,码字集合为W:W1,W2,Wq,其码长分别为L1,L2,Lq;则唯一可译码存在的充要条件为码长组合满足Kraft不等式,即,Kraft不等式不仅是唯一可译码的充要条件,也是非续长码的充要条件;这里所说的充要条件是对于码长组合而言,而不是对于码字本身而言,就是说:满足Kraft不等式的码长组合一定能构成唯一码,唯一码的码长组合一定满足Kraft不等式。,有些码字的码长组合满足Kraft不等式,但不是唯一码。(编码方法不对),Kraft 不等式 不能用来判断W是否是唯一可译码其判断方法可见一些参考书。,4.用码树图构成非续长码,从根开始,画出q条分支,任
5、选一个分支作为W1;在另一个分支上再分出q条分支,任选一个分支作为W2;继续进行,直至结束;从根到各端点,所经过的状态即为码字,4.3 平均码长度,如果一个码组的参数满足Kraft不等式,就一定可以构成无噪声信道下的无失真传输,然而,在一个通信系统中,信源编码的主要目的是提高编码效率,即每个码元符号要携带更多的信息量。因此要定义平均码长的概念。设原始信源的信源空间为:,对此信源用码元符号集x;x1,x2,xq进行编码,得唯一可译码W:W1,W2,Wn。相应得码字长度分别为:Li,(i=1,2,n)。则这个信源编码的平均码长为:,这时看一下信息传输效率:每个信道码元所携带的平均信息量。当信源U给
6、定,信源的熵为H(U),则每个信道码元所携带的平均信息量可以表示为:,可见,当原始信源一定时,编码后的平均码长越小,信道传信率越高,编码效率越高。编码效率可以用平均码长来描述;每个码字的长度应当与对应的信源符号的先验概率有关。为了提高编码效率,总希望平均码长越小越好,但平均码长能否无限小呢?,平均码长极限定理,若一个离散无记忆信源S的熵为H(S),对其进行q元编码,A:a1,a2,aq,则总可以找到一种无失真的编码方法,构成唯一可译码,使其平均码长满足:,对于常用的二元编码来说:,H(S)LH(S)+1,下界证明根据平均码长和熵的定义有:,用到詹森不等式由单义可译码的存在定理可知,当满足q-L
7、i1时,取对数后为小于等于0。则有: H(S)-Llogq0 LH(S)/logq下界证毕。,平均码长最小不能小于极限值,H(S)/logq,若小于,则不存在单义可译码;当下界等号成立时,效率最高时,为p(si)=q-Li可得:,当然这要求信源符号的先验概率满足其是以q为底的对数为整数,这就要求信源符号的先验概率为p(si)=q-Li形式。,例如:u:u1,u2,u3,u4; P(u):1/2,1/4,1/8,1/8时,编码后码长为1,2,3,3,这时平均码长将为L=H(u)=1.74 码元/符号。,平均码长大于这个上界当然也可以构成唯一可译码,但实际上总希望码长小;当一个离散无记忆信源得统计
8、特性确定后,信源熵就确定了,平均编码长度下界也就确定了,编码效率也就确定了,如果进一步提高效率,就要想其它方法。下面得编码定理给出了方法。,4-4 香农编码第一定理,定理一:离散无记忆信源S的N次扩展信源SN,其熵为H(SN),并且编码器的码元符号集为A:a1,a2,aq,对信源SN进行编码,总可以找到一种编码方法,构成唯一可译码,使信源S中每个符号si所需要的平均码长满足:,定理一表明当将离散无记忆信源进行N次扩展后再进行编码,就可以使原始信源每个符号的平均码长接近信源熵H(S),即达到下限值。这时就不要求原始信源的先验概率满足特殊条件了,但却要求扩展次数N趋于无穷。因此,这也是一个极限定理
9、,(给出一种不现实的方法)。,定理二:离散平稳各态历经有记忆信源S的N次扩展信源S=S1,S2,SN,其熵为H(S)= H(S1,S2,SN),并且编码器的码元符号集为A:a1,a2,aq,对信源S进行编码,总可以找到一种编码方法,构成唯一可译码,使信源S中每个符号所需要的平均码长满足:,定理一和定理二说明:可以用信源扩展的方法,达到数据压缩的目的,扩展程度越高,编码效率越高。,定理三:设信源S的熵为H(S),无噪声离散信道的信道容量为C。则总可以找到一种编码方法,使信道上的信源符号平均传输速率为C/H(S)-。其中可以是任意小的正数。要使符号平均传输速率大于C/H(S)是不可能的。,关于Sh
10、annon编码第一定理: 定理一、定理二和定理三实际上是同一个定理,定理一和定理二是针对一个具体的信源形式,而定理三是一个概括性的。这个定理称为无失真信源编码定理,也称为无噪声信道编码定理。,例:有一个离散无记忆信源,S:s1,s2, P(S):0.2, 0.8,其原始信源熵为:H(S)=1/5log5+4/5log(5/4)=0.72193 bit/信源符号 用二元信道码元符号A:0,1进行编码,得到码字W:W1=0, W2=1,这时的平均码长为: L=0.21+0.81=1 信道码元符号/信源符号。 这时的信道传信率: R=H(S)/L=0.72193 比特/信道码元符号。 对这个信源进行
11、二次扩展,得到S2,对其进行二元编码,得W:W1,W2,W3,W4。,这时的平均码长为: L2=(16/25)1+(4/25)2+(4/25)3+(1/25)3=37/27 信道码元符号/2个信源符号则相应的原始信源每个信源符号的平均码长L=L2/2=37/50 信道码元符号/信源符号这时的信道传信率为 R=H(S)/L=0.72193/(37/50)=0.97 比特/信道码元符号。可以看到:经过信源的二次扩展,编码复杂一点,但使传信率(编码效率)明显提高。,4-5 编码方法,4-5-1Shannon-Fano算法Shannon编码思想:由于概率的不均匀,使编码效率下降,因此,可以根据消息状态
12、的概率来确定各码字的编码长度,概率大的编成短码,概率小的编成长码。最初的Shaanon编码算法是一种简单的按概率编码的方法,对于一个离散无记忆信源,如果其某一状态si的先验概率为p(si),则就取其码长为:,其实这种方法是满足Kraft不等式的一种直接的应用;,例如:一个离散信源S:s1,s2,s3,s4 p(S):1/2,1/4,1/8,1/8这时有:L1=log2=1; L2=log4=2; L3=L4=log8=3;利用码树图的方法可以得到其编码:,这个例子可以验证其编码效率为1,即为最佳码。但这种方法对于多数情况下是不能实现最佳码的,而且编码效率比较低。编码效率为:,这种算法称为Sha
13、nnon算法;后来提出了一种改进方法为Shannon-Fano算法。Fano算法的步骤:把原始信源的符号按概率从大到小重新排列;把信源符号按尽可能概率和相等分为q组,分别分配给a1,a2,aq码元;将每个分组再次分组,直至分完;从左至右将分得的码元排列即得码字Wi,算法举例:,利用Shannon-Fano算法编码:,这时可以用码树图描述:,注意:1,0码元分配是任意的,因此编码的结果是不唯一的; 0/1分配的上下顺序也是不唯一的,能构成不同的唯一可译码; 如果将信源进行N次扩展,可以进一步提高编码效率.例题中得编码效率为96.6%,4-5-2 Huffman算法,这种算法比Shannon-Fa
14、no算法的效率还要高,称为最佳编码算法。二元Huffman算法的步骤将信源S的n个符号状态s1,s2,sn按概率从大到小排列,作为码树图的叶;将概率最小的两个符号分别分配给“0”和“1”码元,然后其概率相加,合成一个节点,作为一个新的符号,重新与其它符号按概率大小排列;重复这样的步骤,一直到处理完全部状态;从右到左将分配的码元排列后即得相应得编码。,算法举例:将上一题的信源编为Huffman编码。,编码结果:W3=1 W7=0001W2=011 W5=0000W1=001 W4=01001W6=0101 W8=01000平均码长L=2.61 码元/状态。编码效率为97.8%,可见Huffman
15、编码比Shannon-Fano编码可以得到更高的编码效率。同样:1/0码元分配是任意的,因此编码的结果是不唯一的;有可能导致生成非唯一的结果,但平均码长是相同的,所以编码效率是相同的。书110页,q元Huffman算法,首先我们看一个例子;设离散信源的信源空间为:对其进行 q=3,A:0,1,2编码。,可知:平均码长为L=2 码元/信源符号。下面我们看一下一种改进方法:还是这一个信源,我们在6个信源符号的后面再加一个概率为0的符号,记为s7,同时有p(s7)=0,这个符号称为虚假符号。将信源按7个符号进行三元编码。,计算可知这种编码方法的平均码长为L=1.76 码元/信源符号。可以看到通过这种
16、增加虚假符号的方法可以提高q元Huffman编码的编码效率。从而得到q元Huffman编码的步骤:对于离散信源S:s1,s2,sn P(S):p(s1),p(s2),p(sn) A;a1,a2,aq;将n个原始信源符号按概率由大到小排列;用a1,a2,aq分别代表概率最小的q个符号,并将这q个符号的概率相加,形成一个新的符号。将这个新符号与原始信源剩下的(n-q)个符号组成一个新的信源,称为第一次缩减信源S(1),这个信源有(n-q)+1个符号。重复上述步骤,直至将原始信源的全部符号处理完毕,每次将减少(q-1)个符号,分别形成S(2),S(3);当最后一次缩减信源正好有q个符号时,将结束编码过程,从右到左将分配的信道码元符号排列即得到相应的码字;如果最后一次缩减信源剩下的符号少于q,这时将不能实现最佳编码,应当重编。这时应当在原始信源中加上m个概率为0的虚假信源符号,然后进行编码,将得到最佳码。其中的m为: m=q-n-q-1k,其中k表示缩减次数S(k)。上一个例子中,n=6, q=3, k=2, 则,m=3-6-3-12=1,要加一个虚假符号。,符号序列HUFFMAN编码,根据香农第一定理,对信源进行扩展,其编码效率一定会提高。书112,一些典型的信源编码方法:,Huffman编码;二元序列的游程编码;冗余位编码;算术编码;,