1、Chapter 16,消息理論,1,16.2 消息與熵16.3 熵的上限16.4 Kraft不等式,2,16.2 消息與熵,3,字母集(Alphabet Set)與字母頻率,(1) 字母集:所有可能出現的字母 (Alphabet) 所形成的集合,例如:英 文字母集 = A, B, C, D, , X, Y, Z。 (2) 字母頻率:在字母集中,各字母出現的頻率。 定義好字母集和字母頻率後, 我們可將各個字母想像成各個事件(Event)。假若有兩個事件,它們分別為E1和E2 , 它們所對應的機率為 P(E1) 和 P(E2) ,且 P(E1) 遠大於 P(E2) 。 我們對E2的發生會較E1的發
2、生更感興趣。 既然消息量和事件發生的機率存在有某種反比的關係,嘗試定義消息和它的量。,4,範例1 如何定義消息量?它的單位又是什麼呢?,令事件 E 的機率為P(E) ,函數 log 是單調遞增函數(Monotone Increasing Function),事件 E 的消息量定義為: 加上一個累加條件 (Additive Property) 用來定義消息量,給定 k 個獨立 (Independent) 事件, E1、E2 、 和Ek ,它們的消息量分別為 I(E1)、I(E2)、 和I(Ek),且必須滿足令 A 為一集合, 。,5,(16.2.3),(16.2.2),將式 (16.2.2) 代
3、入式 (16.2.3) ,我們得到:上式確實滿足消息量的累加條件。因此,就非常適合拿來當消量的量度。 若log 之底數取 2 ,則消息量的單位為位元 (Bit) 。 假設字母集= A, B, C, D 中各個字母的機率為 、 、 和 。依照式 (16.2.2)的消息量定義,各個字母的消息量為 I(A)=3位元、I(B)=3位元、I(C)=2位元和I(D)=1位元。,6,範例2 不同機率的字母有不同的消息量,何謂平均消息量 (Average Information) ?,利用期望值的定義,上面例子中一個字母的平均消息量為 如果 k 個, E1、E2 、 和Ek ,的機率分別為 P(E1)、P(E
4、2)、 和P(Ek),則平均消息量為 這裡 =E1, E2, , Ek。一個事件的平均消息量也稱作熵 (Entropy)。,7,(位元),16.3 熵的上限,8,令 當 時,也就是所有事件形成的機率分佈為均勻分佈 (Uniform Distribution) 時,這時得到的熵值最大。若是所有事件形成的機率分佈很不均勻時, 則相對地,所得到的熵值也較小。,9,範例1 不管 內的事件為何種機率分佈,熵的上限為何?,令 且 ,也就是所有事件形成的機率分佈為均勻分佈時可算出: 其他種類的機率分佈所得到的熵似乎會小於等於logk,但得證明才行。也就是說,我們得證明:對任意的機率分佈而言,,10,證明如下
5、:,11,(16.3.1),圖16.3.1 的示意圖 上圖中,不等式 是會成立的。 令 ,由圖可得,12,(16.3.2),將式 (16.3.2) 代入式 (16.3.1) 中的相關項,可得到: 證得 ,這告訴我們:不管 內 k 個事件的機率分佈為何,其熵必定小於等於 log k。,13,16.4 Kraft不等式,14,範例1 何謂Kraft不等式?如何證明?,令 = E1, E2, Ek且已知P(E1)、 P(E2) 、和P(Ek)的值。 假設有一種壓縮法,可將事件E1 、 E2 、和Ek 編碼且編碼後的碼長為 l(E1)、 l(E2) 、和l (Ek) 。下列不等式即是有名的 Kraft
6、 不等式,15,例如: k=4,E1=A、E2=B、E3=C和E4=D,且已知 、 、 和 。令m = 2 (代表二位元進制) ,下圖為E1、E2、E3和 E4的編碼樹(Encoding Tree)。,16,利用編碼樹得到的碼表: 在不失一般性的情況下,假設 l(E1)l(E2) l (Ek)。當編完符號 E1的碼後,假設符號 E1編的碼為 C(E1)。因為 C(E1) 不能是 C(E2)的前置碼 (Prefix Code) ,所以在長度 l(E2) 的 m 進位格子中,如果前l(E1) 個位置被 C(E1) 佔掉的話,則共有 種碼是不合法的。,17,為了讓C(E2) 的編碼能繼續下去,必需滿足 如此才有空間編得下 C(E1) 和 C(E2)。同理,若下式成立,也才有空間編得下C(E1) 、C(E2) 和 C(E3) 依此類推,可得到 成立時,才有空間編得下 C(E1) 、 C(E2) 、 和C(Ek) 。,18,上式可改寫為 上述不等式的兩邊除以 ,可得到 故得證。,19,範例2 證明熵為平均一個符號的碼長之下限。,詳細證明請參閱課本。,20,