1、 - 1 - 03 充分统计量与完备性 (补充 )-教学辅导 一、 【内容提要】 1充分统计量( sufficient statistic) 1)定义 5.5.1 : 设12,nXX X 是来自某个总体的样本,总体分布函数为 (; )Fx ,统计量12(, , )nTTXX X 称为 的充分统计量,如果在给定 T 的取值后,12,nXX X 的条件与 无关 . 2)定理 5.5.1(因子分解定理 Factorization Theorem) : 设总体概率函数为 (; )f x ,12,nXX X 为样本,则12(, , )nTTXX X 为充分统计量得 充分必要条件 是:存在两个函数 (,
2、)gt 和12(, , )nhX X X 使得对任意的 和任意组观测值12,nXX X ,有12(, , ;)nfXX X 12 12( , , , ),)( , , , )nng TXXXhXXX,其中是通过统计量的取值而依赖于样本的 . 证明: 一般性结果的证明超出本课程范围, 此处我们将给出离散型随机变量下的证明,此时, 111,; , ;.nnnfx x PX x X x 先证必要性 .设 T 使充分统计量 ,则在 Tt 下 , 11,nnPX x X xT t 与 无关 ,记为1,nhx x 或 hX,令 :A tXTXt ,当 x At 时有 11, ,nnTt X x X x 故
3、 11 11111, ; , , ;, ;, ,nn nnnnnPX x X x PX x X xT tPX x X xT tPT thx x gt 其中 ,;,gt PT t 而 11,nnhX PX x X xT t 与 无关 ,必要性得证 . 对充分性 ,由于 111111,:,1,:,;,;,nnnnnnxxTxxtnxxTxxtPT t PX x X xgt hx x 对任给1,nX xx 和 t ,满足 X At ,有 即不包含关于参数的信息 - 2 - 111111111111,:,11,:, , ;, ;,nnnnnnnnnnnnyyTyytnnyyTyytPX x X xT
4、tPX x X xT tPT tPX x X xPT tgt hx xgt hy yhx xhy y该分布与 无关 ,这证明了充分性 . 3)充分性判别法则 定理 4.1 设样本分布密度函数族 (连续或离散) 为 ,: ,F fx T TX为统计量 .则: T 为充分统计量的充分必要条件为:存在关于 t的可测函数 gt与关于 x 的非负可测函数hx,使得 ,f xgTxhx (0.1) 对每一 .xX 与成立 注: .hx 不依赖于 证: 只对离散型情况给出证明 .这时 , ,f xPXx 对于TX的值域中任意固定的 t ,定义集合 :.A txTxt 充分性 设,f x 使因子分解式( 1.
5、1)成立 .则对任意的 ,x At Tx t 成立 ,条件概率 - 3 - ,uAt uAtuAt uAtPX xTX tPX xTX tPTX tgTxhxPX x fxPT t fu gTuhug thx hxgthu hu 它与参数 无关 .又若 ,x At T x t则 ,0.PX xTX tPX xTX tPTX tPPT t 也与 无关 .因此 ,条件分布 .fxt fxt TX 与 无关,即 是 的充分统计量 必要性 设 TX是 的充分统计量 ,由充分统计量的定义 ,PX xTX t 与参数 无关 ,它是 x 的函数 ,记为 .hx 于是 ,对任意固定的 t ,当 x At 时
6、, Tx t成立 ;这时 ,Tx PX x P X xTX tPTXtPXxTXtP TX thx g thxgTxhx 式中 .gt PTX t因而( 1.1)成立 . 由因子分解定理 ,若样本的密度函数 ,f x 能分解成两个因子的乘积 ,其中一个为TX的函数 ,而另一个仅为 x 的函数 ,与参数 无关 ,则 TX是 的充分统计量 . 2完备性 1)定义: (;), Fpx ,设 ()gx是定义在样本空间 上的一个实函数,一般来说,积分(如果存在) () ()(;)E gx gxpx dx( ) ,因此上述积分(数学期望)可以看作一个变换,且是一对一的变换 . 即对 ,12 1 2() (
7、) 1 () ()gggx gx Egx Egx - 4 - 120ggg,12()0gEg g ,则 ()01 ()0gpgx E gx 英文注释: Definition (Complete Statistic) : Let be a family of pdfs of pmfs for a statistic. The family of probability distributions is called complete if for all implies for all. Equivalently, is called a complete statistic. 2)分布族的完备
8、性: 定义: (;), Fpx 对于任何一个可测函数 ()gx,由 () () ()(;) 0gEgx gxpx dx 对 有 ()01gpgxor () 0()gx aep 等价的,12 ( ) ( )gE gx Egx 对成立,可推出12() ()1pgx gx 3)完备性意义: 积分变换(数学期望)的唯一性 . 常用的积分变换 . a. 傅里叶变换 () ()itxf xefxdx特征函数,它在 (,)t 上 都存在且有唯一性 . b. laplas 变换 () ()sxf xefxdx,该式在 s=0 存在至少在 s=0 某个领域内有定义,则有唯一性 . 4)完备充分统计量( comp
9、lete sufficient statistic) 定义: 设 (; )p x 是一概率密度函数且是指数族的正规案,设1,nX X 是具有 p.d.f (; )p x 的分配的随机样本 .则统计量1niiTX是 的完备充分统计量 . 5) 某些完全性 定理(指数族的完全性) : 设 X 的样本空间为 (, )xx ,分布族为指数族,对 ,有1() ()exp () ()kiiidp x c T x du x,此处 为kR 之一子集,若 (作为kR 的子集)由内点,则统计量1() ( (), , ()ktx Tx T x 是完全统计量 . 定理(次序统计量的完全性) : 设分布族 f 满足以下
10、两个条件: ( a)若12,FfFf,则对任何12120, 0, 1,PPPP有11 2 2PF PF f . ( b)若 ,),FfSab ab ,而 () 0Fs ,则BFf ,则次序统计量- 5 - (1) ( ),nX X 是完全的(对任何自然数 n) . 引理 : 设分布族满足上面的条件( a) ,1(, )nf XX 为 Bore(可测得对称函数) ,满足条件11 (1)()(, ) () ( )0( ,nn nfX XdFX dFX fX X ,对任何 Ff ,则对 F 中的任意 n 个分布1,nFF ,必有 111 (1)()(, ) () ( )0( ,nnn nfX XdF
11、X dFX fX X 定义(有界完全性) : 设变量 X 的样本空间为 (, )xx ,分布族为 , p , ()tx为定义于 X 取值于 (, )ff 的统计量,其分布族为 , Tp ,若对任何满足条件 ” () () 0xfxdpx, 对一切 ” 的有界x 可测函数 ()f x ,必有()00pX fx,对一切 ,则称分布族 , p 为有界完全的 .若, Tp 为有界完全的,则称 t 为有界完全统计量 . 3极小充分统计量( minimal sufficient statistic) 1)定义: 设 ()tx为 (, )xx 上的一个充分统计量,取值于 (, )ff , 上的分布族为, p
12、 .若对任何定义于 x ,取值于某可测空间 (, )sS 的充分统计量 .必存在由(, )sS 到 (, )ff 的可测变换 ()tqs , 以及xA , 满足条件 () 0pA 对任何 ,致 () ()tx qSx ,对任何 x A ,则称唯一极小充分统计量 . 2)定理(极小充分统计量的存在定理) : 假定分解定理中的条件成立,且样本空间为欧式的,则极小充分统计量存在 . 3)要求: 信息损失越少越好 统计量越简化越好 4指数族: 1)定义: 设 (, | : |)p 是可控参数统计结构,加入其密度函数可表示为如下形式:1() ()exp () ()()kjjip xc c Txhx并且它
13、的支撑 : () 0xpx 不依赖于 ,则称此结构为指数型的统计结构,简称指数结构,其中的分布族为指数族,这里的10(),(),() ,()kjcc c Tx 都与 - 6 - 无关,且取有限值的 可测函数, k 为正整数, () 0hx . 2)定理: 自然参数空间 为凸集 ()x 是 上的 可测函数,且对一切1(, )kww w 有1| ( ) | exp ( )kjjjxwTxd 设1(, )nX XX 是来自指数型分布标准形式的一个样本,则有统计量1111( ( ), , ( ) ( ( ), , ( )nnkikiiiTX TX Tx Tx是指数型分布族的充分统计量 . 3)常见指数
14、分布族 二项分布族: ln1() (1 ) (1 )xxnx nnnpx exx 1()exp()(), 0,1, ,ccxhx n 其中1() (1 ), () ln ,()1nnccxhxx 二元正态分布族: 22, 21( ) exp exp 222ux xpx 其中21222 211(, ) exp , (, ) , (, )2ccc 212() 1, () , ()hx T x xT x x 伽玛分布族: 1,12()()exp ( 1)ln ()( , )exp ( , ) ( , )ln , 0xpx xexxccxcx 其中12(,) , (,) , (,) ( 1)()ccc
15、 注: 如果 Gammar 分布中引入第三个参数门限参数 ,其密度函数为 - 7 - 1(),() ( ) ,()xpx x e x 5辅助统计量( ancillary statistic) : 1)定义: 设 ( ; ), Xfx ,若统计量 ()A AX 的分布与 无关,则称 ()A X 为辅助统计量(即 ()A X 中不包含关于 的信息) 英文注释: Definition (Ancillary Statistic) : A statistic ()SX whose distribution does not depend on the parameter is called an anc
16、illary statistic. Alone, an ancillary statistic contains no information about . An ancillary statistic is an observation on a random variable whose distribution is fixed and known, unrelated to . Paradoxically, an ancillary statistic, when used in conjunction with other statistics, sometimes does co
17、ntain valuable information for inferences about . 6常见的充分统计量 分布 分布列或密度函数 参数 充分统计量 二项分布b(1,p) 11,0,1xxPX x p p x p 1 nTx x 泊松分布P ( ) e , 0,1, 2,!xPX x xx 1 nTx x 几何分布()Ge 11,1,2xPX x x 1 nTx x 指数分布Exp( ) p(x)= , 0xex1 nTx x 均匀分布(0, )U 1,0px x 1max( , , )nTxx 即nTx 均匀分布12(, )U 12211,px x 12, 1(1)2(),nTx
18、Tx 均匀分布(,2)U 1,2px x 1(1)2(),nTxTx - 8 - 正态分布2,N 22()21() e2xpx 2, 21()niix xx与幂分布 1(; ) ,0 1p xxx11lnn niiiiTxT x或双参数指数分布 1(; , ) ,xpx e x , 1(1)21,niiTxT x伽玛分布 Ga( , ) 1( ; , ) ,x0()axpx x e, 121 1,nniii iTxT x 对数正态分布2,LN 22(ln )21() e2xpxx 2, 21211ln , (ln )nniiiiTxT x贝塔分布 Be(a,b) 111( ) (1 ) ,0x
19、1(,)abpx x xBaba,b 1211ln , ln(1 )nniiiiTxT x 二、 【释疑解难】 1 对上述充分统计量的证明 *对于指数分布族直接找出充分统计量,以下为一些例子 二项分布:b(1,p) 设12,nX XX 使来自二点分布 1,bp的一个样本,其中 01,2pn ,现在我们来考察如下两个统计量: 12121,.niiTX TXX我们知道,样本 12,nX XX 的联合分布是 11112 2, 1 ,nniiiiXnXnnPX xX x X x p p 其中,诸ix 非 0 即 1.而统计量11niiTX的分布为二项分布 ,bnp,即 1,0,1,.nttnPT t
20、p p t nt 而在给定1Tt 下,样本的条件分布为 - 9 - 112 2 1112 2 11111 1 1111, ,1.1nnnnnnnn iinttnttPX xX x X xT tPX xX x X xT tPT tPX x X x X t xPT tnppn tppt 计算结果表明, 这个条件分布与参数 p 无关 .它已不含有参数 p 的有关信息了 .样本中有关 p的信息都含在统计量1T 中 . 另外,统计量212TXX的分布仍是二次分布 2,bp,即 2221,0,12.ttPT t p p tt 于是在给定2Tt 下,样本的条件分布为 3333112 2 2112 13 32
21、212,12121.nniiiinniiiinnnntxnt xttxnxPX xX x X xT tPX xX t xX x X xPT tpppptppt 可见,这个条件分布与参数 p 有关 .这意味着,这个条件分布还含有参数 p 的信息,而样本中有关 p 的信息没有完全包含在统计量2T 之中 . 注:从上例可以直观地看出,用条件分布与参数无关来表示不损失样本中有价值的信息室妥当的 .一般的充分统计量的定义也正是这样给出的 . (数理统计 _茆诗松王静龙 P46/Ex 1.6.2) 泊松分布: P (书 P283/Ex5 .5.2) :设1,nx x 是来自泊松分布 P 的样本,则1nii
22、Tx是充分- 10 - 统计量 解: ( ; ) exp(ln ) ln( !) , 0,1,!xpx e x x xx 且1,nX X 独立同分布,根据充分完备统计量定义可得,1 nTx x 为其充分统计量 . 令解: 由泊松分布性质知, TPn 在给定的取值后,对任意的一组11,nniix xxt ,有 111 1 11111, ,nnnn iinnniiPX x X x X t xPX x X xT tPxt 1 111e!n nii n iiitnPX x PX t xnt 111111ee!e!niiitxxnni iiitnxtxnt 1e!e!tnniitnxnt1!ntiitn
23、x与 无关,是充分统计量 . 几何分布: ()Ge (书 P283/Ex5 .5.) :设1,nx x 是来自几何分布1,0,12,xPX x x - 11 - 的样本,则1niiTx是充分统计量 . 解:1 expln ln(1 ), 0,1, 2,xPX x x x 且1,nX X 独立同分布,则由充分完备统计量定义得,1 nTx x 为其充分统计量 . 令解: 由几何分布性质知, ,TNbn 其分布列为 11 , 0,1, 2,tnntPT t tt 在给定的取值后,对任意的一组11,nniix xxt ,有 111 1 11111, ,nnnn iinnniiPX x X x X t
24、xPX x X xT tPxt 1 11111n nii n iiitnPX x PX t xntt 11111111ntxiiinxitnntt 111tntnntt 11ntt 与 无关,是充分统计量 . 指数分布:Exp() 设1,nx x 是来自指数分布 Exp()的样本,则1niiTx是充分统计量 . 解: ( ; ) expln , 0,1,xpx e x x - 12 - 且1,nX X 独立同分布,则由充分完备统计量定义得,1 nTx x 为其充分统计量 . 令解: 由泊松分布性质知, ,TGan 其分布函数为 11;1!nnnt ntpt te te 在给定的取值后,对任意的
25、一组11,nniix xxt ,有 111 1 11111, ,nnnn iinnniiPX x X x X t xPX x X xT tPxt 1 11111!n nii n iiinntPX x PX t xten 111111!niiitxnxinnteeten11!ntnnteten 11!nnt 与 无关,是充分统计量 . *对于非指数族用其因子分解定理来求充分 统计量,以下就是典型的例子 均匀分布: (0, )U (书 P282/Eg5 .5.4) :设1,nx x 是取自总体 (0, )U 的样本,即总体的密度函数为 1,0;0xpx 其他解: 于是样本的联合密度函数为 - 13
26、 - 11,0 min max;0niinxxpx px 其他由于诸 0ix ,所以我们可将上式改写为11; ,nnnxpx px I 取,nTx 并令1,1,ntgt I hX由因子分解定理知,nTx 是 的充分统计量 . 均匀分布:12(, )U (书 P283/Ex5 .5.0) :设1,nx x 是来自均匀分布12(, )U 的样本,试给出一个充分统计量 . 解: 总体的密度函数为1221121,;,0xpx 其他于是样本的联合密度函数为 112 12211,0 min max;, ;,0niinxxpx px 其他由于诸 0ix ,所以我们可将上式改写为 12111 2 12211;
27、, ;,nnnxxpx px I 取 121,ntxtx,并令 112 212 1 2211, , 1,nttgtt I hX 由因子分解定理知, 121,nTtt xx 是12, 的充分统计量 . 均匀分布: (,2)U (书 P283/Ex5 .5.1) :设1,nx x 是来自均匀分布 (,2)U 的样本,试给出一个充分统计量 . - 14 - 解: 总体的密度函数为 1,2;0xpx 其他于是样本的联合密度函数为 11,min max 2;0niinxxpx px 其他由于诸 0ix ,所以我们可将上式改写为 1121;nnnxxpx px I 取 121,ntxtx,并令1212 2
28、1, , 1nttgtt I hX 由因子分解定理知, 121,nTtt xx 是 的充分统计量 . *均匀分布族不是指数型分布族 正态分布: 2,N (书 P282/Eg5 .5.5) :设1,nx x 是取自总体 2,N 的样本, 2, 是未知的, 解: 联合密度函数为 2221211, , ; 2 exp( ( ) )2n nnipx x x 2222221112 exp( )exp 2n nniiinx x 取21211,nniiiitxtx并令 22212 2 1221( , , ) 2 exp( )exp 2 , ( ) 1nngt t t t hX 由因子分解定理知,21211,
29、nniiiiTtt x x 是充分统计量 . 进一步,我们指出这个统计量与 2,x s 是一一对应的, 这明在正态总体场合常用的 2,x s 是充分统计量 . 幂分布: - 15 - 解1: 样本联合密度函数为 111,;nniip xx x11nniix取1niitx,并令 1;,1ngt t hX 由因子分解定理知,1niiTx是充分统计量 . 解: 样本联合密度函数为 111,;nniip xx x11nniix11exp lnnniix 1exp ln 1nniix 1ln1eniixne 取1lnniitx,并令 1;e,1ntgt e hX 由因子分解定理知,1lnniiTx是充分
30、统计量 . 双参数指数分布: (书 P284/x5 .5.2) :设1,nx x 是来自双参数指数分布 1;, , , 0xpx e x 的样本,证明 1,x x 是分统计量 . 解: 样本联合密度函数为 1111,;,ixnnxipx x e I 111()1niinxxeI111nnx nxeI取121,txtx - 16 - 并令 11121,;, , 1nnx nxgtt e I hX由因子分解定理知, 121,Ttt xx 是充分统计量 . 伽玛分布:Ga(,) 解: 样本联合密度函数为 111,;,()inxaniip xx xe 11()inxaiix e111()niian x
31、iixe取121 1,nniii itxt x ,并令 1112 2,;, , 1()atgtt t e hX 由因子分解定理知,121 1,nniii iTtt x x 是充分统计量 . 对数正态分布:2,LN 设1,nx x 是取自总体2,LN 的样本, 2, 是未知的, 解: 联合密度函数为 2221211, , ; 2 exp( (ln ) )2n nnipx x x 2222221112 exp( )exp ln 2 lnn nniiiinx x 取 21211ln , ln ,nniiiitxt x并令 22212 2 1221( , , ) 2 exp( )exp 2 , ( )
32、 1nngt t t t hX 由因子分解定理知, 21211,ln,lnnniiiiTtt x x是充分统计量 . 贝塔分布:Be(a,b) 解: 样本联合密度函数为 11111,;, (1 )(,)nabniiipx xab x xBab - 17 - 1111(1 )(,)nabiiixxBab 1111exp ln (1 )(,)nabiiixxBab 11111exp ln ln (1 )(,)nnabiixxBab 111exp ln 1 ln (1 ) 1(,)nniixa x bBab 111exp ln 1 ln(1 ) 1(,)nniiiixa x bBab 取1211ln
33、 , ln(1 )nniiiitxt x, 并令 12 1 21,;, exp 1 1, 1(,)gtt ab t a t b hXBab 由因子分解定理知, 1211,ln,ln(1)nniiiiTtt x x 是充分统计量 . 2 常用分布族的完备性 分布族 (,)Fv 的完备性 若有10(,) () 0, (,)()vxvvhxexdx vv , 则对任何 (,)v 有10() 0xvhxe x dx;该式左端可视为1()vhxx的拉氏变换,因此有拉氏变换的唯一性,可以推出1() 0()vhxx ae ,10vx ,即得 () 0()hx ae .类似的,分布族00(, Fv 也完备 .
34、 正态分布族20(, )FN 的完备性 1)1 ( ,1), ( , )FN 完备 . 解: 因为对任何 ,由212()1( ) () 02xEhX hx e dx - 18 - 可以推得212() () 0xxhxe e dx有拉氏变换唯一性可知:212() 0()xhxe ae ,即可得 () 0()hx ae . 2)20(, ), ( , )FN 完备 .与 1)类似 . 3)223(0, ), 0FN不完备 .因为 () , ( ) 0hx xE hX ,但 () 0()hx ae 4)2240( , ), 0FN 不完备 .与 3)类似 . 5)2(, ), ,FN 完备 .因为若
35、对任何 (, ) 有,() () 0hx xdx ,其中,()x 为正态分布2(, )N 的密度函数,必有,1() () 0hx xdx , ,由( 1)知 () 0()hx ae . 二项分布族 (, ), (0,1)Fbn 的完备性 若对任何 有 () ( ) 0EhX ,即0() () (1 ) 0nxnxxnhxx 由此可推出0() ( ) 01nxxnhxx,该式为1y的 n次多项式,它对一切 0y 为零,则其系数必为零,即 () 0nhxx,所以 ( ) 0, 0,1, ,hx x n . 均匀分布族 (0,), 0FR 的完备性 若对任何 有10( ) () 0EhX hx dx
36、,则0() () 0hxdx .由于 ()hx可测,其不连续点为零测集,在 ()hx的连续点处, () 可导,因此对任何 ()hx的连续点 处有( ) ( ) 0hx ,即 () 0h , ()ae ,因此有 () ()hx ae 3 因子分解定理中的是不是向量统计量? 答: 假如存在充分统计量 ()TX,那么样本分布 ()f x一定可以分解为两个因子的乘积,其中一个因子与 无关,仅与样本有关,另一个因子与 有关,但与样本的关系可以通过充分统计量 ()TX表现出来 .所以,应该指出,这个定理中的 ()TX可以是向量统计量 . - 19 - 4 用指数族去解决问题的完全性有多大的作用? 答: 我
37、们通过学习,可以总结出指数族的三个 优点 : 1)是它包含了很多常见的分布 . 2)其次是它有良好的分析性质 . 3)是它有(在定理条件下)完全充分统计量 . 这后两条性质决定了许多问题在这个族中有满意的解决,因此,指数族的重要性就可想而知了 . 5 分布族要有怎样的性质,才能使次序统计量有完全性? 答: 先引进若干有关的记号,设12,FF F 为 个一维概率测度, 0, 1, 2, ,iPi 而11PP ,则1iiiFPF理解为一概率测度,定义为1() ()iiiFS PFS,对任何1S ,又若 F 为一概率测度,1S 而 () 0FS ,则记号SF 表示一个概率测度定义为1() ( )/ (),SFA FS AFSA . 6 充分统计量的函数是不是充分统计量? 答: 设2(, )XN ,2 已知,1(, )nX XX 是抽自 X 的 iid 样本,则依因子分解可知 X 是 的充分统计量,但2X 不是 的充分统计量,事实上 222112222 1112211( ) ( ) ( ) ( )22(, | )() () () 222nn