1、第四章4-1 设,2,3311bay).,0(32321IN(1)试求参数 ,的最小二乘估计;(2)试导出检验 H:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么?解:(1)由题意可知.,210 321321 bayYC则 32111 02120)( yYC.)2(5163bay(2)由题意知,检验 的似然比统计量为H:0230其中, 。)()()(31 23222 baybay当 成立时,设 ,则0H0ba,3,02211ay,3C可得,)3y(131)( 0221 ayYC,)()()(3 2032020120 aayy因此,当假设 成立时,与似然比统计量 等价的 统计量及其
2、分布为HF).1,(20F4-3 设 Y与 321,x有相关关系,其 8 组观测数据见表 4.5.表 4.5 观测数据序号 12x3xY1 38 47.5 23 66.02 41 21.3 17 43.03 34 36.5 21 36.04 35 18.0 14 23.05 31 29.5 11 27.06 34 14.2 9 14.07 29 21.0 4 12.08 32 10.0 8 7.6(1)设 3210xxY,试求回归方程及决定系数 2R和均方误差2s。解:用 sas 软件的编写程序如下:title “应用多元统计分析“ p171 习题4-3;data xt43;input x1-
3、x3 y;cards;38 47.5 23 66.041 21.3 17 43.034 36.5 21 36.035 18.0 14 23.031 29.5 11 27.034 14.2 9 14.029 21.0 4 12.032 10.0 8 7.6;proc print;run;proc reg data=xt43;model y=x1-x3;run;quit;运行结果如下:由结果可知:其回归方程为.674.031.258.76.10 32xxY决定系数为R2=0.9909均方误差为S2=(2.44158)2.习题五5-1 已知总体 的分布为 ,按距离判别准则为(不)1(mGi )2,1
4、(,()iNi妨设 )21)2()1(,*21xxG或 若 若其中 ., 121211* )()()()( 试求错判概率 和 。)1|2(P)|(解:由题意,其错判概率为)()()|( 1(*1(*)()( 11(211(2 )()()()()()(121()12(),()(21()12() )()()|1( 1(*1(*P)()( 22(11222(121 )()()()()()(21()12() )()( 21()12().()(12()21() 5-2 设三个总体 和 的分布分别为 和 。试,G3 )2,0(5.,(N)1,3(2问样品 应判归哪一类?5.2x(1)按距离判别准则;(2)
5、按贝叶斯判别准则(取 ) 。jiijLq,01)|(,321解:由题意(1)样品 与三个总体 和 的马氏距离分别为x21,G3,15.0)()()22121 d,65.)()()222x,.01)35.()()22323 d显然, ,则 ,即样品 应判归)()(,(min321 xdx3G5.2x总体 。3G(2)样品 与三个总体 和 的贝叶斯距离分别为x21,G3,386.0).1()ln()(121 xdD942ln56222,50)l()(333x显然, ,则 ,即样品 应判归,),min21221 xDD1G.x总体 。1G5-4 设有两个正态总体 和 ,已知1G2)2(m,50,50
6、)()( , 7-2,3128先验概率 ,而 。试问样品21q5)|(,0)|(L及 ,)1(X201)(X各判归哪一类?(2)按贝叶斯判别准则(假定 ) 。32182解:方法一(后验概率) )1()1(10,12)ln(qC,245.)ln(5032850l 11 q)(1)2(20,2)ln(q,9468.13)ln(2503850l1 q,25.101)1(1)1( XCX,4630.3281)1(22)1( ,85.105)2(11)2( XCX,27.0328)2(12)2( 则4259.13.)ln()( 1)1(0,1 qCXY,24.9lnq60.8.)l()( 1)1(0,2
7、12,56.l5.124.)ln()( 1)2(0,121 qCXY,8.7lnq278.96.3)l()( 12)(0,22,5.l1显然, ,故)()()( 221(2XYXY ,2)1(G。)1()2(GX方法二(平均损失))(1075)|2()()( 12)12121 XfLXfqhWexp5)2()()( (21)(12)1)250(32850(exp5.71 ,19.7)120(1)20(11 )(5)|()()( 21)21212 XfLXfqhXWexp5)()2(1()( (21)2(1)2501(3850(exp5.7 ,15.7)1025(318)502(11 故 。,2
8、)1(GX)()(习题六6-3 下面是 5 个样品两两间的距离矩阵,0853617940)(D试用最长距离法、类平均法作系统聚类,并画出谱系聚类图。解:根据题意,系统聚类步骤如下: (1)初始 5 个样品各自构成一类,得 5 个类: ,类)5,1()iXGi的个数 。k(2)由 可知,类间距离为 1 时最小,首先应合并 和 为一新类,)0(D)1()4(记为 ;此时类的总个数 减少 1,变为 ,故把此步骤得到,4)4()1XCLkk的新类记为 。(3)按最长距离法计算新类 与其他类的距离,得新的距离矩阵 : 4CL)1(D)( 2)( 3X)( 54CL)( 2X0)( 39 0)( 53 5
9、 04CL7 10 8 0因此时类的总个数 大于 1,继续重复并类过程。k(4)由 可知,类间距离为 3 最小,故合并 和 为新的一类,记)1(D)2(X)5(为 ;此时类的总个数 又减少 1,变为 ,故把此步骤得到,3)5()2(XCLk3k的新类记为 。3CL(5)按最长距离法计算新类 与其他类的距离,得新的距离矩阵 :3CL)2(D)(X4)( 304CL10 09 8 0因此时类的总个数 大于 1,继续重复并类过程。3k(6)由 可知,类间距离为 8 最小,故合并 和 为新的一类,记)2(D3CL4为 ;此时类的总个数 又减少 1,变为 ,故把此步骤得到4,CLk2k的新类记为 。(7
10、)按最长距离法计算新类 与其他类的距离,得新的距离矩阵 :2CL)3(D)( 3X)( 302CL10 0因此时类的总个数 大于 1,继续重复并类过程。k(8)由 可知,最后应合并 和 为一新类,记为)3(D)( 3X2CL;此时类的总个数 ,故把此步骤得到的新,1)3(5()2()4()XCL 1k类记为 。(9)此时所有样品全合并成一类,得到新的距离矩阵 :)4(D1CL0并类过程至此结束。(10)画谱系聚类图(见图 1) 。(11)确定类的个数及各类的成员:若分为两类,则 , ;,)5()2()4()1)2(1XG)3()2(G若分为三类,则 , , ;)()3( ,)5(23 )3(X
11、若分为四类,则 , , ,,)4()1)4(1 )()4(2 )5(43;)3()4(XG若分为五类,则 。)5,3()5(iXGi用类平均法作系统聚类过程如下:(1)初始 5 个样品各自构成一类,得 5 个类: ,类)5,1()iXGi的个数 。k(2)由 可知,类间距离为 1 时最小,首先应合并 和 为一新类,)0(D)1()4(记为 ;此时类的总个数 减少 1,变为 ,故把此步骤得到,4)4()1XCLkk的新类记为 。(3)按类平均法计算新类 与其他类的距离,得新的距离矩阵 : 4CL)1(D)( 2)( 3X)( 54CL)( 2X0)( 39 0)( 53 5 04CL5.7 8.
12、2 7.1 0因此时类的总个数 大于 1,继续重复并类过程。4k(4)由 可知,类间距离为 3 最小,故合并 和 为新的一类,记)1(D)2(X)5(为 ;此时类的总个数 又减少 1,变为 ,故把此步骤得到,3)5()2(XCLk3k的新类记为 。(5)按最长距离法计算新类 与其他类的距离,得新的距离矩阵 :3CL)2(D)(X4)( 304CL8.2 07.6 6.4 0因此时类的总个数 大于 1,继续重复并类过程。3k(6)由 可知,类间距离为 6.4 最小,故合并 和 为新的一类,)2(D3CL4记为 ;此时类的总个数 又减少 1,变为 ,故把此步骤得4,CLk2k到的新类记为 。(7)
13、按最长距离法计算新类 与其他类的距离,得新的距离矩阵 :2CL)3(D)( 3X)( 302CL7.9 0因此时类的总个数 大于 1,继续重复并类过程。k(8)由 可知,最后应合并 和 为一新类,记为)3(D)( 3X2CL;此时类的总个数 ,故把此步骤得到的新,1)3(5()2()4()XCL 1k类记为 。(9)此时所有样品全合并成一类,得到新的距离矩阵 :)4(D1CL0并类过程至此结束。(10)画谱系聚类图(见图 1) 。(11)确定类的个数及各类的成员:若分为两类,则 , ;,)5()2()4()1)2(1XG)3()2(G若分为三类,则 , , ;)()3( ,)5(23 )3(X
14、若分为四类,则 , , ,,)4()1)4(1 )()4(2 )5(43;)3()4(XG若分为五类,则 。)5,3()5(iXGi6-9 设有 5 个样品,对每个样品考察一个指标,得数据为 1,2,5,7,10。试用离差平方和法求将 5 个样品分为 类( )的分类法 及其相应的k1,2345kb总离差平方和 。)(kW解:sas 程序如下:title “ p171 4-3;data xt43;input x1-x3 y;cards;38 47.5 23 66.041 21.3 17 43.034 36.5 21 36.035 18.0 14 23.031 29.5 11 27.034 14.
15、2 9 14.029 21.0 4 12.032 10.0 8 7.6;proc print;run;proc reg data=xt43;model y=x1-x3;run;quit;果果果果果由结果可知: 时, , ; 时,5k )5,4321()5(iXGi 0(W4k, , , , ;,)2()1)4(1XG)3()4( )()( )5()4(XG5.0)时, , , , ;3k,)2()13 ,)4()3 )(323时, , , ; 时,)()2(1 )5()()2(XG67.121k, 。,)5()4()32()2(1XG8.01W6-10 今有 6 个铅弹头,用“中子活化”方法测
16、得 7 种微量元素的含量数据(见表 6.13) 。(1)试用多种系统聚类法对 6 个弹头进行分类;并比较分类结果;(2)试用多种方法对 7 种微量元素进行分类。表 6.13 微量元素含量数据Ag(银)( )1XAl(铝)( )2Cu(铜)( )3XCa(钙)( )4Sb(锑)( )5XBi(铋)( )6Sn(锡)( )7X1 0.05789 5.5150 347.10 21.910 8586 1742 61.692 0.08441 3.9700 347.20 19.710 7947 2000 24403 0.07217 1.1530 54.85 3.052 3860 1445 94974 0.
17、15010 1.7020 307.50 15.030 12290 1461 63805 5.74400 2.8540 229.60 9.657 8099 1266 125206 0.21300 0.7058 240.30 13.910 8980 2820 4135解:sas 程序如下:title “应用多元统计分析“ 习题 6-10 ;/* Ex610.sas */data d610;input x1-x7;cards;0.05798 5.5150 347.10 21.910 8586 1742 61.690.08441 3.9700 347.20 19.710 7947 2000 24400
18、.07217 1.1530 54.85 3.052 3860 1445 94970.15010 1.7020 307.50 15.030 12290 1461 63805.74400 2.8540 229.60 9.657 8099 1266 125200.21300 0.7058 240.30 13.910 8980 2820 4135;proc print;run;/* (1) */goptions ftext=“宋体“;proc cluster data=d610 method=single outtree=a610;var x1-x7;run;proc tree data=a610 h
19、orizontal graphics;title 使用最短距离法的谱系聚类图(弹头);run;proc cluster data=d610 method=complete outtree=b610;var x1-x7;run;proc tree data=b610 horizontal graphics;title 使用最长距离法的谱系聚类图(弹头);run;proc cluster data=d610 method=median outtree=c610;var x1-x7;run;proc tree data=c610 horizontal graphics;title 使用中间距离法的谱
20、系聚类图(弹头);run;proc cluster data=d610 method=centroid outtree=d610;var x1-x7;run;proc tree data=d610 horizontal graphics;title 使用重心法的谱系聚类图(弹头);run;proc cluster data=e610 method=ave outtree=e610;var x1-x7;run;proc tree data=e610 horizontal graphics;title 使用类平均法的谱系聚类图(弹头);run;proc cluster data=e610 meth
21、od=flexible outtree=f610;var x1-x7;run;proc tree data=f610 horizontal graphics;title 使用可变类平均法的谱系聚类图(弹头);run;proc cluster data=e610 method=mcquitty outtree=6g10;var x1-x7;run;proc tree data=g610 horizontal graphics;title 使用相似分析法的谱系聚类图(弹头);run;proc cluster data=d610 method=ward outtree=h610;var x1-x7;
22、run;proc tree data=h610 horizontal graphics;title 使用 Ward 法的谱系聚类图(弹头);run;proc corr data=d610 outp=p610;var x1-x7;run;/* (2) */data d610(drop=i);set c610(firstobs=4);array x(7) x1-x7;do i=1 to 7;x(i)=sqrt(1-abs(x(i)*x(i);end;run;proc print data=d610;run;proc cluster data=d610 method=ave outtree=x610
23、;var x1-x7;run;proc tree data=x610 horizontal graphics;title 使用类平均法的谱系聚类图(元素);run;proc cluster data=od610 method=ward outtree=y610;var x1-x7;run;proc tree data=y610 horizontal graphics;title 使用 Ward 法的谱系聚类图(元素);run;proc varclus data=data610;run;proc varclus data=data610 maxc=3 summary outtree=tree;r
24、un;proc tree data=tree horizontal graphics;title 用 VARCLUS 过程对变量(元素)的聚类结果; run;quit;下面对其运行结果分析如下:(1)其最短距离法的谱系聚类图:(2)其 VARCLUS 过程的谱系聚类图:习题七7-1 设 的协方差阵 ,试从协方差阵 和相关阵21),(X104出发求出总体主成分,并加以比较。R解:方法一由题意得, 的特征值为 , 。相应的单位正交特164.0836.02征向量为, 。92.031a043.92a故主成分为,2119.43.XZ。20430方法二:由题意知, 的相关阵为X,104.R其特征值为 ,
25、。相应的单位正交特征向量为017.*19823.*2, 。0.*1a043.92a故主成分为,21*190.043.XZ。2437-2 设 ,协方差阵 ,其中 为 和),0(),(21NX11X的相关系数 。2X0(1)试从 出发求 的两个总体主成分;(2)求 的等概密度椭圆的主轴方向;(3)试问当 取多大时才能使第一主成分的贡献率达 95%以上。解:(1)由题意得, 的特征值为 , 。相应的单位正12交特征向量为, 。21a2a故主成分为,2112XZ。212(2)由(1)知,长轴的方向为 ,短轴的方向为1),(e。2),(e(3)由题意及(1)知, ,解得 ,即当 时才能%95219.09
26、.0使第一主成分的贡献率达 95%以上。7-5 设三元总体 的协方差阵为 ,试求总体主成分。X204解:由题意得, 的特征值为 , , 。相应的单位正交特4123征向量为, , 。01a1203a故主成分为,1XZ2。37-6 设三元总体 的协方差阵为 ,试求总体主成分,X2200并计算每个主成分解释的方差比例 。)1(解:由题意得, 的特征值为 , ,22。相应的单位正交特征向量为)21(3, , 。21a20a213a故主成分为,其解释的方差比例为 ;321XXZ 32121,其解释的方差比例为 ;312 321,其解释的方差比例为 。3213XXZ 21321习题八8.1 设标准化变量
27、的协方差阵(即相关阵)为321,X,0.154.036R试求 m=1 的正交因子模型.解: 容易验证, DAR 75.01.5.079.50因而因子载荷矩阵 A 和特殊因子的协方差阵 D 分别为:, 5.079. 75.01.即 的正交因子模型为1m313225.07.FX误差为 75.0.D8.2 已知题 8-1 中 R 的特征值和特征向量分别为 .)172.0,639.,74.0(,362. ,841895.,.,.,.121 ll(1) 取公因子个数 m=1 时,求因子模型的主城分解,并计算残差平方和 Q(1);(2) 取公因子个数 m=2 时,求因子模型的主城分解,并计算残差平方和 Q(2);(3) 试求误差平方和 Q(m)0.1 的主成分解。解:(1) 取 1m得 = =mll1A507.93261.18.5误差为 0.289 .16 0.243 D即 的因子模型主成分分解为 1m3132217.5.FX195.0Q(2) 取 得2mll1A= 6951.07.48-832842.091-6.675.,50.932.6.误差为 .1 .4 . D.Q即 的因子模型主成分分解为2m32132 1695.07.488 FX(3)因 ,所以 的主成分分解符合要求。1.06.Qm