1、1统计分析软件(matlab)实验报告序号 班级 姓名 学号 日期 时间 地点6 信计 1002班 赵小跑 41064053 2012.8.25 8::011:45 实验楼 102指导教师:张志刚一、 实验名称:多元统计,统计模拟实验任务:实验 1:(盐泉含钾性判别)某地区经勘探证明,A 盆地是一个钾盐矿区, B 盆地是一个钠盐矿区,其它盐盆地是否含钾盐有待判断。今从 A,B 两盆地各抽取 5 个盐泉样品,从其它盆地抽取 8 个盐泉样品,对其它盆地的 8 个盐泉样品进行含钾性判别。实验 2:(统计模拟)计算在 30 名学生的一个班中至少有两个人生日相同的概率是多少?(1)公式计算 rsp365
2、)1(41(2)模拟计算实验 3:(动画)(1) 将0,1进行等分,间隔是个随机数,(2) 在每一个间隔点上产生多组(两组)随机数,作为纵坐标,连成多条(两条)曲线(折线) ;(3) 按照横坐标从小到大将纵坐标进行累加,得到累加曲线(随机游走曲线) 。实验目的:通过以上的综合练习巩固复习前几节课所学知识,掌握多元统计分析的基本原理和方法,并且学会进行简单的统计模拟和基本随机数曲线动画的实现。2运行结果:实验 1:训练样本的均值为:A: 21.8120 4.1060 11.9820 52.1700B: 6.6380 0.8560 3.3200 16.5600-线性判别函数:Y1(x)=(7.67
3、41)x1+(5.5488)x2+(-13.9631)x3+(1.1813)x4+(-42.2473)Y2(x)=(2.9311)x1+(1.3570)x2+(-5.3738)x3+(0.4558)x4+(-5.1627)-马氏距离的差的系数为:a=4.7430 4.1918 -8.5892 0.7255-第一类(含钾)样本的 W(x)为:W1(x)=(9.2895,17.2530,25.1328,17.1971,23.6995)-第二类(含钠)样本的 W(x)为:W2(x)=(-17.8354,-16.1726,-13.0762,-17.0070,-28.4806)-待判样本的 W(x)为:
4、W0(x)=(-6.4116,190.4557,45.8130,-2.4019,-13.6408,22.9040,59.7172,48.6917)-图像为:3实验 2:概率的真值为: p_r=0.7063实验的次数为: n= 1000成功的次数为: k= 705概率的估计值为: p_e=0.7050置信区间的半径为: r=0.0287置信区间为 a,b=0.6757,0.7331实验 3:4分析讨论:1、多元统计分析所研究的内容和方法概括为:(1)简化数据结构(降维问题):如主成份分析,因子分析等;(2)分类与判别(归类问题):如聚类分析,判别分析等;(3)变量间的相互联系:相关分析,回归分析
5、等;(4)统计推断:参数估计,假设检验等;(5)多元统计分析的理论基础:多元统计量及其分布和性质,抽样分布理论等;5120201022102020: (,)(,)(,),(),xdxGxdGxx、 多 维 正 态 分 布 时 的 判 别 方 法对 两 个 总 体 , 分 别 计 算 检 测 样 本 到 两 个 总 体 的距 离 和 , 按 照 距 离 最 近 的 原 则 进 行判 , 若判 , 若待 判 若22 11 122*1*212012*121(,)(,)()()() () ()0()dxGxSxWxWSaxGxWx考 虑 马 氏 距 离 的 差 :为 的 线 性 函 数 , 判 别 系
6、 数判 , 若则 判 别 准 则 改 为 : 判 , 若待 判 若其 中 ,心得体会:通过这节课的学习,我了解了许多多元统计分析的知识,并且对其中很重要的一项:判别分析进行了深入的学习和练习。通过练习,我掌握了一种基本的判别分析方法:距离判别法。理解了距离判别法的基本思想,以及误判率和意义。并能够对判别结果的含义进行分析和解释。另外,我也学会了统计模拟的基本思想,并通过练习学会了模拟的方法,以及对结果的分析和研究。另外,令我兴奋的是我还学会了进行简单的随机数曲线的绘制,以及动画效果的演示。2012 年 8 月 25 日6设计方案描述:实验 1:1、首先求出各个组的均值、协方差矩阵,Sxx 和
7、Syy;2、计算得 ,112()()nSS和继而求得判别函数的系数: 以及第一类、1111222,axbxaSbxS第二类和待判类的 W(x )值,即马氏距离判别函数值。3、输出判别函数,和结果。4、作出第一类、第二类和待判类样本的判别函数值得散点图并画出参考线:y=0.5、根据待判样本的判别函数值在哪类区间里或根据图形即可快速看出待判样本点属于哪类。实验 2:1、使用概率统计的知识,使用公式计算 30 人中生日相同人的概率。存储在 p_r 数组中。2、产生 1000 个样本,每个样本有 30 个 0-365 的随机数(并取整) 。3、使用 for 循环判断,若每一个样本中有生日相同的人,即有
8、两个元素值相等,则跳出,并记为 1,等到循环结束,统计 1 的个数并除以 1000,即为 1000 人中生日相同的频率。4、输出结果即可。实验 3:1、 产生随机数:sigma=unifrnd (0.2,1,1,n);2、产生间隔也为随机数的两列随机数:dx1=unifrnd (1,10)/100;dx2=unifrnd(1,10)/50;a=0:dx1:10; b=0:dx2:10;n1=length(a); n2=length(b);mu=0; z=normrnd(mu,sigma(i),2,n1);z1=normrnd(mu,sigma(i),2,n2);画出这两列随机数的图像:subp
9、lot(2,1,1),plot(a,z(1,:),-r);hold on plot(a,z(2,:),-b);按照横坐标从小到大将纵坐标进行累加,得到累加曲线(随机游走曲线) 。z2=zeros(1,n2);z3=zeros(1,n2);for j=1:n2zz=zeros(1,j);for k=1:jzz(k)=z1(1,k); zz1(k)=z1(2,k);end z2(j)=sum(zz);z3(j)=sum(zz1);end画出游走曲线的图像:subplot(2,1,2),plot(b,z2,-r);8hold onplot(b,z3,-b);hold offpause(0.1)(暂停
10、0.1秒,以此产生动画效果)11主要程序清单:实验 1:clear all;clc;x11=13.85,2.79,7.80,49.60;x12=22.31,4.67,12.31,47.80;x13=28.82,4.63,16.18,62.15;x14=15.29,3.54,7.50,43.20;x15=28.79,4.90,16.12,58.10;x21=2.18,1.06,1.22,20.60;x22=3.85,0.80,4.06,47.10;x23=11.40,0.00,3.50,0.00;x24=3.66,2.42,2.14,15.10;x25=12.10,0.00,5.68,0.00;
11、x01=8.85,3.38,5.17,26.1;x02=28.60,2.40,1.20,127.00;x03=20.70,6.70,7.60,30.20;x04=7.90,2.40,4.30,33.20;x05=3.19,3.20,1.43,9.90;x06=12.40,5.10,4.43,24.6;x07=16.80,3.40,2.31,31.30;x08=15.00,2.70,5.02,64.00;xx=x11;x12;x13;x14;x15;yy=x21;x22;x23;x24;x25;xx0=x01;x02;x03;x04;x05;x06;x07;x08;mxx=mean(xx);my
12、y=mean(yy);Sxx=cov(xx);Syy=cov(yy);m,n=size(xx);m1,n1=size(yy);S=(m-1)*Sxx+(m1-1)*Syy)/(m+m1-2);a1=S(-1)*mxx;b1=mxx*S(-1)*mxx/(-2);a2=S(-1)*myy;b2=myy*S(-1)*myy/(-2);aa=(a1-a2);x0=(mxx+myy)/2;m2,n2=size(xx0);W1=aa*(xx-x0 x0 x0 x0 x0);W2=aa*(yy-x0 x0 x0 x0 x0);W0=aa*(xx0-x0 x0 x0 x0 x0 x0 x0 x0);zz1=
13、1:m;plot(zz1,W1,+b);hold onzz2=1:m1;plot(zz2,W2,+m);10zz0=1:m2;zzz1=0,m2;zzz2=0,0;plot(zz0,W0,*r);hold onplot(zzz1,zzz2,-b);hold offfprintf(n 训练样本的均值为:)fprintf(nA:t%6.4ftt%6.4ftt%6.4ftt%6.4f,mxx(1,1),mxx(2,1),mxx(3,1),mxx(4,1)fprintf(nB:t%6.4ftt%6.4ftt%6.4ftt%6.4f,myy(1,1),myy(2,1),myy(3,1),myy(4,1)
14、fprintf(n-)fprintf(n 线性判别函数:)fprintf(nY1(x)=(%6.4f)x1+(%6.4f)x2+(%6.4f)x3+(%6.4f)x4+(%6.4f),a1(1),a1(2),a1(3),a1(4),b1)fprintf(nY2(x)=(%6.4f)x1+(%6.4f)x2+(%6.4f)x3+(%6.4f)x4+(%6.4f),a2(1),a2(2),a2(3),a2(4),b2)fprintf(n-)fprintf(n 马氏距离的差的系数为:)fprintf(na=%6.4ftt%6.4ftt%6.4ftt%6.4f,a1(1)-a2(1),a1(2)-a2
15、(2),a1(3)-a2(3),a1(4)-a2(4)fprintf(n-)fprintf(n 第一类(含钾)样本的 W(x)为:)fprintf(nW1(x)=(%6.4f,%6.4f,%6.4f,%6.4f,%6.4f),W1(1),W1(2),W1(3),W1(4),W1(5)fprintf(n-)fprintf(n 第二类(含钠)样本的 W(x)为:)fprintf(nW2(x)=(%6.4f,%6.4f,%6.4f,%6.4f,%6.4f),W2(1),W2(2),W2(3),W2(4),W2(5)fprintf(n-)fprintf(n 待判样本的 W(x)为:)fprintf(n
16、W0(x)=(%6.4f,%6.4f,%6.4f,%6.4f,%,6.4f%6.4f,6.4f%,6.4f%),W0(1),W0(2),W0(3),W0(4),W0(5),W0(6),W0(7),W0(8)fprintf(n-)实验 2:clear all;clc;rs=30;p_r=1-prod(365-rs+1):365)/(365rs);n=1000;a0=unifrnd(1,365,n,30);a1=fix(a0);a2=zeros(1,n);for i=1:n;for j=1:30;for k=j+1:30;if a1(i,j)=a1(i,k);a2(i)=1;break;enden
17、dendendpp=sum(a2)/n;10p,ci=mle(bino,sum(a2),0.05,n);r=(ci(2,:)-ci(1,:)/2;fprintf(概率的真值为 :tp_r=%6.4f,p_r);fprintf(n 实验的次数为 :tn=%6d,n);fprintf(n 成功的次数为 :tk=%6d,sum(a2);fprintf(n 概率的估计值为:tp_e=%6.4f,pp);fprintf(n 置信区间的半径为:tr=%6.4f,r);fprintf(n 置信区间为 ta,b=%6.4f,%6.4f,ci(1,:),ci(2,:);实验 3:clear all;clc;n=
18、30;sigma=unifrnd (0.2,1,1,n);for i=1:n;dx1=unifrnd (1,10)/100;dx2=unifrnd (1,10)/50;a=0:dx1:10;b=0:dx2:10;n1=length(a);n2=length(b);mu=0; z=normrnd(mu,sigma(i),2,n1);z1=normrnd(mu,sigma(i),2,n2);z2=zeros(1,n2);z3=zeros(1,n2);for j=1:n2zz=zeros(1,j);for k=1:jzz(k)=z1(1,k); zz1(k)=z1(2,k);end z2(j)=sum(zz);z3(j)=sum(zz1);endsubplot(2,1,1),plot(a,z(1,:),-r);hold on plot(a,z(2,:),-b);hold offsubplot(2,1,2),plot(b,z2,-r);hold onplot(b,z3,-b);hold offpause(0.1)end10