1、数据分析方法课 程 实 验 报 告项目名称: 回归分析学生姓名: 陈顺骄学生学号: 200707020213指导教师: 白 林完成日期: 2009 年 11 月 13 日1 实验内容(1 )掌握回归分析的思想和计算步骤;(2 )编写程序完成回归分析的计算,包括后续的显著性检验、残差分析、Box-Cox 变换等内容。2 模型建立与求解(数据结构与算法描述)Y 与 X1,X2, 的关系可表示为 Y=f(X1,X2, )+,回归分析既是利用 Y 与 X1,X2, 的观测数据,并在误差项的某些假定下确定f(X1,X2, )。利用统计推断方法对所确定的函数的合理性一级由此关系所揭示的 Y 与 X1,X2
2、, 的关系作分析。用最小二乘法计算回归参数总离差平方和残差平方和回归平方和SST=SSE+SSRR 为复相关系数Box-Cox 变换对 Y 做如下变换:通过最大似然方法确定 问题转化为选择 ,使达到最小,其中3.实验数据为:习题 2.4误差方差估计为:4.9445e+004复相关系数:0.9595exersice2_6得 b=-54.9877 4.7082 0.3393 R=0.9376因此回归方程为:y=-54.9877+4.7082X1+0.3393X2习题 2.9复相关系数:0.82024程序代码清单:2.4function huigui(X,Y)D=xlsread(2.4.xls);p
3、=3;n=15;X=D(:,1:end-1);Y=D(:,end);a=ones(n,1);X=a,X;B=(inv(X*X)*X*YH=X*inv(X*X)*X;y1=mean(Y);%y2=B(1)+B(2).*X(:,2)+B(3).*X(:,3);%SST=sum(Y-y1).2)%SSE=sum(Y-y2).2)%SSR=sum(y2-y1).2)%MSR=SSR/(p-1)%MSE=SSE/(n-p)%F=MSR/MSE;R=sqrt(SSR/SST)%o=SSE/(n-p)%y3=y2-Y;%e=(eye(n)-H)*Y;%plot(Y,e,*)未进行 Box-Cox 变换时的残
4、差分析进行 Box-Cox 变换后,残差图为2.6load exersice2_6.txtdata=exersice2_6;b,R=reg(data)function b,R=reg(data)X=data(: , 1 : end-1);Y=data(: , end);temp=ones(length(data),1);X=temp,X;b=inv (X*X)*X*Y;YY=X*b;SST=sum(Y-mean(Y).2);SSE=sum(Y-YY).2);R=sqrt(1-SSE/SST);2.9function huigui(X,Y)D=xlsread(2.9.xls);p=4;n=23;
5、X=D(:,1:end-1);Y=D(:,end);a=ones(n,1);X=a,X;B=(inv(X*X)*X*YH=X*inv(X*X)*X;y1=mean(Y);%y2=B(1)+B(2).*X(:,2)+B(3).*X(:,3)+B(4).*X(:,4);%SST=sum(Y-y1).2);%SSE=sum(Y-y2).2);%SSR=sum(y2-y1).2);%MSR=SSR/(p-1);%MSE=SSE/(n-p);%F=MSR/MSE;R=sqrt(SSR/SST)%o=SSE/(n-p);%y3=y2-Y;%e=(eye(n)-H)*Y;%plot(Y,e,*) 残差分析上
6、课纪律(20%) 实验过程及结果(40%) 实验报告质量(40%)总分: 教师签字:数据分析方法课 程 实 验 报 告项目名称: 主成分分析与典型相关分析学生姓名: 陈顺骄学生学号: 200707020213指导教师: 白 林完成日期: 2009 年 12 月 13 日1. 模型建立与求解(数据结构与算法描述)主成分分析:将 p 个特征变量 通过线性组合综合成尽量小的几个综合性变量 (q0.85 break;end end %记下累积贡献率大85%的特征值的序号放入 newi中fprintf(主成分数:%gnn,length(newi);fprintf(主成分载荷:n)for p=1:leng
7、th(newi)for q=1:length(y)result(q,p)=sqrt(newval(newi(p)*vec(q,newi(p);endend %计算载荷disp(result)%cwscore.m,计算得分function score=cwscore(vector1,vector2);sco=vector1*vector2;csum=sum(sco,2);newcsum,i=sort(-1*csum);newi,j=sort(i);fprintf(计算得分:n)score=sco,csum,j %得分矩阵:sco为各主成分得分;csum为综合得分;j为排序结果%cwprint.m
8、function print=cwprint(filename,a,b); %filename为文本文件文件名,a 为矩阵行数(样本数) ,b为矩阵列数(变量指标数)fid=fopen(filename,r)vector=fscanf(fid,%g,a b);fprintf(标准化结果如下:n)v1=cwstd(vector)result=cwfac(v1);cwscore(v1,result);习题4.8function DXn=140;s11=1.00 0.63;0.63 1.00;s22=1.00 0.42;0.42 1.00;s12=0.24 0.06;-0.06 0.07;s21=0
9、.24 -0.06;0.06 0.07;A=inv(s11)*s12*inv(s22)*s21;B=inv(s22)*s21*inv(s11)*s12;vala,e=eig(A)valb,f=eig(B)p2=diag(vala);p1=sqrt(vala);p=2;q=2;temp=1;s=ones(1,p);d1=s;d2=s;t=s;F=s;w=140-0.5*(p+q+3);for k=1:pfor i=k:ptemp=temp*(1-p2(k);ends(k)=temp;d1(k)=(p-k+1)*(q-k+1);t(k)=sqrt(p-k+1)2*(q-k+1)2-4)/(p-k+
10、1)2+(q-k+1)2-5);d2(k)=w*t(k)-0.5*(p-k+1)*(q-k+1)+1;F(k)=d2(k)/d1(k)*(1-s(k)(1/t(k)/s(k)(1/t(k);endfor j=1:pfprintf(k%d=%dts%d=%ftF%d=%ftd1%d=%ftd2%d=%fn,j,j,j,s(j),j,F(j),j,d1(j),j,d2(j);end 习题 4.10function DXs=load(exercise4_6.txt);n=49;X=s(:,2:4);Y=s(:,5:7);s11=cov(X);s22=cov(Y);s12=zeros(3,3);for
11、 j=1:3for k=1:3sum=0;for i=1:nsum=sum+(X(i,j)-mean(X(:,j)*(Y(i,k)-mean(Y(:,k); ends12(j,k)=sum;endends21=s12;A=inv(s11)*s12*inv(s22)*s21;B=inv(s22)*s21*inv(s11)*s12;vala,e=eig(A)valb,f=eig(B)p2=diag(vala);p1=sqrt(vala);p=3;q=3;temp=1;s=ones(1,p);d1=s;d2=s;t=s;F=s;w=140-0.5*(p+q+3);for k=1:pfor i=k:p
12、temp=temp*(1-p2(k);ends(k)=temp;d1(k)=(p-k+1)*(q-k+1);t(k)=sqrt(p-k+1)2*(q-k+1)2-4)/(p-k+1)2+(q-k+1)2-5);d2(k)=w*t(k)-0.5*(p-k+1)*(q-k+1)+1;F(k)=d2(k)/d1(k)*(1-s(k)(1/t(k)/s(k)(1/t(k);endfor j=1:pfprintf(k%d=%dts%d=%ftF%d=%ftd1%d=%ftd2%d=%fn,j,j,j,s(j),j,F(j),j,d1(j),j,d2(j);end上课纪律(20%) 实验过程及结果(40%
13、) 实验报告质量(40%)总分: 教师签字:数据分析方法课 程 实 验 报 告项目名称: Bayes 判别学生姓名: 陈顺骄学生学号: 200707020213指导教师: 白 林完成日期: 2009 年 12 月 18 日模型建立与求解(数据结构与算法描述)假定对所研究的对象(总体)在抽样前已有一定的认识,常用先验分布来描述这种认识,然后,基于抽取的样本对先验认识作修正,得到后验分布,而各种统计推断均基于后验分布进行。将 Bayes 统计的思想用于判别分析,就得到 Bayes 判别。设总体 , 的协方差矩阵相等且为 ,这样得到两个正态总体的 Bayes判别为当 , 及 未知时,它们分别由 ,
14、得训练样本算得的均值 ,及协方差矩阵的联合估计 S(= )来估计,线性判别函数为误判概率的计算其中W(x)= ,d= ,K=3. 实验数据与实验结果先验概率相等时:1 样品属于 1 总体2 样品属于 1 总体3 样品属于 1 总体4 样品属于 1 总体5 样品属于 1 总体6 样品属于 1 总体7 样品属于 1 总体8 样品属于 1 总体9 样品属于 2 总体10 样品属于 1 总体11 样品属于 1 总体12 样品属于 1 总体13 样品属于 2 总体14 样品属于 2 总体15 样品属于 2 总体16 样品属于 2 总体17 样品属于 2 总体18 样品属于 2 总体19 样品属于 2 总
15、体20 样品属于 2 总体21 样品属于 2 总体22 样品属于 2 总体23 样品属于 2 总体24 样品属于 2 总体25 样品属于 2 总体26 样品属于 2 总体27 样品属于 2 总体28 样品属于 2 总体29 样品属于 1 总体30 样品属于 2 总体31 样品属于 2 总体32 样品属于 2 总体33 样品属于 2 总体34 样品属于 2 总体35 样品属于 2 总体误判率的回代估计为:0.0571431 样品属于 1 总体2 样品属于 1 总体3 样品属于 1 总体4 样品属于 1 总体5 样品属于 1 总体6 样品属于 1 总体7 样品属于 1 总体8 样品属于 1 总体9
16、 样品属于 2 总体10 样品属于 1 总体11 样品属于 1 总体12 样品属于 1 总体13 样品属于 2 总体14 样品属于 2 总体15 样品属于 2 总体16 样品属于 2 总体17 样品属于 2 总体18 样品属于 2 总体19 样品属于 2 总体20 样品属于 2 总体21 样品属于 2 总体22 样品属于 2 总体23 样品属于 2 总体24 样品属于 2 总体25 样品属于 2 总体26 样品属于 2 总体27 样品属于 2 总体28 样品属于 1 总体29 样品属于 1 总体30 样品属于 2 总体31 样品属于 2 总体32 样品属于 2 总体33 样品属于 2 总体34
17、 样品属于 2 总体35 样品属于 1 总体误判率的交叉确认估计为:0.114286先验概率按比例分配时1 样品属于 2 总体2 样品属于 1 总体3 样品属于 1 总体4 样品属于 1 总体5 样品属于 2 总体6 样品属于 1 总体7 样品属于 1 总体8 样品属于 1 总体9 样品属于 2 总体10 样品属于 1 总体11 样品属于 2 总体12 样品属于 2 总体13 样品属于 2 总体14 样品属于 2 总体15 样品属于 2 总体16 样品属于 2 总体17 样品属于 2 总体18 样品属于 2 总体19 样品属于 2 总体20 样品属于 2 总体21 样品属于 2 总体22 样品
18、属于 2 总体23 样品属于 2 总体24 样品属于 2 总体25 样品属于 2 总体26 样品属于 2 总体27 样品属于 2 总体28 样品属于 2 总体29 样品属于 1 总体30 样品属于 2 总体31 样品属于 2 总体32 样品属于 2 总体33 样品属于 2 总体34 样品属于 2 总体35 样品属于 2 总体误判率的回代估计为:0.1714291 样品属于 1 总体2 样品属于 1 总体3 样品属于 1 总体4 样品属于 1 总体5 样品属于 1 总体6 样品属于 1 总体7 样品属于 1 总体8 样品属于 1 总体9 样品属于 2 总体10 样品属于 1 总体11 样品属于
19、1 总体12 样品属于 1 总体13 样品属于 2 总体14 样品属于 2 总体15 样品属于 2 总体16 样品属于 2 总体17 样品属于 2 总体18 样品属于 2 总体19 样品属于 2 总体20 样品属于 2 总体21 样品属于 2 总体22 样品属于 2 总体23 样品属于 2 总体24 样品属于 2 总体25 样品属于 2 总体26 样品属于 2 总体27 样品属于 2 总体28 样品属于 2 总体29 样品属于 1 总体30 样品属于 2 总体31 样品属于 2 总体32 样品属于 2 总体33 样品属于 2 总体34 样品属于 2 总体35 样品属于 2 总体误判率的交叉确认
20、估计为:0.0571434程序代码清单:function panbie(X1,X2)X=load(exercise5_4.txt);X1=X(1:12,:);X2=X(13:35,:);x1=ones(1,7);x2=ones(1,7);i=0;for i=1:7x1(i)=mean(X1(:,i);x2(i)=mean(X2(:,i);endS=cov(X);a1=inv(S)*x1;a2=inv(S)*x2;% b1=-0.5*x1*inv(S)*x1+log(12/35);b2=-0.5*x2*inv(S)*x2+log(23/35);i=0;cou% nt1=0;count2=0;%按
21、比例分配b1=-0.5*x1*inv(S)*x1;b2=-0.5*x2*inv(S)*x2;i=0;count1=0;count2=0;%等概率分配for j=1:12W1=a1*X(j,:)+b1;W2=a2*X(j,:)+b2;if(W1=W2)i=1;fprintf(%dt 样品属于%d 总体n,j,i);elsei=2;fprintf(%dt 样品属于%d 总体n,j,i);count1=count1+1;endendfor k=1:23W1=a1*X2(k,:)+b1;W2=a2*X2(k,:)+b2;if(W1=W2)i=1;fprintf(%dt 样品属于%d 总体n,k+12,
22、i);count2=count2+1;elsei=2;fprintf(%dt 样品属于%d 总体n,k+12,i);endendp=(count1+count2)/35;fprintf(误判率的回代估计为:%fn,p);function panbie1()X=load(exercise5_4.txt);i=0;count1=0;count2=0;for m=1:12 %对总体一的剔除if m=1X1=X(2:12,:);X5=X1;endif m=12X1=X(1:11,:);X5=X1;else X1=X(1:m-1,:);X3=X(m+1:12,:);X5=X1;X3;endX2=X(13
23、:35,:);X4=X5;X2;x1=ones(1,7);x2=ones(1,7);i=0;for i=1:7x1(i)=mean(X5(:,i);x2(i)=mean(X2(:,i);endS=cov(X4);a1=inv(S)*x1;a2=inv(S)*x2;% b1=-0.5*x1*inv(S)*x1+log(12/35);b2=-0.5*x2*inv(S)*x2+log(23/35);b1=-0.5*x1*inv(S)*x1;b2=-0.5*x2*inv(S)*x2;W1=a1*X(m,:)+b1;W2=a2*X(m,:)+b2;if(W1=W2) %对训练样本进行分类i=1;fpri
24、ntf(%dt 样品属于%d 总体n,m,i);elsei=2;fprintf(%dt 样品属于%d 总体n,m,i);count1=count1+1;endendfor m=13:35 %对总体二的剔除if m=13X2=X(14:35,:);X5=X2;endif m=35X2=X(13:34,:);X5=X2;else X2=X(13:m-1,:);X3=X(m+1:35,:);X5=X2;X3;endX1=X(1:12,:);X4=X1;X5;x1=ones(1,7);x2=ones(1,7);for i=1:7x1(i)=mean(X1(:,i);x2(i)=mean(X5(:,i)
25、;endS=cov(X4);a1=inv(S)*x1;a2=inv(S)*x2;% b1=-0.5*x1*inv(S)*x1+log(12/35);b2=-0.5*x2*inv(S)*x2+log(23/35);%按比例分配b1=-0.5*x1*inv(S)*x1;b2=-0.5*x2*inv(S)*x2;%等概率分配W1=a1*X(m,:)+b1;W2=a2*X(m,:)+b2;if(W1=W2) %对训练样本进行分类i=1;fprintf(%dt 样品属于%d 总体n,m,i);count2=count2+1;elsei=2;fprintf(%dt 样品属于%d 总体n,m,i);endendp=(count1+count2)/35;fprintf(误判率的交叉确认估计为:%fn,p);上课纪律(20%) 实验过程及结果(40%) 实验报告质量(40%)总分: 教师签字: