1、公共管理定量分析实验报告实验完成者谭希荣 班 级 2010 公共事业管理 2 班学 号 20100710030231实验时间 2013 年 6 月 5 日一 、实验名称聚类分析、判别分析二、实验目的学习利用 SPSS 进行聚类分析、判别分析三、实验步骤 一、 (聚类分析)1建立数据文件。定义变量名:钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6,之后输入原始数据。2选择菜单“AnalyzeClassify Hierarchical Cluster”,弹出 Hierarchical Cluster Analysis 对话框。从对话框左侧的变量列表中选x1、x2、x3
2、、x4、x5、x6,使之进入 Variable(s)框;在 Cluster 处选择聚类类型 Variables(对变量聚类) 3单击“Statistics”按钮,弹出“Hierarchical Cluster Analysis: Statistics”对话框,选择“Proximity matrix”以显示距离矩阵。4单击“Plots”按钮,弹出 “Hierarchical Cluster Analysis: Plots”对话框,选择 Dendrogram 项。5单击“Method”按钮,弹出“Hierarchical Cluster Analysis: Method”对话框,选择“Betwee
3、n-groups linkage”和“Pearson correlation” 。6单击“OK”按钮,得到输出结果并保存。二、 (判别分析)1建立数据文件。舒张压、胆固醇的变量名分别以x1、x2表示,再定义一变量名为result,冠心病人资料的result值均为1,正常人资料的result值均为2。2选择菜单“AnalyzeClassify Discriminant”项,弹出“Discriminant Analysis”对话框。从对话框左侧的变量列表中选择变量result,进入“ Grouping Variable”框,并单击“Define Range ”按钮,在弹出的“Discriminan
4、t Analysis: Define Range”对话框中,定义判别原始数据的类别区间,在Minimum 处输入1,在 Maximum处输入23从对话框左侧的变量列表中选 x1、x2,使之进入“Independents”框,作为判别分析的基础数据变量4单击“Statistics”按钮,弹出“Discriminant Analysis: Statistics”对话框,在“Descriptive ”栏中选 “Means”项,对各组的各变量作均数与标准差的描述;在“Function Coefficients”栏中选“Unstandardized ”项,显示判别方程的非标准化系数。5单击“Classi
5、fy”按钮,弹出 “Discriminant Analysis: Classification”对话框,在“Plot ” 栏选“Combined groups”项,作合并的判别结果分布图;在“Display”栏选“Results for each case”项,对原始资料根据建立的判别方程作逐一回代重判别,同时选“Summary table”项,对这种回代判别结果进行总结评价。6单击“Save”按钮,弹出“Discriminant Analysis: Save New Variables”对话框,选择“Predicted group membership”项,将回代判别的结果存入原始数据库中。
6、7单击“OK”按钮,得到输出结果。四、实验结果分析 一、 聚类分析在结果输出窗口中将看到如下统计数据: 共 29 例样本进入聚类分析,采用相关系数测量技术。先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的。然后显示类间平均链锁法的合并进程,即第一步,X3 与 X6 被合并,它们之间的相关系数最大,为0.863431;第二步,X1 与 X5 合并,其间相关系数为 0.624839;第三步,X2与第一步的合并项被合并,它们之间的相关系数为 0.602099;第四步,它们与第二步的合并项再合并,其间相关系数为 0.338335;第五步,与最后一个变量 X4 合并,这个相关系数最小,为-0
7、.054485。 按类间平均链锁法,变量合并过程的冰柱图如下。先是 X3 与 X6 合并,接着 X1 与 X5 合并,然后 X3、X6 与 X2 合并,接着再与 X1、X5 合并,最后加上 X4,六个变量全部合并。用更为直观的聚类树状关系图表示,即 X1、X2、X3、X5、X6 先聚合后与 X4 再聚合。这表明,在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白 5 个指标中选择一个,再加上微量元素锰即可,其效果与六个指标都用是基本等价的,但更经济更迅速。微量元素钙、镁、铁、铜和血红蛋白聚合成一类,在这 5 个指标中如何选择一个典型指标呢?先按下式计算类中每一变量与其余变量的相关指数(
8、即相关系数的平方)的均值,而后把该值最大的变量作为典型指标。由图可知,镁的均值最高,故选择镁(变量 X2)典型指标二、 判别分析在结果输出窗口中将看到如下统计数据: 首先,系统提示将判别回代的结果以变量名 DIS_1 存于原始数据库中。 接着系统显示数据按变量 RESULT 分组,共 31 个样本作为判别基础数据进入分析,其中第一组 15 例,第二组 16 例。同时,分组给出各变量的均数(means)与标准差(standard deviations)。 下面为典型判别方程的方差分析结果,其特征值(Eigen value)即组间平方和与组内平方和之比为 1.2392,典型相关系数(Canonic
9、al Corry)为0.7439,Wilkes 值为 0.446597,经 2 检验,2 为 22.571,P0.0001。用户可通过判别方程的标准化系数,确定各变量对结果的作用大小。如本例舒张压(X1)的标准化系数(0.88431)大于胆固醇(X2)的标准化系数(0.82306),因而舒张压对冠心病的影响作用大于胆固醇。考察变量作用大小的另一途径是使用变量与函数间的相关系数,本例显示X1 的变量与函数间的相关系数为 0.62454,X2 为 0.54396,同样表明舒张压对冠心病的影响作用大于胆固醇。各种图表分析分析:可以看出,各组的均值差异较大,且各组的方差也有所差异。分析: 这张表是预测
10、变量在各组间均值是否相等的假设检验。包含Wilks lambda,F 统计量和它的自由度和显著性水平。原假设:x1 在三组中的均值相同。x2 在三组中均值相同。 Wilks lambda 是组内平方和与总平方和的比,值的范围在 0 到 1 之间。值越小表示组间有很大的差异。值接近 1 表示没有组间差异。 F 统计量是组间均方与组内均方的比。有两个自由度,分子为 df1 分母为df2。分子和分母自由度用来得到观测显著性水平。如果显著性水平值很小(比如说小于 0.10)表示组间差异显著。如果显著性水平较大(比如说大于0.10)表示组间差异不显著。 本例中 x1 的 p 值为 0.05,表明 x1
11、在各组间的差异显著,而 x2 的 p 值为0.003,说明 x2 在各组间差异显著。Boxs M 检验的 sig=0.457 的概率值大于 0.05,则各组组内协方差阵相同,原假设成立。这是进行判别分析的前提。分析:由此可知第一判别函数可以解释的方差为 100%,第四栏为累计百分比,由第三栏自上往下累加而成。第五栏为典型相关系数 0.744,表明该函数的线性相关程度较高(相关系数越接近 1,表明该判别函数的线性程度越高。检验判别函数的显著性水平分析:第一栏 test of functions 表示每步中判别函数被移去后的函数值。原假设为各组中所有判别函数的总体均值相等。 如果显著,表示第二个判
12、别函数也显著。本例中该判别函数对不同的两组有贡献。因为它的概率值远小于 0.05。分析:标准化判别函数系数可以看出预测变量在组成判别函数时的相对贡献,如本例该判别函数的 x1 与 x2 项都很重要,但相比下 x1 相对比 x2 重要。且标准典型判别函数为:y=0.884*x1+0.823*x2分析:非标准化判别函数系数,即费歇尔判别函数系数。非标准典型判别函数为:y=-10.753+0.638*x1+0.8*x2分析:可以看出三组在该判别函数上的重心明显不同(1.112,-1.042),因此该判别函数可以明显地区分这两组。分析:上半部分为原始分类的结果,下半部分为交叉分类的结果。第一栏为实际组别,第一行为预测组别。利用判别分析是否有助于对观测值的正确分类,可从统计的显著性来分析。原假设为判别分析总的结果同随便猜测的结果没有差别。考虑统计量 ,其中 N 为样本数;g 为组数;o 为正确分类的观测值。因其为自由度为 1 的卡方分布,所以其值如果大于 3.84 ,表示判别分析的结果和随便猜测的结果有显著不同。远大于 6.64。所以我们可以有 99%的把握说判别分析的结果同随便猜测的结果明显的不同。其实从上表可以看出对原始分类的 x1 与 x2 正确率分别为80%,81.2%,即使是用刀切法进行的交叉分类来讲其正确分类率分别为80%,75%。