1、1.判别分析SPSS实现2.聚类分析SPSS实现3.主成分分析SPSS实现4.因子分析SPSS实现5.相应分析SPSS实现6.典型相关分析SPSS实现7.多维标度法SPSS实现,多元SPSS实现内容提要,这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计算机实现。为研究某地区人口死亡状况,已按某种方法将15个已知地区样品分为3类,指标含义及原始数据如下。试建立判别函数,并判定另外4个待判地区属于哪类?,判别分析SPSS实现,表4.1 各地区死亡概率表,(一) 操作步骤1. 在SPSS窗口中选择AnalyzeClassifyDiscriminate,调出判别分析主界面,将左边的变
2、量列表中的“group”变量选入分组变量中,将变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判别分析。,图4.2 判别分析主界面,2. 点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界面。3. 单击Statistics按钮,指定输出的描述统计量和判别函数系数。选中Function Coefficients栏中的Fishers和Unstandardized。这两个选项的含义如下:Fishers:给出Bayes判别函数的系数。
3、(注意:这个选项不是要给出Fisher判别函数的系数。这个复选框的名字之所以为Fishers,是因为按判别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请读者注意辨别。)Unstandardized:给出未标准化的Fisher判别函数(即典型判别函数)的系数(SPSS默认给出标准化的Fisher判别函数系数)。,单击Continue按钮,返回主界面。,图4.3 Statistics子对话框,4. 单击Classify按钮,定义判别分组参数和选择输出结果。选择Display栏中的Casewise results,输出一个判别结果表,包括每个样品的判别分数、后验概率、实际
4、组和预测组编号等。其余的均保留系统默认选项。单击Continue按钮。,图4.4 Classify子对话框,5. 单击Save按钮,指定在数据文件中生成代表判别分组结果和判别得分的新变量,生成的新变量的含义分别为:Predicted group membership:存放判别样品所属组别的值; Discriminant scores:存放Fisher判别得分的值,有几个典型判别函数就有几个判别得分变量;Probabilities of group membership:存放样品属于各组的Bayes后验概率值。将对话框中的三个复选框均选中,单击Continue按钮返回。,6. 返回判别分析主界面
5、,单击OK按钮,运行判别分析过程。,图4.5 Save子对话框,(二) 主要运行结果解释1. Standardized Canonical Discriminant Function Coefficients(给出标准化的典型判别函数系数)标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。2. Canonical Discriminant Function Coefficients(给出未标准化的典型判别函数系数)未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比
6、标准化的系数要方便一些。见表4.2(a)。,由此表可知,两个Fisher判别函数分别为:实际上两个函数式计算的是各观测值在各个维度上的坐标,这样就可以通过这两个函数式计算出各样品观测值的具体空间位置。,表4.2(a) 未标准化的典型判别函数系数,3. Functions at Group Centroids(给出组重心处的Fisher判别函数值)如表4.2 (b) 所示,实际上为各类别重心在空间中的坐标位置。这样,只要在前面计算出各观测值的具体坐标位置后,再计算出它们分别离各重心的距离,就可以得知它们的分类了。,表4.2(b) 组重心处的Fisher判别函数值,4. Classificatio
7、n Function Coefficients(给出Bayes判别函数系数)如表4.3所示,GROUP栏中的每一列表示样品判入相应列的Bayes判别函数系数。在本例中,各类的Bayes判别函数如下:第一组:第二组:第三组:,将各样品的自变量值代入上述三个Bayes判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。例如,将第一个待判样品的自变量值分别代入函数,得到: F1=3793.77, F2=3528.32, F3=3882.48比较三个值,可以看出最大,据此得出第一个待判样品应该属于第三组。,表4.3 Bayes判别法的输出结果,5. Casewise
8、 Statistics(给出个案观察结果)在Casewise Statistics输出表针对每个样品给出了了大部分的判别结果,其中包括:实际类(Actual Group)、预测类(Predicted Group)、Bayes判别法的后验概率、与组重心的马氏距离(Squared Mahalanobis Distance to Centroid)以及Fisher判别法的每个典型判别函数的判别得分(Discriminant Scores)。出于排版要求,这里给出结果表的是经过加工的,隐藏了其中的一些项目,如表4.4所示。从表中可以看出四个待判样本依次被判别为第三组、第一组、第二组和第三组。,表4.4
9、 个案观察结果表,6. 由于我们在Save子对话框中选择了生成表示判别结果的新变量,所以在数据编辑窗口中,可以观察到产生的新变量。其中,变量dis-1存放判别样品所属组别的值,变量dis1-1和dis2-1分别代表将样品各变量值代入第一个和第二个判别函数所得的判别分数,变量dis1-2、dis2-2和dis3-2分别代表样品分别属于第1组、第2组和第3组的Bayes后验概率值。,本章结束,聚类分析SPSS实现,一、在SPSS中利用系统聚类法进行 聚类分析,设有20个土壤样品分别对5个变量的观测数据如表5.16所示,试利用系统聚类法对其进行样品聚类分析。,表5.16 土壤样本的观测数据,(一)操
10、作步骤1. 在SPSS窗口中选择AnalyzeClassifyHierachical Cluster,调出系统聚类分析主界面,并将变量X1X5移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。,图5.15 K均值聚类分析主界面,2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框用于设定K-means算法迭代的最大次数,Convergence Crit
11、erion参数框用于设定算法的收敛判据,其值应该介于0和1之间。例如判据设置为0.02,则当一次完整的迭代不能使任何一个类中心距离的变动与原始类中心距离的比小于2时,迭代停止。设置完这两个参数之后,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。这里我们选择系统默认的标准。单击Continue,返回主界面。,图5.16 Iterate子对话框,3. 点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center选项建立一个新变量,代
12、表各观测量与其所属类中心的欧氏距离。我们将两个复选框都选中,单击Continue按钮返回。,图5.17 Save子对话框,4. 点击Options按钮,指定要计算的统计量。选中Initial cluster centers和Cluster information for each case复选框。这样,在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离。单击Continue返回。5. 点击OK按钮,运行K均值聚类分析程序。,图5.18 Options子对话框,(二)主要运行结果解释1. Initial Cluster Centers(给出初始
13、类中心)2. Iteration History(给出每次迭代结束后类中心的变动)从表5.18中可以看到本次聚类过程共经历了三次迭代。由于我们在Iterate子对话框中使用系统默认的选项(最大迭代次数为10和收敛判据为0),所以在第三次迭代后,类中心的变化为0,从而迭代停止。,3. Cluster Membership(给出各观测量所属的类及与所属类中心的距离)表5.19中Cluster列给出了观测量所属的类别,Distance列给出了观测量与所属类中心的距离。(出于排版要求,此表经过加工,因此与原始输出表形态有一定差异)。,表5.18 迭代过程中类中心的变化量,表5.19 各观测量所属类成员
14、表,4. Final Cluster Centers(给出聚类结果形成的类中心的各变量值),表5.20 最终的类中心表,结合表5.19和表5.20,我们可以看出31个地区被分成3类。第一类包括:江苏、浙江、山东和广东4个省。这一类的类中心三个产业的产值分别为1102.14亿元、6423.01亿元和4454.26亿元,属于三个产业都比较发达的地区。第二类包括:天津、山西、内蒙古、吉林、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏和新疆16个地区。这一类的类中心三个产业的产值分别为307.61亿元、795.41亿元和673.63亿元,属于欠发达地区。剩下的11个地区为第三类。这
15、一类的类中心三个产业的产值分别为713.28亿元、2545.20亿元和212.87亿元,属于中等发达地区。5. 由于我们已经在Save子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的两个表示分类结果的新变量。变量qcl_1和变量qcl_2分别代表分类号和观测量距所属类中心的距离。,本章结束,主成分分析SPSS实现,一、主成分分析实例,表6.1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是:X1:年末固定资产净值,单位:万元;X2:职工人数据,单位:人;X3:工业总产值,单位:万元;X4:全员劳动生产率,单位:元/人年;X5:百元固
16、定资产原值实现产值,单位:元;X6:资金利税率,单位:%;X7:标准燃料消费量,单位:吨;X8:能源利用效果,单位:万元/吨。,表6.1 某市工业部门13个行业8项指标,我们要考虑的是:如何从这些经济指标出发,对各工业部门进行综合评价与排序?我们先计算这些指标的主成分,然后通过主成分的大小进行排序。表6.2和表6.3分别是特征根(累计贡献率)和特征向量的信息。利用主成分得分进行综合评价时,从特征向量我们可以写出所有8个主成分的具体形式:,表6.2 特征根和累计贡献率,表6.3 特征向量,表6.4 各行业主成分得分及排序,我们以特征根为权,对8个主成分进行加权综合,得出各工业部门的综合得分,具体
17、数据见表6.4。综合得分的计算公式是:根据上式可计算出各工业部门的综合得分,并可据此排序。从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势,另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。,二、利用SPSS进行主成分分析,SPSS没有提供主成分分析的专用功能,只有因子分析的功能。但是因子分析和主成分分析有着密切的联系。因子分析的重要步骤因子的提取最常用的方法就是“主成分法”。利用因子分析的结果,可以很容易地实现主成分分析。具体来讲,就是利用因子载荷阵和相关系数矩阵的特征根来计算特
18、征向量。即:其中,zij为第j个特征向量的第i个元素;aij为因子载荷阵第i行第j列的元素;j为第j个因子对应的特征根。然后再利用计算出的特征向量来计算主成分。以下是我国2005年第1、2季度分地区城镇居民家庭收支基本情况。通过这个例子,介绍如何利用SPSS软件实现主成分分析。,表6.5 分地区城镇居民家庭收支基本情况,表6.5 分地区城镇居民家庭收支基本情况,(一)利用SPSS进行因子分析将原始数据输入SPSS数据编辑窗口,将5个变量分别命名为X1X5。在SPSS窗口中选择AnalyzeData ReductionFactor菜单项,调出因子分析主界面,并将变量X1X5移入Variables
19、框中,其他均保持系统默认选项,单击OK按钮,执行因子分析过程(关于因子分子在SPSS中实现的详细过程,参见第7章实例)。得到如表6.6所示的特征根和方差贡献率表和表6.7所示的因子载荷阵。表6.6中Total列为各因子对应的特征根,本例中共提取两个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子累积方差贡献率,由表中可以看出,前两个因子已经可以解释79.31%的方差,图6.2 因子分析主界面,表6.6 特征根和方差贡献率表,(二)利用因子分析结果进行主成分分析1. 将表6.7中因子载荷阵中的数据输入SPSS数据编辑窗口,分别命名为a1和a2。,表6.
20、7 因子载荷阵,2. 为了计算第一个特征向量,点击菜单项中的TransformCompute,调出Compute variable对话框,在对话框中输入等式: z1=a1 / SQRT(2.576) 点击OK按钮,即可在数据编辑窗口中得到以z1为变量名的第一特征向量。再次调出Compute variable对话框,在对话框中输入等式: z2=a2 / SQRT(1.389)点击OK按钮,得到以z2为变量名第二特征向量。这样,我们得到了如表6.8所示的特征向量矩阵。,图6.3 Compute variable对话框,根据表6.8可以得到主成分的表达式:3. 再次使用Compute命令,就可以计算
21、得到两个主成分。,表6.8 特征向量矩阵,本章结束,因子分析SPSS实现,一、利用SPSS进行因子分析,(一) 操作步骤1. 在SPSS窗口中选择AnalyzeData ReductionFactor,调出因子分析主界面图(7.1),并将变量X1X13移入Variables框中。,图7.1 因子分析主界面,2. 点击Descriptives按钮,展开相应对话框,见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。,图7.2 Descriptives子对话框,3. 点击Extract
22、ion按钮,设置因子提取的选项,见图7.3。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目
23、。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。,图7.3 Extraction子对话框,4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。,图7.4 Rotation子对话框,5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框,这
24、样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。 6. 单击OK按钮,运行因子分析过程。,图7.5 Scores子对话框,(二) 主要运行结果解释1. Communalities(给出变量共同度)变量共同度反映每个变量对所提取的所有公共因子的依赖程度,此数值是因子载荷阵中每一行的因子载荷量的平方和,提取的因子个数不同,变量共同度也不同。2. Total Variance Explained(给出各公因子方差贡献表)Initial Eigenvalues给出初始相关矩阵或协差阵矩阵的特征值,用于确定哪些因子应该被提取,共有三项: Total列为各因子对应的特征值,本
25、例中共有四个因子对应的特征值大于1,因此应提取相应的四个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子的累积方差贡献率,由表7.1可以看出,前四个因子已经可以解释89.651%的方差。Rotation Sums of Squared Loadings给出提取出的公因子经过旋转后的方差贡献情况。,表7.1 特征根与方差贡献率表,表7.2 旋转前因子载荷阵,表7.3 旋转后因子载荷阵,注意:在因子表达式中的各变量为进行标准化变换后的标准变量,均值为0,标准差为1。7. 由于我们已经在Scores子对话框中选择了Save as variables复选框,
26、因此,因子得分已经作为新的变量保存在数据文件中,变量名分别为fac1_1、fac2_1、fac3_1和fac4_1。此后,我们还可以利用因子得分进行其他的统计分析。,表7.4 因子得分系数矩阵,二、因子分析在市场研究中的应用,表7.5是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不同意,7表示非常同意)。V1:购买预防蛀牙的牙膏是重要的;V2:我喜欢使牙齿亮泽的牙膏;V3:牙膏应当保护牙龈;V4:我喜欢使口气清新的牙膏;V5:预防坏牙不是牙膏提供的一项重要利益;V6:购买牙膏时最重要的考虑是富有魅力的牙齿。,表7.5 牙膏属性评分
27、得分表,将表7.5中的数据通过SPSS进行因子分析,得到相关结果是:1. 特征根和累计贡献率,表7.6 方差贡献率表,从表7.6可以看出,提取两个因子累计方差贡献率就达到82%,第三个特征根相比下降较快,因此我们选取两个公共因子。2.因子的含义为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表7.7。,表7.7 旋转后因子载荷矩阵,从因子载荷阵可以看出:因子1与V1(预防蛀牙),V3(保护牙龈),V5(预防坏牙)相关性强,其中V5的载荷是负数,是由于这个陈述是反向询问的;因子2与V2(牙齿亮泽),V4(口气清新),V6(富有魅力)的相关系数相对较高。
28、因此,我们命名因子1为“护牙因子”,是人们对牙齿的保健态度;因子2是“美牙因子”,说明人们“通过牙膏美化牙齿影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。,本章结束,相应分析SPSS实现,一、利用SPSS进行相应分析实例1,数据来自SPSS软件自带数据集voter.sav,为1992年美国大选的部分数据。要求对选民的最高学历水平(degree)和所支持的总统候选人(pres92)进行相应分析。(一)操作步骤1. 正确打开数据集voter.sav后,由AnalyzeData ReductionCorrespondence Analysis可进入相应分析的主对话框(
29、图8.1)。,图8.1 相应分析主界面,2. 从左侧变量列表中选择两个变量作为相应分析的两个维度。这里我们选择pres92作为行维度,点击Row左侧的三角箭头就可以看到在Row项下出现了pres92(? ?),这时用鼠标选中该变量,其下方的Define Range子对话框激活,点击后出现变量水平设置窗口(图8.2)。分为上下两个部分:Category range for row variable: pres92和Category Constraints。这里要分析所有的三位总统候选人和选民的学历水平的关系,所以在Minimum value中填入1,在Maximum value中填入3,之后点击
30、Update按钮。就可以在下方的Category Constraints栏中看到,后续分析中的行变量仅包含3个类目,分别是1、2和3。,图8.2 Define Row Range子对话框,在右侧还有三个单选项:None表示没有任何约束;Categories must be equal可用于指定某些类目的得分必须相同,最多可以设置有效类目的个数减1个得分相等的类目,如本例中最多可以设置2个类目得分相等;Category is supplemental表示某些类目不参加相应分析但是会在图形中标示。这里我们不对分类进行任何约束,点击Continue按钮后回到主对话框。类似的可以指定degree的有效
31、类目最小值为0,最大值为4。3.点击Model按钮,指定相应分析结果的维数。(图8.3)(1)Dimensions in solution。默认为2,最大可以设置为各变量 中的最少类目数减1。(2)选择距离测度的方式Distance Measure。有Chi square 和Euclidean两种,定性变量应该用Chi square。(3)标准化方法Standardization Method。,图8.3 Model子对话框,(4)正态化方法Normalization Method。需要比较行列变量的类 目差异时选择Symmetrical,需要比较行列变量中任意两个类目的 差异时选择Princ
32、ipal,比较行变量的类目差异时选择Row principal,而比较列变量的类目差异时选择Column principal,也 可以在Customize中指定-1,1之间的任意实数,特别的,如果输入-1则为Column principal,输入1为Row principal,输入0为 Symmetrical。而一般该对话框中的选项无需改动。 4.点击Statistics按钮,设定输出的相应分析统计量,如图8.4。可以指定输出相应分析表Correspondence table,行点总览表Overview of row points,列点总览表Overview of column points,
33、行轮廓Row profiles,列轮廓Column profiles。默认只输出前三项。而Permutations of the correspondence table是用于指定前n个维度的行列得分表。如果该项选中,下方的Maximum dimension for permutations被激活,用于指定维度n。此外,还可以在Confidence Statistics for复选项中选择计算行点和列点的标准差以及相关系数。,图8.4 Statistics子对话框,5.点击Plots按钮,设定输出的统计图,如图8.5。可以指定输出相应分析的散点图Scatterplots,默认只输出包含行列变量
34、的双变量散点图Biplot。也可指定输出行点图Row points和列点图Column points。而ID label width for Scatterplots是指定散点标签的长度,默认20。下方的Line plots项中,可以输出行/列点对应于行/列得分的线图,和散点图类似。 6. 我们在Model,Statistics,Plots三个子对话框中都使用默认设定,点击主对话框的OK按钮,即得到相应分析的结果。,图8.5 Plots子对话框,(二)结果分析:SPSS运行相应分析后会产生以下四张表(表8.4到表8.7)。1. Correspondence Table(相应分析表),如表8.4
35、,即列联表。Active Margin为边际频数。大致可以看出Clinton在各个学历层次都有最高的票数。,表8.4 列联表,2. Summary(总览表),如表8.5。表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。Singular Value为特征值的平方根,根据总惯量和特征值求和相等,有0.1392+0.0162=0.019+0.000=0.019。第一个维度惯量0.019,占总惯量的98.7%,第二个维度惯量接近0,仅占总惯量1.3%。因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍
36、然保留两个维度。总惯量35.8671844=0.19,满足总惯量和卡方统计量的关系式。同时卡方统计量的自由度8=(3-1)(5-1),数值为0.000,说明行列变量之间存在显著的相关性,相应分析是有意义的。,表8.5 总览表,3. Overview Row Points与Overview Column Points(行/列点总览表),如表8.6,表8.7。现以表8.6为例,Mass项表示行变量中每个类目的边际概率。Score in dimension下面则是行点在两个维度的坐标(SPSS称为得分),即有坐标点Bush(0.194,-0.156),Perot(0.663,0.198),Clint
37、on(-0.346,0.053)。Inertia项为惯量,即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和,即0.19=0.002+0.009+0.008。比较表8.6和表8.7的总惯量,可以发现行惯量与列惯量相等。Contribution项有两个部分,分别是行变量的每个类目对维度(公共因子)特征值的贡献,每一个维度对每个类目的特征值的贡献。,表8.6 行点总览表,表8.7 列点总览表,4. 相应分析图,如图8.6。可以发现研究生层次的选民(Graduate degree)倾向于具有实干精神的Clinton,而较Clinton更为激进的Bush更受high schoo
38、l和Bachelor层次的选民欢迎,Perot仅和junior college层次的选民较近。,图8.6 相应分析的二维图,5. 如果在Statistics子对话框中选中了Row profile和Column profile,SPSS还会输出以下两张表(表8.8,表8.9)。,表8.8 行轮廓表,表8.9 列轮廓表,6. 行/列点图(图8.7,图8.8)。如果要单独考察行/列变量的各个水平在两个公共因子维度上的分布情况,可在Plots子对话框中选中Row points和Column points。运行后即得下图:,图8.7 行点在两个公共因子维度上的分布,图8.8 列点在两个公共因子维度上的分
39、布,二 、利用SPSS进行相应分析实例2,表8.10 4只股票的财务数据,(一)操作步骤:1. 首先由SPSS的因子分析过程(详细步骤参见因子分析一章),通过主成分法估计和最大方差旋转法进行因子旋转,发现需要3个公共因子才能解释83%以上的方差。可得因子得分的计算公式为(加上*号的变量和因子表示都已经标准化):,因此factor1可以称为股票规模因子,factor2称为股票收益因子,factor3称为个股价值因子。将这三个因子划分为5个等级:低于-0.5,-0.50,00.5,0.51,大于1,分别编码为1,2,3,4,5。这样就可以利用相应分析来详细的研究这三个因子之间的关系。2. 在相应分
40、析的主对话框中,我们以factor1和factor2为例说明。设置好类目(图8.9),在Model子对话框中仍然选择维数2,其他设置不变,点击OK后,就得到相应分析的结果。,图8.9 相应分析主界面,(二)结果分析:这里仅列出相应分析表(表8.11)、总览表(表8.12)以及相应分析图(图8.10),其余图表的分析与前一例题类似。,表8.11 列联表,表8.12 总览表,从表8.12中可以看出,卡方检验是显著相关的,因此相应分析是有意义的,而且只需要两个公共因子就可以解释92.7%的总惯量。所以使用二维图就可以充分的反映行列变量之间的关系了。在图8-10上可以发现,规模因子为1和5,个股价值因
41、子为5,这表明“小股票”和“大股票”都可能实现最高的个股价值,并且“小股票”似乎更有可能。而股票规模因子中略高于平均水平的取值为3,4,这两个档次较为接近可以将其合并为一个档次,相应的个股价值因子也略高于平均水平。读者应该可以发现相应分析实际是对两组高维空间的点的二维投影进行分析。有时在高维空间中相隔很近的点投影后却显的很远,因此有时需要进一步分析每个类目对公共因子的贡献大小。同时相应分析主要是建立在图形分析的基础上,而没有给出足够充分的统计量来度量这种相关程度,因此相应分析的结果带有一定的主观性。,图8.10 二维相应分析图,本章结束,典型相关分析 SPSS实现,一、利用SPSS进行典型相关
42、分析实例1,测量15名受试者的身体形态以及健康情况指标,如9.2表。第一组是身体形态变量,有年龄、体重、胸围和日抽烟量;第二组是健康状况变量,有脉搏、收缩压和舒张压。要求测量身体形态以及健康状况这两组变量之间的关系。,表9.2 两组身体素质的典型变量,(一)操作步骤在SPSS中没有提供典型相关分析的专门菜单项,要想利用SPSS实现典型相关分析,必须在语句窗口中调用SPSS的 Canonical correlation.sps 宏。具体方法如下:1. 按FileNewSyntax的顺序新建一个语句窗口。在语句 窗口中输入下面的语句:(图9.1)INCLUDE Canonical correlat
43、ion.sps.CANCORR SET1=x1 x2 x3 x4 /SET2=y1 y2 y3 / .,2. 点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。,图9.1 语句窗口,(二)主要运行结果解释1. Correlations for Set-1、Correlations for Set-2、Correlations Between Set-1 and Set-2(分别给出两组变量内部以及两组变量之间的相关系数矩阵)2. Canonical Correlations(给出典型相关系数)从表9.3中可以看出第一典型相关系数达到0.957,第二典型相关系数为0.582
44、,第三典型相关系数为0.180。,表9.3 典型相关系数,3. Test that remaining correlations are zero(给出典型相关的显著性检验)表9.4中从左至右分别为Wilks的统计量、卡方统计量、自由度和伴随概率。从表中可以看出,在0.05的显著性水平下,三对典型变量中只有第一对典型相关是显著的。,表9.4 典型相关系数的显著性检验,表9.5 两组典型变量的标准化系数,由于Y1(脉搏)的系数-0.721绝对值最大,说明健康状况的典型变量主要由脉搏所决定。同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(都为负),反映抽烟量和脉搏的正相关,即日抽烟越多则每分钟
45、的脉搏跳动次数也越多。抽烟对身体健康有害,这和客观事实是相符的。 6. Redundancy Analysis(分别给出两组典型变量的冗余分析)表9.6中给出的四组数据分别是身体形态变量被自身的典型变量解释的方差比例、身体形态变量被健康状况的典型变量解释的方差比例、健康状况变量被自身的典型变量解释的方差比例和健康状况变量被身体形态的典型变量解释的方差比例。,表9.6 典型冗余分析,二、利用SPSS进行典型相关分析实例2,利用SPSS软件对C.R.Rao(1952)关于典型相关的经典例子进行分析。表9.7列举了25个家庭的成年长子和次子的头长和头宽。利用典型相关分析法分析长子和次子头型的相关性。
46、(一)操作步骤1. 按FileNewSyntax的顺序新建一个语句窗口。在语句窗口中输入下面的语句: INCLUDE Canonical correlation.sps.CANCORR SET1=x1 x2 /SET2=y1 y2 / .2. 点击语句窗口Run菜单中的All子菜单项,运行典型相关宏命令,得出结果。,表9.7 长子和次子的头长与头宽,(二)主要运行结果解释1. 典型相关系数和典型相关的显著性检验(表9.8、表9.9)从表二可以看出,两队典型变量中,第一对的典型相关系数达到0.788,属于强相关,而第二对典型变量的相关则比较弱。这一点从表3可以更清楚的看到。显著性检验的结果表明,
47、在0.05的显著性水平下,只有第一对典型相关是显著的。,表9.8 典型相关系数,表9.9 典型相关的显著性检验,3. 冗余分析从表9.11可以看到,长子的头型变量被自身的第一典型变量解释了86.7%,次子的头型变量被自身的第一典型变量解释了91.8%。,表9.10 两组典型变量的未标准化系数,表9.11 冗余分析,本章结束,多维标度法SPSS实现,一、多维标度法在SPSS中的实现 实例1,以SPSS自带文件World95.sav为例,对亚洲国家和地区的17个国家的人口寿命情况进行分析。 (一)操作步骤: 1. 在DataSelect case对话框的If过滤条件中输入过滤条件 “region=
48、3”。得到17个国家和地区。 2. 主菜单中选择AnalyzeScaleMultidimensional Scaling (ALSCAL) 。就进入多维标度法的主对话框(图10.3)。在左上方是变量列表选择以下变量:urban(城市人口比例),lifeexpf(女性平均寿命),lifeexpm(男性平均寿命),gdp_cap(人均GDP),death_rt(千人死亡率),birth_rt(千人出生率),literacy(受教育人口比例)。由于原始数据不是距离阵,因此需要在下方Distances单选项中选择Create distances from data,这时Measure子对话框被激活,默认计算Euclidean distance,即欧氏距离。,