收藏 分享(赏)

spss判别分析.ppt

上传人:fmgc7290 文档编号:6524323 上传时间:2019-04-15 格式:PPT 页数:49 大小:404KB
下载 相关 举报
spss判别分析.ppt_第1页
第1页 / 共49页
spss判别分析.ppt_第2页
第2页 / 共49页
spss判别分析.ppt_第3页
第3页 / 共49页
spss判别分析.ppt_第4页
第4页 / 共49页
spss判别分析.ppt_第5页
第5页 / 共49页
点击查看更多>>
资源描述

1、第十三讲 判别分析,第一部分 上一讲回顾 第二部分 判别分析概念 第三部分 判别分析的SPSS过程,1、聚类分析的概念 2、距离概念 3、聚类分析SPSS过程 4、冰挂图和树形图,第一部分 上一讲回顾,1、聚类分析概念,聚类分析是根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同, 、分为样品(观测量)聚类 、变量聚类两种,2、距离概念 (样本点间距离的计算方法),在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有,相似性的度量 (变量相似系数的计算方法),类间距离的计算方法,第三部分 聚类分析的SPSS过程,在

2、AnalyzeClassify下: 1、快速聚类(K-Means Cluster): 观测量快速聚类分析过程。 2、分层聚类(Hierarchical Cluster):分层聚类(进行观测量聚类和变量聚类的过程。,快速聚类过程(Quick Cluster),使用 k 均值分类法对观测量进行聚类。可使用系统的默认选项或自己设置选项,如分为几类、指定初始类中心、是否将聚类结果或中间数据数据存入数据文件等。 AnalyzeClassifyK-Means Cluster,分层聚类 (Hierarchical Cluster)过程,分层聚类又称系统聚类:是指事先不确定要分多少类,而是先把每一个对象作为一

3、类,然后一层一层进行分类分层聚类方法: 分解法:先视为一大类,再分成几类 凝聚法:先视每个为一类,再合并为几大类,冰挂图,如何观察冰挂图: 从最后一行开始,当聚成4类时,3、4个案聚成一类,其他个案自成一类; 当聚成3类时,3、4个案,1、2个案聚成一类,个案五自成一类; 当聚成2类时,1、2个案聚成一类,其余个案聚成一类,树形图,树形图以水平放置的树形结构呈现了聚类分析中每一次类合并的情况。SPSS自动将各类间的距离映射到025之间。如何看?那个更直观?,小结,除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster) 无论那种分类方法,

4、最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定。聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已 。,使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验。,从数据要求上看,1、参与分类的变量首先应符合要求 2、各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类

5、时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,而后再进行聚类) 3、各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱,从聚类方法的选择上,1、看数据的类型,如果参与分类的变量是连续变量,层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量),则需要将先对离散变量进行连续化处理。当数据量较少时(比如小于100),两种方法都可以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值聚类法 2、要看分类的对象。如果是对样本分类,两种方法都可用;如果是对变量分类

6、则应选择层次聚类法(至少SPSS的程序是这样),注意对分类结果的检验,分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较。一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些。,问题,1、什么时候用快速聚类? 2、什么时候用分层聚类?,第二部分 判别分析概念,有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百

7、分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。,判别分析(discriminant analysis),这就是本次课要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是:在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。,判别的思想,判别分析:根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别

8、的准确率评估它的实用性。,判别函数(discriminant function):指的是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一个确定的函数值。判别准则(discriminant rule):对样本的判别函数值进行分类的法则。,判别分析的内容,建立判别准则:建立判别函数:其原则是,将所有样本按其判别函数值的大小和事先规定的判别原则分到不同的组里后,能使得分组结果与原样本归属最吻合。回代样本:即计算出每一个样本的判别函数值,并根据判别准则将样本归类。估计回代的错误率:即比较新的分组结果和原分组结果的差别,并以此确定判别函数的效能;判别新的样本:如果判别函数效

9、能较高,可用以对新样本进行归类判别。,1、建立判别函数,假定在两类总体A和B中各选取m和n个个案,每一个个案所对应的变量值都是k个。从而得到两个分布:,A总体中的第i个个案的第j个变量为: B总体中的第i个个案的第j个变量为: 需要建立一个线性判别函数: D=Ck+1+C1X1+C2X2+CkXk使等式右边的各个系数Ci确定后,对于来自A总体个案的函数值都大于零,B总体的个案的函数值都小于零。从而将一个个案代入判别函数D就可以根据其值确定其所属的类别。,具体方法为待定系数法,将A、B两个总体的全部个案观测值代入方程,并求其平均值和离差平方和。 求F值,当F取极大值的时候,将表示有组间差异最大,

10、组内差异最小。因此可以通过令F的一阶偏导数等于零。 得到k个关于Ci的线性方程组,方程组的解就是判别函数的各个系数。对于任意个案代入函数中,当D的数值大于0,则该个案隶属于A总体。当D的数值小于0,则该个案隶属于B总体。如果D等于0,则待判。,2、判别方法,SPSS系统提供的判别方法有马氏距离判别法、贝叶斯概率判别法以及费氏多类判别模型法。 马氏(Mahalamobis)距离判别法马氏距离判别法的思想就是建立马氏距离,当被判断个案距离哪个总体中的马氏距离最小,该个案就隶属于这个总体。假定有A、B两个总体,则: XA 若d(x,A)d(x,B) 待判 若d(x,A)=d(x,B),贝叶斯(Bay

11、es)概率判别法,贝叶斯概率判别法是根据被判断个案应当归属于出现概率最大的总体或者归属于错判概率最小的总体的原则进行判别的。出现概率最大的总体指在全部N个个案中,属于各个不同总体的个案数分别为:n1、n2、n3,则各自的概率可以简单计算为:,P(Gi)为先验概率。被判断的个案属于先验概率最大总体的概率应当高一些。先验概率反映了样本分布的总体趋向特性。当不能确定一个个案属于若干个总体中的哪一个时,归属大概率总体的概率显然会比归属小概率总体的概率高。另外,考虑到某些个案的特殊性,还应当具体分析各个个案的趋向特性。因为个案趋向于各个总体的概率可能不同。,例如:对儿童某行为应隶属于心理发展问题的概率远

12、远超过隶属于生理发育问题的概率,即使样本数量很大时也基本如此,则将该行为判断为心理问题的正确性就大。 当假定某个案归属某一个总体i时,由其判别函数得到的可能概率为P(DGi)。则该个案被判定属于总体i时的概率为: P(GiD)也称为后验概率,其对于不同总体的概率将决定判别的结果。,费氏(Fisher)多类判别模型法,费氏多类判别模型法的实质为一种通过坐标变换的方式将个案类别进行划分的方法。当个案数据点的分布在原有的变量空间无法通过变量的取值来区分时,坐标变换将数据点投影到另一个坐标系,在新的坐标系中个案的不同水平差异显著,用一元方差分析的检验手段就可以将不同种类区分开来了。即按照类间离差平方和

13、最大同类内离差平方和最小的原则,使二者之比取最大来确定判别函数的系数。,第三部分 判别分析的SPSS过程,在AnalyzeClassify下: 判别分析(Discriminant): 判别分析过程。 使用判别分析的选择项: 统计量选项:Statistics选项 判别分类选项:Classify选项 判别方法选择项:Method选项 输出数据选择项:Save选项,实例,为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了5059岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如下所示。试做判别分析,建立判别分析,建立判别函数一边在临床中用于筛选惯性病人。,步骤一:录入数据,打开分析菜单

14、,选择AnalyzeClassify Discriminant(判别分析),步骤二:选择组别变量,步骤三:选择变量,1、当认为所有自变量都能对观测量特性提供丰富的信息时,使用该选项。不加选择地使用是所有自变量进行判别分析,2、逐步分析方法。选择该选项“Method”将被激活,Statistics选项,1、均值 2、单变量方差分析 3、对个类的协方差矩阵相等的假设进行检验,判别函数系数 1、可以直接用于对新样本进行判别分类的费氏系数,并给出一组系数,确定组中判别分数最大的观测量。 2、未经标准化处理的判别系数,矩阵选项 1、类内相关矩阵 2、合并类内协方差矩阵 3、协方差矩阵 4、总样本的协方差

15、矩阵,判别分类选项,选择先验概率 1、各类先验概率相等; 2、各类的先验概率与其样本量成正比。,选择生成到输出窗口的分类结果 1、输出每个观测量; 2、输出分类的综述表; 3、输出对每个观测量进行分析的结果,协方差矩阵 1、指定使用合并组内协方差矩阵进行分类; 2、指定使用各组协方差矩阵进行分类,输出统计图形 1、生成一张包括各类的散点图,该散点图是根据前两个判别函数值做得散点图; 2、根据前两个判别函数值对每一类生成一张散点图,分几类生成几张; 3、生成用于根据函数值把观测量分到各组中去的边界图。,SAVE选项,1、建立一个新变量预测观测量的分类,根据判别分数把观测量按后验概率最大指派所属的

16、类; 2、要求建立表明判别分数的新变量,该分数是未标准化的判别系数乘自变量的值; 3、要求建立新变量表明观测量属于某一类的概率。,Method选项,Wilks 方法 不可解释方差法 马氏距离法 最小F值法 RaoV统计量法,准则: 1、F值法 2、F检验概率作为准则,要求逐步选择变量的过程中每一步之后显示每个变量的统计量,要求显示两两类之间的两两F值矩阵,结果分析,分析个案综合统计量,分组统计量,典型判别函数的特征值表,特征值为组间平方和与组内平方和之比,计算得到比值为1.239,典型相关系数为0.744,Wilks 检验结果,典型判别分析的Wilks 检验结果。其中 Wilks 的值为0.4

17、47,卡方检验统计量的观测值为22.571,概率p值小于0.05.,标准化典型判别函数系数,下表给出典型判别函数的系数,其标准化函数为:ZFunc=0.884X1+0.823X2,典型判别函数系数,下表所示的典型性判别函数的系数,其典型函数为: ZFunc=-10.753+0.638X1+0.8X2,分类过程摘要,下表所示分类过程中参与分类的个案例数和剔除例数,个案统计量表,下表为原始数据逐一回代的判别结果的预测分类结果显示。其中病人组1、6、7号被判错,正常人16、17、18判错。,分类结果,该表显示最后系统对回代判别的情况作出的评价,其中病人组判别正确率为80.0%,正常人组为81.3%,总判别正确率为80.65%,说明判别分析的正确率较高,小结,1、判别分析与聚类分析的区别在哪里? 2、Fisher判别与Bayes判别效果是否等价? 3、Excel能否实现聚类分析和判别分析?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报