ImageVerifierCode 换一换
格式:PPT , 页数:58 ,大小:1.51MB ,
资源ID:10551697      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-10551697.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(SPSS统计分析 第八章 聚类分析与判别分析.ppt)为本站会员(精品资料)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

SPSS统计分析 第八章 聚类分析与判别分析.ppt

1、第8章 聚类分析与判别分析,分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法。广泛地应用于自然科学研究、社会科学研究、工农业生产的各个领域。,一、聚类分析,聚类分析 (Cluster Analysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 根据分类对象的不同分为样品聚类(Q聚类)和变量聚类(R聚类)。,(一)样品聚类,样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分

2、类。,样品聚类是进行判别分析之前的必要工作。根据样品聚类的结果进行判别分析,得出判别函数,进而对其他研究对象属于哪一类作出判断。例如在选拔少年运动员时首先要根据少年的身体形态、身体素质、心理素质、生理功能的各种指标(变量)进行测试,得到各种指标的测试值(变量值),据此对少年进行分类。根据分类结果再求得出选材的判别函数,作为选材的依据。,(二)变量聚类,变量聚类在统计学中又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的进一步认识和研究。例如在回归分析中

3、,由于自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。,二、判别分析,判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。 判别分析与聚类分析的不同在于判别分析要求已知一系列反映事物特征的数值变量值及其分类变量值。,分类命令的功能,TwoStep Cluster进行两步聚类过程。 K-Means Cluster进行快速聚类的过程。 Hierarchical Cl

4、uster进行样本聚类和变量聚类的过程。 Discriminate进行判别分析的过程。,1、快速样本聚类过程,当要聚成的类数已知时,使用QUICK CLUSTER过程可以很快将观测量分到各类中去。其特点是处理速度快,占用内存少。适用于大样本的聚类分析。 可以完全使用系统默认值进行聚类,2、分层聚类(Hierarchical Cluster),分层聚类的概念与聚类分析过程 分层聚类反映事物的特点的变量很多,往往根据所研究的问题选择部分变量对事物的某一方面进行分析。 聚类的方法有多种,除了前面介绍的快速聚类法外,最常用的是分层聚类法。根据聚类过程不同又分为凝聚法和分解法。,(1)分解法,聚类开始把

5、所有个体(观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。,(2)凝聚法,聚类开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。,无论哪种方法其聚类原则都是相近的聚为一类,即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。,在Cluster过程中使用的术语,(1)聚类方法,实现分层聚类的具体方法有许多种,各种方法的区别在于如何定义和计算两项(两个个体、两类、或个体与类)之间的距离或相似性。这一点体现在聚类方法(Method)的一系列选择项上。如果不熟悉对聚类方法

6、的定义,可以使用系统默认的方法。需要确定的选择项有:,聚类法的选择:定义、计算两项间距离和相似性的方法,系统默认值:组间平均连接法。 测度方法的选择:对距离和相似性的测度方法又有多种,例如是用欧氏距离还是用欧氏距离的平方测度其相近程度,还是用相关系数测度其相似性?这一点体现在测度方法(Measure)的选择上。如果对测度方法不熟悉,可以采用系统默认的测度方法:欧氏距离平方。,(2)标准化,如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。如果参与聚类的变量纲相同,可以使用系统默认值None,要求SPSS对数据不要进行标准化处理。,

7、(3)树形图,树形图表明每一步中被合并的类及其系数值,把各类之间的距离转换成125之间的数值。,(4)冰柱图,冰柱图把聚类信息综合到一张图上。如果作纵向冰柱图,则参与聚类的个体各占一列,标以个体(观测量或变量)号或在图纸允许的情况下标以个体的标签;聚类过程中的每一步占一行,标以步的顺序号。如果作横向冰柱图,则参与聚类的个体(观测量或变量)各占一行,聚类的每一步各占一列。如果不加限定的选择项,则显示聚类的全过程。,用聚类分析过程进行观测量聚类的实例,例一,一组有关12盎司啤酒中的成分和价格数据,变量包括:beername啤酒名称,calorie热量卡路里,sodium钠含量,alcohol酒精含

8、量,cost价格。要求根据12盎司啤酒的各成分含量及12盎司啤酒价格对20种啤酒进行分类。 数据编号data14-02 应该说明的是,基本使用系统默认值进行观测量聚类是由于参与分析的变量的量纲不同,因此必须对数据进行标准化:由于要看到聚类结果,输出统计量也必须指定。,Variable:引入要分析的变量; Lable Case by:指明个案的标识,如果不选用此项,默认是按记录号进行分析。,Cluster Variable:要进行变量聚类 Case:要进行观测量聚类 Display Statisyics显示统计量 Plot显示树状图或冰柱图,statistics,Agglomeration sc

9、hedule凝聚顺序表; Proximity maxtrix输出距离矩阵 None 不显示聚类成员 Single solution显示出聚为一定类数的各观测量所属的类 Range of solution显示某范围中,每一步各观测量所属的类,Plots,Dendrogram:输出树状图 Icicle 输出冰状图 All cluster所有聚类的冰状图 Specified range of clusters 某一指定范围的冰状图 None 不显示冰状图 Orientation冰状图的方位,Method(确定聚类方法),Between-group linkage:组间连接 Winthin-group

10、 linkage:组内连接法 Nearest neighbor:最近连接法Further neighter:最远连接法 Centroidclusting:重心聚类法 Median clusting中位数法 Wards method:ward最小方差法,Measure (聚类测度方法选择),Euclidean distance欧几米德距离 Squared euclidean distance欧氏距离平方 Cosine余弦 Pearson correlation皮尔森相关系数 Chebychev 切比雪夫距离 Block 区组距离 Minkowski 闵可夫距离,Measure (聚类测度方法选择

11、,Counts 计数数据 Chi-square measure:X2测度。用卡方值测试不相似测度; Phi-square measure 两组之间的2测度,Binary 二值变量数据 Euclidean distance二值欧氏距离 Squared euclidean distance二值欧氏距离平方等,Transform values确定标准化的方法 None 不进行标准化 Z scores把数值标准化到Z评分 Range -1to1把数值标准化到-1到1范围内 Range 0to1把数值标准化到0到1范围内,Transform values确定标准化的方法 Maxinum magnitud

12、e of 1把数值标准化到最大值为1 Mean of 1把数值标准化到一个均值的范围内 Standard deviation把数值标准化到单位标准差,Transform measures选择测度的转换方法 Absolute values 把距离值取绝对值 Change sign 把相似性值变为不相似性值或相反 Rescale to 0-1 range 通过首先减去最小值然后除以范围的方法使距离标准化,Save,Cluster membership用新变量将聚类分析的结果保存到数据库中 None 不建立新的数据库 Single solution 生产一个新变量,表明每个个体聚类后所属的类 Ran

13、ge of solution 生产若干个新变量,表明聚为若干个类时,每个个体聚类后所属的类,例二使用另一些选择项的程序与输出,应该说明的是分类是根据特定的目的进行的。对于同样一些观测量,不同的分类目的,使用反应不同特征的变量,分类的结果就不相同。同一分类目的,根据不同的实际需要,也可以分成的类数不同。因此可以在使用CLUSTER过程时指定不同的参数,对不同的结果进行比较。以便得出符合实际需要的结论。 (仍然用数据编号data14-02),用聚类分析过程进行变量聚类,变量聚类即R型聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便当用少量、有代表性的变量代替大变量集时损失信息很少。

14、这种方法在人类学、动物学、医学和工业生产中都得到应用。例如人种分类、动植物分类往往要测量许多表明形态特性的变量值。某些变量之间有很强的相关性,找出一个变量可以代替一系列与其相关的变量的测量,则可大大减少工作量,节省测量时间,但不会影响分类的结果。因此,在分类学中选择变量是一步很重要的工作。变量聚类是选择变量的很实用的方法之一。另外进行回归分析时也需要首先降维以便找出互相独立变量。,变量聚类实例,有10个测验项目,分别用变量x1x10表示,50名学生参加测试。 数据编号data14-03。 要求:对十个变量进行变量聚类;计算并打印各变量间的相关矩阵,用相关测度各变量间的距离。打印出聚为两类的结果

15、即各变量属于两类中的哪一类;打印出聚类全过程的冰柱图,以便对于变量分类进行进一步的探讨。,聚类分析小结,聚类分析是研究“物以类聚”的一种数理统计方法。它把一些个体或研究对象分成若干个未知母体,事先并不知道它们可以分为几类及哪些个体是属于同一类。 聚类的原则是样品间距离最小,指标(变量)间相似性最大。 样品聚类的基本思想是:把每个样品当作一类,几个样品就有几类;逐次并类(先定义类间距离),并类时总是把距离最近的两类合为一类,再计算新类与合并类的距离,等等。这样每次减少一类,直至所有样品都合成一类为止。 指标(变量)聚类的基本思想是:先定义类间相似系数,把每个指标或变量当作一类,逐次并类,并类时总

16、是把最相似的两类或多类先合为一类,再计算新类与合并类的相似性,最后并为一大类。,特别注意地是对观测单位不同,观测数量级不同(如:x1为10-3,x2为103)的指标,求距离之前要先对各指标进行标准化。 与判别分析的区别是:判别分析将个体分成几类是事先已确定的,而聚类分析事先不知道它们可分成几类及哪些个体属于同一类;目的不一样,判别分析是判断样本是属于哪个母体,聚类分析主要是解释样本,其次是做预测。 聚类分析的结果主要靠经验性,使用不同的方法,得到不同的结果,重复性比较差。 聚类好坏:使case分开;各类case均匀分布;符合专业知识;重要变量不遗漏,判 别 分 析,1、判别分析的概念,判别分析

17、是一种常用的统计分析方法。判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养。,进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。,判别函数一般形式是:Y1X1+2X2+3X3+nXn其中: Y为判别分数(判别值); X1、X2、X3Xn为反映研究对象特征的变量,l、2、3n为各

18、变量的系数,也称判别系数。可以看出我们这里所讲的是线性判别函数。,SPSS for Windows对于分为m类的研究对象,建立m个线性判别函数。对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。或者计算属于各类的概率,从而判断该个体属于哪一类。还建立标准化和未标准化的典则判别函数。,2. Discriminant过程的功能,Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值回代到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判的分类,给出错分概率。,判别分

19、析可以根据类间协方差矩阵,也可以根据类内协方差矩阵。每一已知类的先验概率可以取其值相等即等于1/m,m为已知类数,也可以与各类样本量成正比。,判别分析可以根据要求,给出各类观测量的单变量的描述统计量;线性(费雪Fisher)判别函数系数或标准化及未标准化的典则判别函数的系数;类内相关矩阵,类内、类间协方差矩阵和总协方差矩阵;给出按判别函数判别(回代)的各观测量所属类别;带有错分率的判别分析小结;还可以根据要求生成表明各类分布的区域图和散点图。如果希望把部分聚类结果存入文件,还可以在工作数据文件中建立新变量,表明观测量按判别函数分派的类别、按判别函数计算的判别分数和分到各类去的概率。,3、有关判

20、别分析的术语,(1)建立判别函数的方法 建立判别函数的方法一般有4种,全模型法、向前选择法、向后选择法、逐步选择法。 本程序有全模型法和逐步选择法。 (2)典则判别分析 典则判别分析建立典则变量代替原始数据文件中指定的自变量。典则变量是原始自变量的线性组合。用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。,(3)判别函数的性能 判别分析得出的判别函数性能如何,可以通过回代的方法进行验证。即将各观测量的变量值代到线性判别函数中,根据性判别函数值(判别分数)确定每个观测量分属于哪一类。然后与原始数据中的分类变量值进行比较,得到错判率。错判率越小说明判别函数的判别性能越好。,(4

21、)判别分析对数据的要求 进行判别分析要求数据遵循多元正态分布。实践工作中收集的数据,其分布往往不同于正态分布,因此使用本节介绍的参数分析方法是不合适的。从非正态总体导出的线性判别函数(或经过预处理的数据)导出的二次判别函数的误差率估计可能会有较大的偏差。,(5)利用判别函数对观测量进行分类 用Discriminant过程导出的线性判别函数的数目与类别数目相同。确定一个观测量属于哪一类,可以把该观测量的各变量值代人每个判别函数(费雪线性判别函数),哪个判别函数值大,该观测量就属于哪一类。,使用系统默认值的判别分析实例,下面是统计学常用的实例,三种鸢(yuan)尾花的花瓣、花萼(e)的长、宽数据。

22、共收集了三种鸢尾花,每种50个观测量,共150个观测量的数据。 数据编号datal404。,使用选择项的判别分析实例,数据编号datal404。,逐步判别分析与方法和判据的选择,1关于逐步判别分析,当研究某一事物分类时,往往对于哪些变量能够反映研究范围内事物的特性这一问题的认识还不够深刻,因此所选择的进行判别分析的变量不一定都能很好地反映类间差异。逐步判别分析假设已知的各类均属于多元正态分布,用逐步选择法选择最能反映类间差异的变量子集建立较好的判别函数。一个变量能否被选择为变量子集的成员进入模型主要取决于协方差分析的F检验的显著性水平。,逐步判别分析从模型中没有变量开始。每一步都对模型进行检测

23、。把模型外的对模型的判别力贡献最大的变量加入到模型中,同时考虑已经在模型中,但又不符合留在模型中的条件的变量从模型中剔除。直到模型中所有变量都符合留在模型中的判据;模型外的变量都不符合进入模型的判据时为止。 实际工作中应该把使用逐步判别分析选择变量的结果与在实践中对变量的认识相结合,会得到很好的判别分析模型。,逐步判别分析的实例,前面中的程序都是使用全部变量建立判别函数。能否减少变量仍然得到较好的判别函数?我们采用WilksLambda方法进行逐步判别分析。使用F值作为判据统计量。当F值30时变量进入模型,当F值5时,变量从模型中移出。 仍然用数据编号datal404。,考试题,正确建立一个数据库 选择正确的分析方法进行分析 正确分析得到的结果 5月10日交至各班负责人手里,然后由负责人交到研究生学院,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报