收藏 分享(赏)

SPSS聚类分析详解.ppt

上传人:tkhy51908 文档编号:7861270 上传时间:2019-05-27 格式:PPT 页数:80 大小:1.63MB
下载 相关 举报
SPSS聚类分析详解.ppt_第1页
第1页 / 共80页
SPSS聚类分析详解.ppt_第2页
第2页 / 共80页
SPSS聚类分析详解.ppt_第3页
第3页 / 共80页
SPSS聚类分析详解.ppt_第4页
第4页 / 共80页
SPSS聚类分析详解.ppt_第5页
第5页 / 共80页
点击查看更多>>
资源描述

1、聚类分析,聚类分析是研究(样品或指标)分类问题的一种多元统计方法。类是指相似元素的集合。 分类: 1、系统聚类法-(分层聚类)系统聚类法是应用最广泛的一种(Hierarchical Cluster过程)1)、 聚类原则:都是相近的聚为一类,即距离最近或最相似的聚为 一类。2)、 分层聚类的方法可以用于样本聚类(Q)型,也可以用于变量聚类(R型)。 2、非系统聚类法-(快速聚类法-K-均值聚类法)(K-means Cluster) 3、两步聚类法-一种探索性的聚类方法(TwoStep Cluster),K-均值聚类分析 K-means Cluster,又称为快速样本聚类法,是非系统聚类中最常用的

2、聚类法。 优点:是占内存少、计算量小、处理速度快,特别适合大样本的聚类分析。 缺点:应用范围有限,要求用户制定分类数目(要告知),只能对观测量(样本)聚类,而不能对变量聚类,且所使用的聚类变量必须都是连续性变量。,基本原理 具体做法 1、按照指定的分类数目n,按某种方法选择某些观测量,设为Z1,Z2,Zn,作为初始聚心。 2、计算每个观测量到各个聚心的欧氏距离。即 按就近原则将每个观测量选入一个类中,然后计算各个类的中心位置,即均值,作为新的聚心。 3、使用计算出来的新聚心重新进行分类,分类完毕后继续计算各类的中心位置,作为新的聚心,如此反复操作,直到两次迭代计算的聚心之间距离的最大改变量小于

3、初始聚类心间最小距离的倍数时,或者到达迭代次数的上限时,停止迭代。,数据标准化处理:,存储中间过程数据,数据标准化处理,并存储。,指定5类,收敛标准值,存储最终结果输出情况,在数据文件中(QCL-1、QCL-2),初始聚心选项,输出方差分析表,初始聚类中心表,具体城市看后表,最终聚类中心表,聚类结果:QCL-1说明聚类结果,QCL-2说明聚类的长度情况,系统聚类法 Hierarchical Cluster,系统聚类法优点:既可以对观测量(样品)也可对变量进行聚类,既可以连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。,应用实例,某电冰箱厂开发某一新产品,在投放市场前希望对以

4、往经销的国内6个地区征集对新产品的评价,若对新产品的评价指标有三项:式样、性能、颜色,评价的调整表采用10分制,调查结果的数据如下表,1 2 3 4 5 6,性能 9 1 10 9 2 8颜色 8 2 7 9 4 6式样 7 2 8 3 5 7,地区(样品),指标,用分类法对6个样品进行分类,以估计哪些地区最有可能经销这类新产品?,按公式计算两两样品间的相似系数,得相似矩阵,1 2 3 4 5 6,1 2 3 4 5 6,Q =,按四条原则进行分类,作聚类分析图,X3 X6 X1 X4 X2 X5,1,0.994,0.955,0.994,0.933,一、问题提出 聚类分析对一批样品或指标进行分

5、类的一种统计方法。,具体处理方法:(思路),1、具体研究的分类对象:样品或指标 2、方法:把“性质相似”或“相互关系密切”的样品或指标聚在一起。 3、步骤:1)首先给出度量“相似”或“关系密切”的统计指标,2)形成一个由小到大的分析系统。 3)把整个分类系统画成一张分类图,(3)相关系数 (4)关联系数,指标:(1)统计指标是相似系数。根据相似性归为一类,否则为另一类。(2)统计指标是样品(空间的点)之间的距离将距离近的点归成一类,否则为另一类。,二、聚类统计量,首先定义一些分类统计指标 刻画样或指标之间的相似程度(这些统计指标称为聚类统计量),在市场研究中,样品 用作分类的事物指标 用来作为

6、分类依据的变量。(如:年龄、收入、销售量),(一)相似系数(夹角余弦)一般式:假定每个样品包含有P项指标,若有几个样品的调查数据,每一个样品都可看成P维空间中的一个向量,对于任意两个样品Xi和Xj的相似程度可用这两个向量之间的夹角余弦,来表示:,Xi和Xj相重合时,夹角,相似程度为,Xi和Xj相互垂直时,,相似程度为,相似密切,解析几何知识:相似系数,其中:,如果把上述n个样品的任何两个样品的相似系数,都计算出来并排列成一,个矩阵:,根据算出的,,就可对n个样品进行聚类,用相似系数作为聚类统计量时的分类方法,1、分类原则:(1)若选出一对样品,在已分好的类中未出现,则形成一个独立新类。(2)若

7、选出两个样品中,有一个是在已分好的类中出现过,则把另一个样品也加入到该类中去。(3)若选出一对样品,都分别出现已经分好的两类中,则把这两个类联结在一起。(4)若选出的一对样品都出现在同一组中,则这对样品就不用再分组了。 按上述四条原则反复进行,直到把所有样品都分类完毕,最后以分类图形式表示,2、分类方法,例:设有7个样品,每个样品测得P个指标,数据如表,X1 X2 X3 X4 X5 X6 X7,样品,指标,要求对此7个样品进行聚类,采用的聚类统计量是相似系数(夹角余弦),首先计算所有的两个样品间的相似系数,1 2 3 4 5 6 7,1 2 3 4 5 6 7,Q =,按矩阵中的数值对7个样品

8、(按四个原则)进行聚类,1 2 3 4 5 6 7,1 2 3 4 5 6 7,Q =,顺序 连结样品 相似系数,1 2 3 4 56,X1 X5 0.97X1 X5 X3 0.94X2 X4 0.91 X2 X4 X6 0.67X1 X5 X3 X2 X4 X6 0.51X1 X5 X3 X7 0.24X2 X4 X6,按矩阵中的数值对7个样品(按四个原则)进行聚类,1、记下Q中最大值q15=0.97,划去Q中的第5行第5列 2、记下Q中剩余元素最大值q13=0.94,划去Q中的第3行第3列,行,(3)记下Q中剩余元素最大值q24=0.91,划去Q中的第4行第4列 (4)记下Q中剩余元素最大

9、值q26=0.67,划去Q中的第6行第6列 (5)记下Q中剩余元素最大值q12=0.51,划去Q中的第2行第2列 (6)记下Q中剩余元素最大值q17=0.24,作聚类图:,X1 X5 X3 X2 X4 X6 X7,0.97,0.94,0.91,0.67,0.51,0.24,2)利用相关作聚类分析,例:设有n个样品,每个样品测得8个指标X1,X2,X8。要求对8个指标进行聚类,聚类统计量采用相关系数,设相关矩阵R = ( )为:,1 2 3 4 5 6 7 8,1 2 3 4 5 6 7 8,顺序 连结样品 相似系数,1 2 3 4 5 67,X1 X6 0.99X1 X6 X3 0.96X2

10、X4 0.93 X2 X4 X7 0.68X5 X8 0.49X1 X6 X3 X2 X4 X7 0.47 X1 X6 X3 X5 X8 -0.94X2 X4 X7,R=,按矩阵R中数值对8个指标(按四个原则)进行聚类: 1)记下矩阵中的最大值,,划去第6行第6列,2)记下矩阵中的最大值,,划去第3行第3列,以此类推。,作聚类图:,X1 X6 X3 X4 X2 X7 X5 X8,0.99,0.96,0.93,0.68,0.49,0.47,-0.94,主要城市日照时数,注:连续变量,SPSS提供不同类间距离的测量方法 1、组间连接法 2、组内连接法 3、最近距离法 4、最远距离法 5、重心法 6

11、、中位数法 7、Ward最小偏差平方和法,观测量概述表,聚类步骤,与图结合看!,4、5,聚类方法有系统聚类和逐步聚类,输入数据集可以是普通数据集、相关矩阵(CORR过程产生)或协方差矩阵(FACTOR等过程产生)。SAS提供的聚类过程有: 1、CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类,当观测值数太多时,不宜直接采用。 2、FASTCLUS对于坐标数据,用K-均值法对观测值进行逐步聚类,当观测值很多时,则先用FACTCLUS过程对其进行初步聚类,然后再用CLUSTER过程进行系统聚类。 3、VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类。 4、TREE为

12、CLUSTER或VARCLUS过程产生的输出画树状图。,CLUSTER过程 开始每个观测值自成一类,然后求两两之间的距离,将距离最近的两个观测值合成一类。这个过程一直进行下去,每次减少一类,直到合成一类为止。 聚类方法有11种,可根据问题的性质选用,它们的区别在于怎样计算两类之间的距离。 METHOD=指定方法 AVERAGE(平均法)、CENTROID(重心法)、COMPLETE(最大距离法)、DENSITY(密度法)、MEDIAM(中位数法)等,美国十个城市的分类 根据两个城市见航空距离将美国十个大城市作分类,聚类分析SAS程序:,原始数据是两两之间距离的三角阵(而不是坐标),输入格式,5

13、5列为城市,15位,平均法 重心法 最小距离法,输出F及t统计量,观测值之间距离的均方根,输出结果:,类数,指出被合并的类,新类中的观测值数,类间距离除以观测值间距离均方根得来,F、t*2峰值(起伏)越大说明分类显著,研究各种饮料在市场消费的分配规律,试确定各种饮料消费类型,聚类分析的第几步,哪两个样本或小类聚成一类,相应的样本距离或小类距离,指明是样本(0)还是小类(n),下面第几步用到,垂直冰柱图显示层次聚类分析,从冰柱图最后一行开始观察,第一列表示类数,两步聚类法 TwoStep Cluster,一种探索性的聚类方法,是随着人工智能的发展起来的智能聚类方法中的一种。用于解决海量数据或具有

14、复杂类别结构的聚类分析问题。,两步聚类法特点: 1、同时处理离散变量和连续变量的能力 2、自动选择聚类数 3、通过预先选取样本中的部分数据构建聚类模型 4、可以处理超大样本量的数据,简单介绍基本原理 分两步进行 第一步:预聚类。对记录进行初始的归类,用户自定义最大类别数。通过构建和修改特征树(CT Free)完成。 第二步:正式聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案,系统根据一定的统计标准确定聚类的类别数目。 以后,可以通过传统的聚类方法进行聚类(SPSS中采用合并型分层聚类法)。,输出各变量在聚类中比重图,输出出聚类饼分图,每个变量做一张条图,每一各类别做两张,分别为连续与离散聚类,重要性测度,1、质心表和频数表 2、聚类分析表 3、自动聚类结果表,聚类数目,数值越小效果越好,BIC相邻两项差值,看数据的峰值,看聚类效果。4、8、10、14类。,BIC准则-Schwartz Bayesian Criterion,离散变量频数表的图形表示,连续变量在各个类别中的误差图,4个类别中离散变量重要性图,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报