收藏 分享(赏)

第七章 聚类分析.doc

上传人:hyngb9260 文档编号:7933692 上传时间:2019-05-30 格式:DOC 页数:11 大小:344KB
下载 相关 举报
第七章 聚类分析.doc_第1页
第1页 / 共11页
第七章 聚类分析.doc_第2页
第2页 / 共11页
第七章 聚类分析.doc_第3页
第3页 / 共11页
第七章 聚类分析.doc_第4页
第4页 / 共11页
第七章 聚类分析.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、68第七章 聚类分析1 系统聚类法(I)一、距离系数聚类分析是研究“物以类聚”的一种统计方法,通常以“距离”和“相似系数”为依据来进行聚类。本节以“距离”为依据的有最短距离法、最长距离法及中间距离法等聚类方法。设有 n 个样品,每个样品测定 m 个指标,其数据矩阵为:nmnnxX 111,计算点 Xi 与点 Xj 间的距离公式有:(1)绝对值距离 mkjkiijd1(2)欧氏距离 kjkiij x12)(3)明氏距离 qmkjkiijqd11|)( 即绝对值距离kjkiij x1|)(时 即欧氏距离211|)2(mkjkiijdq时二、聚类步骤(1)将 n 个样品各自成一类;(2)计算样品间的

2、距离,将距离最近的两个样品并成一类;(3)计算新类与其余各类的距离,再将距离最近的两类合并,重复上述步骤直到所有样品归成一类为止。三、聚类方法(最短距离法、最长距离法、中间距离法)类与类之间的距离有许多定义的方法,就产生不同的聚类方法,以下用 dij 表示样品Xi 与 Xj 间的距离,用 Dij 表示类 Gi 与 Gj 间的距离。首先介绍最短距离法、最长距离法及中间距离法。1.最短距离法(1) ijGxpqdqjpimn69(2)若 ,则新类 Gr 与其它各类 Gk 间距离:qprG, ),(qpkkrDmin2.最长距离法(1) ijGxpqdqjpia(2) kqpkrD,3.中间距离法

3、pqkqkpkr 2222 411b ma cacbma四、例题 a例 1 已知 5 个大豆品种及一个指标(荚数/株) ,试用最短距离法聚类,其观测数据如表x1 x2 x3 x4 x5荚数/株 61 58.7 49.2 43.8 39.5解:采用 mkjkiijxd1)1(表 1D0 G1 G2 G3 G4 G5G1=x1 0G2=x2 2.3 0G3=x3 11.8 9.5 0G4=x4 17.2 14.9 5.4 0G5=x5 21.5 19.2 9.7 4.3 0表 2D1 G6=x1,x2 G3=x3 G4=x4 G5=x5G6=x1,x2 0G3=x3 9.5 0G4=x4 14.9

4、 5.4 0G5=x5 19.2 9.7 4.3 0表 3D2 G6=x1,x2 G3=x3 G7=x4,x5G6=x1,x2 0G3=x3 9.5 0G7=x4,x5 14.9 5.4 0表 4D3 G6=x1,x2 G8=x4,x5,x370G6=x1,x2 0G8=x4,x5,x3 9.5 0聚类表分类数目 品种归类 距离系数4 x1,x2,x3,x4,x5 2.33 x1,x2,x3,x4,x5 4.32 x1,x2,x3,x4,x5 5.41 x1,x2,x3,x4,x5 9.5聚类图(谱系图)例 2 已知七个小麦品种及三个指标,试用最短距离法聚类,其观测数据如表:单产(公斤/亩)

5、穗粒数(粒) 千粒重(克)x1 297.0 37.5 35.3x2 312.5 39.5 37.5x3 279.0 30.5 33.6x4 332.5 35.2 36.2x5 352.0 35.8 37.6x6 382.0 29.3 40.9x7 374.5 34.6 39.2解:(1)数据模型,取对数 lgx(2)计算品种间距离采用欧氏距离公式: 312)(kjkiij xd单产 穗粒数 千粒重x1 2.4728 1.5740 1.5478x2 2.4949 1.6004 1.5740x3 2.4456 1.4843 1.5263x4 2.5218 1.5465 1.5587x5 2.546

6、5 1.5539 1.5752x6 2.5820 1.4669 1.6117x7 2.5735 1.5391 1.5933(3)逐步聚类表 1:D0 G1 G2 G3 G4 G5 G6 G771G1=x1 0G2=x2 0.0433 0G3=x3 0.0962 0.1349 0G4=x4 0.0573 0.0622 0.1036 0G5=x5 0.0812 0.0695 0.1607 0.0306 0G6=x6 0.3712 0.1717 0.1614 0.1130 0.1008 0G7=x7 0.1159 0.1015 0.1504 0.0626 0.0357 0.0750 0表 2:D1

7、G1=x1 G2=x2 G3=x3 G8=x4.5 G6=x6 G7=x7G1 0G2 0.0433 0G3 0.0962 0.1349 0G8=x4.5 0.0573 0.0622 0.1036 0G6 0.3712 0.1717 0.1614 0.1008 0G7 0.1159 0.1015 0.1504 0.0357 0.0750 0表 3:D2 G1 G2 G3 G9=x4.5.7 G6G1 0G2 0.0433 0G3 0.0962 0.1349 0G9=x4.5.7 0.0573 0.0622 0.1036 0G6 0.3712 0.1717 0.1614 0.0750 0表 4:

8、D3 G10=x1,2 G3 G9=x4.5.7 G6G10=x1,2 0G3 0.0962 0G9=x4.5.7 0.0573 0.1036 0G6 0.1717 0.1614 0.0750 0表 5:D4 G11=x1,2,4,5,7 G3 G6G11=x1,2,4,5,7 0G3 0.0962 0G6 0.0750 0.1614 0表 6:D5 G12=x1,2,4,5,7,6 G3G12=x1,2,4,5,7,6 0G3 0.0962 0分类数目 品种归类 距离系数6 x1,x2,x3,x4,x5,x6,x7 0.03065 x1,x2,x3,x4,x5,x7,x6 0.03574 ,

9、x3,x4,x5,x7,x6,x 0.0433723 x3,x1,x2,x4,x5,x7,x6 0.05732 x3,x1,x2,x4,x5,x7,x6 0.07501 x1,x2,x4,x5,x6,x3 0.0962(4)分类结果分析七个品种分成四类(0.0450.05)x6 粒重 产量高X4,5,7 粒重 产量中等偏高x1,2 粒重中等 产量中等x3 粒轻 产量低(5)聚类图(谱系图)例 3 用中间距离法对例 1 样品进行聚类分析x1 x2 x3 x4 x5荚数/株 61 58.7 49.2 43.8 39.5解:表 1 D 20G1 G2 G3 G4 G5G1=x1 0G2=x2 5.2

10、9 0G3=x3 139.24 72.25 0G4=x4 295.84 222.01 29.16 0G5=x5 462.25 368.64 94.09 18.49 0表 1 中,5.29 最小,G 1,G2 合并为 G6,再用递推公式pqiqipir DD2224计算 D236,D 246,D 256,得 42.10233136 表 2 D 21G6 G3 G4 G5G6=x1,x2 0G3=x3 104.42 0G4=x4 257.60 29.16 073G5=x5 414.12 94.06 18.49 0用递推公式计算 D267,D237 如: 79.38411526564672 表 3

11、D22G6 G3 G7G6=x1,x2 0G3=x3 104.42 0G7=x4,x5 383.79 15.42 0用公式 24.4127326367682 DD表 4 D23G6 G8G6=x1,x2 0G8=x3,x4,x5 240.24 0聚类结果与上面结果一样。2 系统聚类法(II)一、重心法上面介绍的三种聚类方法在定义类与类间距离时,没有考虑每一类的样品数,考虑样品数可类似物理中引入重心作为每个类的代表,这时类与类间距离就可用重心间距离来表示。对样品分类来说,每一类的重心就是属于该类均值。设 Gp 和 Gq 的重心分别是 ,px,则 Gp 和 Gq 间距离是 。当类与类间距离采用重心

12、间距离,称为重心法。qx qpxqdD如果当新类产生后仍采用上述公式计算它与旧类间距离,比较麻烦,当 dij 采用欧氏距离时可得到较方便的递推公式。设 Gp 和 Gq 并成 Gr,样品数目分别是 np,nq,nr 且 nr=np+nq,重心分别是 (均rqpx,为 m 维向量) ,显然有 )(1qprxx又设某类 Gk,其重心是 ,且 Gk 与 Gr 间距离为:D kr,则k(证明略)pqrpkqrkprk nnD2222 这就是重心法的递推公式,利用这个公式,计算类间距离较方便。例 1 设有 6 个样品 x1,x2,x6,测了一个指标,其数据如表74x1 x2 x3 x4 x5 x6A 1

13、2 5 7 9 10试用重心法聚类。解:(1)计算样品间距离,采用欧氏距离:设 G1=x1,G2=x2,,G 6=x6(m=1,n=1),计算得:jiijxd表 1:D20 G1 G2 G3 G4 G5 G6G1 0G2 1 0G3 42 32 0G4 62 52 22 0G5 82 72 42 22 0G6 92 82 52 32 1 0(2)逐步归类计算类间距离公式为 pqrpkqrkprk DnnD2222 因为 所以1562172,1G计算新类 G7 与其余各类距离。这里 np=nq=1,nr=np+nq=2表 2:D21 G7 G3 G4 G5 G6G7x1,x2 0G3 12.3

14、0G4 30.3 4 0G5 56.3 16 4 0G6 72.3 25 9 1 0如 3.122133372 DD所以 G8=G5,G6,表 3:D22 G7 G3 G4 G8G7 0G3 12.3 0G4 30.3 4 0G8 64.0 20.3 6.3 0G9=G3,G4表 4:75D23 G7 G9 G8G7 0G9 20.3 0G8 64.0 12.3 0,65438910 x表 10:D24 G7 G10G7 0G10 39.1 0(3)聚类表分类数目 样品归类 D25 x1,x2,x3,x4,x5,x6 14 x1,x2,x3,x4,x5,x6 13 x1,x2,x3,x4,x5

15、,x6 42 x1,x2,x3,x4,x5,x6 12.31 x1,x2,x3,x4,x5,x6 39.1(4)聚类图(谱系图)二、离差平方和法(ward 法)Word 法来自方差分析。如果类分得正确,同一类样品的离差平方和应当小,类与类间离差平方和大。设有 n 个样品,分成 k 类:G 1,Gk,x it 表示 Gt 中的第 i 个样品(x it 为 m 维向量),n t表示 Gt 样品数, 为 Gt 均值,则 Gt 中样品离差平方和为:tx)(1titniittSt总的类内离差平方和为: kt1当 k 固定时,要选择使 S 达到极小的分类。当 n,k 较大时,分类数目相当大,如n=20,k

16、=2, R(20,2)=219-1=524289,要从这么多分类中来选最小 S 一般不可能。Ward 法求局部最小解的方法。 (1)n 个样品各自成一类;(2)将其中某两个样品合成一类使 S 增加最小(这时类的数目减小到 n-1 个) ;(3)再合并其中两类,使 S 增加最小,直到所有样品76归为一类为止。例 2 设有 6 个小麦品种 x1,x 2,x 3,x 4,x 5,x 6,观测一个指标,其数据如表,试用Ward 法聚类。x1 x2 x3 x4 x5 x6穗数/株 9.2 7.2 4.9 5.0 5.8 7.0解:(1)计算离差平方和记 G 1=x1,G6=x6根据 计算得1()tnti

17、titiSxx表 1:S0 G1 G2 G3 G4 G5 G6G1 0G2 2 0G3 9.24 2.64 0G4 8.82 2.42 0.01 0G5 5.78 0.98 0.40 0.32 0G6 2.42 0.02 2.20 2.00 0.72 0如 2).792.().729.(12 S .443(2)逐步归类因为 S0=0.01 最小,合并 G3,G4,记 G7=G3,G4=x3,x 4计算新类 G7 与其它类的离差平方和的方法为:04.1201.)59.42(315922min343217Sxx又如 S 27=3.37表 2:S1 G1 G2 G7 G5 G6G1 0G2 2 0G

18、7 12.04 3.37 0G5 5.78 0.98 0.48 0G6 2.42 0.02 2.80 0.72 0又因 S 1=0.02 最小,合并 G2,G6记 G 8=G2,G6=x2,x6,计算新类 G8 与其余各类离差平方和的方法为:7763.402.)759.427(159.42.722 min2636328 SxxxSS18=2.93,S58=1.13表 3:S2 G1 G8 G7 G5G1 0G8 2.93 0G7 12.04 4.63 0G5 5.78 1.13 0.48 0又因 S2=0.48 最小,所以合并 G7,G5记 G9=x3,x4,x5,计算新类 G9 与各类的离差

19、平方和方法类似,得表 4:S3 G1 G8 G9G1 0G8 2.93 0G9 11.80 4.20 0因为 S3=2.93 最小,G 10=x1,x2,x6表 5:S4 G10 G9G10 0G9 10.39 0G11=x1,x6(3)聚类表分类数目 品种归类 S5 x1,x2,x3,x4,x5,x6 0.014 x1,x2,x6,x3,x4,x5 0.023 x1,x2,x6,x3,x4,x5 0.482 x1,x2,x6,x3,x4,x5 2.931 x1,x6 10.39(4)聚类图(谱系图)78三、系统聚类法小结1、步骤一致:(1)计算样品间距离;(2)定义类与类距离;(3)逐步归类(ward 法中 D2pq=Sr-Sp-Sq 可证与其它法一致)2、统一的递推公式:(Wiskart,1969 年) |2222 kqppqkqkpkr DD系统聚类法参数表方法 pq 最短距离法 1/2 1/2 0 -1/2最长距离法 1/2 1/2 0 1/2中间距离法 1/2 1/2 4/10重心法 rpn/rqn/2rqpn0离差平方和法 rkrkrk0

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报