1、1三种系统聚类方法对 24 款 8600GT 进行分类的应用0082807 段超波 0082796 童善杰(江西财经大学信息管理学院 08 管理科学 1 班,江西,南昌 220032)摘要:我们知道在 SAS 系统中提供了很多种系统聚类过程中确定类别与类别之间距离的方法,像类平均法(AVE)、 最短距离法(SIN)、离差平方和法(WARD)、最长距离法(COM)、重心法( CEN)等,从而影响最终的分类结果。到底哪一种方法更合理更符合实际呢?通过用类平均法(AVE)、最短距离法(SIN)和离差平方和法(WARD)3 种方法对 24 款 8600GT 进行分类,来对比一下这三种方法的分类效果。关
2、键词:聚类分析 类平均法 最短距离法 离差平方和法Three Kinds of Clustering Method in 8600GT Classification of 24 of the ApplicationAbstract: we know in the SAS system provides a variety of system clustering process to determine the distance between classes and category of methods, like Average linkage (AVE), Single linkage
3、 (SIN), WARD (WARD), Complete method (COM), Centroid method (CEN) etc, thus influence the final classification results. Which method is more reasonable more accord with actual? Through using class average method (AVE), Single linkage (SIN) and WARD (WARD), three methods for the 24 8600GT classificat
4、ion, to compare these three methods of classification effect.Keywords: Cluster Analysis Average linkage WARD Single linkage.在现实生活中,需要对复杂的对象依据一定的标准进行分类,通常情况下,人们根据事物现象的一个指标或者某一方面就可以进行分类活动,而实际上,需考虑的事物或对象不只包含单一指标,因此,很可能还需通过许多侧面或者指标来进行分类。一般情况下,人们往往可根据事物之间的远近距离来判定类别。个体与个体之间的距离越近,其相似程度可能也越高,属于同类的可能性越大。有了一定
5、的分类规则之后,人们可以根据个体与个体之间的距离长短进行分类,首先把最近的个体分为同类,然后再根据最短距离继续扩大类别所涵盖的范围,知道把所有个体都分为一个大类为止,类似这样的分类过程称为“系统聚类” 。案例中将要使用聚类方法均属于此类过程。1 原理和方法21.1类平均法(AVE)类平均法是用两类样品两两之间平方距离的平均值的平均值作为类之间的距离。如 和 两类,可以计算每类中每对样本点之间的平均距离。pGq1(,)pqpq ijiGipqDdxN若 ,则新类 与其他任意类 之间的距离系数由2(,)dxynk递推公式决定。 pkqkknnDN即在并类过程中,以类别样本点之间的平均距离作为依据并
6、类,直到把所有样本归为一类。1.2最短距离法(Single linkage)如果 和 两类合并为新类 ,在最短距离法中,新类 与其他pGqnGnG任意类 之间的距离系数由下列公式决定:k 24kpkqpqknDD即如果新类与其他类别之间存在多个距离,则取这些距离中最小者作为两类之间的距离。1.3离差平方和法(WARD)离差平方和法的思想来源于方差分析,即如果类分得恰当,同类内样品之间的离差平方和应较小,而类间的离差平方和应当较大。该法要求样品间距离必须采用欧氏距离。离差平方和法定义类间的平方距离为: 。其中,22pqnpqDS是类 和 合并成的 类的类内离差平方和。2nSpGqnG当观测距离
7、时,则新类 与其他任意类 之间的距2(,)xydnkG离由下列递推公式决定。 ()()kpkkqkkpqkn nNDNDND3当采用离差平方和法进行分类时,先让每个样品自成一类,然后并类。每并一类,离差平方和都要增大,选择使其增加最小的两类合并,直到所有的样品归为一类为止。这么多种方法都可以对样本数据进行聚类分析,究竟采用哪一种方法最好呢?Demirmen(1972)提出了一定的遵循原则。(1) 任何类必须在邻近的各类中是突出的,即各类重心(常用平均数衡量)之间应该有最大的距离。(2) 在确定的类中,各类所包含的元素都不宜过多。(3) 分类数目应符合实际。(4) 当用许多方法进行分类时,应选出
8、现次数最多的那种分类结果。1.4实现方法在SAS系统中,主要通过调用Cluster过程进行系统聚类,而在Cluster语句的“Method=”关键字下,便可以指定上述3种系统聚类方法。2 应用实例IT世界网显卡频道在2007年组织了一次GeForce 8600GT显卡系列横向评测,针对市场上最热卖最火热的24款产品进行对比测试,来考察市场上所有GeForce 8600系列的总体性能。现在利用3种系统聚类的方法将这24款显卡进行归类。下表1的数据收集来自http:/w 参加横向评测的24款显卡规格介绍核心频率( MHz)显存频率( MHz)3DMark06(SM2)3DMark06(SM3)2
9、007 年 9 月份市场价格A 翔升 8600GTOF 700 2000 2243 1971 999B 华硕 EN8600GT 540 1400 1674 1659 999C 华硕 EN8600GT Silent540 1400 1675 1667 1430D 映泰 VR8603GT21 540 1400 1660 1658 899E 映泰 V8602GT51 540 666 987 824 900F 七彩虹逸彩 8600GT烈焰战神 H10650 2000 2243 1971 999G 艾尔莎影雷者8600GT 凤凰极限版650 2000 2241 1984 999H 富彩 86000GT
10、炎龙版 650 1400 2158 1789 1099I 富士康 86000GT-256 OC560 1600 2064 1790 1099J 耕升 8601GT 红旗版 625 1800 2939 2712 899K 小影霸 GT6 540 800 1595 1284 699L 小影霸 GT7 540 1400 1665 1661 699M 映众游戏战斗 540 1400 1664 1668 699N 映众战神加强版 600 1650 2133 1832 999O 映众 i-Chill 8600GT620 1800 2193 1926 1099P 丽台 PC8600GT TDH EXTREM
11、E590 1800 2354 2017 1260指 标名称4Q 铭瑄极光 8600GT 超能战士625 1800 2266 1978 899R 铭瑄 8600 变形金刚珍藏版540 1400 1675 1662 799S 铭鑫 8600GT 视界风PK 版615 1500 2144 1833 699T 微星 NX8600GT 暴雪骑士 2580 1600 2243 1898 799U 昂达 8600GT 256M 神戈600 1500 2260 1889 799V 双敏 PCX8626GT Pro玩家战斗版625 1800 2681 2542 899W 讯景 8600GT 黑金版 650 18
12、00 2356 2022 999X 盈通 G8600GT 游戏高手二代675 1800 3002 2751 999数据做以下处理:将显卡名称依次用A-X24个字母表示,五个指标也依次用x1-x5表示,对于每列的数据作归一化处理,使得数据量纲化,结果如表2。表2 处理后的待聚类表x1 x2 x3 x4 x5A 4.883153 5.302789 4.475706 4.381168 4.406899B 3.767004 3.711952 3.340317 3.68765 4.406899C 3.767004 3.711952 3.342313 3.705433 6.308174D 3.767004
13、 3.711952 3.312382 3.685427 3.965768E 3.767004 1.765829 1.96947 1.8316 3.97018F 4.534356 5.302789 4.475706 4.381168 4.406899G 4.534356 5.302789 4.471715 4.410065 4.406899H 4.534356 3.711952 4.306096 3.976616 4.84803I 3.906522 4.242231 4.118527 3.978839 4.84803J 4.359958 4.77251 5.864512 6.028274 3.9
14、65768K 3.767004 2.121116 3.18268 2.854094 3.083506L 3.767004 3.711952 3.322359 3.692096 3.083506M 3.767004 3.711952 3.320363 3.707655 3.083506N 4.18556 4.374801 4.256211 4.072197 4.406899O 4.325078 4.77251 4.375935 4.281142 4.84803P 4.1158 4.77251 4.697196 4.483418 5.558251Q 4.359958 4.77251 4.5216
15、4.396728 3.965768R 3.767004 3.711952 3.342313 3.694318 3.524637S 4.290199 3.977092 4.27816 4.07442 3.083506T 4.046041 4.242231 4.475706 4.218903 3.524637U 4.18556 3.977092 4.509628 4.198897 3.524637V 4.359958 4.77251 5.349696 5.650396 3.965768W 4.534356 4.77251 4.701187 4.494532 4.406899X 4.708755 4
16、.77251 5.990222 6.114964 4.406899varname52.1类平均法(AVE)在聚类分析中的应用聚类分析的程序为:proc cluster data=sas.GC method=ave outtree=GC_out;var x1-x5;id name;run;proc tree horizontal;run;图1显示了样本之间的并类全部过程。 “NCL”表示聚类编号,并类从上至下,直到最后所有样本归为一类,“Clusters joined”表示分类的过程,可以看出样本和类别之间的并类过程,“FREQ”表示每次并类时该类别中所包含的样本量;“Norm RMS Dist
17、”表示距离的均方根。图1.采用类平均法聚类分析并类过程得到的水平放置的系统聚类谱系图如图2。6图2.采用类平均法聚类分析谱系图如果在图2上画一条竖直的直线,该直线与谱系聚类图有几个交点,就可把所有样本分为几类。在这个案例中,使用类平均法进行分类时,分类的结果并不是很明显,而且类内样本之间的距离明显很大,不便于进行分类,继续采用其他聚类方法进行分析。2.2最短距离法(SIN)在聚类分析中的应用使用最短距离法来进行聚类分析时,只要上面聚类分析过程cluster中指定的方法“AVE”改为“SIN” ,其他的不做改变,结果如图3和图4。得到的分类结果缺点跟用类平均法进行聚类分析时差不多,分类不够明显,
18、类与类的差别不大,而类内样本的差距又过大,显然不够合理,继续采用其他的聚类方法。2.3离差平方和法(WARD)在聚类分析中的应用同样的,使用离差平方和法进行聚类分析时,只要将聚类分析过程cluster7指定的方法“AVE”改为“WARD” ,其他的不做改变,结果如图5和图6。图5.采用离差平方和聚类分析并类过程图6.采用离差平方和聚类分析谱系图很明显,使用离差平方和进行分类时效果很明显,类与类之间的有差距,类内样本之间距离较短。所以,从上至下,大致可以分为5类,即把A、F、G、Q 、W、H、I、N、O和P归为一类,把 C归为一类,把J 、X 和V归为一类,把B 、 D、L、M、R、S 、T 和
19、U归为一类,将E 和K 归为一类。所以对于24款显卡,分类如下:第一类(翔升8600GTOF、七彩虹逸彩8600GT烈焰战神H10、艾尔莎影雷者8600GT凤凰极限版、铭瑄极光8600GT超能战士、讯景8600GT黑金版、富彩86000GT炎龙版、富士康86000GT-256 OC、映众战神加强版、映众i-Chill 8600GT、丽台PC8600GT TDH EXTREME) ;第二类(华硕EN8600GT Silent) ;第三类(耕升8601GT红旗版、盈通G8600GT游戏高手二代、双敏PCX8626GT Pro玩家战斗版) ;第四类(华硕EN8600GT、映泰VR8603GT21、小
20、影霸GT7、映众游戏战斗、铭瑄8600变8形金刚珍藏版、铭鑫8600GT视界风PK版、昂达8600GT 256M神戈) ;第五类(映泰V8602GT51、小影霸GT6) 。这个分类结果与横向评测数据来源基本吻合。以下是2007年IT 世界网对 24款显卡横向评测后的获奖显卡:最佳性能奖:ASUS(华硕)EN8600GT Silent最佳性价比:讯景 8600GT 黑金版编辑选择:Inno3D(映众)i-Chill 8600GT编辑选择:Maxsun(铭瑄)8600GT 超能战士编辑选择:Onda(昂达)8600GT 256M 神戈热点品牌推荐:耕升 8600GT 红旗版热点品牌推荐:HASEE
21、(小影霸) GT6新晋品牌推荐:Foxconn(富士康) 8600GT-256 OC很明显的可以看出,最佳性能的ASUS(华硕)EN8600GT Silent,最佳性价比,均的讯景8600GT黑金版(W)均被分在前两类中,属于性能和价格俱佳的显卡;编辑所选的三款显卡中有两款是在第一类中,新晋品牌的Foxconn(富士康) 8600GT-256 OC也被分在第一类中;至于 热点品牌推荐中的HASEE(小影霸) GT6之所以能上榜,但却分在相对来讲性价比最差的第五类,这完全得归功于它是市场上第一个将8600GT杀价到699元的品牌;所以,总体来讲,这个分类结果还是合理的,有效的。3 结论本文通过实
22、例比较了三种系统聚类方法在聚类分析中的应用效果,以24款8600GT的横向评测的相关数据为基础,利用三种聚类方法对它们进行分组,来找到其最终最优的分类结果。实例结果表明,利用离差平方和法进行聚类分析能够得到最佳的分类结果。针对第一类的显卡,性能相对卓越,而且性能和价格相类似,属于性能优良价格较高的高端显卡;而第五类的显卡,性能一般且价格较低,属于低端显卡;居于两类之间三类相应地分别属于中高端、中端和中低端显卡。【参考文献】1.阮敬.SAS统计分析从入门到精通.2009年4月第1版:1952122.谭慧恒.Tim.LS-memory.2007 年 DX10 中端 24 款 86GT 横向评测.2007.9.19 96:00:00(出处:IT(IT 世界网):139