1、模糊信息处理理论与应用1第七章 模糊聚类的有效性初始化、加权指数、聚类类数对加权指数 的研究m在模糊聚类目标函数 中,Bezdek(81)引入了加权指数 m,使 Dunn1:J的聚类准则变成 时的特例。从数学上看参数 m 的出现不自然也没有必要(Li 95) ,但2是如果不给隶属度乘一个权重,那么从硬聚类准则函数到模糊聚类目标函数的推广则是无效的。参数 m 又称为平滑因子,控制着模式在模糊类间的分享程度(Bezdek 81) ,因此,要实现模糊聚类就必须选定一个合适的 m,然而最佳 m 的选取目前尚缺乏理论指导。Bezdek 给出过一个经验范围 ;后又从物理解释上得出 m=2 时最有意义51.
2、(76) ;Chan 和 Cheung(92)从汉字识别的应用背景得出 m 的最佳取值应在 1.251.75 之间;Bezdek 和 Hathaway 等(87) 从算法收敛性角度着手,得出 m 的取值与样本数目 n 有关的结论,建议 m 的取值要大于 ;Pal 等(95)则从聚类有效性的实验研究中得到 的最)2(n佳选取区间应为1.5, 2.5,在不做特殊要求下可取区间中值 m=2。上述有关 m 的取值和范围,大都来自实验和经验,均为启发式的,既不够系统,也没有给出具体的优选方法。此外,也还缺乏最优 m 的检验方法。这一系列的开放问题,都值得进一步的探索,以便奠定 m 优选的理论基础。聚类算
3、法的性能是与数据集密切相关的,没有万能的聚类算法。这也是新的聚类算法层出不穷的原因。聚类分析的最主要的缺陷是,不管所给数据集的结构如何,它总能将数据集进行分类。因此,人们在运用聚类算法之前,需要对数据集的结构进行检测。由于我们面临的是无标签数据集,没有关于数据集的先验知识,对于要聚类的数据集 ,需nxX,1要考虑下面三个问题。无 标 签 数 据 集断 言数 据 集 是 否 有 聚 类 否: 停止是聚 类第七章 模糊聚类的有效性2否有 效 性 ?图 2 无标签数据集处理过程问题 1: 是否是随机的?即对于类数 ( ) , 是否有聚类结构。Xcn1X问题 2:如果 有聚类结构,如何确定这个结构?问
4、题 3:一旦 被聚类,如何确定聚类结果的有效性?问题 1 称之为“聚类趋势” ,问题 2 称之为“聚类分析” ,问题 3 称之为“聚类有效性” 。图 2 给出无标签数据集的处理过程。关于“聚类趋势”问题,我们可以采用一定的技术来检测数据集是否是随机的。Jain 和Dubes60,200,Windham185,Smith175对这一问题有详细地叙述。关于“聚类分析”问题,目前我们可以用硬聚类62,模糊聚类14 和可能性聚类129等聚类方法来确定数据集的聚类结构。但聚类分析的结果与所采用的数据密切相关,不同的算法可能会产生不同的结果。关于不同算法的分类性能,已引起人们的关注,如 Hirota 和P
5、ezdrcy92通过概率集来评价不同的聚类方法,Backer 和 Jain6通过模糊集分解来评价不同的聚类方法,Windham85 通过一致性测度对不同参数对聚类结果的影响进行评价。最近,Analed S.A1-Sultan 和 M.Maroof Khlan115对 c-均值聚类算法,模拟退火算法,遗传算法和Tabu 搜索算法进行了对比实验。结果表明,尽管 c-均值聚类算法的分类性能总体上不如其它三种方法,但其运算速度等是其他三种方法无法相比的。对于给定的数据集,如果已经确认该数据集具有结构,则需要用聚类算法来确定这个结构。大多数聚类算法需要事先确定数据集的分类数。如果分类数选取的不合适,我们
6、可能使划分的结果与数据集的真正结构不相符。使得某一类被划分的或大或小。关于数据集的最佳分类数问题属于聚类有效性问题。历史上,关于聚类有效性问题的研究是基于硬 c-均值聚类算法和模糊 c-均值聚类算法进行的。如 Dunn 的分离性指标 63,Davies 和 Bouldin 的分离性测度 52,Vogel 和 Wong 提出的 PFS 聚类方法183 等都是基于硬 c-均值聚类算法的。基于模糊 c-均值聚类算法的有效性函数有 Dunn 的划分系数15 , Bezdek 的划分熵14,15,Windham 的比例系数184,185,Gunderson 的分离系数 83, Xie-Beni 指标19
7、1,Bensaid 指标12等。Dubes 和 Jain 对 1980 年以前的聚类有效性函数研究工作给予了很好地评述 58,59,60 。聚类有效性函数按其定义方式主要可分成下面三种途径。第一种是基于数据集的模糊划分:这类方法是基于这样的观点,一个能较好分类的数据集应该是较“分明”的。因此,模糊划分的模糊性越小,聚类的结果越可靠。基于这种观点的第一个聚类有效性函数是 Zedeh 提出的分离度,但正如 Bezdek14所指出的,分离度并不能用,1974 年 Bezdek 借助 Dunn 提出的划分系数概念,定义了第一个实用的聚类有效性函数模糊信息处理理论与应用3并提出了与划分系数密切相关的另一
8、个聚类有效性函数:划分熵,1981 年 Windham184利用隶属度的最大值定义了比例系数,1978 年 Gunderson83利用划分系数成功地对星域数据进行了分析,从而确立了这类方法的地位,1988 年 Trauwaert178从数学和实验的角度分析了划分系数,指出划分系数的最大值并非总是对应于最好的分类,这说明划分系数具有很大的局限性。我们用可能性分布的观点解释划分系数,提出了一个新的聚类有效性函数,其性能明显地优于划分系数238。第二种是基于数据集的几何结构:这类方法是建立在这样的观点上,一个能较好分类的数据集,每一个子类应该是紧致的并且子类与子类应该是尽可能分离的,以紧致性与分离性
9、的比值作为聚类有效性标准。对紧致性与分离性定义的不同,产生了不同的公式。应用数据集本身的特征,1974 年 Dunn63定义了分离性指标并证明了当该分离性指标值大于 1 时,数据集具有唯一的聚类结构,1978 年 Gunderson83定义了分离系数,1979 年 Davies 和Bouldin 利用类与类间的 Fisher 距离定义了分离性测度。基于数据集的模糊 c-均值聚类结果,1989 年 Gath 和 Geva73引入了模糊超体积和模糊密度的概念,定义了与数据集结构非常密切的聚类有效性函数。同年 Fukuyama 和 Sugeno239利用目标函数定义了一个聚类有效性函数。1991 年
10、 Xie 和 Beni191也利用目标函数定义了一个称之为 Xie-Beni 指标的聚类有效性函数。第三种是基于数据的统计信息:这类方法是基于硬 c-均值聚类算法提出的,它们是建立在这样的观点上,最佳分类对应的数据结构所提供的统计信息是最好的。基于数据集的类内统计信息和类间统计信息,1979 年 Vogel 和 Wong183提出了 PFS 聚类方法。1987 年 Jain和 Moream99借助统计中的 Bootatrap 技术确定聚类的有效性。基于信息论中的 AIC 标准,1990 年 Zhang 和 Modestion206 定义了一个聚类有效性函数,1992 年 Beni 和 Liu1
11、0基于最大熵原则提出了一种无偏差聚类算法和熵形式的聚类有效性函数。1997 年 Roberts159运用最大相关原则和标量空间滤彼技术提出了一个聚类有效性函数。基于数据集模糊划分的聚类有效性函数具有简单、运算量小的优点。但与数据集的某些结构特征缺少直接联系;基于数据集的几何结构的聚类有效性函数与数据集的结构密切相关,但表述较复杂,运算量较大。基于数据的统计信息的聚类有效性函数的性能与数据集分布密切相关。若数据分布与统计假设是一致的,其效果良好;若数据分布与统计假设不很匹配,其效果可能不好。以上三种途径是聚类有效性问题研究的主流,此外还有一些其它的方法,如基于图论的方法141,233,爬山法19
12、6等。在实际的聚类中,即使分类数选取的合适,由于选取的算法不合适或者算法的参数选取的不合适,我们也可能得不到数据的真正结构。这促使人们寻找能指导聚类算法得到更符合实际分类的函数。这方面工作首先是由 Huntsbergery 于 1985 年进行的94,他将模糊 c-均值聚类算法应用于图象分割,为了得到理想的分割效果,Huntsbergery 引入了一个指导分割的函数。1990 年 Carman 和 Merickel234利用信息论中的 AIC 标准作为对硬聚类的 ISODATA第七章 模糊聚类的有效性4法的分裂、合并的标准。1992 年 Chan 和 Cheung38用划分系数来指导聚类过程。
13、 1996 年Bensaid 等人12修改了 Xie-Beni 指标191,提出了一个指导分类的新标准,并在其文章中明确指出对聚类有效性函数的研究不仅能回答数据集的最佳分类问题,而且能有效地指导聚类算法得到更符合实际的分类。目前对聚类有效性问题的研究范围已拓广到椭球状,线状和壳状数据50,72 。基于可能性聚类的聚类有效性函数也被提出121,122 。此外对噪声数据也提出了一些聚类有效性函数69,233。我们主要关注球状分布数据的模糊分类问题。因为这一类问题是最基本的,对这一类问题的研究结果可直接推广到其它分布型数据的分类上去。一般而言,对于给定的数据集,选取最佳分类数问题和在已知分类数时,选
14、取最好的数据划分问题称为聚类有效性问题。聚类有效性问题是聚类分析的瓶颈。对该问题的有效解决将会对聚类分析的成功应用产生十分深远的影响。这方面问题的研究目前是,将来仍然是一个急待解决的问题。7.1 模糊聚类 FCM 加权指数 的研究m伴随着模糊集理论的形成(Zadeh 65) ,Ruspini(69)率先提出了模糊划分的概念,以此为起点和基础,模糊聚类理论蓬勃发展起来。针对不同的应用,人们提出了很多模糊聚类算法,在这些算法中以模糊 c-均值( FCM: Fuzzy c-Means)类型算法的理论最为完善、应用最为广泛。c-均值类型的算法最早是从硬聚类目标函数的优化中导出的。为了借助目标函数法求解
15、聚类问题,人们利用均方逼近理论构造了带约束的非线性规划函数,从此类内平方误差和(WGSS: Within-Groups Sum of Squared Error)J 1 成为聚类目标函数的普遍形式。为极小化该目标函数而采取的 Pikard 迭代优化方案就是著名的硬 c-均值(HCM)算法和ISODATA(Iterative Self-Organizing Data Analysis Technique A)算法(Duda 73) 。模糊划分概念提出后,Dunn(73)首先把 WGSS 函数 J1 扩展到 J2类内加权平均误差和函数,后来 Bezdek(74)又引入一个参数 m,把 J2 推广到
16、一个目标函数的无限族 ,mJ1,并给出了交替优化(AO: Alternative Optimization)算法,即为人们所熟知的 FCM 算法。从此,奠定了 FCM 算法在模糊聚类中的地位。参数 m 的引入必然会对聚类分析和 FCM 算法产生影响,最直接的影响是把数据集的硬划分扩展为模糊划分,而且取不同的 m 值就会产生不同模糊程度的数据划分。因此,Bezdek(81)认为参数 m 控制着模糊类间的分享程度。对于 FCM 算法而言,在具体应用中必须对 m 赋值,从而就引出这样一个问题:在 的范围内,怎样的一个 m 值才是最1合适的,或者说,m 取何值才能保证 FCM 算法获得合理的模糊聚类呢
17、?现有文献中很少有内容涉及加权指数 m 的优选问题,因此,大多数用户在调用 FCM 算法时只是对 m 简单赋值,有时干脆固定 m=2。Bezdek 在研究中发现,尽管对应 m=2 的 FCM 算法Comment a1: 删除【定义 F.1】Comment a2: 去掉“;”以下同Comment a3: ?模糊信息处理理论与应用5具有明确的物理意义(Bezdek 76) ,但是对不同应用背景选择相同的 m值是不合适的,并指出最优的 m值可以在 的范围内寻找(Bezdek 81) 。另外,从不同的研究角度,人51.们还得出了一些关于 m的启发式的经验结论,比如: Chan和 Cheung(86)从
18、汉字字符识别的应用中得出 m的最佳取值应在 1.251.75之间;Bezdek 和 Hathaway(87)等从 FCM算法收敛性角度着手,得出 m的取值与样本数目 n有关的结论;Pal(95)等从聚类有效性的实验研究得到 m的最佳选取区间为 1.5,2.5,在不做特殊要求时,可选用该区间的中值 m=2。上述有关 m选取的结论,大都来自实验和经验,一方面不够系统,另一方面没有给出面向具体问题的选取方法令 ,是特征空间 上的一个有限数据集合。c 是类数, , 12,snXxR s 2cn而 是所有实的 矩阵的集合。cn定义 7.1.1 的一个硬 C-划分由矩阵 表示,其元素满足条件:cnikUu
19、R; ; ; * 01iku, MERGEFORMAT (7.1); * 1ciklimxnMERGEFORMAT (7.2); * 10nikuicMERGEFORMAT (7.3) 上述硬 C-划分也可以由集合的特征函数(F.2) 定义:* ()0kiikixSuxotherws;MERGEFORMAT (7.4) 其中 , ,12cSX ijji令 是特征空间 上的矢量集合, 是 上的内积范数,定义sVvR, , sAsR* 211(,)()ncikiJUuxvMERGEFORMAT (7.5) 则 是经典的类内误差平方和目标函数,令 ,硬 C-均值聚类1 24ikiAdbacComme
20、nt a4: ?Comment a5: ?Comment a6: 删除【定义 F.2】Comment a7: ?Comment a8: ?第七章 模糊聚类的有效性6(HCM)算法通过迭代(F.4a)(F.4b),使目标函数(F.3)收敛到一个局部极小点,从而得到 的X一个最优硬 C-划分 。ikuU* ; nkciotherwisdjkiik 1mn01MERGEFORMAT (7.6)* MERGEFORMAT ciuxvnkikii 1)(;(7.7) 定义 7.1.2 的一个模糊 C-划分由矩阵 表示,其元素满足条件:XcnikRuU; ; * MERGEFORMAT 10,ikucin
21、(7.8) ; * MERGEFORMAT 1cik(7.9) ; * MERGEFORMAT 01nkiuci(7.10) FCM算法是一个使目标函数(F.6)最小化的迭代优化过程* nkci AikmmvxuVUJ12)(),(MERGEFORMAT (7.11) 其中, 是一个加权指数,令 ,模糊 C-均值聚类(FCM )算法通),1(2Aikid过迭代(F.7a)(F.7b) :* nkcijuujkikik 101;,;MERGEFORMAT (7.12)Comment a9: ?Comment a10: ?Comment a11: 删除定理 2-3.1Comment a12: 删除
22、定理 2-3.1模糊信息处理理论与应用7(7.13) ; nkciduikmcpkikik 1011* ciuxvnkmiii 1;MERGEFORMAT (7.131314)使目标函数(F.6)收敛到一个局部极小点或鞍点,得到 的一个最优模糊 C-划分 。XikuU为了把传统聚类中 WGSS目标函数 扩展到模糊的情形,Bezdek 引入了加权指数 m,1J给出模糊 c-均值类型聚类目标函数的普遍式 。FCM 算法通过极小化),1,(mPU而获得最佳聚类结果 ,如果不考虑隶属函数和聚类原型与参数 m的嵌套隐含关mJ*,P系,有* MERGEFORMAT 0log),(12)1(cinkikmi
23、ikii iii dU(7.141415)从式(2-3.1)可知, 将随 m的增加而单调递减。对应不同的 m值,显然有不同的最佳模J糊 c-划分,因此,FCM 算法对于加权指数 m存在聚类有效性问题。也就是说需要确定 m为何值时 对应的聚类结果是最有效和最合理的。可见参数 m对 FCM算法有重要影响。min为了研究参数 m对 FCM算法性能的影响,首先讨论对应于 m可行解两端的情况,我们有如下定理:定理 7.1.1 对于 的 FCM算法,存在以下情况),1当 时,FCM 算法变成 HCM算法;当 时,FCM 算法以概率 1退化为 HCM算法;当 时,FCM 算法失去划分特性,有 。cUik1从
24、目标函数以及划分矩阵和聚类原型的迭代公式出发,可很容易证得定理 7.1.1成立,简明起见这里证明从略。从定理可知,在 m可行解的两端 FCM算法功能已经退化, 时1mFCM算法失去模糊划分能力,从而变成硬 c-划分,显然不是我们所希望的,因此在实际中总Comment a13: 删除定义 2-3.1Comment a14: 删除定理 2-3.2Comment a15: 删除定理 2-3.2Comment a16: 删除定理 2-3.2Comment a17: 删除定理 2-3.1Comment a18: ?1 mComment a19: 删除?Comment a20: 更改如下Comment a
25、21: ?Comment a22: ?第七章 模糊聚类的有效性8选 ; 时,FCM 得到的隶属度均为 ,样本隶属于各类的程度相等,使得类分1mc1结果太模糊而且得到 c个一样的聚类原型,达不到聚类的目的。为了衡量模糊聚类结果的模糊程度,Bezdek(81)仿照 Shannon信息熵的形式定义了划分熵的公式:定义 7.1.3 对于给定的聚类数 c和模糊划分矩阵 U,其划分熵定义为* MERGEFORMAT (7.151516)iikakmncUH1log);(其中 为对数的底数,且约定 时,有 。对于模糊聚类问题,,1a0i 0logikaik我们当然不满足于数据的硬划分,还想获得样本间的相近信
26、息。在此前提下,样本集的划分越分明就越有利于分类,因此,对于给定的 m值,总希望模糊聚类的划分熵越小越好。加权指数 m影响 FCM算法的性能,因此也必然对聚类结果的划分熵产生影响,有关影响可由定理 7.1.2来表述:定理 7.1.2 对于 的 FCM算法,其划分熵具有如下性质),1nc(1) ;UHalog);(0(2)当 时, U是硬划分;0m(3)当 时, 以概率 1趋近于 0;;(4)当 时, 。ccal)(定理 7.1.2的证明可以从定理 7.1.1的结论导出。显然,参数 m控制着 FCM聚类结果的模糊性,而且 m越大聚类结果越模糊,在 m可行解的两端分别对应着划分熵的最大值与最小值。
27、由于我们希望聚类的结果不要太模糊,这就要求在调用 FCM算法时,m 的取值不要太大。在文献6566中,称 时,由(F.6)(F.7a)(F.7b)决定的模糊聚类 FCM算法退化为由1(F.3)(F.4a)(F.4b)决定的 HCM算法;而当 时,FCM 得到的模糊 c划分矩阵的元素为常数,本附录对上述 结论分析如下。cuik17.1.1 加权指数 的极限特性m一、 加权指数 m的极限特性(一) 1 2Aikivxd0ikd当 时,由(F.7a1)得到:iComment a23: ?Comment a24: ?Comment a25: ?Comment a26: ?模糊信息处理理论与应用9* M
28、ERGEFORMAT ; nkciotherwisdujkikik 1mn01(7.161617)(F.8)与(F.4a) 完全一致。,令2cidik10; 0in1)(mijkckd由(F.7a2)可得:* MERGEFORMAT ;11)(min)(i11cpkkcpkikikddu(7.171718), jkckd1)(min0)(ink 当 时, ,此时)(inki1)(mikd* lili11)(in mkmMERGEFORMAT (7.181819) 当 时, ,此时inkid)(ik* 0li)(min1)(in1 kkmMERGEFORMAT (7.191920) 由(F.10
29、)(F.11)可得* 1lili1)(min1)(min cppkcpkddMERGEFORMAT (7.202021) 将(F.10)(F.11)(F.12)代入(F.9),并对 m取极限,得到:Comment a27: ?Comment a28: ?Comment a29: ?Comment a30: ?Comment a31: ?Comment a32: ?Comment a33: ?Comment a34: ?Comment a35: ?第七章 模糊聚类的有效性10 cpmkmikcpkikmcpkikmik dddu 11)(in1)(11)(in1)(111 lllill1)(in
30、111)(min)(i1lll kcppkkd* ; ncijkik 0MERGEFORMAT (7.212122)式(F.13)与(F.4a) 完全一致。* ciuxvnkikinkmikiim 1ll11 ;MERGEFORMAT (7.222223)式(F.14)与(F.4b)完全一致。在上述的推导过程中,隐含有一个条件,即集合 只含有cjdSkjkm1)(min)(,一个元素。由(F.4a)可以看出,要使其满足硬 C划分条件(F.1b),则其只允许 含有一个元S素;若 有多个元素,要满足硬 C划分条件(F.1b),则应修改(F.4a),即任取 中的其中()kmS )(一个元素 ,使其对
31、应的 ,其余 ,也就是说,将样本 硬划分到具id1ikuijjk,0kx有最小距离 的其中一个类中。)(n对于(F.7a2),若 有 个元素, ,即样本 与 个类原型的距离等于最短距)(rcrkxr离 。此时(F.12)式变为:)(mink* rddcpmpkcpmk 11)(in1)(inlliMERGEFORMAT (7.232324) (F.13)式变为:Comment a36: Comment a37: ?Comment a38: 删除图 F.1Comment a39: ?Comment a40: 删除 F.1Comment a41: 删除 F.1Comment a42: ?Comme
32、nt a43: ?Comment a44: 删除 F.1Comment a45: ?Comment a46: ?Comment a47: ?Comment a48: ?模糊信息处理理论与应用11* nkciSdrukmiikm101l)(,;MERGEFORMAT (7.242425)在通常的聚类迭代过程中,在 时,除 一些极特殊情况外, 的情况出现的概率极小。1r但 在理论上也是会出现的。1r例如对图 7.1.11所示的样本集合 DATA,在时,分别取不同的初始聚类中心,其 m聚类结果见表 7.1.11。由表 7.1.11可以看出,即使对于这样特殊的样本集合,其两个初始聚类中心关于 Y轴稍有
33、不对称,就导致了 FCM收敛到HCM。即使出现 的情况,也会由于极小的扰动,马上破坏了 的条件。因此(F.16)r 1r式 的情况在聚类迭代过程中出现的概率极小,故 。因此在 时,r 以 概 率 m。HCMF 1以 概 率表 7.1.11 在 时,采用不同初始中心对 DATA聚类的结果比较 m初始中心 (-1,0) (1,0) (-0.99,0) (1,0) (-1,0) (0.99,0)DATA 样本数据HCM划分矩阵FCM划分矩阵HCM划分矩阵FCM划分矩阵HCM划分矩阵FCM划分矩阵(-2,1) 1 0 1 0 1 0 1 0 1 0 1 0(-2,0) 1 0 1 0 1 0 1 0
34、1 0 1 0(-2,-1) 1 0 1 0 1 0 1 0 1 0 1 0(-1,0) 1 0 1 0 1 0 1 0 1 0 1 0(0,0) 1 0 0.5 0.5 1 0 1 0 0 1 0 1(1,0) 0 1 0 1 0 1 0 1 0 1 0 1(2,1) 0 1 0 1 0 1 0 1 0 1 0 1(2,0) 0 1 0 1 0 1 0 1 0 1 0 1(2,-1) 0 1 0 1 0 1 0 1 0 1 0 1理论上的聚类中心(-1.4,0)(1.75,0)(-14/9,0)(14/9,0)(-1.4,0)(1.75,0)(-1.4,0)(1.75,0)(-1.75,0)
35、(1.4,0)(-1.75,0)(1.4,0)下面我们在 时证明, 时, 。r m1Jm当 时,将(F.8) 代入(F.6),注意到(F.8)式 ,得到:30ikd ijujk,011cippmkikmcppkdu图 17.1.1 DATA的样本分布图Comment a49: ?Comment a50: ?第七章 模糊聚类的有效性12* ;,;,; tjudujktktkcpk 011MERGEFORMAT (7.252526),令4cidik0; min1)(ijkckd注意到 ,及(F.7a2)得到:2Aikivx ci ikmpkikci Aikmdvxu11112)(ci mpkikc
36、i mpkiki dd11111ci mcpkmkikd11)(in1)(n; * ci mppkkikd11)(min)(1nMERGEFORMAT (7.262627)由(F.10),(F.11)及 ,得到:0in1)(mijkckdComment a51: ?Comment a52: ?Comment a53: ?Comment a54: ?模糊信息处理理论与应用13; * )(min11)(minli kcppkkdd MERGEFORMAT (7.272728)利用(F.10),(F.11),(F.19)的结果,同时(F.18)对 m取极限: ci mppkkikmci Aikm d
37、vxu11)(min)(1n12ll ci mcppkkmikcicppkmkikm dd111)(in)(1n11)1(in)1(nlll ci kmikkd1 )(in)1(n1)(minl cp jktktk tudu1)(min0;,;,;* cp jktktApk tvx1 )(in21;,;,;MERGEFORMAT (7.282829)将(F.6)对 m取极限,并注意到(F.17)(F.20)的结果得到: nkci AikmvxuVUJ121)(l),(li nkciikm12lComment a55: 删除“既”Comment a56: ?Comment a57: ?Comme
38、nt a58: ?第七章 模糊聚类的有效性14;nkci Apkvxu12)( ;,;, tjudujktktk 01)(min* VUJ,1MERGEFORMAT (7.292930)即 时,1 mJm, 1(二) 2Aikivxd0ikd当 时,属于 FCM的特殊情况,不于考虑。i,令 ,cik10; max1)(jkck由(F.7a2)可得:* MERGEFORMAT ;11)(max)(a11cpkikcpkikikddu(7.303031), ,此时jkckd1)(max ik)(ax; * 1li0)(max1)(axikikmdMERGEFORMAT (7.313132); *
39、cpcpmpkcpmkm 11)(ax1)(axliliMERGEFORMAT (7.323233)将(F.23)(F.24)代入(F.22),并对 m取极限,得到:Comment a59: ?Comment a60: ?模糊信息处理理论与应用15cpmkikmcpkikmik ddu11)(ax1)(a11lll; * cdcpmkmikll11)(ax)(a; niMERGEFORMAT (7.333334)结论由上面证明,得到以下结论:(1) 时, 。并且:1 mHCMF 1以 概 率J 以 概 率(2) 时, FCM的划分矩 阵 ,并且由(F.7b)cuUikcixnxuxv kmck
40、nkcmnkiii 11111 ;即 cv2FCM算法失去划分特性加权指数 m是一个控制因子,它控制 中的元素对一个划分的隶属度分配产生影响的程度。)(kmS当 时, 中的元素在隶属度分配中起的主 导作用越来越大;反之,当 时,1 )(kS m中的元素在隶属度分配中逐渐失去影响。)(kComment a61: 更改如下Comment a62: ?第七章 模糊聚类的有效性167.1.2 最优加权指数 m的研究二、 最优加权指数 m的研究Ruspini利用模糊集理论把隶属函数 从0,1二值扩展到0,1区间,从而把硬 c-划分概ik念推广到模糊 c-划分,因此 X的模糊 c-划分空间为:* M ci
41、 nkikikcnfcRUM11,0;,;,0ERGEFORMAT (7.343435)由以上算法不难看出,整个计算过程就是反复修改聚类中心和分类矩阵的过程,因此常称这种方法为动态聚类或者逐步聚类法。几经修补,该算法的收敛性已经得以证明(Bezdek 80, 87, 88):FCM 算法能从任意给定初始点开始沿一个迭代子序列收敛到其目标函数的局部极小点或鞍点。对于满足下列条件的集合),(PUJm * MERGEFORMAT (7.353536),(),(,*PUJRMmmscfFCM算法可以收敛到局部最优解,这样的 被称作模糊聚类的解集。FCM算法是目前比较流行的一种模糊聚类算法,究其原因大致
42、由以下几个方面:首先模糊 c-均值泛函 乃是传统的硬 c-均值泛函 的自然推广,我们知道, 是一个应用十分J11J广泛的聚类准则,对其在理论上的研究已经相当完善,这就为 的研究提供了良好的条件。m从数学上看, 与 的希尔伯特空间结构(正交投影和均方逼近理论)有密切的关系,因msR此 比其它泛函有更深厚的数学基础。最后,也是最重要的是它不仅在许多领域获得了非常成功的应用,而且以 FCM算法为基础,人们又提出基于其它原型的模糊聚类算法,形成了一大批 FCM类型的算法:比如模糊 c-线(FCL) 、模糊 c-面(FCP) 、模糊 c-壳(FCS)等聚类算法,分别实现了对呈线状、超平面状以及“薄壳”状
43、结构模式子集(或聚类)的检测。2.3 加权指数 m对 FCM算法的影响那么,小的 m值是否就一定对应好的聚类结果呢?答案是否定的。因为较大加权指数m还具有抑制噪声的功能,在从噪声污染的数据中获取模式样本的模糊聚类应用中起着重要的作用。参数 m抑制噪声的功能是通过对隶属函数加以较大权重,使隶属度普遍较低的点(噪声点)对目标函数的贡献减小,使得它们在确定聚类中心(原型模式)和隶属函数时被忽略。Comment a63: 删除 2-3.1Comment a64: 删除 2-3.1Comment a65: 删除 2-3.2Comment a66: 删除 2-3.2模糊信息处理理论与应用17(a) 带有孤
44、立噪声点的数据集分布 图 (b) 聚类中心到模式中心距离随 m变化曲线图 2 7.1.2 FCM算法抑制噪声性能的测试实验图 7.1.22显示了 FCM算法抑制噪声的一个简单实验结果。图 (a)给出了带有一个孤立噪声数据点的测试样本集,从图中可以看出数据集形成两类模式,模式中心分别在和 处,为了衡量 FCM算法所获得的聚类中心与模式中心)75.0,(*1p)5.0,(*p的相近程度,我们定义了测度:* MERGEFORMAT (7.363637)2*2*1Distancep图(b)显示了不同 m值所对应的测度 Distance,从图中可知:曲线在 m=5.5处取得极小值,参数 m取得太小,则 FCM算法的抗噪性能变差,同样参数 m取得太大,又使聚类太模糊而得不到准确的原型模式。可见,尽管 FCM算法具有抑噪功能,但必须选取合适的 m值才能达到满意的效果。参数 m对 FCM算法的影响还表现在,m 的取值直接影响模糊 c-均值聚类目标函数的凸凹性和算法的收敛性上。为了便于理解,我们首先举一个简单可视的例子:),(PUJ(a) 三个聚类中心的收敛曲 线 (b) FCM算法收敛到的鞍点显示图 7.1.33 FCM算法收敛到鞍点的实验举例给定一样本集 ,