1、第五章 模糊分类与模式识别,本章概括了两种常用的分类方法。第一种方法是运用等价关系进行分类。该方法利用了等价关系的某些性质和称为对关系的 分割的非模糊化的概念。第二种分类方法是一种非常流行的称为模糊c-均值的方法。该方法试用了在 n 维 Euclidean空间确定数据点的集合接近度的概念,它将这些数据分配到不同的族(聚类),然后确定这些族之间的距离。,5.1 利用等价关系的分类,5.1.1 清晰关系,定义一个集合,,作为数据点空间 X 中 的一个等价类。这个类包含于一个特殊关系 R 中,R 是等价关系。,该类具有以下性质:,因此,等价关系 R 能将空间 X 划分成互不相容的等价类,即,式中,
2、被称为商集。其元素是在等价关系R 下的 X 的等价类,的基(即等价类的数目)叫做矩阵R的秩。,例:定义一个整数空间X=1,2,3,10,并定义 R为“空间 X 中各元素被 3 除后的余数”的清晰关系,既有,显然该关系是一个等价关系。我们可将空间中的元素分成以下类型:,1=4=7=10=1,4,7,10 余数=1 2=5=8=2,5,8 余数=2 3=6=9=3,6,9 余数=0,5.1.1 模糊关系,经过4次复合可得到等价关系,进行 分割,并分别取,分类图,例:某三个家庭,共有人口16名,各家庭成员之间有(血缘)关系。16个人各有自己的照片,且混在一起。现在要求一个不认识这三个家庭成员的人根据
3、上述像片确定这些成员之间的相似程度。,用 对该模糊等价关系进行分割,因此可识别出4个性质不同的类型: 1,6,8,13,16, 2,5,7,11,14, 3, 4,9,10,12,15,例:有5个地区受到近期一次地震而造成损害,利用余弦幅度法,得到如下关系:,经两次复合得到等价关系,5.2.2 c-均值分类法,Bezdek(1981年)提出了一种适应于模糊数据的极为有用的方法。,设有n个数据样本组成的样本集合:,其中:,基本思想:,5.2.2 硬c-均值(HCM)分类法,定义一个集合族 ,作为X的一种硬c-分区:,定义特征函数:,则分区要求可表示为:,为表示方便,记,定义矩阵,再进一步将X的一
4、种硬c-分区空间定义为矩阵集合:,任意硬c-分区 的基为:,例:,设我们要将 X 的点用聚类方法分为 2 类,即c=2,则,下面列出了硬2-分区的一部分:,注意下面这两个矩阵:,我们如何从分区空间 中选择最合理的 c 分区呢?,目标函数:,式中:,这里 构成第 i 个类的中心.,其中:,寻找:,靠穷举法搜索最优解是不现实的。,例:对于 n=25 和 c=10 情况,有,幸运的是,对这类问题已经有了一些非常有用和有效的迭代搜索算法(Bezdek,1981),算法步骤:,1、给定 并初始化 U 矩阵:,,令 r = 0,并给定误差限 ;,2、计算 c 个中心向量:,3、更新 :计算更新后的特征函数
5、(对所有的 i,k ),当,其它,4、如果,则停止;否则令 并转到步骤2。,例:“蝴蝶问题”,5.2.3 模糊c-均值(FCM)分类法,例:(P319),且已知某种名为“tangelo”的水果是由葡萄柚和柑桔杂交而成。,如果用硬分区方法不可能得到符合实际的分类结果。应采用模糊分类,我们在数据空间X的基础上定义一个模糊集的族,作为一种模糊 c-分区。,令:,其约束条件是单个数据点在各个类中的所有隶属值之和等于1:,现在将X的一种模糊c-分区空间定义为模糊分类矩阵集合:,显然,模糊 c-均值算法步骤:,(与硬 c-均值算法类似,略),5.2.4 模糊c-分区的硬化,1、最大隶属法,若,则,2、最接近中心分类法,则,其中,例:(P327),1、最大隶属法,2、最接近中心分类法,则,