1、第十章 无监督学习与聚类,10.0 监督学习与无监督学习,监督学习与无监督学习的最大区别在于训练样本是否有类别标号,无类别标号的称为无监督学习;监督学习与无监督学习也被称为有教师学习与无教师学习。,10.1 混合密度及可辨识性,从理论上讲,无监督学习可以看作是一个混合密度的估计问题:所有样本都来自于c种类别,c已知; 每种类别的先验概率 未知; 类条件概率的数学形式已知 ,但参数 未知; 样本类别未被标记。,混合密度,样本可以看作是按如下方式产生的:先以概率 决定其所属类别 ,然后根据概率密度 生成一个具体的样本x。因此x样本的产生概率为:,可辨识性,不可辨识:如果无论样本的数目有多少,都不存
2、在唯一的解 ,则称密度 是不可辨识的; 完全不可辨识:如果参数 的任何部分都无法求出,则称为完全不可辨识;大多数的混合密度是可以辨识的,但也存在某些混合密度是无法辨识的。,完全不可辨识,假设样本x的概率是由两个0-1分布混合而成,两个分布的先验概率相等,参数分别为 则混合概率为:即使可以统计出 , 也无法求解出参数 。,部分不可辨识,假设样本x的概率密度是两个均匀分布的混合:如果训练样本是0-1之间的均匀分布:则对任意的0t1,只要:,10.2 聚类准则函数,类别数 c = 2,误差平方和准则,将样本分成c个子集D1, , Dc,ni为第i个子集的样本数,mi为样本均值:误差平方和准则:,散布
3、矩阵,类内散布矩阵:类间散布矩阵:总体散布矩阵:,散布准则,基于行列式的散布准则:基于不变量的散布准则:,准则函数的优化,穷举法优化:聚类准则函数的优化是组合最优问题,是一个NP难题,将n个样本分到c个类别有cn/c!种分法,穷举计算是不现实的,只能寻找次优方法解决;迭代最优化:随机设置初始聚类,计算将样本x从Di聚类移到Dj聚类是否能够使准则函数减小,减小则做此修改,否则不修改。,10.3 k-均值聚类,begin initialize 样本数n,聚类数c,初始聚类中心m1, , mc;do 按照最近邻mi分类n个样本;重新计算聚类中心m1, , mc;until mi不再改变; retur
4、n m1, , mc; end,k-均值聚类的特点,k-均值算法可以看作是对平方误差准则函数的贪心搜索算法;聚类结果受初始聚类中心的选择影响很大,不同的初始聚类中心会导致不同的聚类结果。,模糊k-均值聚类,k-均值算法的每一步迭代中,每一个样本都被认为完全属于某一个类别。作为改进版本,可以引入模糊的概念,假定每个样本以某种隶属度函数属于某个类别;样本x对第i个聚类的隶属度可以定义为:其中mi为第i个聚类的均值,b1为控制不同类别混合程度的自由参数。,模糊k-均值聚类算法,begin initialize n, c, b, m1, , mc;do 计算n个样本对c个类别的隶属度:重新计算各个聚类
5、的均值m1, , mc;until m1, , mc变化很小; return m1, , mc。,10.4 层次聚类,begin initialize c, cn, Dixi, i=1,n;do cc-1求最接近的聚类,如Di和Dj;合并Di和Dj;until c=c; return c个聚类; end,层次聚类的树图,相似度标尺,层次聚类的特点,层次聚类不用初始化聚类中心,因此聚类结果不受初始聚类中心的影响;需要定义类别之间的相似性度量;当样本数比较多时,算法的计算量比较大(算法第3步)。聚类结果同样是对平方误差准则函数的贪心优化结果。,Hausdorff距离,最大距离:最小距离:平均距离:
6、中心距离:,聚类算法存在的问题(一),准则函数的选择,平方误差准则Je比较大,平方误差准则Je比较小,聚类算法存在的问题(二),特征量纲的影响(缩放坐标轴),10.5 竞争学习,Hebb假设:如果一条突触两侧的神经元同时被激活,则该突触的强度将会增大;Hebb学习规则:第i个神经元与第j个神经元之间的连接wij,第i个神经元向第j个神经元的输出为p,第j个神经元的输出为a,则:其中为学习率。,竞争网络,样本的特征维数为d,输入层神经元数d+1,输入样本须归一化到单位长度;输出层对应c个类别;输出层神经元之间有侧向抑制连接,对于每一个输入样本,只有一个竞争层神经元被激活(称为胜元,输出1),其它
7、神经元被抑制(输出0)。,输入层,竞争层,竞争学习,begin initialize 学习率, 训练样本数n, 类别数c, 迭代次数k,初始权值w1, , wc;归一化所有训练样本和权值;do 随机选取一个x计算胜元: 权值修正:权值归一化:until 在k次重复中w无显著改变; return w1, , wc,竞争学习过程,10.6 自组织特征映射,自组织特征映射也称为Kohonen网络(SOFM, Self-Organizing Feature Map);SOFM采用的仍然是竞争学习规则,与竞争网络不同的是竞争网络每次只对一个胜元的权值进行调整,而SOFM则对以胜元为中心的一个邻域内的神经
8、元均进行调整;经过学习后的网络会具有空间拓扑有序性。,1维SOFM,网络拓扑结构,窗函数,输入层,竞争层,2维SOFM,网络拓扑结构,窗函数,y*,输入层,竞争层,SOFM学习算法,begin initialize 网络拓扑结构,权值,邻域(0),迭代次数T,学习率(0),t0;归一化所有训练样本和权值;do 随机选择样本x;计算胜元y*:调整权值:权值归一化:tt+1;until t=T其中(t)逐渐缩小范围,(t)逐渐减小。,SOFM和降维,10.6 谱聚类,谱聚类是一种新的聚类分析方法谱聚类通过求取矩阵的特征值和特征矢量实现聚类。令:x1, , xn 为样本集合,wij为样本之间的相似度
9、:相似矩阵W,Laplacian矩阵L:,谱聚类算法,计算相似矩阵W; 计算Laplacian矩阵L; 计算L的前k个(最小)特征矢量u1,uk; 用u1,uk作为列矢量构造矩阵U; y1,yn为U的行矢量,用K均值算法将其聚成k个类别。,例10.1,将19个样本分成2个聚类。x1=(0,0)t, x2=(1,0)t, x3=(0,1)t, x4= (1,1)t,x5=(2,1)t, x6=(1,2)t, x7=(2,2)t, x8=(3,2)t,x9=(6,6)t, x10=(7,6)t, x11=(8,6)t, x12= (7,7)t,x13=(8,7)t, x14=(9,7)t, x15=(7,8)t, x16=(8,8)t,x17=(9,8)t, x18=(8,9)t, x19=(9,9)t,特征值 特征值前2个特征值对应特征矢量,聚类结果,例10.2,多类别聚类(0,0), (0,1), (1, 0), (1,1), (0,10), (0,11), (1, 10), (1,11), (10,0), (10,1), (11, 0), (11,1), (10,10), (10,11), (11, 10), (11,11),特征值: 最大4个特征值对应的特征矢量:,原样本分布 K均值聚类 特征矢量矩阵的行矢量,