1、监督分类的基本原理及算法,讲解者:彭彬,统计模式识别,统计模式识别是研究每一个模式的各种测量数据的统计特性,按照统计决策理论来进行分类。,识别,分析,模式识别的大致过程,图中的上半部分是识别部分,即对未知图像进行分类;下半部分是分析部分,即由已知判别的训练样本求出判别函数及判别规则,进而用来对未知类别的图像进行分类。右下脚部分是自适应处理(学习部分),当训练样本根据某些规则求出一些判别规则后,再对这些顺利样本逐个进行检验,观察是否有误差。这样不断的改进,直到满足要求为止。 从图中可以看出统计模式识别部分主要是特征处理和分类俩部分。,统计模式识别,特征处理:包括特征选择和特征变换 特征选择:指从
2、原来的M个测量值集合中,按某一准则选择出一个N维(NM)的子集作为分类特征。要选取具有区分性,可靠性,独立性好的少量特征。(下面介绍俩种方法) 穷取法:从M个原始的测量值中选出N个特征,一共有C 种可能。对每一种选法用已知类别属性的样本进行试分类,测出其正确分类率,分类误差最小的一组特征是最好的选择。 最大最小类对距离法:首先在K个类别中选出最难分离的一对类别,然后选择不同的特征子集,计算这一对类别的可分性,具有最大可分性的特征子集就是该方法选择的最佳特征子集。,m,n,特征处理,特征变换:是将原有的M个测量值集合通过某种变换,然后产生N(NM)个特征用于分类。 第一种情况:从减少特征之间的相
3、关性和浓缩信息量的角度出发,根据原始数据的统计特性,用数学的处理方法使用尽量少的特征最大限度的包含所有原始数据的信息。主成分常用于这种。 第二种:根据对测量值所反映的物理现象和待分类类别之间关系的认识,通过数学运算产生一组新的特征,使得待分类别之间的差异在这组特征中更明显,有利于分类的结果。监督分类:是根据预先已知类别名的样本,求出各类在特征空间的分布,然后利用它对未知函数进行分类的方法。,特征处理,常 用 的 判 别 涵 数,线性 判别 函数,距离 判别 函数,统计 判别 函数,绝对距离,费歇判别法,贝叶斯判别法,马氏距离,欧几里得 距离,最大似然法 原理,统计分类法,距离函数,距离函数,距
4、离函数,费歇尔判别法,费歇尔(Fisher)准则: 要使判别函数值能充分地区分开地理类型,就需要使各类均值之间的差别最大 (即使不同类之间的差别最大),而使各类内部的离差平方和为最小 (即使同类间的差别最小)。换句话说,即要求类间(或组间)均值差与类内(或组内)方差之比最大 ,这样就能把地理类型区分得最清楚,这就是费歇尔准则的基本要点 。,图中:横坐标X1代表 变量x1,纵坐标代表变 量x2,其中俩个 区域分别表示A类 和B类总体的等概率 点的轨迹。如果只用X1 和X2来表示A和B类的的分布概率和密度,则很难将俩个数据分清楚,因为A和B类的数据在俩个坐标轴上都有较大的部分重叠。,费歇尔判别法,
5、只有将俩类的数据投影到 直线Y1上,俩类重叠部分 显著减少,直线Y上所代 表的俩个变量的现象组合 ,即可看做是线性判别函 数。C点可以看做是俩个 样本的判临界值,将一维 空间划分成俩个空间C可 以看做是A类和B类的判 别指标。,费歇尔判别法,只有将俩类的数据投影到 直线Y1上,俩类重叠部分 显著减少,直线Y上所代 表的俩个变量的现象组合 ,即可看做是线性判别函 数。C点可以看做是俩个 样本的判临界值,将一维 空间划分成俩个空间C可 以看做是A类和B类的判 别指标。,依费歇准则的要求,就要根据已知的地理特征值进行线性组合,构成一个线性判断函数y即: y=c1*x1+c2*x2+cm*xm 其中,
6、 c1,c2, cm 为待求的判别函数系数,它可反映各要素或特征值的作用方向、分辨能力和贡献率的大小。 只要确定了ck(k=1,2,3),判别函数y也就确定了。Xk为已知各要素(变量)的特征值。 为了使判别函数(y)能充分反映出A、B两种地理类型的差别,就要使两类之间均值差,费歇尔判别法,尽可能大,而内部的离差平方和尽可能的 少。 从而要使I尽可能的大。,费歇尔判别法,可以一求极值的原理使I 取最大值,从而求出Ck,进而算出:当判别函数求出后,为判定某一地点的地理归属问题,还需计算出判别指标值Yc.判别临界值可用加权法求:,费歇尔判别法,式中,Na为资料A类的组数,Nb为资料B的组数。,费歇尔
7、判别法,最大似然法(贝叶斯),最大似然法,最大似然法,最大似然法,最大似然分类,最大似然法,神经网络识别,神经网络识别,精度评价,精度评价是对俩副图像进行比较,其中一幅是要进行评价的遥感分类图像,另一幅是假设精确的参考图。 误差矩阵与精度指标: 误差矩阵(也称混淆矩阵)用来表示精度评价的一种标准格式。误差矩阵是N行N列的矩阵,其中N代表列别的数量。,精度评价,精度评价,(4)漏分误差(ommission):指对于地面观测的某种类型,在分类图上任取一样本,其被错划分为其他不同类型的概率,也就是实际的某一类地物实际上有多少被错误地分类到其他类别。 (5)错分误差(commission):指对于所分
8、出的某一类型,任取一个样本,它与实际地面观测类型不同的概率,也就是图像中被划分某一类地物实际上有多少应该是别的类别。漏分误差和制图精度互补,而错分误差与用户精度互补。,当检查误差矩阵中各种数据时,其地图用户看到的是分类图中各个类别的可信度,而制图分析者关心的是用于产生这张分类图的方法的好坏。从用户角度,误差矩阵显示的是用户精度,从制图者角度,其显示的制图精度。计算俩者时,其主要的区别是精度计算时的基数。对制图精度,基数是参照图上各类别的总量;而对用户精度,基数是被评价图像上的各类别的总数量。,精度评价,如下表:对居民区,其制图精度为181/262,即69.08%;而用户精度为181/244.即
9、74.18%。用户精度指示的是这幅地图的可靠性。表中表示被评价图像中表明为居民区的像元中,有74.18%对于于实际的居民区;而制图精度则告诉制图者在实际为居民区的地表,有69.08%被正确地分类到居民区这一类中。,精度评价,Kappa分析:在对误差矩阵进行分析得出其总体精度,用户和制图精度后,我们往往仍需要一个更客观的指标来评价分类质量,比如俩副图像之间的吻合度。利用总体精度,用户精度或制图精度的一个缺点是像元类别的小变动可能会导致其百分比变化。运用这些指标的客观性依赖于采样样本以及方法。Kappa分析 采用另一种离散的多元技术,考虑矩阵的所有因素,用以克服上面的缺点。它是一种测定俩副图像之间的吻合度和精度的指标,其公式为:,精度评价,精度评价之KAPPA分析,A,B,A,B,X1,X2,A,B,A,B,Y2,Y1,