1、,遥感图像分类,任课教师:杨晓霞2013年3月,2,图像分类基本概念和原理 计算机分类的概念 判别函数与判别规则 影像空间与特征空间 特征空间中的距离 遥感图像分类过程 监督分类方法 非监督分类方法 提高分类精度的方法,内容大纲,遥感图像分类是图像信息提取的一种方法 遥感图像分类是遥感数字图像处理的重要环节,也是遥感应用最广泛的领域之一,遥感图像自动识别分类,在特征空间中,依据像元相似度的大小,归类相似的像元,分离不相似的像元,并给每一个像元赋类别值的过程 分类的总目标是将图像中所有的像元自动进行土地覆盖类型或土地覆盖专题的分类,什么是遥感图像计算机分类?,计算机分类实例,原始遥感图像,对应的
2、专题图像,遥感图像,遥感图像计算机分类流程框图,色调、颜色、阴影、形状、纹理、大小、位置、图型、相关布局遥感图像特征集,基于光谱的,基于空间关系的,统计分类 结构分类 模糊分类 神经网络分类 小波分析 专家系统遥感图像计算机分类,光谱模式识别,空间模式识别,新方法,为什么使用计算机分类?,将影像数据的连续变化转化为地图模式,以提供给用户有意义的信息 获得关于地面覆盖和地表特征数据的更深刻的认识 较目视解译客观,在分析大数据集时比较经济 可对复杂的多波段数据及其相互关系进行有效分析,光谱特征空间,光谱特征空间:以各波段图像的亮度分布为坐标轴组成的空间 同类地物在特征空间形成一个相对聚集的点集群
3、不同类地物的点集群在特征空间内一般是相互分离的,SPOT影像,真实二维特征空间示例,1-2,1-3,1-4,2-3,2-4,3-4,特征空间中的距离,“物以类聚”,而图像分类的依据通常是像元之间的相似性。相似性通常又采用“距离”来度量。 距离可以有不同的具体定义 几何距离:欧式距离、绝对值距离 统计距离:马氏距离,图像分类方法,按人工干预的程度不同,可以分为: 监督分类法 非监督分类法,分类步骤,选择合适的分类算法 用所选算法分割特征空间 根据像元在特征空间中的定位对每一个像元赋类别值 对分类结果进行精度评价,确定每个类别的样区 学习或训练 确定判别函数和相应的判别准则 计算未知类别的样本观测
4、值函数值 按规则进行像元的所属判别,监督分类的思想,判决函数:当各个类别的判别区域确定后,用来表示和鉴别某个特征矢量属于哪个类别的函数 判别规则:判断特征矢量属于某类的依据。当计算完某个矢量在不同类别判决函数中的值后,我们要确定该矢量属于某类必须给出一个判断的依据。 这种判断的依据,称之为判别规则,判决函数和判决规则,监督法分类,首先需要从研究区域选取有代表性的训练场地作为样本 根据已知训练区提供的样本,通过选择特征参数(如像素亮度均值、方差等),建立判别函数,据此对样本像元进行分类,依据样本类别的特征来识别非样本像元的归属类别,监督法分类,主要步骤 选择训练样本区 确定类别数 对每类选择足够
5、多的有代表性的样本 分类前分析样本区质量 选择合适的分类算法 分类结果的精度评价,准确性确保选择的样区与实际地物的一致性 代表性考虑到地物本身的复杂性,所以必须在一定程度上反映同类地物光谱特性的波动情况 统计性选择的训练样区内必须有足够多的像元,训练样区的选择,选择训练区,训练区与特征空间的联系,水,新城区,老城区,耕地,植被,选择样本区域,建立类别的判别函数,将样本数据在特征空间进行聚类,主要的监督分类方法,距离判别函数和距离判别规则 最小距离分类法 最近邻分类算法 平行六面体分类法 概率判别函数和贝叶斯判别规则 最大似然分类法,最小距离分类法,最近邻法,基本思想是设法计算未知矢量X到有关类
6、别集群之间的距离,哪类距离它最近,该未知矢量就属于那类 距离判决函数偏重于集群分布的几何位置 距离判别规则是按最小距离判别的原则,最小距离分类法,平行六面体分类法,以一个包括该集群的“盒子”作为该集群的判别函数 判决规则为若未知矢量X落入该“盒子”,则X分为此类,否则再与其它盒子比较 这种分类法在盒子重叠区域有错分现象,错分与比较盒子的先后次序有关,平行六面体分类法基本思想,最大似然分类法,最大似然分类法,地物类数据在特征空间中构成特定的点群 每一类的每一维数据都在自己的数轴上为正态分布,该类的多维数据就构成了一个多维正态分布 各类的多维正态分布模型各有其分布特征 利用各类的已知数据(训练区)
7、,求出均值、方差及协方差等特征参数,从而求出总体的概率密度函数 在此基础上,对于任何一个像元,通过求出每个像素对于各类别的归属概率(对于待分像元x,从属于分类类别k的概率),把该像素分到归属概率最大的类别中去,最大似然分类法,利用概率判别函数与贝叶斯判别规则进行分类 优点: 考虑特征空间中类别的形状、大小和定位 缺点: 计算量大,计算时间长 假定地物光谱特征呈正态分布,根据应用目的和区域,有选择的决定分类类别,避免出现一些不必要的类别 可以控制训练样本的选择 可以通过检查训练样本来决定训练样本是否被精确分类,从而避免分类中的严重错误,分类精度高 避免了非监督分类中对光谱集群的重新归类 分类速度
8、快,监督法分类的优点,主观性 由于图像中间类别的光谱差异,使得训练样本没有很好的代表性 训练样本的获取和评估花费较多人力时间 只能识别训练中定义的类别,监督法分类的缺点,非监督分类的思想 主要非监督分类方法 K-均值法 ISODATA 非监督分类的特点 分类后处理 分类后的误差分析,内容大纲,在没有先验类别(训练场地)作为样本的条件下,即事先不知道类别特征,主要根据像元间相似度的大小进行归类合并(将相似度大的像元归为一类)的方法 根据图像数据本身的统计特征及点群的分布情况,从纯统计学的角度对图像数据进行类别划分,非监督分类,利用事先定义的参数确定特征空间中类别的位置,然后确定单个像元是否属于某
9、个类别,聚类,一般的聚类算法是先选择若干个点作为聚类的中心 每一中心代表一个类别,按照某种相似性度量方法(如最小距离方法)将各点归于各聚类中心所代表的类别,形成初始分类 然后由聚类准则判断初始分类是否合理,如果不合理就修改分类,如此反复迭代运算,直到合理为止,聚类过程,按照某个原则选择一些初始聚类中心 计算像元与初始类别中心的距离,把像素分配到最近的类别中,聚类过程,计算并改正重新组合的类别中心 过程重复直到满足迭代结束的条件,聚类过程,仅凭遥感影像地物的光谱特征的分布规律,即自然聚类的特性,进行“盲目”的分类 其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性;其类别的属性是通过分
10、类结束后目视判读或实地调查确定的,非监督分类,K-均值法(K-means Algorithm) 迭代自组织数据分析技术方法(Iterative Self-Organization Data Analysis Techniques,ISODATA),主要的非监督分类方法,K-均值法,通过自然的聚类,把它分成8类,K-均值算法的聚类准则是使每一聚类中,像元到该类别中心的距离的平方和最小 基本思想:通过迭代,逐次移动各类的中心,直至得到最好的聚类结果为止,K-均值法,(1)确定类别数并各类的初始中心:z1(0), z2(0), zK(0),K为类别数。初始中心可任意选取 初始中心的选择对聚类结果有一
11、定影响,初始中心的选择一般有以下方法: 根据问题的性质,用经验的方法确定类别数K,从数据中找出从直观上看来比较适合的K个类的初始中心 将全部数据随机地分为K个类别,对计算每类的重心,将这些重心作为K个类的初始中心,K-均值法,(2)择近分类,即将所有像元按照与各中心的距离最小的原则分到K个聚类中心 (3)计算新中心。待所有样本第i 次划分完毕后,重新计算新的集群中心zj(i +1), j=1, 2, , K (4)如果聚类中心不变,则算法收敛,聚类结束;否则回到(2),进入下一次迭代,K-均值法,优点:实现简单 缺点: 过分依赖初值,容易收敛于局部极值 在迭代过程中没有调整类数的措施,产生的结
12、果受到所选聚类中心的数目、初始位置、类分布的几何性质和读入次序等因素影响较大 初始分类选择不同,最后的分类结果可能不同,K-均值法,Iterative Self-Organization Data Analysis Techniques“迭代自组织数据分析技术方法”的简称 可以自动地进行类别的“合并”和“分裂”,从而得到比较合理的聚类结果,ISODATA,(1)初始化,设置参数; (2)选择初始聚类中心; (3)按一定规则(如距离最小)对所有像元分配类别; (4)计算并改正重新组合的类别中心; (5)类别的分裂和合并; (6)如果达到迭代次数或者两次迭代之间类别均值变化小于阈值,则结束迭代;否
13、则,重复(3)-(6); (7)确认类别,对结果进行精度评估,ISODATA,基本同K-均值法,但K-均值法的类别数是从始至终固定的,而ISODATA方法则是动态调整类别数的,K :希望得到的类别数 N :所希望的一个类中样本的最小数目 S :类的分散程度的参数(如标准差、方差) C :类间距离的参数(如最小距离) L :每次允许合并的类的对数 I :允许迭代的次数,ISODATA参数的设定,决定类的“分裂”与“合并”,结束迭代的条件,合并(类数-1) 每一类中的像元个数少于期望的类别最少像元数N 类别的个数大于期望的类别数K的2倍 分裂(类数+1) 类别的标准差大于类别标准差阈值S 类别的个
14、数小于期望的类别数K的1/2 当类别数在一定范围内,类别中心间的距离在阈值以上,类别内的方差的最大值在阈值以下,ISODATA调整类别数的准则,两次迭代之间,如果上一次和这一次的中心不变,或者变化小于一个阈值,说明聚类结束 如果迭代次数达到了预设值I ,那么即使不收敛,也强行结束,ISODATA判断迭代结束,类别数:20 迭代次数:20,ISODATA,类别数:10 迭代次数:10,ISODATA,优点: 不需要预先对待分类区域有广泛的了解 需要较少的人工参与,人为误差的机会减少 小的类别能够被区分出来 缺点: 盲目的聚类 难以对产生的类别进行控制,得到的类别不一定是想要的类别 计算速度慢,非
15、监督分类方法的特点,监督分类的缺陷在于,必须在分类前确定样本,难度大、效率低 通过非监督法将一定区域聚类成不同的单一类别,监督法再利用这些单一类别区域“训练”计算机 使分类精度得到保证的前提下,分类速度得到了提高,非监督分类与监督分类的结合,遥感影像经分类后形成的专题图,用编号、字符、图符或颜色表示各种类别,分类后处理,原始遥感图像,对应的专题图像,用光谱信息对影像逐个像元地分类,在结果的分类地图上会出现“噪声”,分类后处理,产生噪声的原因有原始影像本身的噪声,在地类交界处的像元中包括有多种类别,其混合的幅射量造成错分类,以及其它原因等 另外还有一种现象,分类是正确的,但某种类别零星分布于地面
16、,占的面积很小,我们对大面积的类型感兴趣,因此希望用综合的方法使它从图面上消失,分类后处理,分类后处理,多数平滑:平滑时中心像元值取周围占多数的类别(少数服从多数原则),平滑前后的一个例子,分类精度评价 混淆矩阵 Kappa系数 制约分类精度的因素 提高分类精度的方法,分类后的误差分析,混淆矩阵是由n行n列组成的矩阵,用来表示分类结果的精度 混淆矩阵是通过将每个像元的位置和地面参考验证信息与计算机分类结果中的相应位置和类别来比较计算的,混淆矩阵(Confusion Matrix),63,混淆矩阵的每一列代表了地表实测值(参考验证信息),每一列中的数值等于地表真实像元在分类图像中对应于相应类别的
17、数量 混淆矩阵的每一行代表了计算机的分类信息,每一行中的数值等于计算机分类像元在地表真实像元相应类别中的数量,混淆矩阵,有150个样本数据,这些数据在计算机分类结果中被分成3类,每类50个。分类结束后得到的混淆矩阵为:类1的50个样本有43个分类正确,5个错分为类2,2个错分为类3 类2的50个样本有45个分类正确,2个错分为类1,3个错分为类3 类3的50个样本有49个分类正确,0个错分为类1,1个错分为类2,混淆矩阵,矩阵主对角线上的数字就是分类正确的像元数,主对角线上的数字越大,分类精度越高;主对角线以外的数字就是错分的像元数,这些数字越小,错分率就越小,精度就越高 精度评估的指标 总精
18、度 用户精度 生产者精度(制图精度),混淆矩阵,总精度:由正确分类的总像元数(沿着主对角线上的元素的和)除以所包含的总像元数来计算 (43+45+49)/150=91.3%,混淆矩阵,用户精度由每一类别被正确分类的像元数目除以被分作该类的总像元数(行元素之和) 这个数字表示一个像元被分到指定类别的可能性,这个指定类别代表了地面的实际类别 类1的用户精度:43/50=86% 类2的用户精度:45/50=90% 类3的用户精度:49/50=98%,混淆矩阵,生产者精度由每一类中正确分类的像元数(位于主对角线上)除以该类用做训练样区的像元数目(列元素之和) 这个数字表明指定覆盖类型的训练样区集的像元
19、被分类后,它的效果有多好 类1的生产者精度:43/45=96% 类2的生产者精度:45/51=88% 类3的生产者精度:49/54=91%,混淆矩阵,例:森林类别的生产者精度为84%,用户精度为60%。 表示在分类结果中有84%的森林被正确的分类为森林,但所有分类为森林的地区只有60%的地区真正属于森林这个类别,混淆矩阵,m =误差矩阵中行的数量(即总的类别数) xii=第i行第i列上的像元数量(即主对角线上正确分类的数量) xi+=在第i行的总像元数量 x+i=在第i列的总像元数量 N =用于精度评估的总像元数量,Kappa系数,分类总体精度与Kappa的区别: 总体精度只用到了位于对角线上
20、的像元数量 Kappa则既考虑了对角线上被正确分类的像元,又考虑了不在对角线上的各种漏分和错分错误,Kappa系数,遥感图像的制约 地物本身的复杂性 传感器的性能 分类方法的制约 目前的分类方法是基于统计的方法,计算机处理的对象是单个像元,属于单点分类 地物空间结构的信息没有利用,制约分类精度的因素,同物异谱:同类地物具有不同的光谱特征。例如:同一类作物,生长状态不同,光谱特征有差异 同谱异物:不同的地物可能具有相似的光谱特征。例如:不同的植被类型可能有相似的光谱特征,制约分类精度的因素,不同含水量的土壤的波谱曲线,不同叶绿素浓度海水的波谱曲线,74,目视判读用到的信息与计算机自动分类所用信息的区别,目视判读用到的信息与计算机自动分类所用信息的区别,目前计算机能够利用的信息还是很有限的,一方面从地物本身的复杂性着手,一方面从分类方法着手 提高分类前预处理的精度 分类树,所谓的分层分类 混合分类 多种信息的复合 与GIS的集成 基于目标的遥感图像分类,提高分类精度的方法,遥感图像分类的基础是什么? 影响分类精度的因素有哪些? 什么是特征变换?我们所学的各种特征变换有何特点? 比较最大似然法与最小距离法的优缺点 比较K均值法与ISODATA法的优缺点 比较监督分类与非监督分类的优缺点,思考题,