收藏 分享(赏)

第十二章 非参数判别分析与非参数聚类(非参数统计,西南财大).doc

上传人:gnk289057 文档编号:5944148 上传时间:2019-03-21 格式:DOC 页数:8 大小:234KB
下载 相关 举报
第十二章 非参数判别分析与非参数聚类(非参数统计,西南财大).doc_第1页
第1页 / 共8页
第十二章 非参数判别分析与非参数聚类(非参数统计,西南财大).doc_第2页
第2页 / 共8页
第十二章 非参数判别分析与非参数聚类(非参数统计,西南财大).doc_第3页
第3页 / 共8页
第十二章 非参数判别分析与非参数聚类(非参数统计,西南财大).doc_第4页
第4页 / 共8页
第十二章 非参数判别分析与非参数聚类(非参数统计,西南财大).doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、核函数方法和近邻估计 1第十二章 非参数判别分析与非参数聚类第一节 非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判 别法。 这些判别法都需要估 计总体的参数,而贝叶斯判别时,我们还指定了总体服从正态分布。在非参数 统计中,不 对变 量的分布做任何假设,这里主要有两种方法,BAYES 方法和近 邻方法进行非参数判别分析。设有 M 个类,用 Y 记一具体的对象所属的类,Y 可能的取值为 。设有了 n 个M,21经过明确判定的样本,第 i 个样本的指标为 ,所属的类为 ,n 个样本记iX)(iY,常称为“ 训练样本 ”。这

2、一名称的来由使因为日后进,21nnZX行的判别工作依赖,因此可以 说它们“ 训练了”人们如何取进行判别。非参数方法是基于组概率密度函数的非参数估计。每 组的非参数密度估 计核产生的分类准则采用核方法或 k 最近邻方法。马氏距离或欧氏距离用来确定样品的接近程度。二、核方法1、Bayes 方法概念设有 M 个总体 分别具有概率分布密度 ,出现 M 个总体的先MG,1 )(),(1xff验概率分别为 , , 。p, 0i1Mp贝叶斯判别的规则将样品判给 最大的类,即)()|(00xfPxjkk如果 ,判ma)(1fpxfpjMjllGY2、Bayes 方法和密度函数估 计的联系在非参数判别中,通常

3、完全未知,有时 未知。一个jfj ,32,)( kp,1直观的想法是直接估计 和 ,然后将得到的估计代入判别xj1,Mp,1规则中进行计算。核函数方法和近邻估计 2具体的步骤是:如果已知某事物可分为 M 个总体: , ,该事物的特性 P 个1G2M指标描述,在进行分析之前,已观察到在各个总体的样本。, , ,)1()1(2)()(2)()( 1121 pnnpxx )()( )()(2)(1)(2)()( 112kpnknkkpkxx )()(为 维密度函数, 为 窗宽, 总体 密度函数的一个核估计可Kh,3,MjG以表示为:jniipjj hXxKxf1)()( ),2,1(j npjj其中

4、 ,,32,M Mn21将估计出的先验概率和密度函数代入判别规则中,得到后验概率, 进行比较。使用该估计需要一个前提,即全部训练样 本是从大的总体中随机抽 样取得的,否 则便没有意义了。现设当 时,X 的条件分布有概率密度函数 , ,iy)(xfi ),21nipYP)(则 的边缘分布为 。已知 时, 的条件概率为)()(1xfpxfiMiXiY/fpii判别规则为 ,判)(max)(1pfjMjllGx,判jninipjMjl hXKxfp11a)( l三、K 近邻方法1、概念记样本 ,要由样品指标 x 去判别其所属的类 Y,Y 可,21nn YYZXX能的取值为 。M2将 按其与 X 的距

5、离排列,如 ,n1, xXxXRnRR 21距离相等时,按足标小的在前的原 则处理。指定一个介于 1 到 n 之间的自然数 k,挑出最接近 X 的 k 个,即 ,与他 们匹配的 Y 是 。kk,21 kkY,21核函数方法和近邻估计 3定义:以 记为 中等于 的个数 。定义判别函数ilkkY,21 i),21(Mi如下:若 是 中的唯一最大者,则定义 ;若)()(nZxknkjlMl,21 jxnk)(中有若干个同时达到最大者,比方 说是 ,则再按等概率在Mll,21 cjjl,21中确定一个为 。cjj21 )(xnk2、近邻方法与概率密度的最近 邻估计的关系用近邻方法估计估计密度函数的方法

6、是,先固定一个介于 1 到 n 之间的自然数 ,对nk任何 ,计算 ,然后 的密度x xXxXRnRR 21 Mjxfj ,32,)(函数估计和先验概率的估计为:|2)(kRjjxnlfnpjj判别规则为:,判12ma)(1RjjMjl Xxnlxfp lGx, 12a)(1RjMjl xnlxfp等价的判别函数,则判jll1malG四、SAS/DISCRIM 过程中的非参数判别的选项非参数判别方法是基于组概率密度的非参数估计。每 组的非参数密度估 计和产生的分类准则采用核方法和 K 最近 邻方法得到。马氏和欧氏距离能够用来确定接近的程度。采用 k 最近邻 方法时, 马氏距离基于合并协方差阵;

7、采用核方法时,马氏距离基于 单个组那方差矩阵 或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度, x 术语各组的喉炎概率得到评估。观测 x 盼归第 t 组是因为 p(t/x)最大。METHOD=NPAR采用非参数判 别方法。为 最近邻方法指定一个 值。观测 x 分如一个 组基于从 x 的 k 个最劲力kKk核函数方法和近邻估计 4得到的信息。为核密度估计指定一个半径 r。rR注意,不能同时选用 K=选项与 R选项。KERNEL=BIWEIGHTBIW 或 EPANECHNIKOVEPA 或 TRIWEIGHTTRI 或UNIFORMUNI为估计组 密度指定一个核

8、密度,缺省 为 KERNEL=UNIFORMUNI。METRIC=DIAGONAL|FULL|IDENTITY为平方距离的 计算指定度量。缺省为METRIC= FULL。第二节 非参数聚类分析非参数聚类过程利用某种基于非参数密度估计的算法对观测得到的数据进行分类。Sas的 modeclus 模 块产生的数据集包括密度估计和聚类的结果,一系列的统计量,其中包括近似的 p 值,以及用不同的算法,不同的光滑参数和不同的显著性水平得到的结果。我们知道,密度最大的数是众数,及 mode。非参数聚类方法,类是由概率密度函数的众数定义的,一个类大致可以定 义为概率密度函数的一个局部最大点附近的区域。给定一个

9、足够大的样本,非参数分析方法可以不同大小,不同分散程度和形状极不规则的类。非参数聚类分析方法对找出具有相同大小和分散程度的类效果也好。一、问题的引入如下虚构的数据进行分类data a;inout x y ;cards;18 18 20 22 21 20 12 23 17 12 23 25 25 2016 27 20 13 28 22 80 20 75 19 77 23 81 2655 21 64 24 72 26 70 35 75 30 78 42 18 5227 57 41 61 48 64 59 72 69 72 80 80 31 5351 69 72 81;option ps=35 ls

10、=78;proc plot;plot y*x/hpos=52 vaxis=0 to 80 by 20;核函数方法和近邻估计 5run;X908070605040302010Y908070605040302010从散点图上看有三类,其中,左下角的类最紧,右下角的类要分散些,上边的类拉得很长,如果我们进行系统聚类,很难把它们聚为一类。二、密度估计为了方便起见,可以把以观测 点 为中心的球称为 的邻 域,在 的邻域内的观测点ixixix称为 的近邻点。ix:第 个 维的观测点;ip: 和 的距离;),(yxd:样本容量;n:在 的邻域内的观测点数(含 本身);ii ix:在 的邻域内的观测点数(不含

11、 本身); iixi:在 的邻域内的观测的指标集(含 本身); iNi ix:在 的邻域内的观测的指标集(不含 本身);iixi: 的近邻的体积;i:在 处的密度估计值;ifix:在 处的交叉确认密度估计值;ii:被分配到类 的观测点的指标集kCk核函数方法和近邻估计 6:变量的维数;p:第 个变量的方差;ls的密度的估计值为: ixiinf即以该点为中心的球内的所含观测个数 与样本容量 的比值乘以球的体积。in非参数密度估计使用球均匀核,球半径是固定的,也可以是可变的。在某点的密度估计值是以该点为中心的球内所含观测值除以样本量和球的体积。球的大小由光滑参数确定,光滑参数自定,通常要试几个光滑

12、参数。三、SAS 的非参数聚类过程类的个数是光滑参数的函数,在光滑参数增大时, 类的个数由减小的 趋势,但不是严格单调下降的。一般来说应该指定几个不同的光滑参数,看看类的个数的变化。SAS 的 MODECLUS 过程使用的聚类方法采用固定的或可变半径的球型核进行密度估计相似。对固定半径邻域,用选项 CR或 R指定半径值作为欧氏距离。对可变半径邻域,用选项 CK或 K指定在球内要求的相邻点数。METHODn 1是为了指定使用哪种聚类分析方法。共有 7 种,06 种。多数情况下选择 METHOD 1 和 METHOD6。1、 METHOD=0最初把每个观测当作一个单独的类。如果一个 类中有一个 观

13、测是另一个中某个观测的相邻点,则把两个类合并。该方法没有用密度估计。对固定的类半径, 这些类可以通过最短距离的树状图在指定的半径上切割。METHOD1。最初把每个 观测 当作一个单独的类。对每一个观测点,找估计密度较大的最近的相邻点。如果这样的相 邻点存在,则把观测值点所属的类和指定的相邻点所属的类合并。接着考虑这样一些观测 点,其估计密度等于某些相 邻点的估计密度但不小于任何相邻点的估计密度,然后合并含有这样观测的类: 每个类含有该观测的一个相邻点,使得在这类内最大密度估计等于在那个观测上的密度估计; 这个类包含观测的相邻点,使得这类内的最大密度估计超过在这观测上的密度估计。METHOD2。

14、最初把每个 观测 当作一个单独的类。对每一个观测点,找估计密度最大的且超过该观测点其密度估计的最近的相邻点。如果这样 的相邻点存在, 则把观测值点所1 参考 SAS/STAT 软件使用手册 P.681核函数方法和近邻估计 7属的类和指定的相邻点所属的类合并。接着考 虑这样一些 观测点,其估 计密度等于某些相邻点的估计密度但不小于任何相邻点的估计密度,然后合并含有这样观测的类。METHOD3。最初把每个 观测 当作一个单独的类。对于观测点 ,找出相邻点 ,使ixjx得 达到最大值。如果斜率是正的, 则合并观测 所属的类和观测 所属的类。然),(jijxdf i j后考虑这样一些观测点,其估 计密

15、度等于某些相邻点的估 计密度但不小于任何相邻点的估计密度,与 METHOD=1 相同的 处理方法。METHOD4。等价于两 阶段密度估 计法。METHOD5。等价于两 阶段密度估 计法。METHOD6。开始 时所有观测 都没有分类。第一步:找到一些种子,每个种子是一个单独的观测点,在,在这一点的密度估计不小于它的任何相邻点的密度估计。如果规定选项 MAXCLUSTERS=n,则只保留 n 个密度估计最大的种子。第二步:以密度估计由大到小的顺序逐个考虑每个种子:1)如果当前这个种子已被分配, 则考虑下一个种子。否 则形成一个包含当前 这个种子的新类。2)如果有某个未被分配的种子是这个类中一个成员

16、的相邻点,或者与某个成员有共同的相邻点,则把这个种子加入 这个类;重复这个步骤直到没有未被分配的种子 满足这个条件为止。3) 如果一些种子属于这个类 ,则把这些种子的所有相邻点加入这个类。4)考虑每个没有被分配的观测点。 计算属于当前类的相邻 点的密度估计的 p-1 次幂的和与它的所有相邻点密度估计的 p-1 次幂的和的比率,其中 P 是由选项 POWER指定的值,缺省是为 2。设 是当前观测点,K 是当前类的指标,计算比值ixikiNjpjCjjikf1如果这个比值超过 0.5,而且超 过 THRESHOLD指定的值,则个观测值归到到第 k个类。重复这个步骤直至没有未被分配的种子满足该条件 为止。核函数方法和近邻估计 8第三步:以密度估计由小到大的顺序把没有分配的观测点排成一类,然后重复下面的步骤:1、 去掉这个序列中的第一个观测点,比如 说是 。ix2、 对每个 k,计算 。ikiNjpjCjjikf13、 如果这些 的最大值超过 THRESHOLD指定的值, 则把 归于相ikiNjpjCjjikf1 ix应类。SAS 程序:PROC MODECLUS ; BY variables ; FREQ | FREQUENCY variable ; ID variable ; VAR | VARIABLES variables ;

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报