收藏 分享(赏)

第7章 判别分析.ppt

上传人:ysd1539 文档编号:6972620 上传时间:2019-04-29 格式:PPT 页数:40 大小:449.50KB
下载 相关 举报
第7章  判别分析.ppt_第1页
第1页 / 共40页
第7章  判别分析.ppt_第2页
第2页 / 共40页
第7章  判别分析.ppt_第3页
第3页 / 共40页
第7章  判别分析.ppt_第4页
第4页 / 共40页
第7章  判别分析.ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

1、zf,第7章 判别分析(Discriminate Analysis),2019/4/29,2,判别分析,一、判别分析的应用领域 二、费歇尔判别的思想 三、SPSS的判别分析判别函数的建立判别函数验证 判别函数的图形表示,主要内容,2019/4/29,3,7.1 判别分析的基本思想,一、什么是判别分析?判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)? 利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别判别分析的特点(基本思想)、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建

2、立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。判别分析的目的:识别一个个体所属类别,2019/4/29,4,判别分析的应用:无处不在 医学:例1:在医学诊断中,一个病人肺部有阴影,医生要判断他患的是肺结核、肺部良性肿瘤还是肺癌?肺结核病人、肺部良性肿瘤病人、肺癌病人组成三个总体,病人来自其中一个总体,可通过病人的指标(阴影大小、边缘是否光滑等)用判别分析判断他来自哪个总体(即判断他患的什么病?),2019/4/29,5,经济学: 例2:中小企业的破产模型 为了研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(

3、纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得相关资料,并构建判别函数。,2019/4/29,6,2019/4/29,7,2019/4/29,8,例3:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。考察指标有6个:1、X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数,2019/4/29,9,分析结果:将20个国家分为两类第1

4、类(基础设施落后):巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚第2类(基础设施发达):瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士 如果:我们想知道我国基础设施发展属于哪一类型? 运用判别分析依据:20个国家的分类信息构建判别函数,2019/4/29,10,二、判别分析的基本要求:1、分组类型在两组以上;2、每组样本(或案例)个数至少一个以上;3、解释变量必须是可测量的三、判别分析与聚类分析的比较:1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。2

5、、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。,2019/4/29,11,3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性(定类)变量;解释变量是定量变量。,2019/4/29,12,四、判别分析类型及方法(1)按判别的组数来分,有两组判别分析和多组判别分析(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则。SPSS的判别分析的输出结果以费

6、歇尔判别为主。,2019/4/29,13,7.2 距离判别,基本思想:即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类重心的距离,哪个距离最小就将它判归哪个类。,2019/4/29,14,2019/4/29,15,7.3费歇尔(Fisher)判别,所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法。,2019/4/29,16,两类Fisher判别示意图,X2,X1,G1,G2,2019/4/29,17,两类Fisher判

7、别示意图,X2,X1,G1,G2,y=c1X1+c2X2,2019/4/29,18,(一)基本思想设有A、B两个总体,分别有 个历史样本数据,每个样本有P个观测指标,每个样本可看作P维空间中的一点。Fisher借助于方差分析的思想构造一个线性判别函数:其中,判别系数 的选择应使得y值满足:(1)A类和B类的样本点群尽可能远离;(2)同一类的样本点尽可能集中。,2019/4/29,19,2019/4/29,20,2019/4/29,21,2019/4/29,22,(二)Fisher两类判别的计算步骤: 1、输入历史数据,计算 和 2、计算 3、解方程组 ,求出 ,建立判别函数4、对新样本作判别(

8、1)将新样本p个观测值带入判别函数,求出y值(2)确定临界值,做出判断。,2019/4/29,23,Fisher判别基本思想 可见, Fisher判别基本思想是投影,即将原来在R维空间的自变量组合投影到维度较低的D维空间去 ,投影的原则是使得每一类内的离差尽可能小,而不同类间投影的离差尽可能大。然后使用典型变量计算出各类别在低维空间中的重心坐标,给出的判别式也是用于计算各样品的坐标值,最后用各观测点离各类别重心距离的远近来做出所属类别的判断。,2019/4/29,24,Fisher判别的优势: Fisher判别的优势在于对分布、方差等都没有什么限制,应用范围较广。另外,用该判别方法建立的判别方

9、程可以直接用手工计算的方法进行新观察对象的判别,这在许多时候是非常方便的。在SPSS的Discriminant过程以fisher判别为主给出结果。,2019/4/29,25,Bayes判别 基本思想是认为所有P个类别都是空间中互斥的子域,每个观测都是空间中的一个点。他在考虑先验概率的前提下,利用Bayes公式按照一定准则构造一个判别函数,分别计算该样品落入各个子域的概率,所有概率中最大的一类就被认为是该样品所属的类别。 Bayes判别强项是进行多类判别,但要求总体呈多元正态分布,应用范围窄。,2019/4/29,26,例7.1:为了判定在过去两年里参加过海南旅游的家庭的突出特征,某研究者获得了

10、来自42个家庭的有关数据,数据见海南旅游.sav,试进行分析。,7.4 判别分析实例,2019/4/29,27,分析:本例分析前需要考虑的问题: 变量筛选问题:由于并未确定所有指标都对结果有判别作用,不能一次就建立好判别函数,而是采用逐步筛选法筛选出有意义的变量。其筛选过程与多元线性回归分析的逐步筛选过程相似。,2019/4/29,28,判别效果的验证 自身验证 外部数据验证 样本二分法 交互验证理论上最佳的验证方法是随机抽取一部分不进入判别函数的建立过程,等判别函数建立好后在对它们进行判别,此处记录少,故用交互验证法。,2019/4/29,29,例7.2:Fisher当初在进行有关判别分析方

11、法的开拓性工作时所使用的是鸢尾花资料,该数据由安德森收集,包含了刚毛、变色、佛吉尼亚这三种鸢尾花的花萼长、宽和花瓣长、宽,分析的目的是希望能够希望使用这四个变量来对花的种类进行区分,数据见iris.sav。,2019/4/29,30,一、 标准化的判别函数: Y1=-0.34629Z花萼长-0.5254Z花萼宽+ 0.845585Z花瓣长+0.612593Z花瓣宽 Y2=0.039366 Z花萼长+0.742082 Z 花萼宽 -0.38587 Z花瓣长+0.554527 Z花瓣宽,SPSS的判别结果,2019/4/29,31,二、未标准化的判别函数: D1=-0.06327花萼长-0.154

12、65花萼宽+ 0.19608花瓣长+0.299337花瓣宽-2.52642 D2=0.007192花萼长+0.218429花萼宽 -0.08948花瓣长+0.270964花瓣宽-6.98723,2019/4/29,32,三、判别结果的图形化显示:领域图实际上是将分析中得出的判别函数用图形的结果加以表达,当新案例根据判别函数计算出散点坐标后,即可被绘制在该图形中,该坐标点落在哪个范围,就应当属于哪个类别。联合分布图:展现样本中各类别在判别空间中的分布状况,实际上就是各样品点在低维空间的散点图。,2019/4/29,33,四、判别效果的验证 自身验证 外部数据验证 样本二分法 交互验证,五、判别新

13、样本所属类别,2019/4/29,34,六、贝叶斯判别 刚毛鸢尾花:Y=1.686816花萼长+2.69476花萼宽-0.87973花瓣长-2.28382花瓣宽-80.2679 变色鸢尾花: Y=1.100772花萼长+1.070119花萼宽+1.000877花瓣长+0.197345花瓣宽-71.1964 佛吉尼亚鸢尾花: Y=0.865205花萼长+0.746515花萼宽+1.646601花瓣长+1.694931花瓣宽-103.89,2019/4/29,35,2019/4/29,36, 指定分组变量及其取值范围。将分组变量从源变量窗口通过选择箭头选到分组变量窗口“Grouping varia

14、ble”。并从“Define Range”按钮定义分组变量的取值范围,给定最小值Minimum和最大值Maximum。指定判别函数中的自变量。将自变量从源变量窗口通过选择箭头选到自变量窗口。 选择使用自变量的方法。对于选定的自变量可以全部应用到判别函数中去,这是系统默认的使用全部自变量法“Enter independent together”。如果要对变量进行筛选检验,将使用选项逐步进入法“Use stepwise method”。使用该方法后,按钮“Method”将被激活,2019/4/29,37,统计量、矩阵和函数系数的计算按钮“Statistics”将打开统计计算窗口。,判别函数系数,贝

15、叶斯判别系数,非标准化判别系数,2019/4/29,38,分类方式和判别结果单击按钮“Classify”将设置分类所依据的判别先验概率和协方差矩阵,以及输出图形和显示结果,输出分析结果,输出各样本的分类结果 如判别类等,交叉检验结果,作图,生成一张包括 各类的散点图,分类显示 各个类的散点图,分界图,将坐标平面划分为 不同的区域,每个区域将代表一个类,2019/4/29,39,在SPSS数据文件中生成新变量 单击“SAVE”按钮,保存预测的组别,判别得分和各组成员的事后概率,建立一个标明每个样本 所属的类别的变量,生成一个判别得分变量,样本属于某类的概率,2019/4/29,40,Any Question?,Thank You!,进入第8章,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 建筑环境 > 建筑资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报