收藏 分享(赏)

建模培训讲座.ppt

上传人:hskm5268 文档编号:4574738 上传时间:2019-01-02 格式:PPT 页数:116 大小:1.86MB
下载 相关 举报
建模培训讲座.ppt_第1页
第1页 / 共116页
建模培训讲座.ppt_第2页
第2页 / 共116页
建模培训讲座.ppt_第3页
第3页 / 共116页
建模培训讲座.ppt_第4页
第4页 / 共116页
建模培训讲座.ppt_第5页
第5页 / 共116页
点击查看更多>>
资源描述

1、建模培训讲座 第二讲 统计模型与SAS软件,理学院 吴有炜,7月10日 第一部分 SAS与Excel数据 第二部分 统计推断,一.SAS与Excel数据的转换 1.SAS数据输入 2.调用Excel数据 3.SAS输出结果的保存与转化成Excel数据 二.数据图表与曲线,第二部分 统计推断,一.假设检验与区间估计模型 二.假设检验的各种类型与结论,7月11日 第三部分 方差分析与列联表分析,一.单因素方差分析 二.多因素方差分析 三.列联表分析,7月12日 第四部分 回归分析,1多元线性回归模型与显著性检验 2非线性回归模型 3相关性分析,7月13日,第五部分 多目标综合 第六部分 主成份分析

2、 第七部分 聚类分析与判断分析,第一部分 SAS与Excel数据,一.SAS与Excel数据的转换 1.SAS数据输入 2.调用Excel数据 3.SAS输出结果的保存与转化成Excel数据 二.数据图表与曲线,附录一:SAS数据输入和调用Excel数据、SAS输出结果转化成Excel表格,SAS一维数据输入:data E21; input N $ x1 x2 x3; /*说明N是字符型变量,N后加$*/y=x1+x2;z=x1*x2;u=x1*3; /*用加,乘,乘方产生新变 量*/ cards; /*说明以下输入数据*/A 1.1 2.6 3.8 B 4.5 5.7 6.0 C 7.6 8

3、.2 9.7 ; /*空语句说明数据输入结束*/ Proc print; /*有此打印语句则在output窗口有输出,否则只在 explorework储存*/ run; SAS程序不区分大小写字母 请看演示,SAS数据输入(带三个下标的一维变量Rijr),SAS数据输入(带二个下标的二维变量(x,y)ij),SAS输出结果转化成Excel表或进行修改的方法,将SAS的输出结果保存后,重点Program Editor,点File,点Open,”文件类型”选中”All Files”,打到该文件后,右击,选中记事本打开方式,重新存入某位置(要记住该位置) (如果需要修改或解释此时可在记事本上进行);

4、 打开空白Excel,数据导入外部数据导入数据找到记事本所在位置并打开按提示进行 Example:将SAS数据文件f66转化成Excel文件 1.打开SAS,运行p25 2.点击save保存(设起名为f66out) 3.(点击Program Edit后)点File,Open,文件类型选择为All File后找到保存的文件,右击文件名f66out,选择用记事本打开,并重新保存在某位置。 4.打开空白Excel,数据导入外部数据导入数据找到记事本所在位置并打开f66out 按提示进行(选择按”固定宽度”),最后对Excel文件保存,二.图表及散点图,一.图表图表-使你所要的资料一目了然,图表是当中

5、最常用的统计方法,它包括折线图、长条图、圆形图以及带状图等等。 1. 折线图(趋势图、历史线图)-以时间为横坐标,给出定量变量(计量、计数)的数据随时间的变化去年度某快餐店的外卖数统计表如下(单位:次)当你手头有这样一个数据的时候,你如何直观地怎么向你的主管汇报? 我们可以用Excel的折线图功能来做一个图表给主管看(用Excel操作过程见附录1,): 点此超链接,这样是不是很直观呢?折线图可以让人很直观的看到不良异常的变化状况.掌握各时段的具体数据.所以折线图的作用是能让人很直观的看到你想了解的数据.,2. 长条图(柱形图)-以定性变量的各水平为横坐标对各水平的指标值进行比较 如果你是人事小

6、姐,老板要你报告05年度的人员流失情况,你会用什么方式去汇报?直接一个一个同老板讲吗?肯定不行,老板没有那么多时间听你的长篇大论,也不利于他了解真实的状况.这个时候你就可以用到长条图了. 数据如下:用Excel作长条图(作图操作方法点此超链接附录2)如下:,3. 圆形图(饼图)- -以定性变量的各水平为扇状(由扇状角度)对各水平的指标值进行比较 圆形图也叫扇状分布图,因为它的项目成扇状分布而得名.它能使数据更清晰的表示出来,它一般用于同类型均等地位的数据的统计(这儿也可以把部门看成定性变量,这个定性变量有五个(状态)水平,而金额看成定性变量每个水平的取值,圆形图可以在定性变量的不同水平间进行比

7、较),比如项目的分布、比例分配等。同样的,我们来做个例子: 依上数据做图(用Excel作图见附录3操作方法点此超链接)如下:,4. 带状图(条形图)-可以反映出分层情况下对定性变量的不同水平的指标值进行比较 如果要对分层的定性变量的不同水平间进行比较,则带状图是个很好的选择。上表是快餐店在3年中三类业务的销量百分数据,我们先用年份作分层标志,然后对定性变量业务类别进行比较,即欲比较同一年不同业务类的销售百分数;然后我们又以业务类作分层标志,对定性变量年份进行比较,即比较同一类不同年份的销售百分数。 我们可以作带状图(用附录4用Excel作带状图.docExcel作图见附录4点此超链接)进行分类

8、对比以上数据做图如下:,下面带状图是业务类别为组比较每个业务类别内三个年度销量百分数,下面带状图是以年份为组比较同一年三个业务类别的销量百分数,图表中的各种图形,都是表示数据变化情况的一种工具。它们均可以将杂乱无章的资料,解析出规则性,比较直观的看出要项(如产品质量)的特性的分布状况。常用的简单图表还有环形图、雷达图、甘特图等等,示例如后,多层圆环图用于分析同时多个总体内各部分的比例关系或一个总体不同时期内各部分比例关系(点此链接),雷达图作用 1)用于同时对多个指标(用多条射线表示)在某时刻(譬如QC活动)前后变化(对比每条射线刻度上)的对比分析(点此链接),2)用于对同一指标在多个时期(用

9、多条射线表示)的值(刻划在射线上)进行分析对比(点此链接),第二部分 统计推断,一.假设检验与区间估计模型 二.假设检验的各种类型与结论,未知参数问题的一些提法: 总体X,总体均值未知,问题提法 问题的模型 (为总体均值) 1. =? 参数的双侧区间估计 2.? 参数的上方有界的单侧区间估计 3.? 参数的下方有界的单侧区间估计 4. (H0) =0? 参数的双侧假设检验问题 5. (H1) 0? 参数的上方有界的单侧假设检验 6. (H1) 0? 参数的下方有界的单侧假设检验,Unit 3 第三单元 9 Hypothesis Testing:Mean and Variance 假设检验:均值

10、和方差,9.1 Developing Null and Alternative Hypothesis 提出零假设和备择假设 一个参数假设检验的例子 这里,先结合例子来说明假设检验的基本思想和做法. Exmple 某车间用一台包装机包装精制盐. 包得精制盐袋重是一个随机变量,它服从正态分布. 当机器正常时,其均值为0.5公斤,标准差为0.015公斤. 某日开工为检验包装机是否正常,随机地抽取它所包装的精制盐9袋,称得净重为(公斤): 0.499 0.514 0.508 0.512 0.498 0.515 0.516 0.513 0.524 问机器是否正常(即均值是否为0.5)?,用SAS进行假设

11、检验(数据文件p355) 说明:SAS软件把参数的区间估计和假设检验置于同一菜单系统,运行数据文件后SolutionAnalysis Analyst (分析员系统) (出现空白数据表)FileOpen By Sas Name (在Make one selection窗口中) work 选中数据名 (p355)(OK) Statistics Hypothesis Tests One Sample ztest for a Mean待分析变量xVariable std.dev.of(即)填入0.015(或Variance(即2)内填入0.0152) Tests Interval OK OK 输出结果

12、和解释见后图 类似可以求未知方差的的均值的假设检验及方差的假设检测.请看演示,利用SAS讨论 数据文件p304中学生体重超过60公斤(定义为超重)时wf=1否则为0.问1).有半数学生超重吗?2).学生超重比例p超过1/3吗?3).学生超重比例p不到2/3吗?,利用SAS讨论以下配对数据问题(数据名p383),24只小猪随机分三组喂三种不同催肥饲料作以下研究 1. 24只小猪平均增肥有70公斤吗? 2. 24只小猪平均增肥超过65公斤吗? 3. 24只小猪平均增肥不到76公斤吗? 4.按饲料不同分组平均增肥有70公斤吗? 相应研究对应假设检验 1. H0:d=70 ;H1:d70 2. H0:

13、d65 ;H1:d65 3. H0:d76 ;H1:d76 4.分组讨论 H0:d=70 ;H1:d70,用SAS对50名中国和40名美国16岁女孩的身高数据作身高超过1.58m的比例比较。H0: pcpa; H1:pcpa (数据名p420),7月10日下午练习题,一.从数学建模网上下载有以下词的赛题数据”中国人口增长预测、艾滋病、高速公路、高校收费”(以上赛题数据分析涉及方差分析、多项式回归、非线性回归、主成份分析等),二.将以下数据编成SAS数据,并转化成Excel文件,三,1.数据文件p304中学生身高超过170时x=1否则为0.问1).有半数学生身高超过170吗?2).学生身高超过1

14、70比例p超过1/3吗?3).学生身高超过170比例p不到2/3吗? 利用SAS讨论以下配对数据问题(数据名p383) 24只小猪随机分三组喂三种不同催服饲料作以下研究 1). 分组讨论小猪平均增肥为65公斤吗? 2). 分组讨论小猪平均增肥不到76公斤吗? 四重复老师上午的操作,7月11日 第三部分 方差分析与列联表分析,一.单因素方差分析 二.两因素方差分析 三.列联表分析,问题-方差分析研究(分类)变量取不同水平对指标的影响,同时在回归分析等分析方法以及产品设计、生产过程控制、采购过程、纠正措施、质量持续改进、试验结果分析等方面均用到方差分析的内容,第一节 方差分析模型,如下问题提法所涉

15、及的都是方差分析模型: “问不同机器对生产的铝合金板的厚度有无影响?”-单因素方差分析模型,考察因素机器对指标厚度的影响 “导弹射程试验: 问推进器和燃料的不同水平对射程是否有显著的影响? 推进器和燃料不同水平组合对射程有无显著影响?”-有交互效应的双因素方差分析模型,考察因素推进器、燃料以及它们的交互作用对指标射程的影响 “高速公路质量试验:问在沥青型号、岩性相同的情况下,不同的沥青生产厂家、不同的岩料产地对高速公路质量指标(抗水指标、抗高温指标、抗低温指标)有无显著影响?”-带二个分组变量(沥青型号、岩性)的多指标(抗水指标、抗高温指标、抗低温指标)双因素(沥青生产厂家、岩料产地)方差分析

16、模型 利用正交试验提高产品得率.指标y(回收率),因素:XA(尿素量),XB(水量),XC(反应时间),XD(溶剂量)-多因素(3)方差分析模型,研究各因素对指标的定量影响,第二节 方差分析的统计原理,统计原理-将指标的总波动(方差)分解成诸因素和随机误差之和,以随机误差的平均方差 为参照对被考察对象的平均方差即方差比进行分析. 统计结论-方差分析的零假设是模型或效应不显著,软件在输出结果中给出了零假设成立的概率Pr 1)Pr0.05时则接受零假设称模型(或效应)不显著; 2)0.05Pr0.01时则拒绝零假设称模型(或效应)显著;(本例因素f的效应是显著的) 3)Pr0.01时则断然拒绝零假

17、设称模型(或效应)高度显著.(数据Rocket的方差分析中模型、因素m的效应、交互效应fm的影响均高度显著) 三种主要模型:1)单因素2)二因素(考虑交互或不考虑交互)3)多因素(3) 以及4)含协变量的协方差分析(略),第三节 单因素试验的方差分析,案例,例2. 设有三台机器,用来生产规格相同的铝合金薄板. 取样,测量薄板的厚度精确至 千分之一厘米. 得结果如表所示. 问不同机器对生产的铝合金板的厚度有无影响 请看分别用菜单系统和程序进行讨论 程序名data lb给出了单因素方差分析的典型解法,进行了方差分析同时又在各水平组间 进行了均值的比较,作了直方图,菜单系统和程序中均有选项”Dunn

18、ett”进行某一水平和其余水平的均值差异比较和检验,选项”snk”则进行所有水平间均值差异的比较和检验.,自由度公式 总自由度ft=试验次数n-1; 误差自由度fe=总自由度ft-模型自由度f模型 方差分析中(单因素模型)因素A (即模型)的自由度fA=水平数-1(A,B双因素考虑交互效应模型) 因素A的自由度fA=水平数-1因素B的自由度fB=水平数-1交互效应A*B的自由度fA*B= fA* fB模型自由度f模型= fA +fB +fA*B回归分析中项自由度=1模型自由度f模型=项自由度之和,第四节 双因素试验的方差分析,案例,因素和指标之间的应该是什么样的模型是由它们之间的客观关系确定的

19、,譬如双因素A、B数据表(类似数据Rocket处数据表)进行方差分析讨论时可能的模型有以下几种: 1)主效应A、B都显著、交互效应A*B显著(有交互效应的双因素方差分析模型) 2)只有主效应A显著、主效应B显著(只有主效应的双因素方差分析模型) 3)只有主效应A显著(单因素方差分析模型) 4)只有主效应B显著(单因素方差分析模型) 我们的研究是发现这样的合适的模型.看下例分析过程.例3 分析下面数据表,说明合适的模型是个单因素模型(数据名E632)下表(数据名E632)给出某种化工过程在三种浓度、四种温度水平下得率的数据.,注:结论部分约定,空白为不显著(0.05或0.01);*为显著(0.0

20、10.05),*为高度显著(0.01),列联表分析,生成列联表的程序data penalty; input decision $ defrace $ numcell ; cards; 是 白人 19 是 黑人 17 否 白人 141 否 黑人 149; /*建立一个名为penalty的数据集*/proc freq data=penalty; tables decision*defrace; weight numcell; /*由weight语句将观测变量值 numcell输入到单元内去*/ title 死刑数据的列联表; run;,检验两个定性变量的观测个数是否存在关联属性变量无关联性的卡方检

21、验 零假设H0 :行变量与列变量无关联 对立假设H1: 行变量与列变量关联 适用条件: 每个单元频数均不为零(没有空单元)且所有单元的期望频数(expected)均大于等于5(否则用Fisher精确检验) 例7.2.1 检验死刑数据的变量decision与变量defrace的无关联性假设,proc freq data=penalty; /*需先运行data=penalty才能运行本程序*/tables decision*defrace / expected chisq /*选项/chisq为卡方检验,选项expected chisq要求输出期望频数(检验卡方检验的条件),或选项/exact为精

22、确fisher检验*weight numcell; /*因为是单元频数,故要使用weight语句* run; 请看演示,7月11日下午练习题,1.对”艾滋病”一题中某些要求用方差分析进行回答 2.对”高速公路”一一题中某些要求用方差分析进行回答 3.重复老师上午的操作,7月12日 第四部分 回归分析,1多元线性回归模型与显著性检验 2非线性回归模型 3相关性分析,7月12日 第四部分 回归分析,1多元线性回归模型与显著性检验 2非线性回归模型 3相关性分析,插值与回归(拟合),插值与回归(拟合),由数据表研究变量x与y的关系 插值问题:例 1.机翼与样条函数 2.降雨量特点:要求(插值)函数经

23、过数据点 回归问题: 例蒸汽量与气温(例E621)特点: 要求回归方程在数据点附近经过,回归分析,问题:研究一个或多个连续变量x1,x2,xp和连续变量y之间的关系(给出回归方程) 在现实世界中,存在着大量这样的情况:一个变量和一个或多个变量, 譬如y和x1,x2,xp有一些依赖关系, 由x1,x2,xp可以部分地决定y的值,但这种决定往往不很确切. 常常用来说明这种依赖关系的最简单、直观的例子是体重与身高、腰围. 若用x1表示某人的身高,用x2表示某人的腰围,用y表示他的体重, 众所周知,一般说来,当x1,x2大时,y也倾向于大,但由x1,x2不能严格地决定y. 类似的例子还很多. 变量之间

24、的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具.,回归方程的最小二乘估计,一元线性回归的例6.2.1 data E621; input mumber $ y x ; cards; 数据略;proc print;run; 请看演示,例6.2.1散点图,回归模型的检验,SAS不能替我们选择模型,模型的选择是我们决定的.但SAS可以帮我们判断模型选择的好坏,与此有关的就是方程的显著性检验和失拟检验.看例 data E123; input x y; cards;0.1 1.10 0.2 1.36 0.3 1.38 0.4 1.45 0.5 1.56 0.6 1.41 0.7 1.3

25、9 0.8 1.36 0.9 1.08 1.0 0.96 ;proc print; run;,用直线拟合数据E123,用抛物线拟合数据E123,关于参数的线性模型,例6.6.1 经钻探某地区煤矿上表面高度数据如表6.6.1,其中x为横坐标,y为纵坐标,为了作趋势面分析,建立上表面高度h的回归方程. 我们用二次多项式拟合这组数据,从而建立回归模型 h=b0+b1x+b2y+b3x2+b4xy+b5y2+ (6.6.1)其中是零均值随机变量,结合表6.6.1,我们得表6.6.1 地质钻探数据,只要令x2=x2, xy=x*y, y2=y2,则模型( 6.6.1)式就变成5个自变量的线性回归模型:y

26、=b0+b1x+b2y+b3x2+b4xy+b5y2+ (6.6.2)从而可以用线性回归的计算公式和检验方法. 用SAS软件来计算例6.6.1的程序是 data corn: /*数据h可看成带行、列下标的变量*/do x=2 to 3 by 0.25 ; do y = 6 to 4 by 0.5 ;input h ;x2=x*x;xy=x*y;y2=y*2;output;end; end;cards;,-11 0 10 20 31 -11 -1 9 19 30 -12 -2 8 19 29 -13 -2 7 18 28 -14 13 6 17 27 ;proc reg data=corn; m

27、odel h=x y x2 xy y2; run; 一般, 如果回归模型形如y=b0+b1 f1( x1,x2 ,xk) +bpfp( x1,x2 ,xk) +其中fj( x1,x2 ,xk)是不含未知参数的函数,则称为关于参数的线性模型,令 Xj=fj( x1,x2 ,xk) ( j=1,2,m) 就可转化成线性回归模型 y=b0+b1X1+bpXp+ 从而采用reg回归程序,data da64;input x y ;u=1/y;v=1/x;cards;2 106.42 3 108.20 4 109.58 5 109.50 7 110.00 8 109.93 10 110.4911 110.

28、59 14 110.60 15 110.90 16 110.76 18 111.00 19 111.20;proc print;run; 然后进行u对v的回归,请看演示,非线性回归,非线性回归是指模型从参数角度为非线性的且无法线性化的模型,例如 y=b0+b1x1+b2x2+b11x12+b12x1x2+b22x22是诸参数bi及bij的线性模型(从自变量x1,x2角度模型是非线性的), y=aebx是可以线性化的非线性模型(线性化后log(y)=b*x+log(a), 而y=a exp(-exp(b-cx)是非线性的且无法线性化的模型. 此时SAS采用nlin非线性回归程序,程序形式:pro

29、c nlin data =;model 因变量 = 非线性函数表达式;parms 参数1=初值 参数2=初值 ;der.参数1=偏导表达式 ; der.参数2=偏导表达式; ; runs; 方法: 采用迭代求参数,要给出参数的一阶偏导表达式der.参数=; , 要赋参数初值parms参数=; 请看例子演示,data hw; input x y; cards; 数据(略); proc nlin data=hw; /*调用nlin进行非线性回归*/ 自由度=变量个数-约束方程个数 譬如在单因素方差分析中: term=exp(-zz); /*简化记号*/ model y=a*term; /*因变量=

30、非线性函数表达式,即y=a exp(-exp(b-cx)*/ parms a=70 b=1.1 c=0.2; /*赋参数初值*/ der.a=term; /*给出参数的一阶偏导表达式*/ der.b=-a*zz*term; der.c=a*x*zz*term; run;,当随便赋初值导致不收敛时初值的采用方法一:分析函数是否可以使参数形式上具线性 方法二:对于参数的适当范围用均匀设计得参数的多组值试行,以下是Excel数据P48中变量x分别与变量y、z、u、v的散点图由上面图可以直观地看出大致的相关性类型和相关程度。对线性相关性进一步进行定量讨论,相关性分析,例 某健身房对20个中年人测量三个

31、生理变量:WEIGHT(体重)、WAIST(腰围)、PULSE(脉膊)和三个训练变量:CHIWS(引体向上)、SITVPS(起坐次数)、JVMPS(跳跃次数).试分析这两组变量间的相关性. 为此,我们可采用下述SAS程序 data fit; input weight waist pulse chins situps jumps; cards; (数据略) ; proc cancorr data=fit all /*PROC CANCORR 语句指示SAS对数据集FIT作典型相关分析,其中ALL选项要求输出所有计算结果*/ var weight waist pulse; /*varwith给出前

32、后两组分析变量*/ with chins situps jumps; run; 请看演示,7月12日下午练习题,1.对”艾滋病”一题某些要求用多项式回归进行解答 2.对”中国人口增长”一题某些要求用非线性回归进行分析 3对”艾滋病”一题中的指标”HIV”与”CD4”进行相关性分析 4重复老师上午的操作,多指标综合评价概论,第一节 综合评价方法概述 当试验结果(或被评价对象)由多个单项指标描述和分析时,单凭其中一个试验指标评价一系列试验结果尽管能产生序,但单项指标往往只能反映试验结果的一个侧面,而不可能全面反映试验结果的整体情况. 偏面性导致大量损失试验结果所含的信息. 当然用多个单项指标所构成

33、的整体即指标体系来评价试验结果,能够在一定程度上克服单项指标的局限性,提高评价的全面性和科学性,但也有一些弊病. 譬如,无法对一系列试验结果给出“优劣”次序,某些指标间会产生信息重叠,等等. 而多指标综合评价就是将多个描述试验结果的单项指标信息加以综合而对试验结果作出整体性评价. 它弥补了单项指标信息采集的不足,又能对一系列试验结果的作整体性比较和排序. 综合评价方法也广泛地用于社会、经济领域中由多项指标描述的同类事物(横向)或同一事物在不同时期的表现(纵向)进行综合评价.,7月13日,第五部分 多目标综合 第六部分 主成份分析 第七部分 聚类分析与判断分析,多指标综合评价问题一般经过以下几个

34、步骤: 1、选取评价指标,建立评价体系 2、指标的正向化和无量纲化 3、确定评价指标的权数 4、加权合成指标评价值,求得综合评价值,第二节 评价指标的选取,第三节 指标正向化和无量纲化方法,1、逆向指标、望目指标、区间指标正向化 统计评价指标按其作用趋向不同,可以分为正向指标、逆向指标、望目指标及区间指标四类. 正向指标是指那些数值越大越好的统计评价指标,逆向指标则是数值越小越好的评价指标,望目指标是指标值离标准值差的绝对值越小越好的评价指标,而区间指标是以落在某个固定区间内为最好的评价指标. 对后三类指标均首先要转化成正向指标,然后再按正向指标进行无量纲化处理,有些处理方法将正向化和无量纲化

35、同时进行. 1)对于逆向指标正向化,基本的方法有:直接取原逆向指标xi的倒数或相反数,就可以得到一个正向指标yi, 即 yi=1/xi 或 yi=-xi,2)对于望目指标xi,设标准值为xo可以按以下公式转化成逆向指标yj,再进一步处理,即 yi =| xi - x0 | 3)区间指标转化为正向指标,2、(正向)定量指标的无量纲化,第四节 指标赋权方法,1、主观赋权法 专家评判法(德尔菲法) 基本的步骤如下: (1)选择专家.(2)将待定权数的p个指标和有关资料以及统一的确定权数的规则发给选定的各位专家,请他们独立地给出各指标的权数值. (3)回收结果并计算各指标权数的均值与标准差. 若已经满

36、足第(5)步的要求,则以各指标权数的均值为作该指标权数,否则进入第(4)步. (4)将计算的结果及补充资料返还给各位专家,要求所有的专家在新的基础上重新确定权数. (5)重复上述第(3)和(4)步,直至各指标权数与其列标准差不超过预先给定的标准为止,也就是各专家的意见基本趋于一致,以此时各指标权数的均值作为该指标的权数.,2、客观赋权法,各个指标向量含有两方面的信息,一是各指标向量内部变异信息量反映了指标分量的波动大小. 二是指标间的相关信息量. 客观赋权法是直接根据各个指标的原始信息经过一定数学处理后获得权数的一种方法. 其基本思想是:指标权数应根据各指标间的相互关系或各指标提供的变异信息量

37、来确定.,(1)变异系数法,(2)复相关系数法,第五节 指标评价值的综合方法,第十三章 主成份分析法,在综合评价实践中,多指标评价会因评价指标间的相关的联系造成评价信息相互重叠、相互干扰,从而难以客观地反映被评价对象的相对地位. 因此,如何用少数几个彼此不相关的新指标代替原来为数较多的彼此有一定相关关系的指标,同时又能尽可能地反映原来指标的信息量. 这是综合评价中一个具有现实意义的问题. 从数学的眼光来看,就是建立一种从高维空间到低维空间的映射,这种映射能保持样本在高维空间的某种“结构”,其中最明显的是与“序”有关的结构,因为综合评价的目的往往与排序是分不开的. 而多元统计分析中的主成分便是解

38、决这一问题的有力工具. 主成份分析法也能处理第六章中因素间的复共线性问题.,例13.2.1 用主成分分析方法综合评价1991年我国30个省、自治区、直辖市工业企业的经济效益水平. 选用的七项经济效益评价指标为area地区, y1每百元固定资产原值实现的产值 (元),y资金利税率(%),y4产值利税率(%),y5每百元销售收入实现的利润(元), y6每百元销售成本实现的利润, y7流动资金周转次数(次/年)(数据见E1321) data E1321; input area $ y1-y7; cards; (数据略) ; proc princomp data=E1321 prefix=Z out=

39、Outprin; var y1-y7 ; run; /* PROC PRINCOMP语句调用PRINCOMP过程,可加OUT=选项,用以建立输出数据集,还可加cov表示从协方差阵出发计算主成份,如果没有此选项,则从相关阵出发. VAR语句用来列出要分析的数值变量. prefit=给主成份命名为Z(缺省则认为是prin),out=给输出数据命名为Outprin(缺省则默认是prin)给出输入数据的资料及主成份,若为outstat=输出比out=更详尽,包括输入输出的描述统计量、corr(or cov)、特征根、特征向量等 */,主成份分析输出主要结果,从上面两张表看主成份分析性质 1)主成份是原

40、始指标y1,y2,yp的线性组合 例第一主成份 z1=0.337y1+0.481y2+0.487y3+0.374y7 2)主成份z1,z2,z6之间两两正交,从而主成份之间没有信息重叠 3)每个主成份的特征值Eigenvalue 表示该主成份所含的信息量,且1=3.7892=1.9747=0.00122 而Proportion给出了每个主成份对方差(由大到小)的贡献率,由累计贡献率(Cumulative)知前三个主成份已提取了96.29%的方差,可以用特征值归一化后作为权进行多指标综合: 综合指标=(1/1+2+3)prin1+( 2/1+2+3)prin2+(3/1+2+3)prin3 即综

41、合指标=3.789/(3.789+1.974+0.979)*z1+1.974/(3.789+1.974+0.979)*z2+0.979/ (3.789+1.974+0.979)*z3 =0.562*z1+0.293*z2+0.14*z3,data prn123; set outprin; /*调用主成份分析的输出文件产生数据集prn123*/ prin123=0.562*z1+0.293*z2+0.145*z3; proc print; var area prin123; proc rank data =prn123 descending; var prin123; ranks rankpri

42、n123; /*以上三行语句作用为先对prin123由大到小排序(descending降序),再转换成名为rankprin123的名次变量*/ proc sort; by rankprin123; /*对rankprin123排序(默认为升序即由小到大)*/ proc print; var area z1-z3 prin123 rankprin123; /*印出对rankprin123排序后的city 等变量*/ run; 请看演示E1321out,对数据的排序也可由数据表直接完成 SolutionAnalysis Interactive Data Analysis (SAS/INSIGHT系

43、统)work选中数据名(pn123)Open 出现数据表,点左上角然后利用Move to First和Sort等功能将变量prin123自大到小排序(Asc/Des分别为递增/递减)并和变量city放在一起. 请看演示 主成分分析的例还可见数据economy,Jordan(乔丹的篮球生涯),主成份的解释:,利用分析员应用系统进行主成份分析,以下以数据E1321为例,设当前SAS数据库work中已有该数据文件,操作如下: Solutionanalysis Analyst(出现空白数据表) FileOpen By Sas Name (在Make one selection窗口) work 选中数据

44、名 (data E1321)(OK) Statistics Multivariate Princinpal Component进入多变量分析主窗口Princinpal Component:Economy 在多变量分析主窗口里 选择y1y7Variables Statistics 选择相关阵还是协方差阵及主成份个数,本例选相关阵、主成份个数2个OK Id样本本例用number) OK (OK) 请看演示,第十三章练习题,第十五章 聚类分析与判别分析,系统聚类法 聚类分析是数值分类学的基本内容,是对统计样本进行定量分类的一种多元统计分析方法. 将这种方法应用于综合评价,一方面可以对分类评价问题给出直接的评价结果,另一方面,也为其他综合评价方法如判别分析提供训练样本,形成综合评价的框架结构以便提高综合评价的效果. 以下介绍系统聚类. 设有n个样本x1,x2,xn用p个指标描述,形成相应的数据阵. np阶阵X的第i行 xi= (xi1,xi2,xip)给出了 第i个样本的p个指标值 (i=1,2,n);第j列=(x1j,x2j,xnj) (j=1,2,p)给出了第j个指标上n个 样本的取值. 聚类分析有两类问题:对于样本的聚类分析和对于指标的聚类分析. 先讨论对样本的聚类分析,再推广到对指标的聚类分析,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 简明教程

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报