收藏 分享(赏)

概率论与数理统计 第九章方差分析与回归分析.ppt

上传人:j35w19 文档编号:6844251 上传时间:2019-04-24 格式:PPT 页数:76 大小:2.57MB
下载 相关 举报
概率论与数理统计 第九章方差分析与回归分析.ppt_第1页
第1页 / 共76页
概率论与数理统计 第九章方差分析与回归分析.ppt_第2页
第2页 / 共76页
概率论与数理统计 第九章方差分析与回归分析.ppt_第3页
第3页 / 共76页
概率论与数理统计 第九章方差分析与回归分析.ppt_第4页
第4页 / 共76页
概率论与数理统计 第九章方差分析与回归分析.ppt_第5页
第5页 / 共76页
点击查看更多>>
资源描述

1、2019/4/24,版权所有 BY 张学毅,1,第 九 章 第一节,单因素试验的方差分析,2019/4/24,版权所有 BY 张学毅,2,一、方差分析的有关概念,1.方差分析(Analysis of Variance,ANOVA)是一种检验多 个正态总体均值是否相等的统计方法。 2.因素的水平:指试验因素的某种特定状态或数量等级,简称水平。 3.试验指标:衡量实验结果好坏程度的试验数据 。在单因素方差分析中,将因素的任何一个水平看作是一个总体,该水平下试验得到的数据可看成是从总体中抽出的一个样本。 若方差分析中考察的因素只有一个时,称为单因素方差分析;若同时研究两个因素对试验指标的影响时,则称

2、为两因素试验。同时针对两个因素进行,则称为双因素方差分析。,2019/4/24,版权所有 BY 统计学课程组,3,二、单因素方差分析的数据结构,2019/4/24,版权所有 BY 张学毅,4,2019/4/24,版权所有 BY 张学毅,5,表中: 为第 i个水平的第j个观测值。 记第j个水平观测值的均值为 ,则有记所有观测值的均值为 ,则有,2019/4/24,版权所有 BY 张学毅,6,三、方差分析中的三个基本假设,(1)各个总体都服从正态分布;(2)各个总体的方差都相等;(3)各个观测值之间是相互独立的。,2019/4/24,版权所有 BY 张学毅,7,四、单因素方差分析的数学模型,由于

3、则有单因素方差分析的数学模型1:,2019/4/24,版权所有 BY 张学毅,8,四、单因素方差分析的数学模型,记 ,为 Aj 的效应。 则有单因素方差分析的数学模型2:,2019/4/24,版权所有 BY 张学毅,9,从散点图上可以看出:不同的水平的数据是有明显差异的;同一个水平的数据也明显不同; 不同水平的观察值与试验指标值之间可能有一定的关系。 3. 仅从散点图上观察还不能提供充分的证据证明不同水平与试验指标值之间有显著差异。这种差异可能是由于抽样的随机性所造成的,也有可能是系统性影响因素造成的。,五、方差分析的基本思想,2019/4/24,版权所有 BY 张学毅,10,4.需要有更准确

4、的方法来检验这种差异是否显著,也就是进行方差分析。 5.随机误差因素的同一水平(总体)下,样本各观察值之间的 差异,可以看成是随机因素的影响,称为随机误差 ; 6.系统误差因素的不同水平(不同总体)下,各观察值之间的差 异可能是由于抽样的随机性所造成的,也可能是由于 水平本身所造成的,后者所形成的误差是由系统性因 素造成的,称为系统误差。,2019/4/24,版权所有 BY 张学毅,11,方差分析的基本思想,7.若不同水平对试验指标值没有影响,则组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值就应该很接近,它们的比值就会接近1; 8.若不同水平对试验指标值有影响

5、,则在组间误差中除了包含随机误差外,还会包含有系统误差,这时组间误差平均后的数值就会大于组内误差平均后的数值,它们之间的比值就会大于1; 9.当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,也就是自变量对因变量有影响。,总离差平方和 ( sum of squares for total),1)全部观察值 与总均值 的离差平方和; 2)反映全部观察值的离散状况。 其计算公式为:,六、离差平方和与自由度的分解,效应平方和(组间平方和) :Sum of squares for factor A,1)各组平均值 与总平均值 的离差平方和; 2)反映各总体的样本均值之间的差异程度,又称组间

6、平方和; 3)该平方和既包括随机误差,也包括系统误差。 计算公式为:,误差平方和(组内平方和) :Sum of squares for error,1)每个水平或组的各样本数据与其组平均值的离差平方和; 2)反映每个样本各观察值的离散状况,又称组内离差平方和; 3)该平方和反映的是随机误差的大小。 计算公式为 :,三个离差平方和的关系,总离差平方和=组间平方和+组内平方和,三个离差平方和的自由度之间的关系:均方,2019/4/24,版权所有 BY 张学毅,17,七、 的统计特征P228,根据概率论与数理统计学知识 : 1) 是总体方差 的无偏估计量,且与原假设成立与否无关。即 2) 是否是总体

7、方差 的无偏估计量,与原假设成立与否有关 。当且仅当原假设成立时, 才是总体方差 的无偏估计量。,八、方差分析表,通常将上述计算过程列成一张表格,称为方差分析表。,2019/4/24,版权所有 BY 张学毅,19,例9.1 热带雨林,一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。,2019/4/24,20,2、提出零假设和备择假设 H0:u1=u2=u3 H1: u1,u

8、2,u3不全相等。,2019/4/24,版权所有 BY 张学毅,21,方差分析表结论: F值=11.433.32,p-值=0.00020.05,因此检验的结论是采伐对林木数量有显著影响。,2019/4/24,版权所有 BY 张学毅,22,【例9.2】 某市消费者协会为了评价该地旅游业、居民服务业、公路客运业和保险业的服务质量,从这4个行业中分别抽取了不同数量的企业。经统计,最近一年消费者对这23家企业投诉的次数资料如下表所示。这4个行业之间服务质量是否有显著差异?如果有,究竟是在哪些行业之间?,解(1) 建立假设 (2) 列方差分析表(3)统计决策 因为 ,所以拒绝 。即有99%的把握 认为不

9、同行业之间的服务质量有高度显著的差异。,2019/4/24,版权所有 BY 张学毅,24,第二节 两因素试验数据的方差分析,一、无交互作用的双因素方差分析若记一因素为因素A,另一因素为因素B,对A与B同时进行分析,就属于双因素方差分,即判断是否有某一个或两个因素对试验指标有显著影响,两个因素结合后是否有新效应。在统计学中将各个因素的不同水平的搭配所产生的新的影响称为交互作用。我们先讨论无交互作用的双因素方差分析问题,对于有交互作用的双因素方差分析问题稍后再讨论。,2019/4/24,版权所有 BY 张学毅,25,无交互作用的双因素方差分析数据结构,2019/4/24,版权所有 BY 张学毅,2

10、6,双因素无交互作用的方差分析,又称为双因素无重复试验的方差分析;双因素有交互作用的方差分析,又称为双因素等重复试验的方差分析;,判断因素A的影响是否显著等价于检验假设:判断因素B的影响是否显著等价于检验假设:其中, 表示A的第i个水平所构成的总体均值, 表示的B第j个水平所构成的总体均值。,对离差总平方和进行分解。与单因素情况类似,能够证明下列公式成立:总离差平方和的自由度分解为:F统计量:,2019/4/24,版权所有 BY 张学毅,28,例9.3 为提高某种产品的合格率,考察原料来源地和用量对其是否有影响。原料来源地有三个:甲、乙、丙;原料用量有三种:现有量、增加5%、增加8%。每个水平

11、组合各作一次试验,得到的数据如下表所示。试分析原料来源地和用量对产品合格率的影响是否显著?,2019/4/24,版权所有 BY 张学毅,30,【例题】,解:(1) 建立假设 (2) 列方差分析表,2019/4/24,版权所有 BY 张学毅,31,(3) 统计决策,对于显著性水平 0.05,查表得临界值 因为 , ,故不拒绝 , 拒绝 。即根据现有数据,有95%的把握可以推断原料来源地对产品合格率的影响不大,而原料用量对合格率有显著影响。 由于 为最优水平。既然原料来源地对产品合格率的影响不显著,在保证质量的前提下,可以选择运费最省的地方作为原料来源地选择时的首选。如果丙地的运费最省,则最优方案

12、为 。,2019/4/24,版权所有 BY 张学毅,32,【例9.4】 某种火箭使用了四种燃料,三种推进器做试验。每种燃料和每种推进器的组合各做一次试验,得火箭射程数据如下表所示。试问不同的燃料、不同的推进器分别对火箭射程有无显著影响?,2019/4/24,版权所有 BY 张学毅,33,列方差分析表:,2019/4/24,版权所有 BY 张学毅,34,2019/4/24,版权所有 BY 张学毅,35,2019/4/24,版权所有 BY 张学毅,36,二、有交互作用的双因素方差分析,所谓交互作用,简单来说就是不同因素对试验指标的复合作用,因素A和B的综合效应不是二因素效应的简单相加。为了能分辨出

13、两个因素的交互作用,一般每组试验至少作两次。,2019/4/24,版权所有 BY 张学毅,37,有交互作用的双因素方差分析数据结构,2019/4/24,版权所有 BY 张学毅,38,2建立假设,2019/4/24,版权所有 BY 张学毅,39,这就是有交互作用的双因素方差分析的数学模型。,2019/4/24,版权所有 BY 张学毅,40,对这一模型可设如下三个假设:,2019/4/24,版权所有 BY 张学毅,41,3方差分析,与单因素方差分析的平方和分解类似,有,2019/4/24,版权所有 BY 张学毅,42,2019/4/24,版权所有 BY 张学毅,43,双因素(有交互作用)方差分析表

14、,2019/4/24,版权所有 BY 张学毅,44,例9.5 某公司想将橡胶、塑料和软木的板材冲压成密封垫片出售。市场上有两种不同型号的冲压机可供选择。为了能对冲压机每小时所生产的垫片数进行比较,并确定哪种机器使用何种材料生产垫片的能力更强,该公司使用每台机器对每一种材料分别运行三段时间,得到的试验数据(每小时生产的垫片数)如下表所示,试运用方差分析确定最优方案。,2019/4/24,版权所有 BY 张学毅,45,2019/4/24,版权所有 BY 张学毅,46,解 (1) 建立假设: (2) 计算相应的均值和平方和:,2019/4/24,版权所有 BY 张学毅,47,2019/4/24,版权

15、所有 BY 张学毅,48,(3) 列方差分析表,2019/4/24,版权所有 BY 张学毅,49,(4) 统计决策 由于 ,说明不仅冲压机的型号和垫片材料对垫片数量有显著影响,而且其交互作用也是显著的。由结构均值表可知,在冲压机中,第一种的均值较大;垫片材料中,软木的均值较大,故最优方案是 。,2019/4/24,50,第三节 一元线性回归,一、一元线性回归 二、a,b的估计 三、总体方差的估计 四、线性假设的显著性检验 五、系数b的置信区间 六、回归预测 七、可化为一元线性回归的例子(自学),回归模型的类型,一、一元线性回归,只涉及一个自变量的回归; 因变量y与自变量x之间为线性关系。 被预

16、测或被解释的变量称为因变量(dependent variable),用y表示; 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示。 因变量与自变量之间的关系用一个线性方程来表示。,一元线性回归模型的基本形式,描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为理论回归模型 一元线性回归模型可表示为y 是 x 的线性函数(部分)加上随机误差项 线性部分反映了由于 x 的变化而引起的 y 的变化;误差项 是随机变量(未纳入模型但对y有影响的诸多因素的综合影响),反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由

17、x 和 y 之间的线性关系所解释的变异性。 a和 b称为模型的参数,理论回归 模型,在抽样中,自变量x的取值是固定的,即x是非随机的;因变量y是随机的。即当解释变量X取某固定值时,Y的值不确定,Y的不同取值形成一定的分布,这是Y的条件分布。 回归线,描述的是Y的条件期望E(Y/xi)与之对应xi,代表这些Y的条件期望的点的轨迹所形成的直线或曲线。 如注意:由于单个数据点是从y的 分布中抽出来的,可能不在 这条回归线上,因此必须包含 随机误差项e来描述模型数据点.,x,y,回归线,回归模型的基本假设,假设1:误差项的期望值为0,即对所有的i有 假设2:误差项的方差为常数,即对所有的i有 假设3:

18、误差项之间不存在自相关关系,其协方差为0,即当 时,有 ; 假设4:自变量是给定的变量,与随机误差项线性无关; 假设5:随机误差项服从正态分布。即N( 0 ,2 ) 以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或标准假定。,回归方程(regression equation),描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程 一元线性回归方程的形式如下:,方程的图示是一条直线,也称为直线回归方程。 a是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值; b是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。,.估计的回归方程(esti

19、mated regression equation),一元线性回归中估计的回归方程为,用样本统计量 , 代替回归方程中的未知参数 和 ,就得到了估计的回归方程.,总体回归参数 和 是未知的,必须利用样本数据去估计;,其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 。,.二、a,b的估计( 普通最小二乘估计法) (ordinary least squares estimators),使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即,用最小平方法拟合的直线来代表x

20、与y之间的关系与实际数据的误差比其他任何直线的误差都小。,2019/4/24,59,参数的最小二乘估计P246-247,2019/4/24,60,例9.6,【例10.7】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清不良贷款形成的原因,管理者希望利用银行业务的有关数据进行定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据,2019/4/24,61,2019/4/24,62,不良贷款对其他变量

21、的散点图,2019/4/24,63,用Excel计算相关系数,2019/4/24,64,2019/4/24,65,经验回归方程的求法,回归方程为: y = -1.38473 + 0.087411 x回归系数 =0.087411 表示,贷款余额每增加1亿元,不良贷款平均增加0.087411亿元,2019/4/24,66,估计回归方程的求法,不良贷款对贷款余额回归方程的图示,2019/4/24,67,用Excel进行回归分析,第1步:选择“工具”下拉菜单 第2步:选择“数据分析”选项 第3步:在分析工具中选择“回归”,然后选择“确定” 第4步:当对话框出现时 在“Y值输入区域”设置框内键入Y的数据

22、区域在“X值输入区域”设置框内键入X的数据区域在“置信度”选项中给出所需的数值在“输出选项”中选择输出区域在“残差”分析选项中选择所需的选项,2019/4/24,68,三、 的估计P249-250,称 为残差平方和,则,2019/4/24,69,四、线性假设的显著性检验P251,2019/4/24,70,五、系数b的置信区间P252,2019/4/24,71,六、回归函数 函数值的点估计和置信区间,回归函数的点估计值为的置信水平为 的置信区间为,2019/4/24,72,七、Y的观测值的点预测和预测区间,2019/4/24,73,八、可化为一元线性回归的例子P255,自学。,2019/4/24,74,第四节 多元线性回归P257,因为客观现象非常复杂,现象之间的联系方式和性质各不相同,影响因变量变化的自变量往往是多个而不只是一个,其中既有主要因素也有次要因素。如果仅仅进行一元回归分析,不一定能得到满意的结果。因此,有必要将一个因变量与多个自变量联系起来进行分析。,2019/4/24,75,多元线性回归,在线性相关条件下,研究两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学表达式则称为多元线性回归方程或多元线性回归模型。,2019/4/24,76,多元线性回归,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报