收藏 分享(赏)

0210回归中常见的错误PPT课件.ppt

上传人:Facebook 文档编号:3833128 上传时间:2018-11-20 格式:PPT 页数:22 大小:373KB
下载 相关 举报
0210回归中常见的错误PPT课件.ppt_第1页
第1页 / 共22页
0210回归中常见的错误PPT课件.ppt_第2页
第2页 / 共22页
0210回归中常见的错误PPT课件.ppt_第3页
第3页 / 共22页
0210回归中常见的错误PPT课件.ppt_第4页
第4页 / 共22页
0210回归中常见的错误PPT课件.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、第10部分: 回归 中 常见的错误,目的: 回归是一个有力的工具,但在使用时必须小心。这一部分介绍回归法的缺点及常见失误。,目标: 了解不当使用回归的情形 确定如何克服回归使用中易出现的失误,第10部分: 回归常见错误!,陷阱,警惕!小心回归中易出现的失误,回归中易出现的失误,回归是一个有力的工具,但经常会使用不当,1. 相关并不意指因果关系2. 采用错误模型3. 自变量(多重相互线性)之间的关系4. 过度拟合;多重假设检验;过多自变量5. 几个极值的影响6. 从被动/偶然数据中得出确定的结论7. 回归是用来对您从图中所得的结果进行统计性证明 - 始终先将数据画图。,避免回归中的易出现的失误始

2、终先将数据画图。,控制 “X”不会影响“Y”,1. 相关并非意指因果关系,30,40,50,60,70,80,120,150,180,210,240,270,人口 (000),鹳的数量,虽然该相关系数(r)为0.918,但捕杀鹳并非是控制人口的好办法。,2. 采用错误模型,(下列数据来自Don Olsson)数据: X Y10 30.520 16.850 7.9100 4.8,直线,y = 25.8 - 0.241 X,r = 0.85,二次方程,y = 36.1 - 0.881 X + 0.0057X2,r = 0.97,最小x = 77,三次方程,r = 1.0,Y = 52.3 - 2.

3、64 X + 0.0484 X2 - 0.000268 X3 当 x = 79时,Y最大,正确模型,y = 2.17 + 285 (1/x),r = 0.9997,该“ 正确”模型有以下优点:与理论相符合提供了一个优异的拟合参数少,形式简单模型参数具有物理意义内插值很可能有效,我们仅用了四组数据来确立模型!,Linear,Quadratic,线性及二次拟合方程,0,5,10,15,20,25,30,35,linear,quadratic,Cubic,Reciprocal,三次及倒数拟合方程,0,5,10,15,20,25,30,35,cubic,reciprocal,Linear,Quadra

4、tic,Reciprocal,Cubic,初始实验,重复实验,3. 自变量之间的关系,(多重相互线性),在六组不同的电压及温度值下测得了一洗碗机回路扩张器的运行时间百分比。,电压 (V),温度 F (T),操作时间百分比,80,74,35,90,76,32,100,79,30,110,83,28,120,88,25,130,94,23,拟合方程为: 运行时间百分比 = 52.3 - 0.25 V + 0.036 T,相关系数= 0.998,重复进行该实验,结果几乎完全一致.,除了最后一项操作时间百分比从23变到20,其它结果相同,电压 (V),温度 F (T),操作时间百分比,80,74,35

5、,90,76,32,100,79,30,110,83,28,120,88,25,130,94,20,拟合方程为: 运行时间百分比 = 77.9 - 0.08 V + 0.50 T 相关系数= 0.994,3. 自变量间关系 (多重相互线性) (续),两组数据几乎一致,但拟合的方程却差别很大:,1.,操作时间百分比= 52.3 - 0.25 V + 0.036 T,2.,操作时间百分比= 77.9 - 0.08 V + 0.50 T,两个自变量,电压和温度是相关联的。它们同时变化,所以不能确定结果中的变化是由于电压、温度还是兼而有之。,如此实验所示,电压及温度值限定在较小的范围时,两个方程可求出

6、几乎相同的操作百分比预计值,但对于其它组的电压及温度值,所得预计值将会有很大的区别。 (请看下一页的图示),不能将由于电压和温度变化产生的影响分开。 需要在图中圈内区域收集更多的数据。,3.自变量间关系(多重相互线性)(续),图示值即为操作时间百分比,4. 过度拟合; 多重假假设检验; 过多的自变量,当考虑许多自变量时,应预料到其中的一些自变量只是因偶然性而显得与因变量相关联。,“逐步”回归有时用于在许多变量中确定哪一个会提供最佳预计。,这会导致过度拟合模型(过多的自变量),不能很好地预计未来值。,试试看! 首先产生随机数据, 然后,再看它们是否显著相关,在Minitab中,形成200行30栏

7、的随机正态数据。将C1作为“ 响应变量值 ”,用其余栏作为预计值(自变量“ X”)CalcRandom DataNormal,填写下示对话框:,因为产生的是随机数据, 每个人的数据都会有所不同!,下一步, 对这一组完全随机的数据进行回归分析统计回归回归响应值: C1预计值: C2 - C30,低P值表示对Y值有显著影响。 您有多少个低P值的预计值 (.05)?,检查“极端值”。如果其为有效值,则在X=15时,收集更多的数据。不要自动遗弃“极端值”!,5. 几个极端值的影响,ROW,X,Y,1,1.0,11.0,2,1.5,11.5,3,2.0,13.0,4,2.5,12.2,5,3.0,12.

8、0,6,3.5,13.1,7,4.0,11.0,8,4.5,11.2,9,5.0,13.0,10,15.0,15.0,所有10组观察数据: 前9组观察数据:,X和Y间的相关系数 = 0.758 C X和Y间的相关系数 = 0.208,X和Y间明显的联系几乎完全是由于第10组观察值的影响。,分析 Post 后的 Analysis 回归及 Regression and 相关 Correlation或完成 Plan 研究 After 后的 Research 计划 Completed,6. 偶然数据 (观察研究-非实验设计),偶然数据有时也叫做PARC数据:,从后向前念!,6. 偶然数据,A) ”X”

9、变量的小范围,可以用更高的温度来提高产出。但是,因为样本中温度受到了严格的控制,我们有可能不会发现这一关系。,实验中温度 观测值范围,6. 偶然数据,B) 潜伏变量在研究中另一种变量会发生系统性的变化某一天中温度和湿度有所提高利率改变, 有可能影响家电的销售。例: 为了提高自动化程度, 在早夏停止了一个旋转压缩机生产线。 在夏末又恢复了该生产线,机器的噪音测量值也增加了。最初的假设是工序的改变增大了噪音。后来发现噪音的测量未能得到适当的控制。在夏日里, 湿度增高了,从而增加了噪音的测量值。自动化不是问题。湿度却是一个潜伏变量。,Louisville,6. 偶然数据,C) 随时间系列相关的变量在

10、一定时间范围内收集的数据通常是“系列相关”。即: 在短期内收集的数据相似,在长时期内收集的数据却不甚相似.,该图中的两组数据(当地温度及股票价格)是独立形成的,在一个很长的时间段内是不相关联的。但在某些短时期内,他们却同步增大或减少。,Price follows Temp,Price is opposite of Temp,Louisville,的温度及股票价格,7 在回归分析之前, 始终先用数据画图,下列数据可在: Edward R. Tufte. The Visual Display of Quantitative Information. Graphics Press. 最初出版于: F

11、. J. Anscombe. “Graphs in Statistical Analysis.” American Statistician. 27 (February, 1973), 17-21.,X1,Y1,X2,Y2,X3,Y3,X4,Y4,10,8.04,10,9.14,10,7.46,8,6.58,8,6.95,8,8.14,8,6.77,8,5.76,13,7.58,13,8.74,13,12.74,8,7.71,9,8.81,9,8.77,9,7.11,8,8.84,11,8.33,11,9.26,11,7.81,8,8.47,14,9.96,14,8.10,14,8.84,8,

12、7.04,6,7.24,6,6.13,6,6.08,8,5.25,4,4.26,4,3.10,4,5.39,19,12.50,12,10.84,12,9.13,12,8.15,8,5.56,7,4.82,7,7.26,7,6.42,8,7.91,5,5.68,5,4.74,5,5.73,8,6.89,X1, X2, X3 和X4有相同的平均值和标准差。 Y1,Y2,Y3和Y4有相同的平均值和标准差。4组数据回归的结果得出: 相同的拟合方程 相同的相关系数 相同的残值标准差的预计值 相同的斜率检验显著性数据图示于下页。图形显示,虽然回归的结果是相同的,但关系却有非常不同。,1,2,3,4,1号数

13、据组:直线是有效的2号数据组:以二次方程拟合3号数据组:调查那个最高点(可能是一个错误数据)4 号数据组:对X的较大值收集更多的数据,始终先用数据画图 下面就是原因:,1,1,1,0,9,8,7,6,5,4,X,1,Y,1,9,8,7,6,5,4,3,X,2,Y,2,1,3,1,2,1,1,1,0,9,8,7,6,5,X,3,Y,3,1,3,1,2,1,1,1,0,9,8,7,6,5,X,4,Y,4,1,2,4 9 14,4 9 14,10 15 20,4 9 14,可通过以下方法来避免 回归中易出现的错误,1. 使用理论模型,或源自他处的知识。 2. 正确的数据收集-使用正交实验数据-使用大范围的自变量-将数据收集的顺序随机化 3. 使用回归诊断法-散点图-残值图(观察值-预计值) 对预计值 对自变量 对抽样顺序 - Minitab会标注出残值大、影响大的观测数据 - 看看它们! -估计系数的显著性检验 -残值的标准差(拟合有多好?) 4.当拟合平方项和交互作用项(例如对应表面设计)时,先“对中”自变量. 使用: 平方项: 相互作用项:,关键概念: 回归中易出现的错误,1.将数据用图表示!2.检查您的假设3.在需要时寻求帮助,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 小学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报