收藏 分享(赏)

统计学案例——相关回归分析.doc

上传人:精品资料 文档编号:8112178 上传时间:2019-06-08 格式:DOC 页数:13 大小:1.18MB
下载 相关 举报
统计学案例——相关回归分析.doc_第1页
第1页 / 共13页
统计学案例——相关回归分析.doc_第2页
第2页 / 共13页
统计学案例——相关回归分析.doc_第3页
第3页 / 共13页
统计学案例——相关回归分析.doc_第4页
第4页 / 共13页
统计学案例——相关回归分析.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、统计学案例相关回归分析案例一 质量控制中的简单线性回归分析1、问题的提出某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系, 寻找适当的回流温度,才能达到提高液化气收率的目的。经认 真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长 1 个百分点的目标,即达到 12.24%的液化气收率。2、数据的收集序号 回流温度() 液化气收率 (%) 序号 回

2、流温度() 液化气收率 (%)12345678910111213141536394343393843443740343940414413.112.811.311.412.312.511.110.813.111.913.612.212.211.811.116171819202122232425262728293042434644424145404647453839444512.311.910.910.411.512.511.111.111.110.810.512.112.511.510.9目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的 30 组数据(如上表),进行简单直 线回归分析

3、。3.方法的确立设线性回归模型为 ,估计回归方程为 xy10 xby10将数据输入计算机,输出散点图可见,液化气收率 y 具有随着回流温度 x 的提高而降低的趋势。因此,建立描述 y 与 x 之间关系的模型时,首 选直线型是合理的。从线性回归的计算结果,可以知道回归系数的最小二乘估计值b0=21.263 和 b1=-0.229,于是最小二乘直线为xy29.63.这就表明,回流温度每增加 1,估计液化气收率将减少 0.229%。(3)残差分析为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。从图中可以看到,残差基本在-0.5+0.5 左右,说明建立回归模型所依赖的假定是恰当的。误差项

4、的估 计值 s=0.388。(4)回归模型检验a.显著性检验在 90%的显著水平下,进行 t 检验,拒绝域为t=b 1/ sb1t /2=1.7011。由输出数据可以找到 b1 和 sb1,t=b1/ sb1=-0.229/0.022=-10.313,于是拒 绝原假设,说明液化气收率与回流温度之间存在线性关系。b.拟合度检验判定系数 r2=0.792。这意味着液化气收率的样本变差大约有 80%可以由它与回流温度的线性关系来解释。=-0.892r这样,r 值为 y 与 x 之间存在中高度的负线性关系提供了进一步的证据。由于 n30,我们近似确定 y 的 90%置信区间为:=21.263-0.22

5、9x1.2820.388 = 21.263-0.229x 0.497szy)(24、结果分析由回归直线图可知,要保持液化气收率在 12.24%以上,回流温度必须控制在 34以下。因 为装置工艺卡片要求回流温度在 3340之间,为确保液化气质量合格,可以将回流温度控制在 3334之间。 为此,应当采取各项有效措施,改善外部操作环境,将液化气收率控制在目标值范围内。案例二:轿车生产与 GDP 等关系研究中国的轿车生产是否与 GDP、城 镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?如果有关系,它们之间是种什么关系?关系强度如何? (数据见中国统计年鉴)(

6、1) 分析轿车生产量与私人载客汽车拥有量之间的关系: 首先,求的因变量轿车生产量 y 和自变量私人载客汽车拥有量 x1 的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正相关程度很强。 然后以轿车生产量为因变量 y,私人载客汽车拥有量 x1 为自变量进行一元线性回归分析,结果如下: 由回归统计 中的 R=0.984101 看出,所建立的回归模型对样本观测值的拟合程度很好; 估计出的样 本回归函数 为:=1.775687+0.206783 x1,说明私人载客汽车拥有量每增加 1 万辆,轿车 生产量增加 2067.83 辆;由上表中 和 的 p 值 分别是 0.709481543

7、 和 6.60805E-15,显然 的 p值大于显著性水平 =0.05,不能拒 绝原假设 =0,而 的 p 值远小于显著性水平 =0.05,拒绝原假设 =0,说明私人载客汽车拥有量对轿车生产量有显著影响。(2) 分析轿车生产量与城镇居民家庭恩格尔系数之间的关系: 首先,求的因变量轿车生产量 y 和自变量城镇居民家庭恩格尔系数 x2 的相关系数 r=-0.77499,说明两者 间存在一定的线性相关关系但负相关程度一般。 然后以轿车生产量为因变量 y,城镇居民家庭恩格尔系数 x2 为自变量进行一元线性回归分析,结果如下:由回归统计中的 R=0.600608 看出,所建立的回 归模型对样本观测值的拟

8、合程度一般,综合其相关系数 值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。 (3) 分析轿车生产量与公路里程之间的关系: 首先,求的因变量轿车生产量 y 和自变量公路里程 x3 的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。 然后以轿车生产量为因变量 y,公路里程 x3 为自变量进行一元线性回归分析,结果如下:由回归统计 中的 R=0.885883 看出,所建立的回归模型对样本观测值的拟合程度较好; 估计出的 样本回归函数为:=-125.156+1.403022 x3,说明公路里程每增加 1 万公里,轿车生 产量增加 1.403

9、022 万辆; 由上表中 和 的 p 值 分别是 5.64E-05 和 1.82E-08,显然 和 的 p 值均远小于显著性水平 =0.05,拒 绝原假设 =0、=0,但由于 对两者的影响更为显著,所以可以说明公路里程 对轿车生产量有显著影响。 (4) 分析轿车生产量与 GDP 之间的关系: 首先,求的因变量轿车生产量 y 和自变量 GDP x4 的相关系数 r=0.939995,说明两者间存在一定的线性相关关系且正相关程度较强。然后以轿车生产量为因变量 y,GDP x4 为自变量进行一元线性回归分析,结果如下:由回归统计 中的 R=0.88359 看出,所建立的回 归模型对样本观测值的拟合程

10、度较好; 估计出的 样本回归函数为:=-70.7127+0.001829x4,说明 GDP 每增加 1 亿元,轿车生产量增加 18.29 辆; 由上表中 和 的 p 值 分别是 0.001534 和 2.11E-08,显然 和 的 p 值均小于显著性水平 =0.05,拒 绝原假设 =0、=0,但由于 对两者的影响更为显著,所以可以说明 GDP 对轿车生产量有较显著影响。 (5) 分析轿车生产量与城镇居民人均可支配收入 x5 之间的关系: 首先,求的因变量轿车生产量 y 和自变量城镇居民人均可支配收入 x5 的相关系数 r=0.917695,说明两者 间存在一定的线性相关关系且正相关程度较强。然

11、后以轿车生产量为因变量 y,城镇居民人均可支配收入 x5 为自变量进行一元线性回归分析,结果如下:由回归统计 中的 R=0.842164 看出,所建立的回归模型对样本观测值的拟合程度较好; 估计出的 样本回归函数为:=-92.9054+0.032928x5,说明城镇居民人均可支配收入每增加 1 元,轿车生产量增加 329.28 辆; 由上表中 和 的 p 值 分别是 0.001444 和 2.12E-07,显然 和 的 p 值均小于显著性水平 =0.05,拒 绝原假设 =0、=0,但由于 对两者的影响更为显著,所以可以说明城镇居民人均可支配收入对轿车生产量有显著影响。案例三:子女身高与父母身高

12、的回归分析1、问题的提出 早在 19 世纪后期,英国生物学家 Galton 通过观察 1078 个家庭中父亲、母亲身高的平均值 x 和其中一个成年儿子身高 y,建立了关于父母身高与子女身高的线性方程: y=33.73+0.516x 从方程可以看出,子女身高有回归平均的倾向。那么, 时隔一百多年后的今天,人类 的物质生活和精神生活都已发生巨大的变化,父母身高与子女身高之间将呈现出什么样的关系呢? 在现实生活中,我们都知道父母身高对子女身高是有影响的,但父亲与母亲的影响分别有多大?他们对儿子和女儿的影响程度是否相同?能否用定量的形式回答这个问题呢?如果可以利用回归方法,进一步揭示父亲身高、母亲身高

13、与子女身高之间量化关系的秘密,将有助于那些关注自己后代身高的年轻父母们进行早期预测,同时也可为 那些未婚青年男女在选择理想配偶时提供科学的参考依据。 2、数据的收集 为了问题的研究,我们要求所调查的家庭满足下列条件:(1)家庭中有一个或多个子女(2)家庭成员身体健康,发育正常,无先天性和遗传性疾病,无残疾(3)子女的年龄均在 23 岁(含 23 岁)以上。考虑到调查范围的广泛性,我们随机抽取了机关干部、职员、工人、农民、城市居民、军人、大学生家庭,并特意 选择了一所全国招生的院校应届毕业生,他们来自于全国各地,家庭背景相对复杂,这样使得样本更具代表性。 在收回的 410 份(发放 460 份)

14、调查表中,符合要求的有 290 个家庭,其中,有儿子 405 人,有女儿 270 人。3、方法的确定根据所收集的数据,应用二元回归分析方法,研究父亲身高、母 亲身高与儿子或女儿身高的关系。 (1)建立回归方程 设 X1 为父亲身高,X2 为母亲身高, Y 为儿子或女儿身高。则父母身高与子女身高的回归模型为: Y=0+1X1+2X2+ 根据样本数据建立估计二元回归方程: y=b0+b1x1+b2x2 (2)显著性检验 对回归方程进行 F 检验,拒绝区域为 FF(2,n-3);对回归系数进行 t 检验,拒绝区域为 tt/2(n-3) 。 (3)预测 若某一家庭父亲和母亲身高分别为 x10 和 x2

15、0,则子女身高的点估计为: y=b0+b1x10+b2x20 区间 估计方法已超出大纲要求,在此不要求。 4、结果分析 (1)父母身高对儿子身高的影响 y=53.640+0.368x1+0.349x2 显著性检验:在 =0.01 的显著水平下,F=62.714F(2,400)=4.68 t1=7.85t/2(400)=2.689 t2=6.71t/2(400)=2.689 结果说明回归方程显著,两个偏回归系数显著。因此,所建立回 归方程是有意义的,即父母身高与儿子身高有显著的线性关系。 (2)父母身高对女儿身高的影响 y=47.140+0.249x1+0.455x2 显著性检验:在 =0.01

16、 的显著水平下,F=46.81F(2,300)=4.68 t1=4.92t/2(300)=2.68 t2=7.61t/2(300)=2.689结果说明回归方程显著,回归系数显著,故所建立回归方程有效,即女儿身高与父母身高有显著的线性关系,特别是母亲身高对女儿身高的影响更为重要。 (3)从以上结果可以看出,在某种程度上,父母身高对子女身高有重要影响,且在不同时期,子女身高有回归平均身高的趋势,即个子矮的父母,其子女身高未必低于自己,个子高的父母,其子女身高未必高于自己。下表给出了部分家庭子女身高的预测值,其中,区间估计的把握程度为 95%。表:部分家庭子女身高的预测值 儿子身高 女儿身高父亲身高

17、母亲身高 点估计 下限 上线 点估计 下限 上线160 155 166.57 165.32 167.83 157.50 155.99 159.02160 160 168.32 167.16 169.48 159.78 158.43 161.13165 160 170.15 169.41 170.91 161.02 160.14 161.90165 165 171.90 171.01 172.91 163.30 162.26 164.33170 160 172.00 171.53 172.46 162.27 161.74 162.79170 165 173.74 173.12 174.36 164.54 163.77 165.30175 160 173.84 173.27 174.40 163.51 162.94 164.07175 165 175.58 174.93 176.22 165.78 164.98 166.59180 160 175.67 174.73 176.50 164.75 163.79 165.71180 165 177.42 176.47 178.36 167.03 165.91 168.14180 170 177.41 176.47 178.36 169.30 167.76 170.83

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报