ImageVerifierCode 换一换
格式:DOC , 页数:20 ,大小:716KB ,
资源ID:7852489      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-7852489.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(回归分析论文 《多元统计分析》课程论文.doc)为本站会员(精品资料)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

回归分析论文 《多元统计分析》课程论文.doc

1、合肥学院20152016 第二学期多元统计分析课程论文论文题目 回归分析 姓 名 陈毅 学 号 1307021036 专 业 数学与应用数学(1)成 绩 2015.5一元线性回归分析及其应用摘要 应用一元线性回归分析南极站 CAPETOWN68816 从 1901 年到 1960 年这 60 年一月份的温度,根据最小二乘法的原理,采用SAS 统计软件进行数据的处理,拟合出年份与温度间的线性关系。分析软件运算的结果,最终得到实际的一元线性关系。关键词 温度与年份 一元线性回归 t 检验 一、 线性回归理论(1)一元线性回归模型其中 , 为模型参数, 为随机误差项,X 是自变量,Y 是因变量。0对

2、(X,Y)进行观察,得到 n 组样本观测值 ,则有niyxi ,21,)(,其中 为 x 对 y 的线性影响而形成的系统部分,反iiy101映两变量的平均变动关系,即本质特征, 为随机干扰:各种偶然i因素、观察误差和其他被忽视因素的影响。(2)最小二乘估计参数 的最小二乘估计量 使误差平方和 达到最小,即)(Q)(min)(Q其中正规方程: ,若 可逆,X201,()0,()YEVar2 20111()i()()nniiipiyx参 数 的 最 小 二 乘 估 计 量 使 误 差 平 方 和达 到 最 小 , 即其 中 1()Xy正 规 方 程 :若 可 逆 , 1()Xy正 规 方 程 :若

3、 可 逆 ,经验回归方程: 回归拟合值和残差:回归拟合值 :拟合向量:残差值:残差向量:(3)最小二乘估计的性质(4)回归方程的显著性检验 212121 niiniinii yyy)()()(01 pYXyxiy 11()(,nXXyHy1)(,nii()yXIHy0,1,iijxpy211.E(),Var()X2BLUE.是 的 最 优 线 性 无 偏 估 计 量 (23. )E()0,ar(),Cov(,0yIHy残 差 向 量 满 足2 2S.1是 的 无 偏 估 计p复相关系数:决定系数 :2R:即修正的2a线性模型回归的检验:方差来源 平方和 自由度 F 值回归误差总计RSSESST

4、SSpn-p-1n-1 222()()()iiiyii iyy MSr Ty21MSET2 2/()1(1)aEnpnRSp012:0pH 22112 2012,(,)(,)()3(4):0,()nppy=XNINESnMSHp定 理 : 在 模 型 下 , 有( ) 与 相 互 独 立 成 立 时 /()1MSpEn0/(), (,1)1(,.若 成 立若 则 拒 绝 原 假 设MSpHFFpEnp回归系数检验:二、问题提出与分析下表为南极南部海洋站 CAPETOWN68816 从 1901 年到 1960年这 60 年一月份的温度,建立建立 SAS 数据文件 ,探讨年份与温度的关系。年份

5、温度 年份 温度1901 19.6 1931 23.6 1902 19.3 1932 20.5 1903 19.9 1933 21.3 1904 20.7 1934 22.2 1905 20.8 1935 22.1 1906 19.9 1936 19.4 1907 20.7 1937 21.7 1908 19.8 1938 21.1 1909 21.3 1939 21.8 1910 21.4 1940 22.2 1911 21.1 1941 22.2 1912 20.9 1942 21.4 1913 22.8 1943 20.3 1914 20.4 1944 21.8 1915 22.9 19

6、45 21.2 1916 21.4 1946 20.7 1917 21.6 1947 21.1 1918 21.6 1948 21.8 1919 20.5 1949 21.7 1920 22.7 1950 21.6 1921 20.0 1951 20.5 1922 20.3 1952 21.7 1923 21.0 1953 22.7 1924 22.1 1954 21.4 1925 20.9 1955 22.2 1926 21.8 1956 22.0 1927 22.3 1957 22.3 1928 21.7 1958 21.7 1929 22.5 1959 20.7 0:iH21(,)()(

7、iii ijNcXl其 中,/iiiFFnplESnp1930 21.2 1960 21.9 数据来源:http:/legacy.bas.ac.uk/met/READER/temp_html/cape.html三、模型建立 设温度为因变量 Y,年份为自变量 X,建立一元线性回归模型如下:其中 , 为模型参数, 为随机误差项。0做出这组数据的散点图如下:从图中可以看出,因变量与自变量在带状区域内呈线性关系,且因变量随着自变量的增大而增大,所以可以预测这组数据可以用某条直线来拟合,且在回归模型中, 。01(1)程序(1):data ch;input wendu nianfen ;cards; 19

8、.6 190119.3 1902201,()0,()XEVar19.9 190320.7 190420.8 190519.9 190620.7 190719.8 190821.3 190921.4 191021.1 191120.9 191222.8 191320.4 191422.9 191521.4 191621.6 191721.6 191820.5 191922.7 192020.0 192120.3 192221.0 192322.1 192420.9 192521.8 192622.3 192721.7 192822.5 192921.2 193023.6 193120.5 193

9、221.3 193322.2 193422.1 193519.4 193621.7 193721.1 193821.8 193922.2 194022.2 194121.4 194220.3 194321.8 194421.2 194520.7 194621.1 194721.8 194821.7 194921.6 195020.5 195121.7 195222.7 195321.4 195422.2 195522.0 195622.3 195721.7 195820.7 195921.9 1960;proc reg;model wendu=nianfen;print cli;plot we

10、ndu*nianfen p.*nianfen l95.*nianfen u95.*nianfen/overlay;symbol1 c=black v=triangle;symbol2 c=blue v=circle;symbol3 c=green v=square;symbol4 c=red v=star;run;程序(2):data ch;input wendu nianfen ;cards; 19.6 190119.3 190219.9 190320.7 190420.8 190519.9 190620.7 190719.8 190821.3 190921.4 191021.1 19112

11、0.9 191222.8 191320.4 191422.9 191521.4 191621.6 191721.6 191820.5 191922.7 192020.0 192120.3 192221.0 192322.1 192420.9 192521.8 192622.3 192721.7 192822.5 192921.2 1930;proc reg;model wendu=nianfen;print cli;plot wendu*nianfen p.*nianfen l95.*nianfen u95.*nianfen/overlay;symbol1 c=black v=triangle

12、;symbol2 c=blue v=circle;symbol3 c=green v=square;symbol4 c=red v=star;run;程序(3):data ch;input wendu nianfen ;cards; 23.6 193120.5 193221.3 193322.2 193422.1 193519.4 193621.7 193721.1 193821.8 193922.2 194022.2 194121.4 194220.3 194321.8 194421.2 194520.7 194621.1 194721.8 194821.7 194921.6 195020.

13、5 195121.7 195222.7 195321.4 195422.2 195522.0 195622.3 195721.7 195820.7 195921.9 1960;proc reg;model wendu=nianfen;print cli;plot wendu*nianfen p.*nianfen l95.*nianfen u95.*nianfen/overlay;symbol1 c=black v=triangle;symbol2 c=blue v=circle;symbol3 c=green v=square;symbol4 c=red v=star;run;(2)程序说明首

14、先利用 DATA 补建立数据集 ch,INPUT 语句中的 wendu 表示温度,nianfen 表示年份。REG 过程中的 MODEL 语句,nianfen 作为回归变量或自变量,而把 wendu 作为相应变量或因变量。Print cli 可以得到预测值、95%预测上限与下限、残差。Plot 选项可以制出数据点、回归直线和预测界限的图形。四、模型的检验与分析(1)程序(1)输出结果:程序(2)输出结果一:(2)输出结果二:REG 过程模型: MODEL1因变量: wendu 输出统计量观测 因变量预测值预测均值标准误差95% 置信限预测 残差1 19.6000 20.2140 0.2971

15、18.4005 22.0275 -0.61402 19.3000 20.2753 0.2821 18.4719 22.0787 -0.97533 19.9000 20.3366 0.2675 18.5426 22.1307 -0.43664 20.7000 20.3980 0.2532 18.6127 22.1833 0.30205 20.8000 20.4593 0.2394 18.6820 22.2366 0.34076 19.9000 20.5207 0.2261 18.7507 22.2906 -0.62077 20.7000 20.5820 0.2134 18.8186 22.345

16、4 0.11808 19.8000 20.6433 0.2015 18.8858 22.4008 -0.84339 21.3000 20.7047 0.1904 18.9524 22.4570 0.595310 21.4000 20.7660 0.1804 19.0181 22.5138 0.634011 21.1000 20.8273 0.1716 19.0832 22.5715 0.272712 20.9000 20.8887 0.1642 19.1475 22.6298 0.011313 22.8000 20.9500 0.1585 19.2111 22.6889 1.850014 20

17、.4000 21.0113 0.1545 19.2739 22.7487 -0.611315 22.9000 21.0727 0.1525 19.3360 22.8093 1.827316 21.4000 21.1340 0.1525 19.3973 22.8707 0.266017 21.6000 21.1953 0.1545 19.4579 22.9327 0.404718 21.6000 21.2567 0.1585 19.5178 22.9956 0.343319 20.5000 21.3180 0.1642 19.5769 23.0591 -0.818020 22.7000 21.3

18、793 0.1716 19.6352 23.1235 1.320721 20.0000 21.4407 0.1804 19.6928 23.1885 -1.440722 20.3000 21.5020 0.1904 19.7497 23.2543 -1.202023 21.0000 21.5633 0.2015 19.8059 23.3208 -0.563324 22.1000 21.6247 0.2134 19.8613 23.3881 0.475325 20.9000 21.6860 0.2261 19.9160 23.4560 -0.786026 21.8000 21.7473 0.23

19、94 19.9700 23.5247 0.0527输出统计量观测 因变量预测值预测均值标准误差95% 置信限预测 残差27 22.3000 21.8087 0.2532 20.0234 23.5940 0.491328 21.7000 21.8700 0.2675 20.0760 23.6641 -0.170029 22.5000 21.9314 0.2821 20.1279 23.7348 0.568630 21.2000 21.9927 0.2971 20.1792 23.8062 -0.7927残差和 0残差平方和 19.47466预测残差 SS (PRESS) 21.83816(3)输

20、出结果三:程序(3)输出结果:(4)运行结果分析以程序(2)为例:输出结果 1 给出了由 REG 过程得到的方差分析与参数估计。方差分析给出了直线拟合的这组数据的效果的信息。其中 Source 项表示用于识别这组数据中方差的来源,DF 项表示用于识别这组数据中相应的自由度,总方差用 Corrected Total 标记,DF 为样本容量减 1(DF=30-1=29) 。这个模型解释的偏差标记为Model,相应的自由度为 1.Error 的自由度是两个自由度的差(28=29-1).Sum of Squares 表示平方和,这组数据的总偏差平方和可分解为模型平方和和误差平方和两个部分,及有一般形式

21、:Total SS=Model SS + Error SS。容易看出总偏差平方和、模型平方和和误差平方和分别为 27.92967、19.47466、8.45500。Mean Square 表示均方(MS) ,均方等于平方和除以自由度。Error MS=19.47466/28=0.69552,它是模型中误差方差的估计。F Value 和 PrF 项给出了检验统计量的 F 值及相应的 P 值。F 值等于 MMS(模型均方)除以 EMS(误差均方) ,它用于检验这样的假设:该回归模型是显著的。对于这组数据拟合后 F 值等于 12.16,相应的 P 值小于 0.0016,说明拟合的模型解释了这组数据总

22、偏差的主要部分。R-Square(R 平方)和 Adj R-Sq(调整后的 R 平方):它们评价模型优劣的量,R 平方等于 Model SS 除以 Total SS。因为 Total SS=Model SS+ Error SS,所以 R 平方是 Total SS 中由 Model SS 构成的比值。换句话说,R 平方是总偏差中有模型中那些变量引起的百分率。R 平方的取值范围为 0 到 1;它越接近 1,表示该模型越能解释这组数据的偏差。改组数据拟合后的 R 平方等于 0.3027,调整后的 R 平方等于 0.2778,说明拟合的模型不太好,原因可能是某些数据有误,导致结果的不完美。在参数估计(

23、Parameter Estimates)输出的部分主要给出了回归模型的系数以及系数是否显著地不为零。下面给出具体解释。Variable(变量)和 Parameter 为 0,标记 Variable 的列给出了直线拟合的方程式中这些系数相应的变量。标记为 Parameter Estimate(参数估计)的列给出了这些系数的参数估计值。截距在Variable 列用 INTERCEPT 标识。斜率在 Variable 列中用变量名标识。故简单的回归模型为:wendu=-96.38351+0.06133nianfenStandard 是这些参数估计的标准误差,它可用来构造参数估计的置信区间。t Val

24、ue 给出了检验参数为 0 的原假设的 t 值。该值等于参数估计除以相应的标准误差。例如:-96.38351/33.69711=-2.86。Pr|t|给出了 t 值相应的 P 值,由于原假设的 P 值为 0.00790.05,故认为模型中的截距显著不为 0,不可以在模型中去掉。因此随着nianfen 的增加 wendu 也适当增加。参数域的区间估计公式为:参数估计值 分为点 标准误差。例如,参数的置信水平位 95%的区间估计为(0.061-2.18 0.018,0.061+2.18 0.018)=( 0.02176,0.10024)输出结果 2 给出了年份的预测值及 95%的置信限等信息。Ob

25、s 表示序号观测值,Dependent Varible(因变量)给出了温度的原始数据,Predicted Value(预测值)给出了温度的预测值, Std Error Mean Predict(预测的标准误差)给出了预测的标准误差。95% CL Predict(95%的置信限)给出了预测值的 95%的置信限,共有 2 列,左边是预测值的 95%置信下限,右边是预测值的 95%置信上限,最后一列 Residual 给出了残差,它是实际值与预测值之间的差。输出结果 3 中,一个观测数据点用一个“”表示,拟合直线用一系列的“”构成,预测下界用“” ,上界用“*”表示。五、总结 根据以上讨论得到:前 30 年温度与年份之间的关系的回归方程为:wendu=-96.38351+0.06133nianfen后 30 年温度与年份之间的关系的回归方程为:wendu=12.904+0.0044nianfen

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报