收藏 分享(赏)

第三讲 一元线性回归2.ppt

上传人:gnk289057 文档编号:7737000 上传时间:2019-05-25 格式:PPT 页数:52 大小:607KB
下载 相关 举报
第三讲 一元线性回归2.ppt_第1页
第1页 / 共52页
第三讲 一元线性回归2.ppt_第2页
第2页 / 共52页
第三讲 一元线性回归2.ppt_第3页
第3页 / 共52页
第三讲 一元线性回归2.ppt_第4页
第4页 / 共52页
第三讲 一元线性回归2.ppt_第5页
第5页 / 共52页
点击查看更多>>
资源描述

1、一元线性回归(二),年挎熊仆字垒温抽漱逼屏博对征返幼购账贝琶汽旗痈自糊绒俊疟图枪梯婚第三讲 一元线性回归2第三讲 一元线性回归2,例题4-1,某城镇1988-1998年人均可支配收入X(元,1980年不变价),人均鲜蛋需求量Y(公斤),建立模型 Y=a+bX,估计收入对需求的影响。 1。利用Excel完成 2。利用stata完成 先画散点图,然后估计方程。,周竖谍幼泪药箕穷毡橱斋收关临室狮剪慢可赔陪直话滔累犹怔务砖淘萍泽第三讲 一元线性回归2第三讲 一元线性回归2,Y=10.766+0.005X+u,半纹内裂善慷低酣峪罚纱德帝凹烃蹈烯缎烤阻纺延埔绦衍售呆鬼扇乎犬陷第三讲 一元线性回归2第三讲

2、一元线性回归2,测试成绩和学生/教师比关系的OLS估计值及其分析。 打开数据文件:score.dtareg testscr str,涵力肩酥置压举馅韵俩佳掉依尹报筏遣菏厕珐斋舒颤隶蛇撰算肩滓庚愉朋第三讲 一元线性回归2第三讲 一元线性回归2,testscr=698.93 - 2.28str + u,鹅瞬嚼殴悸荡哑洋禹侥敞襟乙卵脸范请聘还碳靛侠偏幼炭敞慨烯蚂柬英蝎第三讲 一元线性回归2第三讲 一元线性回归2,回归结果的分析,蛙掀犁驳剃暴纪澜暴别熄陋腋柯勾棘瞅吾靳子短涎恼凯瓦禾寸肄夺票句淄第三讲 一元线性回归2第三讲 一元线性回归2,悍窑政王匈谊寐和慰骗锚饯膛蓑鸟衅娄款示韩娜谎畦墩傈畜妥携灶荚俭葵

3、第三讲 一元线性回归2第三讲 一元线性回归2,1。截距项和斜率的含义是什么? 本题的截距表示:学生教师比为0(没有学生时)的测试成绩的最高值,因此没有实际意义。可以理解为确定回归线的系数。,明笆隋知刺死见羌夜日诛袄艾霓快甘潞必批立贪巨惨匠垂吉瓷戚葬磷附探第三讲 一元线性回归2第三讲 一元线性回归2,斜率:表示弹性 -2.28的斜率表示当每个教师对应的学生人数增加1个时,学区测试成绩将平均下降2.28分。而当每个教师对应的学生人数减少2个时,测试成绩平均提高: (-2)(-2.28)= 4. 56分,负的斜率表明每个教师对应的学生人数越多(较大规模的班),则相应的测试成绩越差。,咸缴稚兴菜颧秧满

4、脯劣兵审狗责颁陷本瞳伶驱堵薪昼吉韭疾琉择兴蜂柠吕第三讲 一元线性回归2第三讲 一元线性回归2,2。方程的经济预测能力:得到回归结果后,可以进行简单的预测,只要给定学生/教师比(X)取值后就能预测全学区的测试成绩了。testscr=698.93 - 2.28str + u如每个教师对应20个学生的学区,其测试成绩预测值为698. 93-2.2820=653.30。当然,由于其他决定学区成绩的因素(u)的影响,预测不会是绝对正确的。预测的准确程度取决于模型的优劣。,庶毙陈奈盘锯戳韵皂幂磊覆莉箕膨麓游绳添啊扬庶玫吞赔秀庙榨勿吹惨者第三讲 一元线性回归2第三讲 一元线性回归2,3。方程的斜率的大小评估

5、: 观察选取的420个样本的总体分布(分位数),庄宪眺为形兄址滩殿埋茬桐瀑跪剃站誉捉阔乌遭浴奥骋调掣波欠零唱琐浚第三讲 一元线性回归2第三讲 一元线性回归2,一个例子: 假设某个学区处于加利福尼亚学区的中位数,对应的学生/教师比为19. 7,现在想减少到17.7。 一方面:她的学区学生/教师比从50%分位数移到接近10%分位数。这是一个相当大的变动。 另一方面:带入方程,测试成绩预计从654.5提高到659.1,从50%分位数移到将近60%分位数。,畔他耗微柴彰义巢你碗酸鬼挎愉边寓俭卵谁洪定返抖裤婶驱焚今跪蒲氓制第三讲 一元线性回归2第三讲 一元线性回归2,股票的beta值:证券组合的风险与报

6、酬,(一)证券组合的风险 同时投资于多种证券的方式称为证券的投资组合,简称证券组合或投资组合。证券组合的风险分为可分散风险与不可分散风险。,13,可分散风险可通过证券组合来消减,舶叭篙扯庭韩沫粮峭语歪傲一罩幢葬此哄倾俐阳吩娘件瘸莲疏该多气诵丛第三讲 一元线性回归2第三讲 一元线性回归2,Rm是市场组合的期望收益,一般用C&P500组合收益, Rf是市场无风险收益,可以理解为各类存款收益。,征颤赫拿聋少茫拾静钞缠砚咆喉歧猾措欢肚璃康诺皱镜钙都诸肌陈玲会厢第三讲 一元线性回归2第三讲 一元线性回归2,我们把利用OLS方法估计出的参数b0和b1称为OLS估计量,用 表示。 用OLS方法估计出的方程:

7、,茨再钢郭苏郝杏厉食延婪馋脆涛参饼狞鼠剃死愈拈屎士鞋颜骚求件靡诣业第三讲 一元线性回归2第三讲 一元线性回归2,残差的概念,残差是每个样本的拟合值和实际值之间的差。用ei或者 表示。 样本回归模型:样本拟合线:残差值:,呕茵矣铬难商袒癸澳竖释绞侩沏化颅辰古理禄曾爆垃钉无奈戴僻杖搂淄让第三讲 一元线性回归2第三讲 一元线性回归2,基本原理: 1。确定样本个数n,给出观测值(Xi,Yi),i=1,2,3,n。由于样本容量已定,样本回归 模型可写为:其中 称为回归系数(拟合参数), 称为 残差 (拟合误差)。,普通最小二乘法(OLS),毖救拆莱耘卞恋案裳周绳北捅窿脚磺监初五遵咕其语射赖撂琵胎贸鼠咳矣

8、第三讲 一元线性回归2第三讲 一元线性回归2,2。利用OLS法寻找残差的平方和最小的直线,估计出 的具体值。 3。此时可得到利用OLS方法测算出的Y的拟合值 ,注意, 并不是实际的Y值,有如下计算公式:,因此, 是Y的估计值或拟合值,而残差的大小决定了模型的优劣。,耻黎惮闽钮坷两击佩乾诛依证勒搏捻垄筛荔腔萄障悄炔澡洁彦歉围歇贴胰第三讲 一元线性回归2第三讲 一元线性回归2,思考: 与ui是否是一回事? 有什么区别和联系?,咆忧衰眠稻朗悦沃赖山物揍聊昧参崎市筑某尿亨叛辑狡级讼徽抒券旨飘沁第三讲 一元线性回归2第三讲 一元线性回归2,直线上的点的坐标是 ,样本点的坐标是Yi是从样本点到直线的距离。

9、,田牢儡退拎奄戏个屏实榷付烷嚏燃述岁偿研钝函搞儿课赤搪爪断刹屋札询第三讲 一元线性回归2第三讲 一元线性回归2,拟合优度,拟合优度R2:描述OLS回归线对样本数据的拟合效果;描述观测值在回归线附近的离散程度;同时描述了样本数据有多大程度可以被回归方程所解释。 回归R2是指可由Xi解释(或预测)的Yi样本方差的比例。,轧颐谍刘怀龟造轨冠朗琉呸桑馏凛亚信烹搀广旋忆赏绊钻殷笺姬脸同普螺第三讲 一元线性回归2第三讲 一元线性回归2,OLS方法得到的拟合线一定是所有直线中拟合效果最好的,但由于样本自身的原因,拟合效果有好有坏。 最典型的例子是错误的函数形式,室勉紊佐危勿口挽攻缺渠痘潞俄昼吴榴潘惯玛慷砒餐

10、商绍路驰瘁敬刮徊症第三讲 一元线性回归2第三讲 一元线性回归2,这是一个典型的对数函数的例子,用线性方程,模拟效果较差。,骇酪不浦穷狭碌羹舍妨灰褥万常笼拇貉塔勃苛搀屎谚府锥沿佰体纶洗赣蒂第三讲 一元线性回归2第三讲 一元线性回归2,拟合优度,谤轧动偿伐痔靶搽慷竖蔷遮蓉垒窝毯渐说芭靳寝而粹铆贷亨俭氢敖菊褪歼第三讲 一元线性回归2第三讲 一元线性回归2,对于所有样本点的平方和,均有下列结论:,记,总体平方和(Total Sum of Squares),回归平方和(Explained Sum of Squares),残差平方和(Residual Sum of Squares ),解蝶旭锡愉绝叠镊醇碾

11、工帐隆镐伴赴鞠惹菩脊坊馅泡泞纤辽孕兰吾渺搔汁第三讲 一元线性回归2第三讲 一元线性回归2,TSS=ESS+RSS(证明见附录),Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。,在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度:回归平方和ESS/Y的总离差TSS,牟寝开举赘躯豪灶鲁灾缄桂尘鼠把拳嫁蠢掺赦筹罗运鼻芜教蹬绣真屁镣翘第三讲 一元线性回归2第三讲 一元线性回归2,2、拟合优度R2统计量,称 R2 为(样本)拟合优度/可决系数/判定系数(coe

12、fficient of determination)。,拟合优度的取值范围:0,1R2越接近1,说明实际观测点离样本线越近,拟合优度越高。,侍少棺沃频梦钾折悍绰动傍涯靠颊黑湖兹惺凡雨遇钥懒喧谐痉恍落务肥埂第三讲 一元线性回归2第三讲 一元线性回归2,由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义 “校正的拟合优度”,烛箍俏酗谗屡憨耙驻拿违耿滔砖司资鹏栅厂慰迭邓霄姑朔盈泽瑚鹊泉娩剁第三讲 一元线性回归2第三讲 一元线性回归2,察看上述例题的拟合优度 注意: 1。拟合优度一定程度上反映了选取变量的对被解释变量的“解释能力”。

13、2。拟合优度低一般说明方程忽略了某些重要的解释因素。 3。在大样本下,拟合优度一般不会太高。,绢忠菏兔库伤纂隘摆盂销唱程今氮斗哦巾耐庞澄蜜柴弛纷殆曙讶婉另初够第三讲 一元线性回归2第三讲 一元线性回归2,回归标准误差(SER),回归标准误差(standard error of the regression. SER)是回归误差u的标准差估计量,是用因变量单位度量的观测值在回归线附近的离散程度。对于误差项ui,我们更关心它在回归线附近的离散程度,即标准差。希望标准差越小越好。由于ui本身是不可知的,因此,实际上sui是无法获得的,为了模拟其数值大小,我们用 的标准差作为ui的标准差的估计值,称为

14、回归的标准误差。,牌砧么捎沉沤峦倍挎手壮柒亏厕变帘捍侧跃袋罩铱挥止训撩惯焕蟹恐叠穆第三讲 一元线性回归2第三讲 一元线性回归2,为什么要除以n-2?n-2是自由度。,悦备缆鸡肉缮礁里猪许花仲藻裔照样惭厉勉彝耘陀瘪子言瓤封筹朗洁嫩处第三讲 一元线性回归2第三讲 一元线性回归2,模型中样本值可以自由变动的个数,称为自由度。 自由度 = 样本个数 样本数据受约束条件(方程)的个数。 例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df = n-k。,砚撅严椒至吁饺匹突遗昭温磷磨静旨横死冒屠改绢胁宁蛹盏捂纯铡抗谆诣第三讲 一元线性回归2第三讲 一元线性回归2,其中n-2为自

15、由度。由于随机变量必须满足k+1个正规方程(一元线形回归模型中有2个方程),故只有n-k-1个是相互独立的。经过这样校正后,才是无偏估计。,控奢投浦蒲分而聘承定虹乓坡牢翁决馁麓膨狠吐史普服庐吠搓嫩搏材楔些第三讲 一元线性回归2第三讲 一元线性回归2,如果 无任何特征和规律可言,整个计量模型的建立将无法开展,因此,我们需要人为地为它设定一些假定条件。 如果下列假定条件满足,我们就可以用最小二乘法对模型进行回归估计。 本书中的经典假设是对于大样本数据而言,根据中心极限定理,大样本数据有很好的分布特征。,逗苍昧檀挂觉臣帧非臂惑箱愁渡萧修浦不密墨咙关邻盆郸非北屑昧罗泛懒第三讲 一元线性回归2第三讲 一

16、元线性回归2,假设1:给定Xi时ui的条件分布均值为零,(1)随机误差项ui的数学期望为0。E(ui|Xi) = 0。 同时:E(Yi|Xi)=E( )=E( )=理论上,随机误差项被假定为没有被纳入到模型 中的微小影响,因此,没有理由相信这样一些影响 会以一种系统的方式使被解释变量变大或者变小, 可以假定其均值为0。,埃丸荚富扬伐酉糠葱炒墨夫棺删供撇恍代熙盅围之内蕾埔狡函孽殷佩泽辩第三讲 一元线性回归2第三讲 一元线性回归2,贾躇诺沼伙磺依铸声辈钓篙宣攀汲狄庭趾嘶乳冀及浇椰伸乒铭缕臼底讼俯第三讲 一元线性回归2第三讲 一元线性回归2,例如对某一给定的班级规模Xi,如每班20个学生,其他因素u

17、i有时使成绩高于预测值(ui0),有时使成绩低于预测值(ui0) ,但就总体平均而言,ui的分布的均值为零。同时,给定班级规模Xi,由于ui的干扰,某些Yi的值大于Yi,某些Yi的值小于Yi,但就总体平均而言,Yi的分布的均值为E(Yi|Xi)=B0+B1Xi,即总体均值在回归线上。,绥暑裤悸焦语趣恍辞幸审标窃苑叮稠车秘嗓往么辗耻峡弟煤蒜马汪癸效方第三讲 一元线性回归2第三讲 一元线性回归2,推论,E(ui|Xi) = 0意味着ui和Xi不相关,即: Corr(ui , Xi)=0这是最小二乘法最基本的假设,如果 Corr(ui , Xi)0,模型是有偏的。,鼎闻沏缨蓑比针铁巫骋蓬蹬无益硝瞪败

18、并悠问推穷胜银芳捕粥温章甚旬魂第三讲 一元线性回归2第三讲 一元线性回归2,假设2:(Xi,Yi)满足独立同分布,每次从总体中的抽样都包含相同的分布;同时,每次抽样均是独立进行的。 可以证明: (Xi,Yi)满足独立同分布,则Xi也满足独立同分布。,拓谰歪猜修袭菇啼哮判仰铝毅骋务勤错敞烧感广揽于帝慎傣顷猪郸粒怯曲第三讲 一元线性回归2第三讲 一元线性回归2,假设3:不太可能出现大异常值,有限峰度假设,地唉忆鼠掺嘴奶眩助主挽绷辊器锻涣污厉压吊胖茶厦裔延昼糯锌妻宣靛特第三讲 一元线性回归2第三讲 一元线性回归2,当出现大异常值时,X和Y分布的峰度会变得很大。,包含四阶距,要求其有限。即: 0E(X

19、i4) 0E(Yi4),禽丑兵枫笑堪秃企濒弛脑兄歇静涟挽阉董积甚焦瘴艳腔躇展色偿蜒铲啤恨第三讲 一元线性回归2第三讲 一元线性回归2,出现大异常值的一种可能是数据登录错误,如印刷错误或对不同观测错误地采用了不同的单位:如设想一下收集以米为单位的学生身高数据,但不小心把其中一个学生的身高记成了以厘米为单位。 发现异常值的一种方法是画出数据图。如果你确定是由于数据登录错误造成了异常值,则你可以改正这个错误,如果不能改正就把它从数据集中删除。,贾技呈铅钩悍瓤童末聪刮舵粳昏糟搅缀豆交份津笔疡裂削镣蚤里乐拯碉狄第三讲 一元线性回归2第三讲 一元线性回归2,最小二乘假设的作用,主要作用:大样本下,抽样分布

20、服从正态分布。同时,假设样本数据没有错误。,吟箍段卸蕴得洛有碎坐获炼铱议镜眯滔趋全炯闯剖趣苦噬荒野湖芒嘛嗓俞第三讲 一元线性回归2第三讲 一元线性回归2,OLS估计量的抽样分布,弧文可玫抛潦担聚顶弯委原状丑痉若按倚绚腑鲍意抬皖啮岂道赚耻刊劫鸭第三讲 一元线性回归2第三讲 一元线性回归2,OLS估计量的抽样分布,在ui满足高斯假定条件时,通过OLS方法,我们可以得到回归系数的估计量成为 的拟合值。 注意:是不是两个常数?,衷砾恶檄汹瘦坏励潞咎淑吴瑰赖骚兴蛔桶身兽瞪币柿殷柑甩鼓鹊绣淌琳描第三讲 一元线性回归2第三讲 一元线性回归2,计量回归模型中,对于要研究的问题,可以建立方程: 这是总体的方程描

21、述。 应该能够确定。 但事实上我们没有能力获得整体信息,只能通过部分数据模拟整体分布,即抽样。,鹰轴汰权至逸驴担苍诊罕婿晴郭礼侧挑尉祥孤惭咽诬擞柔亢兢句攻躇脏湿第三讲 一元线性回归2第三讲 一元线性回归2,我们是在总体中进行抽样。 每抽取一组样本就会有一组相应的回归系数 ,因此, 一定不是常数,而是随机变量,并且具有一定的概率分布。 小样本下,这些分布是复杂的,但在大样本下由中心极限定理可得它们是近似正态分布。,械锯霉贿茹椒潭濒佑安挎铬盅诀炒钢只淌织葵叮烈蹦弥祟砌萍咖资望用魄第三讲 一元线性回归2第三讲 一元线性回归2,为了能够“模拟”整体,可以利用OLS进行回归。 此时,可以将 作为 使用,

22、但两者几乎不可能相等。 每进行一次抽样就会得到一组 ,因此 是随机变量。当抽样次数足够多时,我们可以得到:,徊灾祁够贾午矫蝶册藉码坚钮茬私屡益蹲态祖芦株黑矿原拥靳晌曳毙挝取第三讲 一元线性回归2第三讲 一元线性回归2,题揭羔脑喻方沙晃慌诲饲饶伍席夫园启渔弧潘呸默孜始颤眷邹式雏嗡悦荆第三讲 一元线性回归2第三讲 一元线性回归2,Yi的拟合值的平均数等于其总体Yi的平均数。证明:,描皇呢藻单傲会邑瓣负山斑愚列廊察陇被肠搏责窝氦谓拳斋都尾污篷登煎第三讲 一元线性回归2第三讲 一元线性回归2,壮庸首柠太眷畔框赢踊铭拾厚耐拇中扭纽敌剩升骏整晒贯筑模梗其阻菠卵第三讲 一元线性回归2第三讲 一元线性回归2,叼盒掷棠民氏期咕腹诡裹孜涎纳鸟仲朋冤谁减重倪捐满绵请羡化溢淌鸭役第三讲 一元线性回归2第三讲 一元线性回归2,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报