第二章_一元线性回归模型.ppt

上传人：j35w19

文档编号：8222677

上传时间：2019-06-15

格式：PPT

页数：77

大小：962KB

下载提示：本站仅提供存储空间/不修改/不编辑

1.请仔细阅读文档，确保文档完整性，对于不预览、不比对内容而直接下载带来的问题本站不予受理。
2.下载的文档，不会出现我们的网址水印。
3、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

文档包含非法信息？点此举报后获取现金奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 文币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第二章_一元线性回归模型.ppt

资源描述：: 1、1,第二章一元线性回归模型,2.0 随机变量及其数字特征（补充） 2.1 模型的建立及其假定条件 2.2 一元线性回归模型的参数估计 2.3 最小二乘估计量的统计性质 2.4 样本可决系数与拟合优度 2.5 参数估计值的显著性检验和置信区间 2.6 预测 2.7 小结 2.8 案例分析,2,第一节随机变量及其数字特征 (补充内容),随机变量随机变量的数字特征,3,随机变量,随机变量(stochastic/random variable) 一个变量若它的值是由随机试验决定的，称其为随机变量。离散型随机变量(discrete random variable) 可能取到的值是有限个的随机变量
2、连续型随机变量(continuous random variable) 可能取到的值是无限个的随机变量实例离散型随机变量：扔一次骰子出现的点数；未出生婴儿的性别连续型随机变量：人的身高；百米跑速度,4,离散型变量的概率密度函数/概率分布 (probability density function/probability distribution)实例 X：投掷两颗骰子出现的点数之和 f(X) ：X的PDF,5,连续型变量的概率密度函数(PDF),6,连续型变量的概率密度函数(PDF),f(x),x,a,b,F(x),常用的概率分布,1.正态分布2. x2 分布3.t分布4.F分布,则,三
3、大抽样分布,定理2,设,分布的密度函数为,(1),卡方分布,n=2,n = 3,n = 5,n = 10,n = 15,分布图,分布密度图形,(红色的是标准正态分布),分布图,m = 10, n = 4 m = 10, n = 10 m = 10, n = 15,m = 4, n =10 m = 10, n = 10 m = 15, n = 10,分布图,16,随机变量的数字特征,以上讨论了随机变量的概率密度函数PDF，但在处理实际问题时，往往不需要求出这些函数，而是只需要了解变量的某些特征值。这些特征值包括三类：度量变量分布的集中趋势（central tendency）：数学期望或均值度量
4、变量分布的离散性（dispersion）：方差；标准差度量两个变量的相关性（correlation）：协方差；相关系数,17,数学期望（expectation）或均值（mean）离散型变量的期望：实例：扔两个骰子的点数之和,18,随机变量的数字特征,连续型变量的期望：实例：,19,随机变量的数字特征,期望的性质：,20,方差（variance）方差被定义为随机变量对其均值的期望距离，用于表示随机变量与其均值的偏离程度。方差较小说明变量的分布比较集中，反之则说明变量的分布很分散方差的性质,21,实例：,22,标准差（standard deviation）方差的量纲与变量的量纲不同，为此引入
5、与变量具有相同量纲的数字特征标准差，同样度量变量的离散程度标准差的性质：,23,协方差（covariance）协方差度量两个随机变量的相关（correlation）程度协方差大于0表示两个变量正相关（positively correlated），即其中一个变量随着另一个变量的增大而增大协方差小于0表示两个变量负相关（negatively correlated），即其中一个变量随着另一个变量的增大而减小协方差等于0表示两个变量不相关（uncorrelated）,24,第一节模型的建立及其假定条件,一、回归分析的概念二、一元线性回归模型三、随机误差项的假定条件,25,变量间关系的分类,
6、确定的函数关系：如圆的面积:,非确定的依赖关系：如广告支出与商品销售额,为了分析和利用变量间非确定的依赖关系，人们建立了各种统计分析方法，回归分析方法是最常用的经典方法之一。,26,回归分析的概念,最初的涵义：“回归”一词最早由英国生理学家高尔顿（Galton,1886）提出，用以指儿女的身高有回复到同龄人口总体平均身高的趋势。回归分析研究因变量对一个或多个自变量的依赖关系，其用意在于通过后者的已知值，去估计或预测前者的总体均值（Gujarati，1995）回归分析与相关性分析(对应依赖关系与相关关系),27,一元线性回归模型,学习成绩Yi与自习时间Xi之间的非确定依赖关系yi = 0 +
7、1xi + ui 其中yi 被解释变量（因变量），xi 解释变量（自变量），ui 随机误差项，0 截距项（常数项），0，1一起称为回归系数（待定系数或待定参数）, 。上式称为一元线性回归模型。,28,yi = 0 + 1xi + ui,包括两部分：（1）线性部分(确定性部分)，0 + 1xi，称为总体回归直线；（2）随机部分(非确定性部分)ui，是对上述线性关系的扰动。,29,yi = 0 + 1xi + ui,随机部分(非确定性部分)ui的内容；1、人们的随机行为；2、回归模型中省略的变量；3、数学模型不够完善；4、经济变量之间的合并误差；5、数据测量误差；,30,总体回归直线,通常线性回归
8、函数E(yi) = 0 + 1xi是观察不到的，利用样本得到的只是对它的估计，也就是对0和1的估计。,31,有关随机误差项的假定,1.零均值性，E(ui) = 0。 2.同方差性，Var(ui)=u2。（Yi与ui也有相同的方差） 3.无序列相关性（非自相关性），Cov(ui，uj)=0，(ij )。 4. ui 与xi不相关，Cov(ui，xi) = 0。 .ui 为正态分布，ui N (0，u )。,32,第二节一元线性回归模型的参数估计,普通最小二乘法（）几个常用的结果截距为零的一元线性回归模型的参数估计一元线性回归模型举例,33,总体与样本,总体（population）研究对象
9、的全体，记为X随机样本（random sample）/样本（sample）在相同条件下对总体X进行n次重复的、独立的观测，每次观测结果都是与X具有相同分布的、相互独立的随机变量，记为X1 , X2 , , Xn ，把它们称为来自总体的一个简单随机样本，简称样本，称n为样本容量。当观测完成后，得到一组观测值x1 , x2 , , xn ，称为样本值.,34,总体回归模型与总体回归方程,yi = 0 + 1xi + ui这个式子表示的是变量和之间的某种非确定依赖关系（真实的），称为它们的总体回归模型。由于随机扰动项的存在，使得变量i和i不是总在一条直线上，但是i的均值总是和i在一条直线上。因为，（
10、i） 0 + 1xi 这个式子称为变量和之间的总体回归方程或总体回归线。,35,样本回归模型与样本回归方程,由于我们不可能从总体中得到所有可能的和的值，从而也就无法求出0和1的值。但是，我们可以用抽样方法从总体中得到一些和的值，从而可以得出这个样本中和的非确定依赖关系，即样本回归模型,36,样本回归模型与样本回归方程,样本回归方程或样本回归线表示的是,由样本回归模型得到的样本观测值的拟合值与解释变量之间的关系。,37,总体回归线与样本回归线图示,（i） 0 + 1xi,ei,ui,Y,X,显然，样本回归线与总体回归线之间存在着差距，为了使得它们之间更接近，需要尽可能低降低残差的大小。,38,最
11、小二乘法,为了研究总体回归模型中变量和之间的线性关系，需要求出一条最好的拟合直线，这可以根据普通最小二乘法（Ordinary Least Squares)来得到。这种方法认为一条好的拟合直线应该是使残差平方和最小，并据此来得出总体回归系数的估计值（样本回归系数的值），以确定变量X和Y之间的关系。,39,用OLS估计总体回归系数估计值的过程,根据多元函数极值原理，上式分别对两个总体回归系数估计值求偏导，可得到正规方程组，,40,用OLS估计总体回归系数估计值的过程,41,几个常用的结果,1.残差ei的均值为零 2.残差ei与解释变量Xi不相关， 3.样本回归线经过Y和X的样本均值，从而可得到样本
12、回归方程的离差形式,.估计的Y均值等于实测的Y均值,42,截距为的一元线性回归模型的参数估计,总体线性回归模型为 yi = xi + ui 总体回归估计系数的估计量的表达式为，,43,一元线性回归模型举例,P14-17,44,第三节最小二乘估计量的统计性质：高斯马尔可夫定理,.线性 .无偏性 .最小方差性,高斯马尔可夫定理(Gauss-Markov theorem)在给定经典线性回归的假定下，最小二乘估计量是具有最小方差的线性无偏估计量。,45,线性性,46,47,48,49,第四节用样本可决系数检验回归方程的拟合优度,模型估计之后，对结果进行经济意义检验之后进行统计检验：回归直线对样本解
13、释的程度如何拟合优度；所选参数的重要性（贡献）如何参数的显著性检验；方程正确性如何方程的显著性检验。,50,思路与方法,51,1、总离差平方和的分解,已知由一组样本观测值（Xi，Yi），i=1,2,n得到如下样本回归直线,前者是不能由回归直线解释的部分，后者是由样本回归线解释了的部分。,52,Y的总离差及其分解示意图,显然，残差的绝对值越小，则观测值越靠近样本回归线，从而样本回归线对观测值的拟合程度越高。,53,为了综合考虑样本回归线对所有样本点的拟合程度，我们可以考虑Y的离差平方和的如下分解：,记,总离差平方和,回归平方和,残差平方和,TSS=SS+SS,54,.样本可决系数,在给定样本中
14、，TSS不变，如果实际观测点离样本回归线越近，则SS在TSS中占的比重越大，这说明样本回归线对样本值的拟合优度越好。,样本可决系数（决定系数或判定系数）r2的取值范围：0，1; r2越接近1，说明实际观测点离样本线越近，拟合优度越高。举例：。,55,举例,样本可决系数（决定系数或判定系数）r2的取值范围：0，1; r2越接近1，说明实际观测点离样本线越近，拟合优度越高。例1中回归方程的样本可决系数计算。,56,.样本相关系数,（）定义样本相关系数是两个随机变量和之间线性相关程度的一个度量指标。,显然, 样本相关系数与斜率系数的估计值符号相同，其绝对值等于样本可决系数的正平方根。r与r2的区别
15、是什么？,57,（）样本相关系数的检验,自由度：当计算某个统计量的数值时，样本观测值的取值不受限制的个数。原假设与备择假设、显著性水平、第一类错误与第二类错误,举例：,58,1.随机误差项的方差（估计值）,第五节回归系数估计值的显著性检验与置信区间,59,2、变量的显著性检验,60,类似地，可以构造出一个t统计量对常数项的估计值进行显著性检验：,61,检验步骤（以斜率系数估计值为例）：,（1）对总体参数提出假设H0： 1=0， H1：10,（2）以原假设H0构造t统计量，并由样本计算其值,（3）给定显著性水平，查t分布表，得临界值t /2(n-2) ？,(4) 比较，判断,得出结论若 |t
16、| t /2(n-2)，则拒绝H0 ，接受H1 ；若 |t| t /2(n-2)，则拒绝H1 ，接受H0 ；,62,对于一元线性回归方程中的0和，可构造如下t统计量进行显著性检验（原假设为参数真值为)：,举例：,63,显著性检验可以通过一次抽样的结果检验总体参数可能的假设值的范围（如是否为零），但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值，往往需要通过构造一个以样本参数的估计值为中心的“区间”，来考察它以多大的可能性（概率）包含着真实的参数值。这种方法就是参数检验的置信区间估计。,3.回归系数的置信区间
17、,64,如果存在这样一个区间，称之为置信区间； 1-称为置信系数（置信度)，称为显著性水平；置信区间的端点称为临界值。,65,一元线性模型中，i (i=1，2）的置信区间:,在变量的显著性检验中已经知道：,这意味着，如果给定置信度（1-），从分布表中查得自由度为(n-2)的临界值，那么t值处在(-t/2, t/2)的概率是(1- )。表示为：,即,亦即,66,于是得到:(1-)的置信度下, i的置信区间:,举例:P34,由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度，因此置信区间越小越好。？,67,（1）增大样本容量n，因为在同样的置信水平下，n越大，t分布表中的临
18、界值越小；同时，增大样本容量，还可使样本参数估计量的标准差减小；(2）提高模型的拟合优度，因为样本参数估计量的标准差与残差平方和呈正比，模型拟合优度越高，残差平方和应越小。,缩小置信区间的方法,68,第六节一元线性回归方程的预测,一、相关概念点预测区间预测内插预测外推预测预测误差,69,对于一元线性回归模型,给定一个解释变量的观测值X0，可以得到被解释变量的预测值0 ，可以此作为其条件均值E(Y|X=X0)或个别值Y0的一个近似估计。？,70,一、0是条件均值E(Y|X=X0)或个值Y0的一个无偏估计,（一）对总体回归函数E(Y|X=X0)=0+1X，X=X0时， E(Y|X=X0)=0+
19、1X0,于是,可见，0是条件均值E(Y|X=X0)的无偏估计。,71,（二）对总体回归模型Y=0+1X+，当X=X0时，,因此，,72,二、区间预测,1、单个值的预测区间,对于样本回归线,预测误差e0服从均值为0，方差如下的正态分布，,73,检验步骤：,（）构造t统计量由于随机误差项的方差的真实值我们不可能得出，因此，我们可以用它的估计值来代替，从而可以构建一个t统计量，如下，原假设和备择假设分别是什么？, t(n-2),74,（）给定置信度（）（）查t分布表(自由度为n-2)，得到临界值t/2(n-2)（？） (4)求置信区间,上述置信区间的含义是：这个区间包含的真实值的概率是（），也就是说，如果构造类似的区间个，将有（）个区间包含的真实值。（举例）,如果的预测值不在这个区间内，这意味着什么？,75,将上述置信区间描绘成图（如下）有，当解释变量的取值为的平均值时，的置信区间最小，预测结果最可靠；随着的取值逐渐偏离其平均值，的置信区间逐渐增大，从而预测结果越不可靠。,内插预测和外插预测，哪种点预测结果更可靠？为什么,76,.均值的预测区间,假定，,则有， 0服从均值为0，方差如下的正态分布,用随机误差项方差的估计值来代替其真实值，可以构建一个t统计量，如下，（原假设是什么？）, t(n-2),77,因此，均值（）在（）置信度下的置信区间为，,

展开阅读全文

道客多多所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第二章_一元线性回归模型.ppt
链接地址：https://www.docduoduo.com/p-8222677.html