1、10.0 回归分析简介回归分析简介1、 一元回归分析模型2、 回归系数的最小二乘估计3、 回归估计的统计推断4、 预测5、 多元回归分析变量间的关系确定性关系或函数关系 y=f(x)人的身高和体重家庭的收入和消费商品的广告费和销售额粮食的产量和施肥量股票的价格和时间学生的期中和期末考试成绩 ,非确定性关系如果对于任何已知的如果对于任何已知的 x值值 ,变量变量 y和按某个概率取和按某个概率取某些特殊的值某些特殊的值 ,则则 x和和 y之间的关系为之间的关系为 随机的随机的 .xY实变量随机变量非确定性关系1、 一元回归分析模型(x,y)采集样本信息 (xi,yi)回归分析散点图回归方程回归方程
2、的显著性检验对现实进行预测与控制基本思想如果数学关系式描写了一个变量与另一个变量之间的关系,则称其为 一元回归分析 ;如果数学关系式描写了一个变量与另多个变量之间的关系,则称其为 多元回归分析 ,并且称这一个变量是 被影响变量 ( 因变量: Dependent Variable) ;称这多个变量是 影响变量 (自变量 :Independent Variable).回归分析 是根据变量观测数据分析变量间关系的常用统计分析方法 .通常把变量观测数据称为 样本 .某市场在 t时刻黄瓜销量的数据如下 (其中 qt表示 t时刻销售黄瓜的数量 ,单位为 :斤 ,pt表示 t时刻的销售价格 ,单位为 :元)
3、:这是一个确定性关系 :例如 若 x、 y之间的关系是随机的,例如这时,方程的形式为 称为随机扰动或随机误差项 .其中 为随机变量 .对于回归模型,我们假设:可得到:如果给出 a和 b的估计量分别为 ,则经验回归方程为:一般地,称为残差,y称为因变量, x称为自变量, 称为随机扰动, a,b称为待估计的回归参数,下标 i表示第 i个观测值。两个变量之间的线性关系,其回归模型为残差 可视为扰动 的 “估计量 ”。 设对 y及 x做 n次观测得数据 (xi ,yi) (i=1,2,n ) .以 (xi ,yi)为坐标在平面直角坐标系中描点 ,所得到的这张图便称之为 散点图 .若 散点呈直线趋势 ,
4、则认为 y 与 x的关系可以用一元回归模型来描述 .设线性回归方程为 Y=a + bx+ 其中 : 是随机误差 , N(0, 2).将 (xi,yi) (i=1,2,n) 逐一代入上式 :2、 回归系数的最小二乘估计二元函数 的最小值点 称为 a,b的最小二乘估计 (简记为 OLSE ).记其中所以方程组有解 ,解得其中即最小二乘估计所得回归方程为例 1 某市场连续 12天卖出黄瓜的价格和数量的调查数据如下:试求:黄瓜销量对价格的 回归方程 .1 a,b 的点估计( 1)估计量 分别是 a,b的无偏估计量;( 2)由于 均为相互独立正态变量 的线性组合,根据正态分布的性质,它们也一定是正态的。
5、2 a,b 的点估计的方差( 2)自变量 x的值越分散, 的方差越小 . ( 1)扰动 i的方差 2越大, 的方差也越大 . (3) 当 时 , 的方差最小 .3、 回归估计的统计推断总体方差 的一个无偏估计量是:它们的算术平方根分别称为 a,b的 估计标准误差 。3 的点估计和 a,b的估计标准误差得到 方差的无偏估计量分别是: 4. a和 b的区间估计置信水平为 的区间估计是:5 的区间估计计算得所以 ,记 则的置信水平为 的区间估计是:=06 y的样本变差的分解其中故反映了回归自变量变差的贡献反映了其它因素的影响回归平方和残差平方和离差平方和 =回归平方和 +残差平方和即SST = SS
6、R + SSE称 R2=SSR/SST为判定系数 ,它度量了经验回归方程对观测数据的拟和程度 .0R21,它的值越大 ,表明因变量与自变量之间的相关性越强 .(1)提出原假设和备择假设H0:b=0; H1:b0(2) 选择检验统计量(3) 对于给定的显著性水平 ,当时就拒绝 H0,认为回归方程有显著意义 .7回归方程的显著性检验或者(1)提出原假设和备择假设H0:b=0; H1:b0(2) 选择检验统计量(3) 对于给定的显著性水平 ,当时就拒绝 H0,认为回归方程有显著意义 .注 以上两种方法检验结果相同 ,后一种检验可用于多个自变量的情况 .我们从一组样本数据进行回归系数的估计,得到经验回
7、归方程,因为还要进行区间估计、显著性检验 ,所以必须求出回归估计量的标准误差 ,以及判定系数 ,通常可写成表达式:, = ()()其中括号内填写相应的 t-检验显著性概率值。这样就较全面地表述了样本回归估计式。8回归分析的表述例 1 某市场连续 12天卖出黄瓜的价格和数量的调查数据如下:由此可知:( 1) R2 = 0.889, S = 8.360 = (698.889/10)0.5,平方和分解SST = 6300 =5601.111+698.889=SSR+SSE ,( 2)回归方程的显著性检验 ,从 t检验和 F检验均有 :显著性概率值 p=4.34E-060.05, 所以认为回归方程是显
8、著的。( 3) a的 95%置信区间是 (182.435 , 238.454)b的 95%置信区间是 ( -197.047 , -118.508)( 4)经验回归方程:( 1.21E-08) (4.34E-06)下面我们求 的 95%置信区间:已知 ,对应预测因变量 y的取值为 y0,称 为 的预测值 .点预测值即为回归方程计算所得回归值 .1预测值 (prediction value)4、 预测例 3 对于例 1,预测当价格分别为 1.2 , 1.1 , 0.85 , 0.75 , 0.45 时,黄瓜的销量情况。解 :经验回归方程为:实际值 与其预测值之间有预测误差 ,即预测误差总方差( )
9、 = 随机扰动产生的方差( )+ 抽样误差产生的方差( ),通过计算可知:从而易见:如果要降低 ,可以采取如下措施( 1)增大样本容量 n;( 2) 增大样本中自变量的分散性(即增大 );( 3)减少 x0与自变量样本均值 之间的距离。所求即为 x=x0时 ,对应 y0的 1- 置信区间 .所以 y0的 1-预测区间为记则对 给定的概率水平 1-2.预测区间例 4 承上例,求每个自变量值所对应的因变量值的预测区间。多元回归模型的一般形式为:其中 y 是因变量, 为 k个自变量, 为随机扰动, 为回归参数。对因变量和所有自变量进行 n次观测,得到样本数据假定第 i次观测的随机误差为 ,且 服从正态分布则5、 多元回归分析根据最小二乘法 ,对例 5 某住宅小区附近的家具商城认为住宅销售户数和新婚对数这两个因素对家具的销售额有明显的作用。为了确定该商城每季度家具的进货和销售,他们对全市各个小区家具店收集了 12组市场调查资料如下:由微积分求极值方法求最小值 .得多元经验回归方程为 :