1、统计案例复习问答一、 【问】回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法相关关系又分线性相关关系和非线性相关关系,如何利用回归分析的方法对两个具有线性相关关系的变量进行研究呢?【答】利用回归分析的方法对两个具有线性相关关系的变量进行研究的步骤为:画出两个变量的散点图;求回归直线方程;用回归直线方程进行预报其中求回归直线方程是关键而对于线性回归模型 ybxa来说,估计模型中的未知参数 a 和 b 的最好方法就是用最小二乘估计和,其计算公式为 1122()nniiiii iixyxy,aybx例 1 某地 10 户家庭的年收入和年饮食支出的统计资料如下表:年收入 (万元) 2 4
2、4 6 6 6 7 7 8 10年饮食支出 y(万元)0.91.41.62.02.11.91.82.12.22.3(1)根据表中数据,确定家庭的年收入和年饮食支出的相关关系;(2)如果某家庭年收入为 9 万元,预测其年饮食支出解析:(1)由题意知,年收入 x 为解释变量,年饮食支出 y 为预报变量,作散点图(如图所示) 从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系61.83xy, ,10246ix,1025.i, 17.iy,.7b .83026.798ayx从而得到回归直线方程为 .10.yx(2) 0.172.98.3
3、46y万元点评: .b是斜率的估计值,说明年收入 x 每增加一万元,年饮食支出 y 就增加 0.172 万元,这表明了年饮食支出与年收入具有正的线性相关关系对于该家庭年收入为 9 万元,由回归方程得到的年饮食支出的预报值 2.346 万元,并不能说该家庭的年饮食支出一定是 2.346 万元一般说来,不能期望回归方程得到的预报值就是预报变量的精确值事实上,它是预报变量的可能取值的平均值二、 【问】上面说到,判断解释变量 x 与预报变量 y 是否具有线性相关关系,先作出散点图,从点的分布特征来判定是否线性相关那么,如果作图不准,出现误差怎么办?怎样更好地判定两个变量相关关系的强弱?【答】作相关性检
4、验,通过作散点图,并观察所给的数据列成的点是否在一条直线的附近来判定,这样做既直观又方便,因而对解决相关性检验问题比较常用,但在作图中,由于存在误差,有时很难说这些点是不是分布在一条直线的附近,这时就很难判断两个变量之间是否具有相关关系因此,给定样本数据 ()12)ixyn,单纯由散点图判定其是否大致在一条直线附近主观性太强,回归分析时还通常用相关系数 r 来检验两个变量之间线性相关关系的强弱样本相关系数的具体计算公式为: 1221()()niiiniiiixyrr的绝对值越接近 1,表明两个变量的线性相关性越强; r 的绝对值接近于时,表明两个变量之间几乎不存在线性相关关系通常当 r 大于
5、0.75 时,认为两个变量有很强的线性相关关系例 2 为了了解某地母亲身高 x 与女儿身高 y 的相关关系,现随机测得 10 对母女的身高,所得数据如下表所示:母亲身高x(cm)159160160163159154159158159157女儿身高y(cm)158159160161161155162157162156试对 x 与 y 进行回归分析,并预报当母亲身高为 161cm 时,女儿的身高为多少?解析:作线性相关性检验, 58.9.xy,222210(591607)10.847.6ix ,37.iy, 256.9iy因此 .r表明 x 与 y 有线性相关关系,因而求回归直线方程有必要又 0.
6、78b, 159.07815.3.2a由此可得回归直线方程为 .yx斜率的估计值 0.78b反映出当母亲身高每增加 1cm 时,女儿身高平均增加 0.78cm, 35.2a可以理解为女儿身高中不受母亲身高影响的部分当母亲身高为 16xcm 时,预报女儿身高为0.781635.20.78ycm,这就是说当母亲身高为 161cm 时,女儿身高大致也为161cm点评:本题是一个回归分析类问题 解决这一问题,首先应对问题进行必要的相关性检验,如果 x 与 y 之间具有线性相关关系,再求出对应的回归直线的方程,最后利用回归直线方程由解释变量 x 的值得到预报变量 y 的值注意:如果不先作相关性检验,我们
7、虽然也可以求出 x 与 y 的回归直线方程,但这时的回归直线方程也许没有任何实际价值,它也就不能反映变量 x 与 y 之间的变化规律,只有在 x 与 y 之间具有相关关系时,求回归直线方程才具有实际意义三、 【问】如何比较两个不同回归模型的拟合效果?【答】首先建立回归模型,其基本步骤是:确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等) ;由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程 ybxa) ;按一定规则估计回归方程中的参数(如最小二乘法) ;得出结果后分析残差图是否有
8、异常(个别数据对应残差过大,或残差呈现不随机的规律性等) ,若存在异常,则检查数据是否有误,或模型是否合适等建立起回归模型后,利用残差分析的方法来比较两个不同回归模型的拟合效果其方法是:对于由给定的样本点 12()()nxyxy, 而得到的两个回归方程(1)yfxa,和 (2)yfb,分别计算两个回归方程的残差平方和 A(1)(1)2niiiQy与A(2)()21niiiQ;若 A(1)(2)Q,则 (1)yfxa,的效果比 (2)yfxb,的好;反之,()yfxa,的效果不如 (2)yfxb,的好四、 【问】上面主要研究了线性回归问题,那么如何用回归分析的方法对非线性回归问题进行统计分析呢?
9、【答】对于非线性回归问题进行回归分析的方法是:(1)若问题中已给出经验公式,这时可以将解释变量进行交换(换元) ,将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决(2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量变换,将问题化为线性回归分析问题来解决例 3 某种图书每册的成本费 y(元)与印刷册数 x(千册)有关,经统计得到数据如下: x1 2 3 5 10 20 30 50 100 200y10.155.524.082.852.111.621.41
10、1.301.211.15检验每册书的成本费 y 与印刷册数的倒数 x之间是否有线性相关关系,如果有,求出 y 对x 的回归方程解析:首先作变量变换,令 1u,则题目所给数据变成如下表所示的数据:iu1 0.5 0.33 0.2 0.1 0.05 0.03 0.02 0.01 0.005iy10.15 5.52 4.08 2.85 2.11 1.62 1.41 1.30 1.21 1.15可以求得 0.98r,由 0.98.75r,因此变量 y与 u之间具有较强的线性相关关系,并且 73b, abu,最后回代 x可得 8.973.25x因此 y与 x的回归方程为 .31.2yx点评:本题中 y
11、与 x 之间不具有线性回归关系,因而是非线性回归分析问题,通过变量变换,即令 1u,并通过对 u 与 y 作相关性检验,判定出 y 与 u 之间具有较强的线性相关关系后,求出 y 对 u 的回归直线方程,最后再回代 1x,得到 y 对 x 的回归方程五、 【问】如何进行独立性检验?【答】若要推断的论述为 1H:“ X 与 Y 有关系” ,判断结论 1H成立的可能性的方法是:(1)三维柱形图与二维条形图可用于粗略地判断两个分类变量是否有关系在三维柱形图中,主对角线上两个柱形高的乘积 ad 与副对角线上两个柱形高的乘积bc 相差越大,两个分类变量 与 有关系的可能性就越大在二维条形图中,可以估计图
12、形满足 1Xx的个体中具有 1Yy的个体所占的比例ab,也可以估计满足条件 2Xx的个体中具有 Yy的个体所占的比例 cd,两个比例相差越大, 与 有关系的可能性就越大但是三维柱形图和二维条形图无法精确地给出所得结论的可靠程度,因而只做粗略估计,而不做具体运算(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度具体做法是:根据观测数据计算检验随机变量 2K的值 k,其值越大,说明“ X与 Y有关系”成立的可能性越大独立性检验的一般步骤是:假设两个分类变量 与 无关系;计算出 2的观测值2()()(nadbckd;把 k 的值与临界值比较确定 与 有关系的程度或无关系