收藏 分享(赏)

生物统计学教案(十).doc

上传人:weiwoduzun 文档编号:3704409 上传时间:2018-11-16 格式:DOC 页数:19 大小:538.52KB
下载 相关 举报
生物统计学教案(十).doc_第1页
第1页 / 共19页
生物统计学教案(十).doc_第2页
第2页 / 共19页
生物统计学教案(十).doc_第3页
第3页 / 共19页
生物统计学教案(十).doc_第4页
第4页 / 共19页
生物统计学教案(十).doc_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、95生物统计学教案第十章 一元回归及简单相关分析教学时间:5 学时教学方法:课堂板书讲授教学目的:重点掌握一元线性回归方程,掌握一元线性回归方程的检验和相关,了解一元非线性回归和多元回归与相关。讲授难点:一元线性回归方程的检验和相关10.1 回归与相关的基本概念函数关系: F ma相关关系:单位面积的施肥量、播种量和产量;血压和年龄;胸径和高度;玉米的穗长和穗重;身高和体重。相关:设有两个随机变量 X 和 Y,对于任一随机变量的每一个可能的值,另一个随机变量都有一个分布与之相对应,称 X 和 Y 存在相关。回归:对于变量 X 的每一个可能的值 xi,都有随机变量 Y 的一个分布相对应,则称随机

2、变量 Y 对变量 X 存在回归。 X 称为自变量, Y 称为因变量。条件平均数:当 X xi时 Y 的平均数 Y.X xi,称为条件平均数。10.2 一元线性回归方程10.2.1 散点图例 不同 NaCl 含量对单位叶面积干物质的影响NaCl 含量 X(g/kg 土壤) 0 0.8 1.6 2.4 3.2 4.0 4.8干重 Y(mg/dm2) 80 90 95 115 130 115 13596从上图虽可以看出 Y 对 X 的线性关系,但点子并不在一条直线上。例 每一 NaCl 含量下干物质 10 次重复值NaCl 含量(g/kg 土壤)干重(mg/dm2)重复值0 0.8 1.6 2.4

3、3.2 4.0 4.81 80 90 95 115 130 115 1352 100 85 89 94 106 125 1373 75 107 115 103 103 128 1284 89 93 92 110 110 143 1275 91 103 115 113 128 132 1556 79 92 120 108 131 121 1327 101 78 95 121 117 129 1488 85 105 95 110 121 112 1179 83 93 105 108 114 120 13410 79 85 98 111 116 130 132平均值 86.2 93.1 101.9

4、109.3 117.6 125.5 134.5如果增加每一 NaCl 浓度下的重复次数,用其平均值画成散点图,则点子直线化的程度要好得多。上表给出 10 次重复的平均值,从下图中可见,点子更接近在一条直线上。当以 Y 的条件平均数所做的散点图,则完全在一条上。9710.2.2 一元正态线性回归模型xi和各 xi上 Y 的条件平均数 y.x可构成一条直线: Y X对于变量 X 的每一个值,都有一个 Y 的分布,其平均数是上式所示的线性函数。对于随机变量 Y:Y X : NID(0, 2) Y: NID( +X , 2)上式称为一元正态线性回归模型。10.2.3 参数 和 的估计在实际工作中,我们

5、是无法得到 和 的,只能得到它们的估计值 a 和 b,从而得到一条估计的回归线:bXaY上式称为 Y 对 X 的回归方程,所画出的直线称为回归线。 a 是直线的截距,称为常数项; b 是直线的斜率,称为回归系数。对于因变量 Y 的每一个观测值 yi:yi = a + bxi + ei yi 的回归估计值 是对 的估计,因此 也是平均数。iix在各种离差平方和中,以距平均数的离差平方和为最小。因此我们就把 ei = yi- 平方和为最小的直线作为最好的回归线。98记 ,求出使 L 达到最小时的 a 和 b,这种方法称为最小二乘niiiyL12法。为使 达到最小,令:ni ni iiii bxay

6、yL1122可以得到以下一组联立方程:解该方程组,得到 的最小二乘估计:及 a 的最小二乘估计:0bLalni iii ii bxyx1 02niii iiniiniini niiii xyxyyxb12211211xby99公式的分子部分称为 X 和 Y 的校正交叉乘积和,以 SXY表示。分母部分称为 X 的校正平方和,以 SXX表示。因变量 Y 的 平方和称为总平方和,以 SYY表示。因此, b又可以表示为:10.2.4 回归方程的计算由此得出回归方程:X X=X-2.4 X2 Y Y=Y-110 Y2 XY0 -2.4 5.76 80 -30 900 720.8 -1.6 2.56 90

7、 -20 400 321.6 -0.8 0.64 95 -15 225 122.4 0 0 115 5 25 0 3.2 0.8 0.64 130 20 400 164.0 1.6 2.56 115 5 25 84.8 2.4 5.76 135 25 625 60和 0 17.92 -10 2600 200XYSb79.814.216.57.10892. 71.259106.792.120102xbyaSSXYXXYY X100回归系数的含义是:当自变量 X 每变动一个单位,因变量 Y 平均变动 11.16 个单位。10.3 一元线性回归的检验10.3.1 b 和 a 的数学期望和方差上式中的

8、 2是由 得到的, 是实际观测值与总体回归估计值的离差。由于 和 都是未知的,因此无法得到 i,只能用iii xy i的估计值 ei, 。 称为误差平方和即为 SSeiii bxayniie12XSbE2var x21101可以证明MSe是 2的无偏估计量,因此样本回归系数 b 的方差a 的方差XYYYni iiiii iinii ni iini iiiiebSxbxyyxb bxybxayyS 21 221 211 121222nSEMSeeXebSMs2XeaSxns221102根据表 102 中的 7 套重复数据(细线所示) ,和它们的平均数(粗虚线所示)所绘出的回归线。如果无限增加重复

9、次数,最终将得到一条直线 Y X 。实际上这条直线是无法获得的,只能得到它的估计直线(由一套或几套数据获得) ,。这些估计直线是总体回归线的无偏估计。它们有自己的分布,bXaY因此有自己的期望和方差。10.3.2 b 和 a 的显著性检验10.3.2.1 b 的显著性检验b 的显著性检验原理与第五章所讲的假设检验原理类似。 决定回归线的倾斜程度,当 0 时两变量间不存在回归关系。b 有自己的分布,。根据 b 的分布,在 0 这一假设下计算出,获得回归系数为 bXSN2,:的这一事件出现的概率很小,而实际上它却出现了,说明假设的条件不正确,从而拒绝假设。上面已经说过, b2无法得到,只能用 sb

10、2估计,因此需用 t 检验。所使用的检验统计量为:服从 n2 自由度的 t 分布。因回归系数是由 Y.X的估计值 得到的,因此 sb是标y准误差,而不是标准差。bbbss00103例 对前述回归方程的回归系数的显著性作检验。解 H0: 0HA: 0计算 MSe,检验统计量 61.59.bstt5,0.005=4.032, t t0.005, P 0.05,接受 H0。 b 很可能抽自 7 的总体。10.3.2.2 a 的显著性检验检验统计量 ,在 H0: 0 的假设下ast, 具 n - 2 自由度at在 H0: 0的假设下, 具 n - 2 自由度ast0例 对前述方程的 a 的显著性做检验

11、9.2.74074.052168XebXYYeSMsn9.2.1760bst104解 H0: = 0HA: 0先计算 sa,计算统计量的值t5,0.025=2.571, t t5,0.025, Pt0.025, P F1,n-2, 时拒绝 H0。在实际计算时,可以利用以下二式求出误差平方和及回归平方和。SSe SYY bSxy SSR SYY SSe bSXY最后,将计算结果列成方差分析表。例 对前例的方程做方差分析。已知 SYY2585.71, SXY200, b11.16。由此计算出 SSR bSXY11.162002232,SSe SYY bSXY =2585.712232=353.71

12、。将上述结果列成方差分析表变差来源 平方和 自由度 均 方 F回归 2232 1 2232 31.55*剩余 353.71 5 70.74总和 2585.71 6* 0.01F F1,5,0.01,结果是回归极显著。10.3.4.2 有重复时的一元回归的方差分析如果同一自变量,因变量重复观测两次以上,则称为有重复观测。这时误差平方和可以通过重复平方和获得,因此总平方和可以做如下分解:SYY SSR SSLOF SSpe其中 SSpe称为纯实验误差平方和,是通过重复观测获得的。 SSLOF称为失拟平方和,是剩余平方和除掉纯实验误差平方和之后的剩余部分,这部分是由于模型选择不当造成的。各项平方和的

13、计算如下: niiiLOFnimjiijpe iiRijijY ymSyS 1212 107设实验共收集 i=1,2,n 对数据,在每一 xi下做了 j=1,2,m 次重复,各平方和由以下各式给出自由度分别为:回归项为 1,失拟项为 n2,纯误差项为 mn n,总和为 mn-1。从而得出各项均方。在作检验时,首先用纯误差均方对失拟均方作检验如果结果是显著的,可能有以下几个原因:除 X 外,还有其它影响 Y 的因素。模型选择不当, X、 Y 之间可能是非线性关系。 X 和 Y 无关。这时没有必要用 SSLOF对 MSR做检验。若结果是不显著的,说明失拟平方和基本是由实验误差造成的,这时需将失拟平

14、方和与纯误差平方和合并,用合并的平方和对回归平方和做检验。若检验的结果仍不显著,可能的原因有: X 和 Y 不存在回归关系。实验误差过大。例 以 10.2 节所给出的前两次重复为例,做方差分析。NaCl 含量0 0.8 1.6 2.4 3.2 4.0 4.8干 重复 I 80 90 95 115 130 115 135重 重复II100 85 89 94 106 125 137 和mjiy1216400 15325 16946 22061 28136 28850 36994 164712ji32400 30625 33856 43681 55696 57600 73984 327842由以上数

15、据计算出回归方程: ,以及 SYY4853.71XY2.103.82peLOFMSpeLOFRdffSM108和 SSR3744.61。纯误差平方和代入上表右下角数字,得 。失拟平方和0.79123841647peSSSLOF SYY SSR SSpe4853.713744.61791.00318.10。将以上结果列成方差分析表:变差来源 平方和 自由度 均 方 F回 归 3744.61 1 3744.61 40.52失 拟 318.10 5 63.62 0.56纯误差 791.00 7 113.00总 和 4853.71 13对失拟做检验的结果, F0.56。将失拟平方和与误差平方和合并后对

16、回归做检验的结果 F40.52。 FF0.01, Y 与 X 存在极显著的回归关系。10.3.6 一元回归分析的意义1、预报 2、减少实验误差10.4 一元非线性回归10.4.2 对数变换例 用 X 射线照射大麦种子,记处理株第一叶平均高度占对照株高度的百分数为 X,存活百分数为 Y,得到以下结果。X 28 32 40 50 60 72 80 80 85Y 8 12 18 28 30 55 61 85 80在直角坐标纸上做成的散点图和线性回归线如下: nimj nimjijijnimj iijpe yyyS112212109可以明显看出用直线拟合散点是不合适的。为了能够以直线拟合散点,对 X

17、和 Y 进行坐标变换,取 X=lgX, Y=lgY,重新作图如下:这时可按直线回归,求出线性方程:将 X=lgX,Y=lg Y 代入上式,经整理得到如下回归方程:例 钩虫病人的重复治疗次数 X 和复查阳性率 Y 如下表:治疗次数 X 1 2 3 4 5 6 7 8复查阳性率 Y 63.9 36.0 17.1 10.5 7.3 4.5 2.8 1.7X 928.1957.1928.10.110散点图如下:从散点图可见, Y 和 X 显然不是线性关系,很可能呈指数函数关系。令 Y=lnY,变换后的散点图可用直线拟合,求出 Y和 X 的线性方程,以 lnY 代替 ,整理后得到以下回Y506248.5

18、2603.4 归方程:Xe506248.52603.4图中的实线就是根据该方程绘出的。10.4.3 概率对数变换在寻找半致死剂量时,常用到这种变换。例 用不同剂量的 射线照射小麦品种库班克调查死苗率,得到以下结果:剂量(Kr) X 14 16 18 20 22 24 26死苗率(%) Y 6 10 40 70 80 93 95散点图和拟合曲线如下:111上图为一 S 形曲线,曲线的下半部比较陡峭,上半部比较平缓。将剂量 X 作对数变换,变换后的图形,成为对称的 S 形曲线。该曲线的形状与正态分布累积分布曲线的形状是一样的。因此,只要把死亡率的百分率坐标变换为概率坐标,S 形曲线便化作为直线。有

19、时为了防止出现负值,将变换后的每一个值都加上 5。当然,不做这样处理也可以。112本例中,剂量是自变量,死亡率是因变量,因此剂量为横坐标,死亡率为纵坐标。但是在计算半致死剂量时,要求在死亡 50时的剂量,这时经常将死亡率作为横坐标,剂量作为纵坐标。经概率坐标变换的图形如下:于是可以得到一个线性方程, 。在半致死剂量处,X50,XbaY0,回归方程变为 。半致死剂量 LD50可由下式得到: 。上例 aY10经变换后所得回归方程为:半致死剂量的估计为:。92.181027.Y10.4.5 曲线拟合优劣的检验10.4.5.1 通过比较剩余均方来判断曲线拟合好坏对于一个未知的曲线,可以用几种不同的方法

20、拟合。在几种不同的拟合曲线中,必然有一种是最好的。为了得到最优拟合曲线,可以计算各种拟合曲线的剩余平方和,哪一个剩余平方和最小,哪一个就是最优拟合。但在计算剩余平方和时一定要用实测点与回归估计点离差的平方和来计算,这一点至关重要。10.4.5.2 根据失拟均方的大小判断曲线拟合优劣对于有重复的实验数据,可以采取多种方法直线化,求出直线方程,按有重复 05113实验方差分析方法进行分析。用纯误差均方对失拟均方做检验,所得 F 值不显著的拟合最好。10.4.5.3 根据相关指数做判断相关指数记为 R2。YS1剩 余在计算上式的 SS 剩余 时,不能使用变换后的 X和 Y根据来计算,而应由实测值与回

21、归估计值之差的平方和来计YXYebSS算。 R2越大拟合的越好。10.5 相 关10.5.1 相关系数由回归所引起的变差占总变差分数的平方根称为相关系数。10.5.2 相关系数的性质相关系数的平方r2只能小于等于 1,或| r|1。当 0r1 时,称为正相关;当 r0 时,不相关;当1 r0 时,称为负相关。10.5.3 相关系数的计算 (略)10.5.4 相关系数的检验利用相关系数检验表检验相关系数的显著性。对于简单相关系数,附表 12 中的独立自变量的个数为 1,相关系数检验的自由度为剩余自由度,即 n 2。当相关系数大于表中给出的值时,相关显著。回归系数的显著性,也可通过相关系数的显著性做检验。YXYXYXYR SSSbr 2YeYeYX SSS122

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 统计学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报