收藏 分享(赏)

第7章 直线相关与回归.ppt

上传人:buyk185 文档编号:6485211 上传时间:2019-04-14 格式:PPT 页数:45 大小:416KB
下载 相关 举报
第7章 直线相关与回归.ppt_第1页
第1页 / 共45页
第7章 直线相关与回归.ppt_第2页
第2页 / 共45页
第7章 直线相关与回归.ppt_第3页
第3页 / 共45页
第7章 直线相关与回归.ppt_第4页
第4页 / 共45页
第7章 直线相关与回归.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

1、第七章 直线回归与相关,变量间的关系分为两类: 完全确定性的关系 不存在完全确定性的关系对于两个变量,常用符号x、y来表示,(x,y)的各对观察值用(x1,y1),(x2,y2),.(xn,yn)表示 在统计上,x和y变量的关系有两种理论模型:回归模型;相关模型,在回归模型中,x是固定的(试验时预先确定的),没有误差或误差很小;而y则不仅随x的变化而变化,并且有随机误差。所以在这一模型中x叫做自变量,y叫做依变量,即y是因x的变化而变化,并具有其自身的随机误差。例如,研究投饵量与鱼产量的关系, 对于投饵量(x)和鱼产量(y)两个变量,前者是事先设计的、固定的,后者则是有随机误差的。,在相关模型

2、中,其x和y变量是平行变化关系,皆具有随机误差,因而不能区别哪一个是自变量,哪一个是依变量。相关模型的特征是仅表示两个变量的偕同变异,没有自变量和依变量之分,也不具有预测性质。例如:动物的体长与体高两个变量,植物叶片的厚度和叶片的面积两个变量等。,对符合回归理论模型的资料进行统计分析称为回归分析;这一分析是要由x来预测或控制y的回归方程,即变量间的联系形式,并在某一可靠程度下确定当自变量x为某一值时依变量y将会在什么范围内变化。对符合相关理论模型的资料进行统计分析称为相关分析;这一分析是要测定两个变量在数量关系上的密切程度和性质。,一元回归分析:直线回归分析和曲线回归分析 多元回归分析:多元线

3、性回归分析和曲面回归分析直线相关分析:对两个相关变量的直线关系进行相关分析; 复相关分析:对多个相关变量进行相关分析时,研究一个变量与多个变量间的线性相关。 偏相关分析:研究在其余相关变量保持不变的情况下两个相关变量间的线性相关。,第一节 直线回归,一、直线回归方程的建立 二、直线回归的显著性检验1、回归系数的显著性检验t检验2、回归关系显著性检验F检验,一、直线回归方程的建立研究两个变量之间的关系时,一般先把n对观察值(x1,y1),(x2,y2),(xi,yi),(xn,yn)先绘出散点图。,其中(a)与(e)中的散点分布于一条直线上, x与y是一个完全的直线关系。这种完全的直线关系在畜禽

4、、水产、兽医科学中很罕见。 (b)与(d)中的散点分布于一个椭园内,可以初步判断x与y间存在直线关系。 (c)中的散点分布于一个园内,表明y的变化与x无关,不存在直线关系。 (f)中的散点分布于一个弧形带中,表明y与x间存在曲线关系而不是直线关系。 在直线回归分析中主要是研究图(b)与(d)的情况。,如果把表示变量y与x内在联系的总体直线回归,图 直线回归散点图,yi =+xi+i (i=1,2,,n)其中 为随机误差,与、相互独立,且都服从N(0,2)。即直线回归的数学模型。,在x、y的坐标平面上可作出无数条直线,而回归直线是所有直线中最接近散点图中全部散点的直线。 设样本直线回归方程为:,

5、a是的估计值,称为回归截距;b是的估计值,称为回归系数,表示自变量每改变一个单位数时,依变量y平均改变的单位数(b0时,增加;b0时,减少);,是+xi的估计值。回归值 与yi观察值间的偏差为:全部偏差平方和为:,整理后可得:(8-3)式叫做a与b的正规方程组。解(8-3)可得:或简记为,xy-(x)(y)/n=(x- )(y- )称之为x与y的离均差乘积和, 简称为乘积和,记为 SPxy ,则(84)式可简记为:求得的a,b是,的最小二乘估计,无偏估计。,【例8.1】 在四川白鹅的性能研究中,得到如下一组关于雏鹅重(g)与70日龄重(g) 的数据,试建立70日龄重(y)对雏鹅重(x)的直线回

6、归方程。 表81 四川白鹅的雏鹅重与70日龄重测定结果表(单位:g),1、以雏鹅重(x)为横坐标,70日龄重(y)为纵坐标作散点图,见图83。 由图形可见四川白鹅的70日龄重与雏鹅重间存在直线关系。,2、计算回归截距a,回归系数b:,则四川白鹅的70日龄重y对雏鹅重x的直线回归方程为: =582.1816+21.7122x。,对大白鼠从出生第6天起,每三天称一次体重,直到第18天。试计算日龄X与体重Y之间的回归方程。,计算日龄X与体重Y之间的回归方程,即:所求的回归方程为:y = 2.6996 + 1.5167 x,直线回归的变异来源,图84 (y- )的分解图,依变量y的总变异(y- )由y

7、与x间存在直线关系所引起的变异( - )与偏差(y- )两部份构成. 即(y- )=( - )+(y- )上式两端平方, 然后对所有n点求和,,(y- )2反映了y的总变异程度,称为y的总平方和,记为SSy;( - )2因x变异而引起y变异的平方和,反映了由y与x间存在直线关系所引起的变异程度,称为回归平方和,记为U;,(y- )2为误差因素引起的平方和,反映了除y与x间存在直线关系以外原因,称为离回归平方和或剩余平方和,记为Q。 (89)又可表示为: SSy = U + Q (810)U=b SPxy = SPxy2/SSxQ=SSy-U,二、直线回归的显著性检验,检验方法:回归关系F检验和

8、回归系数t检验(一)回归系数显著性检验t检验由(81)式可推知,若总体不存在直线关系,则总体回归系数=0;若总体存在直线关系,则0。所以对直线回归系数b的假设检验为:HO =0;HA 0。在HO成立的条件下,回归系数b服从t分布。,其中 ,为回归系数标准误。,【例8.2】试检验例8.1资料回归系数显著性。对于【例8.1】资料,已计算得b=21.71,SSx=1685,Syx=60.95,故有当df=n-2=10,查附表3得 因t=14.623.169,接受HA:0, 即四川白鹅的70日龄重(y)对雏鹅重(x)的回归系数b=21.71是极显著的,表明四川白鹅70日龄重与雏鹅重间存在极显著的直线关

9、系,可用所建立的直线回归方程来进行预测和控制。,U=b SPxy = SPxy2/SSxQ=SSy-U,(二)回归关系显著性检验F检验,对于【例8.1】资料,有表8-2 四川白鹅70日龄重与雏鹅重直线回归关系方差分析表,表明四川白鹅的 70日龄重与雏鹅重间存在极显著的直线回归关系。,F检验的结果与t检验的结果一致。 由于四川白鹅 70日龄重与雏鹅重间的直线回归关系极显著,在实际生产中,可以通过四川白鹅的雏鹅重来对70日龄重作出预测或控制。 特别要指出的是:利用直线回归方程进行预测或控制时,一般只适用于原来研究的范围,不能随意把范围扩大.,第二节 直线相关,一、决定系数和相关系数 二、相关系数的

10、计算 三、相关系数的显著性检验 四、应用直线回归与相关的注意事项,我们把比值 叫做x对y的决定系数,一、决定系数和相关系数已证明了等式: 。 y与x直线回归效果的好坏取决于回归平方和 与离回归平方和 的大小,或者说取决于回归平方和 在y的总平方和 中所占比例的大小。这个比例越大,y与x的直线回归效果就越好,反之则差。,记为r2,即决定系数r2的大小表示了回归方程的可靠程度,显然有0r21。因为,决定系数r2表示了互为因果关系的相关变量x与y间直线关系的程度。,但决定系数介于0与1之间,不能反映x与y直线关系的性质是同向增减或异向增减。若求r2的平方根,且取平方根的符号与乘积和SPxy的符号一致

11、,既可表示y与x的直线关系的程度,也可表示其性质。统计学把这样计算所得的统计量称为x与y的相关系数,记为r,即,-1r1。若r=-1,为完全负相关;r=+1,为完全正相关。 在畜禽、水产、兽医研究中,完全相关的情况很罕见,多数相关系数是大于-1,小于+1的。,二、相关系数的计算,【例8.4】 研究渤海秋汛对虾产量y与相对资源量指标x的关系,收集到9年的数据,见表83,试计算产量与资源量间的相关系数。表83 渤海对虾资源量与产量表,由(8-28)式得,先计算得到以下数据:,三、相关系数的显著性检验 样本相关系数r是否来自0的总体,还须对r进行显著性检验。此时无效假设、备择假设为:HO=0 ,HA

12、:0。 可采用t检验法与F检验法对相关系数r的显著性进行检验。t检验的计算公式为,其中, ,叫做相关系数标准误。,F检验的计算公式为统计学家已根据相关系数r显著性t检验法计算出了临界r值并列出了表格。 所以可以直接采用查表法对相关系数r进行显著性检验。,P0.01,表明渤海对虾资源量与产量的直线相关系数极显著。从相关系数计算公式的导出看到:相关变量x与y的相关系数r是y对x的回归系数byx与x对y的回归系数bxy的几何平均数。这表明直线相关分析与回归分析关系十分密切。,它们的研究对象都是呈直线关系的相关变量。直线回归分析将二个相关变量区分为自变量与依变量,侧重于寻求它们之间的联系形式建立直线回

13、归方程;直线相关分析不区分自变量于依变量,侧重于揭示它们之间联系程度与性质计算出相关系数。,二者的检验是等价的。即相关系数显著,回归系数亦显著;相关系数不显著,回归系数也必然不显著。,由于利用查表法对相关系数进行显著性检验十分简便,因此在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验,即可先计算相关系数r并对其进行检验,若检验结果r不显著,则用不着建立直线回归方程;若r 显著,再计算回归系数b、回归截距a,建立直线回归方程,此时所建立的直线回归方程代表的直线关系是真实的,可直接利用来进行预测和控制。,四、应用直线回归与相关的注意事项,1、回归分析和相关分析毕竟是处理变

14、量间关系的数学方法,在应用于专业时要考虑到客观实际情况。如:变量间是否存在相关以及在什么条件下会发生什么相关,求出的回归方程是否有实际意义,回归直线是否可以延伸,某性状作为自变量或依变量的确定等等,2、要考虑到回归系数、相关系数等的适用范围。,3、必须严格控制被研究的两个变量以外的各个变量的变动范围,使之尽可能为固定的常量。例畜禽生产性能的高低,就受到品种、饲养管理、温度、湿度等因素的影响。这种情况下,仅选择两个变量进行回归、相关分析,如果其余变量都在变动,就不可能获得这两个变量的比较真实的关系。,4、为了提高回归和相关分析的准确性,两个样本的容量一般不应小于5,且使x变量的取值范围尽可能地大一些。,5、正确理解“相关不显著”和“回归不显著”,并不一定意味着x和y没有关系,而只能说明x和y没有显著的线性关系。 一个显著的线性相关系数或回归系数亦并不意味着x和y的关系必为线性,因为它并不排斥有能够更好地描述x和y关系的非线性方程的存在。,6、一个显著的回归并不一定具有实践上的预测意义如一资料x、y 两个变量间的相关系数为0.50,在df=24时,r0.01(24)=0.496,rr0.01(24),表明相关系数极显著。而r2=0.25,表明x变量或y变量的总变异能够通过y变量或x 变量以线性回归的关系来估计的比重只占25,其余75的变异无法借助线性回归关系来估计。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 中等教育 > 职业教育

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报