收藏 分享(赏)

生物统计学8ppt课件.ppt

上传人:微传9988 文档编号:3335636 上传时间:2018-10-15 格式:PPT 页数:122 大小:8.93MB
下载 相关 举报
生物统计学8ppt课件.ppt_第1页
第1页 / 共122页
生物统计学8ppt课件.ppt_第2页
第2页 / 共122页
生物统计学8ppt课件.ppt_第3页
第3页 / 共122页
生物统计学8ppt课件.ppt_第4页
第4页 / 共122页
生物统计学8ppt课件.ppt_第5页
第5页 / 共122页
点击查看更多>>
资源描述

1、平均数,标准差,方差分析,多重比较,集中点,离散程度,差异显著性,一个变量 (产量),施肥量,品种,灌水量,播种密度,一个变量 (密度),一个变量 (产量),?,两个或两个以上 变量之间的相互关系,NO2浓度,NO2的浓度与车流量,牛奶蛋白质、乳糖含量与吸光值,树木生物量与基茎粗,变量间存在不确 定的函数关系,变量间存在确定 的函数关系,两个或两个以上 变量之间的相互关系,变量间存在确定的函数关系,PV=RT 气体压强,S=r2 圆的面积,S=a b 长方形面积,这类例子在生物界较少存在,依公式关系 而存在,精确计算,身高与胸围、体重,施肥量与产量,乳糖溶液的浓度与OD值,人类的年龄与血压,温

2、度与幼虫孵化率,不确定的函数关系 (相关关系),一个变量发生变化,另一个变量也会跟着发生变化,回归 regression,相关 correlation,探讨变量之间 的变化规律,变 量 相 互 关 系,一个变量的变化受另一个变量或几个变量的制约,因果关系,平行关系,两个以上变量之间共同受到另外因素的影响,动物的生长速度受遗传、营养等影响,子女的身高受父母身高的影响,兄弟身高之间的关系,回归分析 (regression analysis) 揭示出呈因果关系的相关变量间的联系形式,建立它们之间的回归方程,利用所建立的回归方程,由自变量x(原因)来预测、控制依变量y(结果)。,因果关系,自变量x是固

3、定的,试验时预先确定的,没有随机误差,依变量y是随x变化而变化的,有随机误差,施肥量x 事先确定的,产量y 具有随机误差,?,变量x的每一个可能的值xi,都有随机变量 yi的一个分布与之相对应, 随机变量y对变量x存在回归关系,因果关系,产量,施肥量,品种,灌水量,播种密度,一因一果,多因一果,一元回归分析,多元回归分析,直线/曲线回归,线性/非线性回归,相关分析 (correlation analysis) 研究两个变量之间相关的程度和性质或一个变量与多个变量之间相关程度。,平行关系,变量x和变量y无自变量和依变量之分,都具有随机误差,其中任何一个随机变量的每一个可能的值,另一个随机变量都有

4、一个确定的分布与之相对应,则称这两个随机变量间存在相关关系,直线相关 (简单相关),随机变量x 和y间的 直线关系,复相关,一个随机变量与多个变 量间的线性相关,偏相关,其余变量保持不变的情况下 两个变量间的线性相关,回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量y与变量x处在平等的地位;相关分析中所涉及的变量y与x全是随机变量,而回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机变量; 相关分析主要是为刻画两类变量间线性相关的密切程度,而回归分析不仅可以揭示变量x对y的影响大小,还可以由回归方程进行预测和控制。,Notes,为了确定相关变量之间的关系

5、,首先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上描述这些点,这一组点集称为散点图。,散点图(scatter diagram),(x1,y1), (x2,y2), (x3,y3), (xn,yn),为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,散点图,两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切),两个变量间关系的

6、类型(直线型或曲线型),是否有异常观测值的干扰,正向直线关系,负向直线关系,曲线关系,定性研究,根据观测值 推导理论关系,直线回归分析,一、直线回归方程的建立,如果根据n对观测值所描出的散点图,能看出两个相关变量间的关系是直线关系, 就可以用直线回归方程来描述,(x1,y1), (x2,y2), (x3,y3), (xn,yn),直线回归方程(linear regression equation),截距(intercept) 回归截距,斜率(slope) 回归系数(regerssion coefficient),自变量,与x值相对应的依变量y的总体平均数的点估计值,0,x,y,a0,b0,a0

7、,a0,b0,a=0,b=0,y0,y0,回归直线在平面直角坐标系中位置取决于a,b的取值,变量1,变量2,收集数据,散点图,温度,天数,黏虫孵化历期平均温度与历期天数关系图,如果两个变量在散点图上呈线性关系,用直线回归方程描述,y,最小,最小二乘法 (method of least square),回归估计值,观测值,为了使直线回归方程能最好地反映y和x两变量间的数量关系,根据最小二乘法,a,b应使回归估计值与观测值的离差平方和最小,最小,根据极值原理,必须使Q对a,b的一阶偏导数数值为0,正规方程组,解方程组,为最小值,基本性质,11.8-20.4,平均温度每增加1 ,孵化历期就减少2.5

8、317天 但平均温度为0 时,孵化历期为57.04天 x的取值范围在11.8-20.4 之间,x=0不在这个区间内,是否符合回归方程的变化规律,有待于实践验证,并不是所有的点均恰好落在回归直线上,而是比较靠近回归直线,这说明用x估计y,存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进行检验。,y,误差,点和回归直线的位置,二 直线回归的数学模型和基本假定,三、直线回归的假设检验,有意义,指导实践,?,是否真正存在线性关系 回归关系是否显著,即使x、y所在的总体回归系数=0,由于抽样误差,其样本回归系数b也不一定为0,因此需用方差分析或t检验进行是否为零的假设检验,总体直线

9、回归模型,样本直线回归模型,(x,y),误差引起的变异。实际值与估计值之差,剩余或残差。,x变异引起的变异。估计值与均值之差,y与x间存在直线关系引起的,它与回归系数的大小有关。,总变异 y-,平方后对所有n个点求和,代入上式,依变量y离均差的平方和,SSy,反映y的总变异程度, 说明未考虑x与y的回归关系时y的总变异,回归平方和U, 反映由于y与x间 存在线性 关系引起的y的变异程度,离回归平方和Q, y与x存在直线关系 以外的原因, 包括随机误差 所引起的y的变异程度,y的离均差,反映了y的总变异程度,称为y的总平方和。,说明未考虑x与y的回归关系时y的总变异。,反映了由于y与x间存在直线

10、关系所引起的y的变异程度,因x的变异引起y变异的平方和,称为回归平方和。,它反映在y的总变异中由于x与y的直线关系,而使y变异减小的部分,即在总平方和中可以用x解释的部分。,U值大,说明回归效果好。,回归平方和 (regression sum of squares) U,误差因素引起的平方和,反映了除去x与y的直线回归关系以外的其余因素使y引起变异的大小。,反映x对y的线性影响之外的一切因素对y的变异的作用,也就是在总平方和中无法用x解释的部分。,离回归平方和 误差平方和,剩余平方和 (residual sum of squares) Q,在散点图上,各实测点离回归直线越近,Q值越小,说明直线

11、回归的估计误差越小。,各实测点离回归直线越近,Q值越小,说明直线回归的估计误差越小,依变量 y的平方和,总平方和,SSy,SS总,回归平方和 U,离回归平方和 Q,直线回归分析中,回归自由度等于自变量的个数,只涉及到1个自变量,df回归1,df总n-1,df离回归n-2,黏虫孵化历期温度和天数,总体回归截踞,总体回归系数,随机误差,:它是y的本底水平,即x对y没有任何作用时,y的数量表现。属于不能用x估计的部分,x:它描述了因变量y的取值改变中,由y与自变量x的线性关系所引起的部分,即可以由x直接估计的部分。,误差:它描述了因变量y的取值改变由x以外的可能与y有关的随机和非随机因素共同引起的部

12、分,即不能由x直接估计的部分。,总体资料的数学模型,两个变量是否存在线性关系,可采用F检验法进行。,总体回归截踞,总体回归系数,随机误差,若x与y间不存在直线关系,则总体回归系数=0;,若x与y间存在直线关系,则总体回归系数0,假 设,H0: =0,两变量间无线性关系 HA: 0 两变量间有线性关系,在无效假设存在下,回归方差与离回归方差的比值服从F分布。,df1= 1 df2= n-2,H0:黏虫孵化历期平均温度x与历期天数y之间不存在线性关系 HA:两变量间有线性关系,检验线性回归系数的显著性,采用t检验法进行。,假 设,H0:=0 HA:0,检验样本回归系数b是否来自=0的双变量总体,以

13、推断线性回归的显著性。,df=n-2,回归系数的标准误,离回归标准差,否定H0:=0,接受HA:0,认为黏虫孵化历期平均温度与历期天数间有真实直线回归关系。,作回归分析时要有实际意义。,直线回归注意问题,不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解释或有所依据。,进行直线回归分析之前,绘制散点图。,直线回归注意问题,当观察点的分布有直线趋势时,才适宜作直线回归分析。,散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的a和b的估计产生较大的影响。因此,需要复查

14、此异常点的值。,直线回归的适应范围一般以自变量的取值为限。,直线回归注意问题,在自变量范围内求出的估计值,一般称为内插(interpolation);超过自变量取值范围所计算出的估计值,称为外延(extrapolation)。,若无充分理由证明超过自变量取值范围还是直线,应该避免外延。,描述两变量间的依存关系。,直线回归的应用,利用回归关系进行预测(forecast)。,直线回归的应用,将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体y值容许区间方法计算。,回归方程进行统计控制(statistical control),直线回归的应用,NO2浓度,利用回归方程逆运算,控制自变

15、量x的取值限定y在一定范围内波动,一、相关系数和决定系数,二、相关系数的假设检验,一、相关系数和决定系数,x,y,线性关系,不需要由x来估计y,只需要了解x和y相关程度以及相关性质,相关系数 决定系数,统计量,相关类型,0,?,正相关,负相关,零相关,均匀分布在四个象限,直线相关的两个变量的相关程度和性质,乘积和,(1)单位问题,(2)x与y本身的变异程度,?,(3)样本个数,r相关系数,两个变量的变异程度,两个变量的度量单位,两个变量的个数,r可以用来比较不同双变量的相关程度和性质。,两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分,区 别,x与y完全相关。,完全正相关,完全负

16、相关,散点图上所有点必在一条直线上。,回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。,x与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。,r2:决定系数 coefficient of determination,决定系数:,相关系数有正负之分,可以确切地说明相关的性质(即正负),但它对相关程度的说明则有所夸大。为此,近年来,度量相关关系有更多地同时使用决定系数(determination coefficient,r2)的趋势 。,1决定系数的计算并不比相关系数的计算麻烦,决定系数(r2)是相关系数(r)的平方2决定系数的意义比相关系数清楚,

17、它表示在x或y的总变异中可以相互以线性关系说明的部分所占的比率,它比相关系数更能真实地反映x和y的相关程度。,3. 决定系数(r2)可避免对相关程度作夸大的解释因为除掉|r| = 0和1的情况外,r2总是小于r。例如r=0.5,并不表明x和y的变异可以线性关系说明的部分占50%,而占的是r2=(0.5)2=25% 。,但决定系数也有缺点,因为决定系数(r2)只有正值,其取值区间为0,1,所以,它不能表示相关的性质(即正负)。因此,在相关分析中将两者结合起来是可取的。,温度,天数,黏虫孵化历期平均温度与历期天数成负相关。,x和y的变异有93.74可用二者之间的线性关系来解释。,=0,x,y,(x

18、1,y1),(x2,y2),(x3,y3),(xn,yn),P ?,相关系数的假设检验,()假设,(2)水平,(3)检验,(4)推断,H0:=0 ;HA:0,选取显著水平,在显著水平上,否定H0,接受HA;推断r显著。,在显著水平上,接受H0,否定HA;推断r不显著。,椰子树的产量数 X(个),椰子树的高度 Y(尺),X(个) 120 121 123 126 128 Y(尺) 21 23 22 25 24,椰子树的产果树与树高之间无直线相关关系。,当样本太小时,即使r值达到0.7996,样本也可能来自总体相关系数=0的总体。,不能直观地由r值判断两变数间的相关密切程度。,试验或抽样时,所取的样

19、本容量n大一些,由此计算出来的r值才能参考价值。,1,2,相关与回归的联系,回归方程的显著性,回归系数的显著性,相关系数的显著性,一致,x,y,三者同时显著或不显著。,r与b的符号一致,由两变量离均差乘积之和的符号决定。,相关与回归的联系,r:+,两变量间的相互关系是同向变化的。,b:+,x增(减)一个单位,y平均值增(减)b个单位。,相关与回归的联系,用回归解释相关。,相关与回归的联系,y关于x的直线回归系数,x 关于y的直线回归系数,x,y,回归,相关,x是可以精确测量和严格控制的变量。,y服从正态分布。,x服从正态分布。,y服从正态分布。,相关与回归的区别,资料要求,x,y,两变量间依存

20、变化的数量关系,两变量间相关关系,回归,相关,相关与回归的区别,应用,x,y,回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料的b与其r的符号相同。,回归系数有单位,形式为(因变量单位/自变量单位),相关系数没有单位。,相关系数的范围在-1+1之间,而回归系数没有这种限制。,有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之间的关系等资料。,有些资料用相关和回归都适宜,此时须视研究需要而定。,就一般计算程序来说,是先求出相关系数r并对其进行假设检验,如果r显著并有进行回归分析之必要,再建立回归方程。,注意问题,作相关与回归分析要有实际意义。,不要把

21、毫无关联的两个事物或现象用来作相关或回归分析。,如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得的r、b是显著的,也是没有意义的。,相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。,对相关分析的作用要正确理解。,注意问题,相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性“证明”因果关系之存在。,要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。,注意问题,适合相关和回归分析的

22、资料通常有两种,一个变量X是选定的,另一个变Y是从正态分布的总体中随机抽取的。,1,回归分析,注意问题,由一个变量推算另一个变量,说明两变量间的相互关系,两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。,2,回归分析,相关分析,注意问题,在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。,必须正确选定自变量与应变量。,一般说,事物的原因作自变量X,当事物的因果关系不很明确时,选误差较小的即个体变异小的变量作自变量X,以推算应变量Y。,注意问题,回归方程的适用范围有其限度,一般仅适用于自变量X的原数据范围内,而不能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈同样的直线关系。,本章内容要点,直线回归方程的建立 散点图,计算a, b 理解直线回归方程的假设检验,相关分析:计算决定系数,相关系数 理解直线回归与相关分析的区别及应用注意事项,SPSS 应用,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 经济财会 > 经济学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报