1、生物统计1、生物统计的含义:研究生物的数量特征及其数量规律的一门方法论学科(数理统计和概率论的原理在生物学研究中的应用)2、生物统计学两大内容及作用1.试验设计:主要作用是减少试验误差,获得科学准确的试验数据 .2.统计分析:主要作用是发现事物数量的本质及其规律.第一章1、何谓试验因素、试验水平、试验处理?何谓简单效应、主要效应和交互作用效应?试验因素,简称因素或因子:被变动并设有待比较的一组处理的因子或试验研究的对象(研究对象的效应).水平:试验因素内不同的级别或状态。试验处理:单因素试验中的每一个水平即为一个处理;多因素试验中是不同因素的水平结合在一起形成的处理组合,也简称为处理。试验效应
2、: 试验因素对试验指标所起的增加或减少的作用。 简单效应: 在同一因素内两种水平间试验指标的差异。 主要效应:一个因素内各简单效应的平均数。 交互作用效应,简称互作: 因素内简单效应间差异的平均。2、什么是试验方案?如何制定一个正确的试验方案?试验方案:根据试验目的和要求所拟定的用来进行比较的一组试验处理的总称。 1. 目的明确。2. 选择适当的因素及其水平。3. 设置对照水平或处理,简称对照(check,符号 CK)。 4. 应用唯一差异原则。3、什么是试验指标?试验指标:用于衡量试验效果的指示性状。4、什么是试验误差?试验误差与实验的准确度、精确度以及试验处理间比较的可靠性有什么关系?试验
3、误差的概念:试验结果与处理真值之间的差异.系统误差影响了数据的准确性,准确性是指观测值与其理论真值间的符合程度;系统误差是可以通过试验条件及试验过程的仔细操作而控制的。实际上一些主要的系统性偏差较易控制,而有些细微偏差则较难控制。随机误差影响了数据的精确性,精确性是指观测值间的符合程度。 随机误差是偶然性的。整个试验过程中涉及的随机波动因素愈多,试验的环节愈多,时间愈长,随机误差发生的可能性及波动程度便愈大。2、试验误差有哪些来源?如何控制?来源:(1)试验材料固有的差异(2)试验时农事操作和管理技术的不一致所引起的差异(3)进行试验时外界条件的差异控制的方法:(1)选择同质一致的试验材料(2
4、)改进操作和管理技术,使之标准化(3)控制引起差异的外界主要因素 选择条件均匀一致的试验环境;试验中采用适当的试验设计和科学的管理技术;应用相应的科学统计分析方法。 3、试验误差能否完全消除?为什么?第二章1、田间试验设计的基本原则是什么?各有何作用?完全随机设计、随机完全区组设计、拉丁方设计各有何特点?基本原则:1.重复(replication) :估计试验误差,降低试验误差2.随机 (random):无偏估计试验误差;研究随机事件-获得随机变量-概率的性质- 进行统计分析 (统计推断)!3.局部控制(local control):有效地降低试验误差重复随机排列 局部控制设置区组的原则:同一
5、区组内尽可能相同,不同区组间可以存在差异。完全随机设计:设计分析简便,但是应用该设计的条件是要求试验的环境因素相当均匀。随机区组设计:根据“局部控制”的原则,将试验地(或试验环境)按肥力变异梯度(或条件变异梯度) 划分为 等于重复次数的区组,一区组亦即一重复,区组内各 处理都独立地随机排列。拉丁方设计:将处理从纵横二个方向排列为区组(或重复),使每个处理在每一列和每一行中出现的次数相等(通常一次),所以它是比随机区组多一个方向局部控制的随机排列的设计。优点:精确度高,缺点:缺乏伸缩性。第三章1、总体、样本、随机样本、参数、统计数的概念和关系。总体( population ):具有共同性质的个体
6、所组成的集团.有限总体- 由有限个个体构成的总体.无限总体- 总体所包含的个体数目有无穷多个 .样本( sample ):从总体中抽取若干个个体的集合称为样本。随机样本( random sample ):从总体中随机抽取的样本称为随机样本。参数:由总体中全部个体观察值计算得总体特征值.统计数( statistic ):测定样本中的各个体而得的样本特征数,如平均数等,称为统计数。无偏的试验误差估计 降低试验误差关系:试验研究的目的是为了获得总体的信息或特征;试验研究的方法则是抽样研究;利用样本的结果(统计数) 推断或估计总体特征 (参数).2、平均数的意义,算术平均数的两个特性平均数是数据的代表
7、值,表示资料中观察值的中心位置(集中趋势),并且可作为资料的代表而与另一组资料相比较,借以明确二者之间相差的情况。算术平均数 的特性:1)离均差之 和为零2)离均差平 方的总和最小2、变异数的 意义、种类和计算方法变异数的 意义:一表示资料数据间的变异程度或 离散程度或离均程度; 二可以衡量平均值的代表性. 变异数的种类:1、极差 R=最大观察值最小观察值 2、方差 三、标准差 1122nysni)(1)(2nys四、变异系数4、数量性状资料和质量性状资料的含义数量性状资料:能用数量衡量程度的性状资料质量性状资料:不能用数量衡量程度的性状资料数量性状的度量有计数和量测两种方式,其所得变数不同。
8、1. 不连续性或间断性变数指用计数方法获得的数据。(取值间断)2. 连续性变数指称量、度量或测量方法所得到的数据,其各个观察值并不限于整数,在两个数值之间可以有微量数值差异的第三个数值存在。(取值连续) 质量性状指能观察而不能量测的状即属性性状,如花药、子粒、颖壳等器官的颜色、芒的有无、绒毛的有无等。要从这类性状获得数量资料,可采用下列两种方法:统计次数法:于一定总体或样本内,统计其具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。 给分法:给予每类性状以相对数量的方法第四章1、概率的含义和性质概率(probability) -每一个随机事件出现的可能性称为该事件的概率
9、。统计学上用 n 较大时稳定的频率近似代表概率。通过大量实验而估计的概率称为实验概率或统计概率,以 p 表示。2、小概率原理及其在统计假设测验中的应用如何理解小概率原理:若事件 A 发生的概率较小,如小于 0.05 或 0.01,则认为事件 A 在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。%10ysCV应用:如果事先假设了一些条件,在这些假设的条件下若计算出某一事件为一小概率事件,然而它在一次正常的试验中竟然发生了 ;反过来说明假设的条件不正确,从而否定该假设( 接受另一个相反的假设)3、正态分布曲线特性第五点正态曲线与横轴之间的总面积等于 1,因此在曲线下横轴
10、的任何定值,例如从 y=y1 到 y=y2 之间的面积,等于介于这两个定值间面积占总面积的成数,或者说等于 y 落于这个区间内的概率。 4、概率分布、概率函数、累计概率函数的含义概率分布:随机变量的取值与其对应概率的关系或规律称为随机变量的概率分布.这种关系可以用分布列,分布图及分布函数表示 .概率函数:表示随机变量 Y 取 y 的概率的函数 f(y),称为概率函数(对离散型随机变量)或概率密度函数( 对连续型随机变量).累积概率函数:表示随机变量 Y 取小于或等于 y 的概率的函数 F(y),称为累积概率函数.4、正态离差、标准正态分布的含义正态离差:变数 y 离其平均值 u 以 为单位转换
11、标准化正态分布:均值为 0,标准差为 1 的正态分布称为标准化正态分布.5、抽样分布、单个样本平均数的抽样分布和参数,两个样本平均数差数的抽样分布和参数抽样分布:从已知的总体中以一定的样本容量进行随机抽样,由样yu21y本的统计数所对应的概率分布如果将抽样所得到的所有可能的样本平均数集合起来便构成一个新的总体,平均数就成为这个新总体的变量。由平均数构成的新总体的分布,称为平均数的抽样分布。(1) 该抽样分布的平均数 与母总体的平均数相等。 (2) 该抽样分布的方差与母总体 方差间存在如下关系:如果从一个总体随机地抽取一个样本容量为 n1 的样本,同时随机独立地从另一个总体抽取一个样本容量为 n
12、2 的样本,那么可以得到分别属于两个总体的样本,这两个独立随机抽取的样本平均数间差数( )的抽样 分布参数与两个母总体间存在如下关系:1)抽样分布的平均数与母总体的平均数之差相等。2)该抽样分布的方差与母总体方差间的关系为:yy ny 相 应 地 , 222121 yy7、二项的三种分布性质、变量取值个数和参数分布类型 分布性质 变量取值个数二项总体分布 总体分布 0 和 1 两个P二项(次数)分布 抽样分布 (n+1)个 nP二项成数分布 抽样分布 (n+1)个 P第 5 章(重难点)1、什么是统计假设?统计假设有哪几种?各有何含义?假设测验时直接测验的统计假设是哪一种?为什么?pqnpqn
13、pq2212222121 nyyy 统计假设(statistical hypothesis) :对样本所属的总体(特征值或参数)提出假设无效假设(null hypothesis):记作 H0,假设样本所属总体效应或参数(平均数)与某一指定值相等或假设两个总体参数相等,即相对而言都不具有自己的独特效应.备择假设( alternative hypothesis ):记作 HA,假设样本所属总体效应或参数(平均数 )与某一指定值不相等或假设两个总体参数不相等,或相对而言它们都有自己的独特效应.所以也可以称为有效假设.无效假设2、什么是显著水平?为什么要有显著水平?根据什么确定显著水平?它和统计推断有
14、什么关系?显著水平:用来检测假设的概率标准 5%或 1%等称为显著水平。要有显著水平的原因:作为衡量实验差异性的标准。如果试验中难以控制的因素较多,实验误差可能较大,则显著水平可选低些,及 值取大些,反之,如果实验中难以控制的因素较多,实验误差可能较小,则显著水平可选低些,即 值应小点。与统计推断的关系:若算出其概率大于 值,则接受 Ho。若算出的概率小于 值,则应否定 Ho。3、什么是统计推断?它包括哪些内容?统计推断:利用概率论和抽样分布的原理,由样本结果(统计数)推断或估计其总体特征(参数); 把试验的表面效应与误差大小相比较并由表面效应可能属误差的概率而做出推论的方法称为统计推断。一是
15、统计假设测验,二是参数的区间估计.4、统计假设的含义方法步骤统计假设测验的含义:首先对样本所属的总体提出统计假设(无效假设 H0,备择假设 HA)然后计算样本在无效假设的总体中出现的概率, 若概率大则接受该假设;若概率小则否定该假设,从而接受另一个相反的备择假设.(1) 提出统计假设: 000:;: AHH(2) 规定测验的显著水平 值。(3) 计算概率: 一是直接计算 u 值如果如果二是计算出两个否定区域为: 和 如果 位于着两个否定区域,则概率(4)推断:根据 “小概率事件实际上不可能性 ”原理作出接受或否定无效假设的推断。5、为什么说统计假设测验又称差异显著性测验因随机误差而得到的概率
16、P0.7 皆需作反正弦转换,以获得一个比较一致的方差3、方差分析思想思路方差分析的思想:任何事物的数量特征都是受多种因素的影响,其中起重要作用的因素所引起的变异量(方差) 就大;起次要作用的因素所引起的变异量就小;不起作用的因素其变异量(方差)就不能显著大于试验误差的变异 量(方差).ij方差分析的思路:首先把试验资料的总变异分解为各个因素(包括试验误差)的变异 ,并计算出它们的方差,利用误差方差对各个因素进行方差的显著性测验,最后对方差显著的因素内的各个水平的平均数进行多重比较.4、F 测验前提条件F 测验需具备条件:(1)变数 y 遵循正态分布 N( ,),2(2) s12 和 s22 彼
17、此独立 。5、多重比较含义思路方法,标记字母法如何进行?多重比较:是指多个处理平均数间的差异显著性比较或测验。 多重比较有多种方法,常用的三种:最小显著差数法(LSD 法)复极差法( q 法) Duncan 氏新复极差法(SSR 法)思路:利用误差方差计算出最小显著差异标准,若任两个均值之差的绝对值。 标准,则它们的总体均值就差异显著;反之就差异不显著.标记字母法原则:凡差异显著者标记不同字母,凡差异不显著者标记相ji与jiy同字母.6、如何理解区组控制(局部控制)减少试验误差?把区组变异作为一项引起变异的因素从误差中分离出来了第七章1、卡平方用于次数资料适合性测验定义?设某总体共分成 k 组
18、,每组个体出现的概率依次为 p1,p2,pK,在n 次独立观察抽样中 ,各组个体出现的理论次数E1=np1,E2=np2,Ek=npk.而各组个体出现的实际次数则为O1,O2,Ok, 则2、适合性测验、独立性测验的含义和方法适合性测 验:测验实际次数与理论次数是否相适合的卡平方测验。(1)提出假设(2)确定显著水平 =0.05(3)计算概率(4)推断:依所得概率值的大小 ,接受或否定无效假设 独立性测验:测验两 个因素的列联次数是否相互独立的卡平方测验。进行独立性测验的无效假设是:H0:两个变数相互独立,对 HA:两个变数彼此相关。 2iEO22)(计算过程:(1)将所得次数资料按两个变数作两
19、向分组,排列成列联次数表;(2)根据两个变数相互独立的假设,算出每一组格的理论次数;(3)由 算得 值。第九章1、什么叫做回归分析?直线回归方程和回归截距、回归系数的统计意义是什么?如何计算?回归分析:计算回归方程为基础的统计分析方法。为 Y 依 X 而变化的回归方程a 回归截 距:a 是 x=0 时 Y 的值,即回归直线在 y 轴上的截距。b 回归系数:b 是 x 每增加一个单位数时,Y 平均地将要增加(b0时) 或减少 (b0 时) 的单位数。iEO22)(2)(xfybaxbya2、什么叫做相关分析?相关系数、决定系数各有什么具体意义?如何计算?如何对相关系数作假设测验?相关分析:计算相
20、关系数为基础的统计分析方法。计算表示 Y 和 X 相关密切程度的统计数,并测验其显著性。这个统计数在两个变数为直线相关时称为相关系数(即表示变量间相关性质与程度的统计数),记为 r。决定系数:由 x 不同而引起的 y 的平方和 U 占 y 总平方和 的比Sy率。 xSPxyxnxyyb 22 )()(12 )( xbybxy )(yxyxy SPSPySUr /)()(22 yxSP2)(xyyxSSPr /)(/)( 222 H0: 的假设测验测验样本相关系数 r 来自无线性相关总体的概率,所作的假设为H0: 对 HA: 0。在总体中抽样,r 的分布随样本容量 n 的不同而不同。r 的抽样误
21、差:当时或者2、相关系数、决定 系数的性质和区别r 的取值区间是-1 ,1。双变数的相关程度决定于|r|,|r| 越接近于1,相关越密切;越接近于 0,越可能无相关。 正的 r 值表示正相021nrsrrrsst021rn关,负的 r 值表示负相关。而相关系数 r 的正或负和回归系数 b 是保持一致。决定系数为非负值。决定系数越大,相关性越大。决定系数越小,相关性越小。决定系数和相关系数的区别在于: 除掉 |r |=1 和 0 的情况外,r 总是小于|r |。这就可以防止对相关系数所表示的相关程度作夸张的解释。 r 是可正可负的,而 r则一律取正值,其取值区间为0,1 。因此,在相关分析由 r
22、 的正或负表示相关的性质,由 r 的大小表示相关的程度。3、建立线性回归方程原理及其在几何图形含义?4、相关回归关系测验的思想回归:任何两变数资料,即使其总体没有回归关系或虽有回归关系但是不是线性的,只要有原始数据,利用求回归系数及回归截距的公式,都可以算得一个线性回归方程.所以要测验样本回归系数 b 来自无线性回归关系总体的概率,只有当这种概率很小很小 (P 0.05 或P 0.01),才可以冒一定风险, 推断样本来自有线性关系的总体, 即它们的总体线性回归显著或及显著.5、F 测验 t 测验含义、实质F 测验: 当仅以表示 y 资料时(不考虑 x 的影响),y 变数具有平方和 SSy 和自
23、由度 当以表示 y 资料时(考虑x 的影响),则 SSy 将分解成两个部分,即:2)(y 1n22 ()( yyy)()()( yyyy 22F 测验的实质:测验在 Y 的总变异中因 X 引起的回归变异能否显著大于误差引起的离回归变异。t 测验: 直接测验回归系数 b 来自无线性回归关系的总体的概率实质:第十章1、什么 叫做多元回归和偏回归 系数?如何建立多元回归方程?多元回归:依变数依两个或两个以上自变数的回归,称为多元回归偏回归系数表示了各个自变数 xi 在其它自变数皆保持一定(平均值)时 xi 每增加一个单位对依变数 y 的各自效应,而这些各自效应的集合,代表着所有自变数对依变数的综合效
24、应。通径系数 pi 又称标准偏回归系数,其统计意义是:若 Xi 增加一个标准差单位,Y 将增加 (pi0)或减少(pi0)pi 个标准差单位。确定各个自变数对依变数的各自效应和综合效应,即建立由各个自变数描述和预测依变数反应量的多元回归方程第十四章yxixyii SbnSbp ii 1)/(11、多因素方差分析的思路多因素试验结果的方差分析是在单因素试验结果方差分析的基础上对处理组合变异的再分解。2、裂区设计的特点、优点和方差分析的特点裂区设计的主要优点:节省即大量的节约试验空间,人力, 物力和财力.裂区设计的特点:主处理分设于各主区,而全部副处理则位于每一主区内,所以一般情况下,主处理间比较的误差大于副处理间比较的误差。 方差分析的特点: