1、生物统计学考试总结第一章生物统计学:是数理统计在生物学研究中的应用,它是应用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的一门学科,属于应用统计学的一个分支。内容:试验设计:试验设计的基本原则、试验设计方案的制定和常用试验设计的方法统计分析:数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归和相关分析、协方差分析等生物统计学的作用:1. 提供整理、描述数据资料的科学方法并确定其特征2. 判断试验结果的可靠性3. 提供由样本推断总体的方法4. 试验设计的原则相关概念:1.总体:研究对象的全体,是具有相同性质的个体所组成的集合2.个体:组成总体的基本单元3.样本:由总体中
2、抽出的若干个体所构成的集合 n30 大样本; n30 小样本4.参数:描述总体特征的数量5.统计数:描述样本特征的数量由于总体一般很大,有时候甚至不可能取得,所以总体参数一般不可能计算出来,而采用样本统计数来估计总体的参数6.效应:由因素而引起试验差异的作用 7. 互作:两个或两个以上处理因素间的相互作用产生的效应生物统计学的研究包括了两个过程:1. 从总体抽取样本的过程抽样过程2. 从样本的统计数到总体参数的过程统计推断过程第二章1算术平均数:是所有观察值的和除以观察的个数 平均数(AVERAGE)特性:(1)样本中各观测值与平均数之差离均差的总和等于零(2)样本中各观测值与其平均数之差平方
3、的总和,比各观测值与任一数值离均差的平方和小,即离均差平方和最小 2中位数:将试验或调查资料中所有观测依从大小顺序排列,居于中间位置的观测值称为中位数,以Md表示3众数:在一个样本的所有观察值中,发生频率最大的一个值称为样本的众数,以Mo表示4几何平均数:资料中有n个观测值,其乘积开n次方所得的数值,以G表示。5.极差(全距):样本数据资料中最大观测值与最小观测值的差值Rmaxx1,x2,xn mixx1,x2,xn 6样本方差: 总体方差:用n1代替n作,可以避免偏小估计,从而实现样本方差对总体方差的无偏估计在统计上,自由度(df n1 )是指样本内独立而能自由变动的观测值的个数在计算其他统
4、计数时,如果受到k个条件的限制,则其自由度为nk7样本标准差: 总体标准差:(1)标准差的大小,受多个观测值的影响,如果观测值与观测值间差异大,标准差就大(2)在计算标准差的时候,如果对各个观测值加上或者减去一个常数a,其标准差不变;如果乘以或除以一个常数a,则标准差扩大或者缩小a倍STDEV: 基于给定样本的标准偏差STDEVP:基于给定样本总体的标准偏差8变异系数(CV):样本标准差除以样本的平均数,得到百分比(1)变异系数是样本变量的相对变量,是不带单位的纯数(2)用变异系数可以比较不同样本相对变异程度的大小第三章概率的计算法则:(1)乘法定理:如果A和B为独立事件,则事件A和B同时发生
5、的概率等于各自事件的概率的乘积(2)加法定理:互斥事件A和B的和的概率等于事件A和事件B的概率之和加法定理推理1: 如果A1、A2、An为n个互斥事件,则其和事件的概率为: P(A1A2An)=P(A1)+P(A2)P(An)加法定理:如果A和B是任何两件事件,则概率分布:(1)离散型随机变量的概率分布变量(x) x1 x2 x3 xn概率(P) p1 p2 p3 pnP(x=xi)=pi (i=1,2, n)离散随机变量的方差(2)连续型随机变量的概率分布连续型随机变量的概率分布1. 连续型随机变量可以取某一区间或整个实数轴上的任意一个值2. 它取任何一个特定的值的概率都等于03. 不能列出
6、每一个值及其相应的概率4. 通常研究它取某一区间值的概率5. 用数学函数的形式和分布函数的形式来描述概率密度函数:(1)设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件(2) ,f(x)不是概率几种常见的概率分布:(适用范围,尾函数,自由度)1. 二项分布的概率函数 记作B(n,p)或者B(n,)(1)每次试验只有两个对立结果,分布记为A与 ,它们出现的概率分布为p与q(q1-p)(2)试验具有重复性和独立性二项式分布的概率累积函数:若随机变量x服从二项式分布,则有二项分布的总体平均数为二项分布的总体标准差为:二项成数(百分数)分布的平均数:二项成数(百分数)分
7、布的标准差:B(n, p)BINOMDISTxnumber_s实验成功次数ntrials独立实验次数pprobability_s一次实验中成功的概率cumulativeTrue: False:例:假设年龄6064岁的100名男性在1986年注射了一种新的流感疫苗而在第二年内死亡5人,这正常嘛?(注:1986年,6064岁的男性老人第二年的死亡率约为0.02)解:要知道100个男性的样本死亡5人是不是“异常”事件,这种估计的一个准则是寻找至少5人死亡的概率。注:通常是把概率值为0.05或者更小的概率事件识别为异常(稀有事件)。由于至少5人死亡的概率是0.05,可见100人中至少死亡5人是稍微有点
8、异常,但不是很异常。 如果至少死亡10人,那么概率是3.44*10-5,这就很不正常,因而,在没有其他证据显示此疫苗有效前,应考虑停止使用。2. 泊松分布二项式分布中,如果p值很小而n值很大( p0.1 和np5 ),则泊松分布 式中: 为参数,泊松分布的平均数、方差、标准差POISSONxX事件出现的次数mean期望值cumulativeTrue: False:例:假如我们研究乳腺癌的遗传敏感性。我们发现,母亲曾患有乳腺癌的1000名4049岁的妇女,在研究开始后的1年中,有4人患有乳腺癌,而我们从大总体中知道在这相同的时间内,1000人中有1个人发生乳腺癌。试问乳腺癌有没有敏感性?解:如果
9、用二项分布,则n1000,p1/1000,BINOMDISTnumber_sTrialsprobability_scumulative310000.001Ture0.9810.019解:如果用泊松分布,则n1000,p1/1000, 则平均值 1POISSIONxmeancumulative31Ture0.9810.019则:这个事件是异常事件,则认为有乳腺癌的妇女,她们的子代具有遗传敏感性3. 正态分布(高斯分布)为总体平均数, 为总体标准差正态分布的特征1. 当 时,f(x)有最大值2. 当 的绝对值相等的时候,f(x)值也相等3. 当 的绝对值越大,f(x)值就越小,但永远不等于04.
10、正态分布曲线完全由函数 和 来决定5. 正态分布曲线在 处各有一个拐点6. 正态分布求和为0NORMDISTxiX函数值的区间点Mean算术平均值Standard_dev标准差cumulativeTrue: 累积False:概率密度函数值 标准正态分布:NORMSDISTxiZ标准正态分布的区间点 NORMSINVuprobability正态分布概率,介于01之间,含0,14 t分布:是小样本分布,小样本分布一般是指n t) = probability,即P(|X| t) = P(X t) 2)单尾 t 值可通过用两倍概率替换概率而求得 eg:如果概率为 0.05 而自由度为 10 , 双尾值
11、由 TINV(0.05,10) 计算得到2.28139; 而同样概率和自由度的单尾值由 TINV(2*0.05,10) 计算得到 1.812462。 5.卡方分布 P456.F分布1、概率抽样:根据已知的概率选取样本简单随机抽样:完全随机地抽选样本分层抽样:总体分成不同的“层”,然后在每一层内进行抽样整群抽样:将一组被调查者(群)作为一个抽样单位等距抽样:在样本框中每隔一定距离抽选一个被调查者2、非概率抽样:不是完全按随机原则选取样本非随机抽样:由调查人员自由选取被调查者判断抽样:通过某些条件过滤来选择被调查者3、配额抽样:选择一群特定数目、满足特定条件的被调查者抽样分布:从一个给定的总体中抽
12、取(不论是否有放回)容量(或大小)为n的所有可能的样本,对于每一个样本,计算出某个统计量(如样本均值或标准差)的值,不同的样本得到的该统计量的值是不一样的,由此得到这个统计量的分布,称之为抽样分布1. 所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布2. 是一种理论概率分布3. 随机变量是 样本统计量样本均值, 样本比例等4 结果来自容量相同的所有可能样本(符号)样本平均数的基本性质: (1)样本均值的均值(数学期望)等于总体均值定义: 一个参数 的估计量是 ,如果,则称 是 的无偏估计(2)样本均值的方差等于总体方差的1/n (3)样本平均数的标准误差的定义(4)当总体服从正态分
13、布N(, 2 )时,来自该总体的所有容量为n的样本的均值 也服从正态分布, 的数学期望为,方差为2/n。即 N(, 2/n)中心极限定理:设从均值为m,方差为s 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布两个独立样本平均数差数的分布 P44第四章假设检验:又称显著性检验:根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际结果,经过一定的计算,做出在一定概率意义上应该接受的那种假设的推断。 如果抽样结果使小概率事件发生,则拒绝假设。 如果抽样结果没有使小概率事件发生,则接受假设特点:(
14、1)采用逻辑上的反证法(2)依据统计学上的小概率原理生物统计学上,一般认为:等于或小于0.05或0.01的概率为小概率在一次试验中,一个几乎不可能发生的事件发生的概率。假设检验的步骤: 1、提出假设 2、确定适当的检验统计量 3、确定显著性水平a 4、计算概率 5、推断是否接受假设两类:1)弃真错误;2)取伪错误一大样本平均数的假设检验u检验应用范围:1)总体方差 已知2)总体方差 未知,但样本为大样本( ), 用s2来代替 两个样本平均数比较的u检验二、小样本平均数的假设检验t检验应用范围: 总体方差 未知,且样本为小样本( ), 采用t检验当总体方差 为未知时,当样本容量小于30,检验一个
15、样本平均数 是否属于平均数为 的指定总体,其 遵循自由度为dfn1的t分布T分布的计算:2、成组数据平均数比较的t 检验 成组数据资料是两个样本的各个变量从各自总体中抽取的,即两个抽样样本彼此独立。这样,不论两样本容量是否相同,所得数据皆为成组数据。两个样本的总体方差相等,自由度dfn1n22两个样本的总体方差不相等,但抽样样本数相等,自由度dfn13、成对数据平均数比较的t 检验第五章统计假设:H0:观测值与理论值的差异是由随机误差引起 HA:观测值与理论值之间有真实差异 所以卡方值是度量实际观测值与理论值偏南程度的一个统计量 卡方值越小,表明观测值与理论值越接近 卡方值越大,表明观测值与理
16、论值相差越大 卡方值为0,表明H0严格成立,且它不会有下侧否定区,只能进行右尾检验连续性:由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布,所以在对离散型资料进行卡方检验计算的时,结果常常偏低,特别是当自由度df=1时,有较大偏差,为此需要进行矫正,当自由度df1时,与连续型随机变量卡方分相近似,这时可以不做连续性矫正 注意:要求各个组内的理论次数不小于5,如某组理论次数小于5,则应把它与其相邻的一组或几组合并,直到理论次数大于5为止适合性检验(吻合性检验或拟合优度检验)步骤: 1. 提出无效假设,即认为观测值和理论值之间没有差异 2. 规定显著性水平 3. 计算样本卡方值 4. 根
17、据规定的显著水平和自由度计算出卡方值,再和实际计算的卡方值进行比较独立性检验步骤: 1. 提出无效假设,即认为所观测的各属性之间没有关联 2. 规定显著性水平 3. 根据无效假设计算出理论数 4. 根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进行比较。 如果接受假设,则说明因子之间无相关联,是相互独立的 如果拒绝假设,则说明因子之间的关联是显著的,不独立第六章方差分析又称 F 检验 (F -test);方差分析是关于k(k3)个样本平均数的假设测验方法,是将总变异按照来源分为处理效应和试验误差,并做出其数量估计。 发现各变异原因在总变异中相对重要程度的一种统计分析方法。 总变异分解
18、为组间变异和组内变异。组内变异是个体差异所致,是抽样误差。组间变异可能由两种原因所致,一是抽样误差;二是处理不同。在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断方差分析基本思想:1、把k个总体当作一个整体看待2、把观察值的总变异的平方和及自由度分解为不同来源的平方和及自由度3、计算不同方差估计值的比值4、检验各样本所属的平均数是否相等 实际上是观察值变异原因的数量分析方差分析应用条件: 1、各样本须是相互独立的随机样本 2、各样本来自正态分布总体 3、各总体方差相等,即方差齐 方差分析基本用途: 1、多个样本平均数的比较 2、多
19、个因素间的交互作用 3、回归方程的假设检验 4、方差的同质性检验总平方和=处理间平方和处理内平方和总自由度=处理间自由度处理内自由度统计假设的显著性检验F检验:F检验的目的:推断处理间的差异是否存在方差分析中的F检验总是单尾检验,而且为右尾检验 F越大,越说明组间方差是主要方差来源,因子影响越显著; F越小,越说明随机方差是主要的方差来源, 因子的影响越不显著F检验如果否定了H0,接受了HA,表明试验的总变异主要来源于处理间的变异多重比较:多个平均数的相互比较 常用的:1、最小显著差数法(LSD法) 2、最小显著极差法(LSR法)新复极差检验(SSR法)q检验总结:差异不显著标同一字母,差异显
20、著标不同字母最小显著极差法(LSR法) 把平均数的差异看成是平均数的极差(range) 根据极差范围内所包括的处理数(称为秩次距)k的不同,而采用不同的检验尺度叫做 最小显著极差LSR 秩次距是指当平均数由大到小排序后,相比较的两个平均数之间(含这两个平均数)包含的平均数个数 I类错误下降、工作量加大新复极差法q检验法两因素方差分析:互作:某一因素在另一因素的不同水平上所产生的效应不同,则二因素间存在交互作用,简称互作。互作效应实际是由于两个或多个试验因素的相互作用而产生的效应采用EXCEL计算重复观测值的二因素方差分析:1、数据输入区域必须有标题2、直接分析结果仅适用用固定模型第七章 相关系
21、数的显著性检验 上述根据实际观测值计算得来的相关系数r是样本相关系数, 它是双变量正态总体中的总体相关系数的估计值。样本相关系数r是否来自0的总体,还须对样本相关系数r 进行显著性检验。 此 时 无 效 假 设、备 择 假 设 为HO:=0,HA:0。 与直线回归关系显著性检验一样,可采用t检验法与F检验法对相关系数r的显著性进行检验。 第八章对于同一组实测数据,根据散点图的形状,可用若干相近的曲线拟合,同时建立若干曲线回归方程,然后根据R2的大小和生物学等相关专业知识,选择即符合生物学规律,拟合度又较高的曲线回归方程来描述两个变量间的曲线回归关系第九章样本容量的确定第十章实验设计的基本原则和
22、作用常用的试验设计的方法:1、对比设计2、随机区组设计3、裂区组设计4、正交设计对比设计及其统计分析: 对比设计试验结果的统计分析: 分析步骤:3、试验结论分析:对邻近CK的百分数越高(大于100),就越可能优于对照,但绝不能认为超过100的所有处理都显著地优于对照,因为将处理与相邻CK相比只是减少了误差,实际误差仍然存在,要 判断某个处理确实优于对照,一般至少要超过对照10;凡仅超过对照5的,均宜继续试验再做结论。该判断方法由于不同试验的误差大小不同,仅是一种参考随机区组设计及其统计分析:设计方法:1、将试验单位按性质不同分成与重复数一样多的区组;2、每个区组内非试验相对一致,并随机排列一套
23、试验处理;3、不同区组间非试验因素允许有所不同,将不同重复也随机排列于各个区组4、最终使区组内非试验因素差异最小,而区组间非试验因素差异最大,每个区组均包括全部处理5、统计分析采用方差分析,将区组间误差分解出来,从而降低试验误差,提高试验精度单因素随机区组: 把区组看作一个因素,和试验因素一起当作二因素试验,按照二因素无重复观察值的方差分析进行,主要做区组间、处理间和试验误差3个方面的方差分析二因素随机区组:裂区设计及其统计分析:统计分析采用方差分析: 区组间、A因素、B因素、AB互作、主区误差和副区误差的方差分析正交设计及其统计分析:正交表:正交设计法中合理安排实验,并对数据进行统计分析的一
24、种特殊表格。正交设计的基本步骤:(1)明确试验目的,确定试验指标(2)挑选因素,选取水平,列出因素水平表(3)选用正交表,进行表头设计 根据试验因素、水平数和是否需要估计因素间的相互作用来选择合适正交表。原则:能安排下全部试验因素,又要使部分试验的水平组合尽可能小。各因素的水平数减1之和加1,即为所需的最少试验次数或处理组合数,若因素间有交互作用,需要再加上交互的作用的自由度。 表头设计就是将试验因素安排到所选正交表相应的列中。表头设计原则:1、不要让主效应间,主效应与交互作用间有混杂现象;2、存在交互作用,查交互作用表(4)明确试验方案,进行试验,得到以试验指标形式表示的试验结果。(5)对试验结果进行统计分析 通常采用两种方法:直观分析法、方差分析法。通过试验结果分析,可以得到因素主次顺序、最佳水平组等有用信息。(6)进行验证试验,做进一步分析。