1、1,生物统计学生命科学学院,2,第一章概论 学习要求,第一 掌握生物统计学的基本概念 第二 掌握生物统计学的主要内容 第三 了解生物统计学的基本作用 第四 了解生物统计学的发展概况 第五 掌握统计学常用的术语,3,1 生物统计学的概念,统计学(statistics):把数学的语言引入具体的科研领域,将所研究的问题抽象为数学问题的过程,是搜集、分析和解释数据的一门科学。,4,1 生物统计学的概念,生物统计学(biostatistics):是用数理统计(mathematical statistics)的原理和方法来分析和解释生物界各种现象和试验调查资料,是研究生命过程中以样本来推断总体的一门学科。
2、,5,2 生物统计学的内容与作用,生物统计学的基本内容: 试验设计(experimental design) 统计分析(statistical analysis),6,2 生物统计学的内容与作用,生物统计学的基本内容: 试验设计主要包括试验设计的基本原则、试验设计方案的制定及常用试验设计的方法。 目的要求是:降低试验误差,使我们可以利用较少的人力、物力和时间,获得多而可靠的数据资料。,7,2 生物统计学的内容与作用,统计分析主要包括数据资料的搜集、整理和特征数的计算、统计推断、方差分析、回归及相关分析等 目的是认识客观事物的本质和规律性,使人们对所研究的资料做出合理的结论。 关系:二者是不可分
3、割的两部分。试验设计须以统计分析的原理和方法为基础,而正确设计的试验又为统计分析提供了丰富可靠的信息,两者紧密结合推断出合理的结论,不断地推动应用生物科学研究的发展。,8,2 生物统计学的内容与作用,生物统计学的基本作用: 提供整理和描述数据资料的科学方法,确定某些性状和特性的数量特征 判断试验结果的可靠性 提供由样本推断总体的方法 提供试验设计的一些重要原则,9,3 科学研究与科学试验,3.1 生物学领域的科学研究,3.2 科学研究的基本过程和方法,10,3.1 生物学领域的科学研究,自然科学:,理论科学,实验科学,主要用推理的方法(演绎、归纳)进行研究,主要通过周密设计的试验进行探索,科学
4、研究是人类认识自然、改造自然、服务社会的原动力。,11,生物学领域中所涉及的学科大多属于实验科学。,科学试验,抽样调查,常用的研究方法:,12,一、科学研究的基本过程 1.对研究的命题形成一种认识或假说 2.根据假说涉及的内容安排相斥的试验或抽样调查 3.根据试验或调查资料进行推理,肯定或否定或修改假说,从而形成结论。,3.2 科学研究的基本过程和方法,形成假说,13,二、科学研究的基本方法1、选题 课题的选择决定了研究创新的潜在可能性。 选题时必须明确其意义与重要性。 理论性研究注重在未来学科发展上的重要性。 应用性研究注重对未来生产发展的作用和潜力。 兴趣:,14,2、文献 科学的发展是累
5、积性的,通过对文献的了解可以把研究者推到研究的顶层,避免少走弯路。 选题要有文献的依据,设计研究内容和方法更需文献的启示。,15,3、假说 假说的概念:假说是根据已知的科学事实和科学原理,对所研究的自然现象及其规律性提出的一种假定性的推测和说明。 构成假说的基本要素:事实基础,背景理论对现象、规律的猜测,推导出的预言和预见。,16,例如大陆飘移,是一个著名的假说。人们发现,非洲西部的海岸线和南美东部的海岸线彼此形状相吻合。对此,当时的地质学理论,如地球收缩说,就不能解释。1910年,德国地球物理学家魏根纳依据已知的力学原理、海岸形状、地质和古气候方面的有限数量的科学材料,提出了大陆不是固定的,
6、而是可以飘移的假定。,17,4、假说的检验 假说的检验方法:逻辑分析和实践检验两个步骤。 逻辑分析:判断假说的可检验性。 实践检验:分为直接检验和间接检验。直接检验:即用观察和实验直接观测科学假说的实质内容,以证实或否证科学假说。 间接检验:即用观察和实验观测来检验假说基本命题所推演出来的结论或预言。通常用逻辑推演与实践证明相结合的方式。,18,5、试验的规划与设计 围绕检验假说而开展的试验,需要全面、仔细地规划与设计。试验所涉及的范围要覆盖假说涉及的各个方面,以便对待检验的假说作出无遗漏的判断。注意:生物学试验中结果的“重演性”及比较试验中的“唯一差异性原则”。,在试验条件相当的情况下,重复
7、试验应得到相同的试验结果。,除需要比较的因素以外,其余的因素必须保持在同一水平。,19,4 统计学的发展及其学习要求,4.1 统计学的发展,4.2 授课计划学习要求,20,17世纪Pascal和Fermat的概率论 18世纪De Moiver、Laplace和Gauss的正态分布理论 19世纪达尔文研究生物界的连续变异;孟德尔发现性状分离、独立分配遗传规律;Karl Pearson研究进化问题,创建了Biometrika杂志;Glaton研究了亲子身高的回归问题。 20世纪以来, Gosset发现了t分布 Fisher提出了方差分析、建立了试验设计的三大原理、并提出了随机区组、拉丁方等试验设计
8、,尤其是1925年出版的“Statistical Methods for Reasarch Workers”形成了试验统计学较为完整的体系。,4.1 生物统计学的发展,21,Yates、Yule等发展了一系列的试验设计。 Neyman和E.S.Pearson建立了统计推断的理论。 Snedecor建立了统计试验室并出版了“Statistical Methods Applied to Experiment in Agriculture and Biology”。 Wald建立了序贯分析和统计决策函数的理论。 Cochran和Cox系统地归纳了试验设计和抽样方法研究的进展,出版了“Experime
9、ntal Design”和“Sampling Technique”。,22,4.2 授课内容与学习要求,授课内容 第一章 绪论 第二章 实验资料的整理与特征数计算 第三章 概率与概率分布 第四章 统计推断 第五章 卡平方检验 第六章 方差分析 第七章 直线回归和相关 第八章 抽样原理与方法 第九章 试验设计及其统计分析,23,生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作为一个实验科学工作者,离开了统计学就寸
10、步难行。希望大家通过这门课程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。,24,生物统计学的学习方法,生物统计学是数学与生物学结合的一门交叉学科,所包含的公式很多,我们在学习中要做到: 首先要弄懂统计的基本原理和基本公式 其次要认真做好习题作业,积极参加课堂讨论,加深对公式及统计步骤的理解,达到能熟练地应用统计方法 第三应注意培养科学的统计思维方法 第四必须联系实际,结合专业,了解统计方法的实际应用。,25,5 常用统计学术语,5.1 总体、个体与样本,5.2 变量与常数,5.3 参数与统计数,5.4 效应与互作,5.5 误差与
11、错误,5.6 准确性与精确性,26,总体(population):具有相同性质的个体所组成的集合称为总体,或述为研究对象的全体。 个体(individual):组成总体的基本单元称为个体。,5.1 总体、个体与样本,27,总体所包含的单元数称为总体含量(或总体容量),常用字母N来表示。 总体可分成无限总体(infinite population)和有限总体(finite population)。 无限总体:个体极多或无限多的总体 有限总体:个体有限的总体,28,样本(sample):从总体中抽取的若干个体所构成的集合称为样本。它作为总体的代表,是用来估计总体一般特性的。 组成样本的每个个体叫样
12、本单元(sample unit), 样本中个体的数目称为样本容量(sample size),也叫样本含量,用字母n来表示,在生物学研究中,n30的样本叫大样本,n30的样本叫小样本。,29,生物统计学的应用,1、提供整理和描述数据的科学方法我们用教材P11表2.1的例子来说明这个问题。 2、提供由样本推论总体的科学方法所谓总体(Population)就是由性质相同的个体所组成的集团。统计学上所涉及的总体,其中的个体数(总体容量)N一般情况下趋于无穷大。因此无法对总体进行研究。 例如:计算总体平均数,30,这个公式十分简单,把总体中所有观察值相加,再除以观察值个数就行了,但由于N,我们无法完成计
13、算。 样本(Sample):是总体的一部分。其容量用n表示,样本容量n一般都不是很大,因而,可以计算出样本的平均数:,因此统计学的重要任务之一,就是用样本的结果去推断总体的结果。,31,总体与样本的关系 样本是总体的缩影,统计分析的任务就是由样本推断总体,因此任何试验都存在抽样问题。为使样本正确地反映总体,抽样时必须采用随机的方法,即随机抽样。 随机抽样:是指总体中的每一个体者有同等的机会被抽取,而且每次抽取时,总体中的个体成分不变,采用这种方法得到的样本称简单随机样本,这种抽样方法称简单随机抽样。 统计分析的核心在于由样本的信息推断总体的信息。因此获得样本仅是一种手段,而推断总体才是真正目的
14、。,32,变量(variable):相同性质的事物间表现差异性的某项特征称为变量或变数。 变量的测得值称为变量值(value of variable) 亦称为观测值(observed value)或资料(data),通常记作xi。 常数(constant):代表事物特征和性质的数值,由变量计算而来,在一定过程中不变化。如总体平均数、标准差等,5.2 变量与常数,33,定量变量数量性状资料,1 可量性,又称为连续性变数资料或计量资料指能够以测量、度量、称量等量测方法所得的数据。与之相对应的试验资料称为可量资料。特点:各个观测值不限于整数,即在两个数值之间可以有微量差异的其他数值存在。而表示这种差
15、异的小数点位数,则因测量工具的精度不同而定。 2 可数性,又称为间断性变数资料或计数资料指不能用测量的方法表示,而只能用计数方法所得的数据。与之相对应的资料称为可数资料。特点:各个观测值只能是整数,相邻数值间不可能有带小数点的数存在。,34,定性变量质量性状资料,指对某种现象不能测量和计数,而只能通过观察、分类和文字描述表示出来的性质。与之相对应的资料称为质量性状资料。 为了获得这类性状资料的直观信息,需将其转变成数字资料。,35,5.3参数和统计数 参数:描述总体特征的数量叫参数。一般用希腊字母表示。参数是恒定不变的常量,常用希腊字母表示。如总体平均数,总体标准差。参数是反映事物的总体规律性
16、的数值,科学研究的目的就在于求得对总体参数的了解。 统计数:描述样本特征的数量叫统计数。一般用拉丁字母表示。 统计数是估计值,根据样本不同而不同,常用小写拉丁字母表示,如样本平均数( x )、样本标准差(s)。,36,5.4效应与互作主效应(main effect):试验因素相对独立的作用称为主效应,简称主效或效应(effection)。 互作效应(interaction effect):两个或两个以上处理因素间相互作用所产生的效应,简称互作或连应(interaction),37,5.5 试验数据的误差和错误,观察值(observation):将每次所取样品测定的结果称为一个观察值,记为yi。
17、 例如:测定绵农4号小麦品种的株高,得到以下数值(单位:cm):90、91.5、93、89、90.8 其中的每一个数值就是一个观察值。如果没有误差,上述观察值就不会出现差异,并始终保持一个恒定的值,这个值称为理论值或真值,以表示。,38,由于误差是客观存在的,所以:观察值真值误差 用代数式表示为:yi i 式中i代表误差,故:i yi 误差(error):观察值与真值之间的差异。,39,误差的分类: 随机误差(random error):由于试验中许多无法控制的偶然因素所造成的观测值偏离真值的差异。完全是偶然的,找不出确切原因引起的误差,也称偶然性误差(accidental error)。 特
18、点:不可避免,无法控制。可通过增加抽样或试验次数降低随机误差 系统误差(systematic error):有一定原因引起的误差,也称偏差(bias)。,40,误差的分类: 系统误差(systematic error):是由于试验处理以外的其他条件明显不一致所产生的带有倾向性的或定向性的偏差。是有一定原因引起的误差,也称偏差(lopsided error)。 特点:有一些相对固定的因素引起。在某种程度上可以控制,需要精细试验,41,错误(mistake),是指在试验过程中,人为因素所引起的差错。 如:测量仪器校正不准药品配制比例不当称量不准确、数据抄错、计算错误 注意:降低随机误差避免系统误差
19、杜绝错误,42,准确性(accuracy):指在调查或试验中某一试验指标或性状的观测值与真值接近的程度,也称准确度 精确性(precision):指调查或试验中同一试验指标或性状的重复观测值彼此接近程度的大小。 特点:准确性不等于精确性,准确性反映测定值与真值符合程度的大小,而精确性反映多次测定值的变异程度,5.6 准确性与精确性,43,下面用例子说明误差与准确性和精确性之间的关系。,系统误差使数据偏离了其理论值,影响数据的准确性。 偶然误差使数据相互分散,影响了数据的精确性。,a. 低准确性、低精确性,a. 低准确性、高精确性,a. 高准确性、高精确性,44,1.2.2 试验误差的来源,系统
20、误差来源于各种研究领域中,可能产生的、有一定原因的系统偏差。随机误差来源于试验过程中各种偶然因素的影响,试验的环节愈多,时间愈长,随机误差发生的可能性及波动性便愈大。,45,1.2.3 试验误差的规律性,系统误差源自某种系统性原因,它的规律性比较明显。随机误差就个体而言,很难寻找它的规律性;但对一个比较大的群体,也有规律可循。如数量性状的随机误差在理论上服从正态分布。,46,1.2.4 试验误差的层次性,这里用一个例子说明误差的层次性问题: 取100个30g大豆种子的样品测定蛋白质含量。 第一层次的误差:来源于抽样引起的误差。 第二层次的误差:从30g种子中取2g进行分析,要求测定两次,两次测定结果若相差太大还需进行第三次测定。可见第二层次的误差来源于测定过程的误差。,47,学习要求,循序渐进、不留疑点。 力求掌握公式的意义和应用。 认真做好教材上每章的练习。,主要参考书:1、 生物统计学 科学出版社 2010 李春喜等编著 2、生物统计学 中国农业大学出版社 张勤主编.,常用统计学软件网站: sas网站 http:/ (satistical analysis system 统计分析系统) spss网站 http:/ Statistical package for social science (社会科学统计软件包),