1、第一章田间试验的设计与实施1.实验的设计要求:实验目的明确;实验要有代表性和先进性;实验结果要正确可靠;实验结果要有重演性。2.在进行试验的过程中,必须严格控制试验条件,尽可能减少试验误差,要努力提高试验的准确性和精确性,使试验结果正确、可靠。准确性(度):指同一处理的观测值与其真值接近的程度。精确性(度):指同一处理的重复观测值彼此接近的程度。试验的准确性、精确性合称为正确性。两者关系:1.准确度高,精确度必高;精确度高,准确度不一定高。2.由于处理的真值往往不知道,因而准确度不易确定;然而精确度在统计上是可以计算的。3.当试验没有系统误差时,精确度与准确度是一致的。 试验结果的重演性:指在
2、相同的条件下再次进行同一试验,应能获得与原试验相同的结果。 (只有试验结果符合客观规律、能够重演,才有推广应用价值)3.( 1)试验方案:根据试验目的和要求所拟进行比较的一组试验处理的总称。(2)因素/子:试验中所要研究和比较的条件和措施。(3)水平:试验因素内量的不同级别或质的不同状态。定性水平:具有质的区别。如不同品种、果实颜色等。定量水平:等间距 如小麦田喷施 N 肥,分 0、5、10g/小区三个水平。不等间距 如玉米田喷施钾肥,分 0、10、20、40、80g/小区五个水平等。(4)处理:试验中的具体比较项目和指标。单因素试验中,每一水平就是一个处理。多因素试验中,每一水平组合是一个处
3、理。(5)试验单元:接受某种处理最小的试验材料的一个独立单位。(田间试验中称小区)一个试验单元,只能接受一个处理,也只能有一个输出结果。 (6)唯一差异原则:试验中只允许供试因子有不同水平,而将非试验因子控制在相同水平。4.试验种类(按供试因子数):(1)单因素试验:指整个试验中只变更、比较一个试验因素的不同水平,其他作为试验条件的因素均严格控制一致的试验。特点:试验简单,容易分析、但是不能了解各因素之间的关系。(2)多因素试验:指在同一试验方案中包含两个或两个以上的试验因素,各个因素都分为不同水平,其他试验条件均应严格控制一致的试验。特点:便于了解各因素之间的相互关系,试验复杂,设计不妥时不
4、便于分析(3)综合性试验:各因素的各水平不构成平衡的处理组合,而是将若干因素的某些水平结合在一起形成少数几个处理组合而设计的试验。目的:探讨一系列供试因素某些处理组合的综合作用 (不是因素的单独效应和相互作用)。注意:单因素试验和多因素试验常是分析性的试验;综合性试验则是在对于起主导作用的那些因素及其相互关系已基本清楚的基础上设置的试验。它的处理组合就是一系列经过实践初步证实的优良水平的配套。 5.试验指标:用于衡量试验效果的指示性状。定性指标:显示观察对象的属性。如施药后个体反映出有效与无效、受害与未受害、死亡与存活等。生成定性资料。定量指标:显示观察对象的量。如产量、株高、茎粗、含水量等。
5、生成定量资料。6.试验效应:试验因素对试验指标所起的增加或减少的作用称为试验效应。简单效应:同一因素内两种水平间试验指标的差异。主效:一个因素内各简单效应的平均数称为平均效应,称为主要效应,简称主效。交互作用/互作:两个因素简单效应间的平均差异。7.主效与互作的计算:(1)A 因素的简单效应:在 B1 水平时 A2 与 A1 的简单效应=24-18=6在 B2 水平时 A2 与 A1 的简单效应=44-38=6(2)A 因素的主要效应:A 因素的主效=(6+6)/2=6(3)A、B 因素的互作效应:互作效应=(6-6)/2=0=(20-20)/2=0(4)当 A1B1+A2B2=A1B2+A2
6、B1 时,A、B 间不存在互作。该例:A1B1+A2B2=62,A1B2+A2B162,所以 A、B 间不存在互作。8有时某一因素在另一因素水平上所产生的效应不同 。A2 与 A1 (在水平上)=A2B1-A1B1=28-18=10A2 与 A1 (在2 水平上)=A2B2-A1B2=22-30=-8A 的效应因的水平而不同,故:和因素间存在交互作用。互作大小:(A1B1+A2B2)-(A1B2+A2B1)/2(18+22)-(30+28)/2=-99.互作的判断:统计方法、专业知识,作图法。两个因素间的互作称为一级互作,三个因素间的互作称二级互作,余类推。二级以上的高级互作较难理解,实际意义
7、不大,一般不予考察。A1 A2 A2-A1B1 18 24 6B2 38 44 6B2-B1 20 20A1 A2 A2-A1B1 18 28 10B2 30 22 -8B2-B1 12 -610.制订试验方案的要点()试验目的明确,能有效地解决实际问题。()确定供试因素及水平:抓关键因素,设适当水平。()设置对照。()注意唯一差异原则,正确分析因素效应。()正确处理试验因素及试验条件间的关系。()尽量设计多因素试验,因素过多时可采用部分实施。11.试验误差:由于非处理因素的干扰和影响而使观察值与试验处理真值之间出现的偏离。误差的种类:(1) 系统误差:由于试验单元中的供试体在管理方法、测试仪
8、器等方面有差异,从而使观察值与真值间发生 有一定方向 的系统偏离。特点:能找出产生误差的原因,系统误差影响试验的准确性。后果:偏离真值、影响准确度、影响正确结论的得出。措施:不能用统计方法消除,只能用试验设计来避免,如选择同质一致的试验材料、标准化操作技术和对试验的外界条件的一致性控制(如试验地、测试仪器)等。系统误差意味着有另外的因素在暗中起了作用,因此,试验前必须想办法知道单元间有无系统误差,如存在,必须用试验设计的各种方法(如增加区组因素和随机排列)将其排除 。 (2) 随机误差:由于试验单元、管理方法、测试仪器、操作方法等偶然因素所造成的观察值与真值间的偏离。随机误差影响试验的准确性和
9、精确性。 特点:影响数据的精确度和准确度;具有层次性;围绕着真值而出现;具有随机性;不可避免但可减小。 控制方法:改进试验设计;进行统计分析。(3) 错失误差:试验中由于试验人员粗心大意所发生的差错。如记录、测量错误等这就要求试验人员要敬业,细心进行试验,以杜绝错失误差。注:以后课程中所说的误差都是指随机误差。12.误差来源:、试验材料本身固有的差异。、试验操作和管理技术的不一致。、外界条件的差异(病虫害、土壤肥力、气候条件、人畜践踏等) 。13.控制途径:、选同质的试验材料;、农事操作标准化;、控制引起差异的外界主要因素。14.实验设计:是指试验研究工作进行前应用数理统计原理,制定试验方案,
10、选择试验材料,合理分组,使我们可以利用较少的人力、物力和时间,获得多而可靠的信息资料,得出科学的结论。统计分析与试验设计是不可分隔的两部分。试验设计需要以统计的原理和方法为基础,而正确设计又为统计分析提供了丰富可靠的信息,两者紧密结合推断出较为客观的结论,不断地推动农业科学研究的发展。15.试验设计的基本原则:设置重复、随机化和局部控制(区组化) 。意义:避免系统误差、减小随机误差、正确估计试验误差、提高(精 )准确度。(一)设置重复:试验中同一处理的试验单元数,即为重复数。作用:1、估计随机误差:试验中没有系统误差存在时,可用多次重复观察间的参差不齐程度来估计随机误差 ,如果只重复一次,就无
11、法估计随机误差。2.降低试验误差:随机误差有正有负,有高有低,无一定方向。多次重复平均后,正负误差可抵消一部分。(二) 随机排列:试验单元的分配和各个试验进行的次序都是随机的。作用:获得无偏的误差估计 (三)局部控制:将整个试验空间分成若干个各自相对均匀的局部,每一个局部叫做一个区组,所有局部构成整体。作用:区组内增加试验的精确度便于操作。1、增加了一个区组因素,可以把区组因素的差异(系统误差)从观察值的误差中分离出来,降低试验误差,增加试验的准确度;2、各区组内可以保证试验单元的 一致,增加试验的精确度3、便于操作管理。16.常用的试验设计根据试验单元的排列是否随机,试验设计分为两大类:顺序
12、排列和非顺序排列。一、顺序排列的试验设计(一)对比法设计 特点:每一供试单元都直接排列于对照(check)旁边,使每一材料可与其邻近的对照直接比较,所以称为对比法。 优点:精确度较高。 缺点:对照过多,占 1/3;不能进行无偏估计;适用于少量处理。(二)间比法排列nxx/ 特点:一条地的第一个和最后一个小区一定是对照;每两个对照间排列相同数目单元,一般为个或个;各重复排成一排或多排式,多排式排列时一般用逆向式排列;一条地排不下时,可在第二条地接排,但开始时仍设一对照,称为额外对照。 优点:设计简单、不易发生差错;可按品种熟期、株高等排列,减少生长竞争。 缺点:误差有偏,不能进行显著性测验和方差
13、分析;地力不均时有系统误差。二、随机排列的试验设计在试验设计的实践中,根据 Fisher 三个基本原理的应用情况,试验可分为完全随机化试验、随机区组试验、拉丁方试验等。(一)完全随机根据重复和随机化两个基本原理设计。试验的每一个处理都有若干个重复的试验单元,而所有试验单元在试验中的排列是完全随机的。 优点:设计方便,分析简易,精确度高。 缺点:这类试验要求所有试验单元的各种非试验因素都相当一致,否则就会增大试验误差,甚至受到系统误差的干扰。完全随机化试验可适用于单因素试验和多因素试验。 随机的方法:)抽签)随机数字表(附表 1)计算机/器随机数字(二) 随机区组 应用重复、随机化和局部控制三个
14、基本原理设计的试验,最常用。 试验单元出现系统误差时,必须采用局部控制原理,即进行区组化。 一个区组等价一个重复。 适用于单因素试验和多因素试验。 优点:)设计和分析简单,易于掌握。)富于弹性,单、多因素试验均可应用;)能提供无偏的试验误差估计,有效降低单向系统误差差异。)对试验条件的要求不严,必要时,不同区组可以安排在不同空间。 缺点:1)处理数不允许过多,最好在 10 个左右,最多不超过 20 个,当处理数目太多时,区组内的试验单元数就增加,会降低局部控制的效率2)只能一个方向控制系统误差。 田间布置:区组与系统误差方向垂直;(三) 拉丁方试验拉丁方是较随机区组多一限制的随机排列设计,它是
15、将试验处理从两个方向上排列成区组或重复。从两个方向控制土壤肥力差异,提高精确度。1、拉丁方的特点:1)重复数处理数直行数横行数。2)每个处理在横行或直行区组都出现一次,两个方向都可看成重复。3)两个方向进行局部控制,试验精确度较高。2、缺点:1)处理多时重复次数随之增多,试验工作量增大。一般不宜超过个处理。2)处理数过少时误差自由度过小,影响分析结果的精确性。3)操作较复杂,缺乏灵活性。3、标准方:第一横行和第一直行均为顺序排列的拉丁方。共轭方:一个标准方的直行为另一标准方的横行,则此两个标准方称互为共轭方。 如:4、自身共轭方:一个标准方的直行调成横行仍是原标准方即为自身共轭方。5、拉丁方实
16、验设计的步骤:)选择拉丁方:根据处理数 K 随机地选择合适的标准方。)直行随机:)横行随机:)处理(品种)随机:(四)裂区试验随机区组试验的一个特殊形式: 先将第一个因素按随机区组设计划分成几个区组(重复),每一区组的小区数等于该因素的水平数,这些小区称为主区。 再将第二因素随机排列在每一主区内,这些小区称为副(裂)区。 特点:1)主、副处理分设在主、副区,可分别估计主、副区误差;2)副区误差比主区误差小,即副区的比较比主区的比较更精确。 应用:)一个因素较另一因素需要更大的小区面积:需要较大面积的因素设在主区,较小面积的因素设在副区。如中耕、肥料、灌溉等试验需要较大面积。)一个因素的主效比另
17、一因素的主效更为重要或两个因素间的交互作用比其主效更重要:将要求更高精确度的因素作为副处理,另一因素作为主处理。)某一因素的效应较另一因素的效应更大时:将表现较大差异的因素作为主处理。)试验已经进行需临时加入个或几个试验因素:把临时因素排列在原来的处理区内。如:在已经进行的品种试验中临时加入叶面喷 P 试验,可在原小区内设个副区:喷 p、 喷清水和不喷。五)再裂区设计三因素裂区试验,需再裂区设计。 在副区内划分更小的小区(再裂区),将第三个因素的各个处理(副副处理)随机排列在再裂区内。 优点:精确度高,再裂区设计可以研究因素间的高级互作,能估计种误差:主区、副区、副副区误差。 缺点:设计及统计
18、分析较麻烦。(六)巢式设计 根据处理因素 A 的水平数分为不同的组,每组内又分为不同亚组,每个亚组内有不同的观察值。 应用病害调查:随机选若干株果 树,每株取不同部位枝条,每枝条选若干叶片查病斑数;玉米遗传参数测定。第二章 资料的整理1.资料:通过观察、记载得到的试验数据。2.资料整理:对原始资料进行加工处理,使其条理化、系统化,形成能够反映总体特征的综合资料的过程。目的:将原始资料进行系统整理,按一定的顺序排列,比较直观地了解资料的基本情况。资料整理的基本方法:次数分布 (包括次数分布表和次数分布图)一次数分布表根据资料内的变数多少把整个资料分成若干组,并把每个变数分别归组,统计各组变数的次
19、数,制成次数分布表。连续性资料次数分布表制作方法:() 、计算极差(range):R=xmax-xmin() 、确定组数和组距(class interval)组数 K:公式或查表:k=3.3lgn+1 (n:样本容量)观察值个数 组数50 5-10100 8-16200 10-20300 12-24500 15-301000 20-40确定组数时应考虑:1)样本大小2)极差大小3)便于计算4)资料真实性 组距 i=R/K() 、确定组中(点)值与组限组中(点)值(class value):各组变数数值的中点,第一组中(点)值应以接近或等于最小观察值为好。组限(class limit):每组数值
20、的上下限(L,U)。组限最好比观察值多一位小数,便于计算。第一组: 下限=中值-1/2 组距上限=中值+1/2 组距第二组:下限=第一组的上限上限=下限+组距余类推(4) 、原始资料变数归组。全部变数分别归组,完毕后累加每组内变数次数并列出,制成一个次数分布表。 二、次数分布图用点、线、面的位置、升降或大小来表达统计资料数量关系的一种形式。或将次数分布作成图的形式。主要种类:方柱形图 曲线图 条形图 饼形图(1).方柱形图用于表示连续性变数的次数分布.1)按次数分布表,以组限为横坐标,前一组的上限即为后一组的下限。2)在纵坐标轴上标定次数3)画出方柱形图(2).多边形图表示 连续性变数 资料。
21、能在同一图上绘两组以上的资料,以作直观的分析比较。作法:以每组的中点值为横坐标,以组次数为纵坐标,在对应的高度处作一点,最后用直线将各点依次连接。 (3).条形图适用于 间断性变数和属性变数 资料,用以表示这些变数的次数分布情况。条形图绘制较容易,x 轴标出间断的中点值或分类性状,y 轴标出次数。()饼形图:以百分比表示3.总体(population):具有共同性质的个体所组成的集团。4.参数:由总体的全部观察值算得的描述总体的特征数。总体参数用希腊字母表示,如:、 等5.样本:从总体中抽出的个体的集合。6.样本容量:样本中所含有的个体数,以 n 表示。大样本:样本容量较大的样本(n)小样本:
22、样本容量较小的样本 (n)7.抽样:从总体中获得样本的过程.抽样方式:复置抽样 、非复置抽样抽样方法:随机(概率)抽样、典型抽样、顺序(机械)抽样8.统计数:统计数:测定样本中各个体而得到的特征数。如:样本平均数、标准差等。统计数常用拉丁字母表示。9.统计量:样本的统计指标,如样本均数,采用拉丁字母分别记为 。统计量是参数附近波动的随机变量 。参数:总体的统计指标,如总体均数,采用希腊字母记为 。 固定的常数 10.参数和统计数的关系:统计数是相应总体参数的估计值。对一个总体而言,参数是一个固定值,但样本统计数并不是固定值,它随着取样的不同而不同。11.资料的分类:一数量性状资料由计数和量测两
23、种方法获得。计数间断性变数小麦基本苗数、菌落数、穗数、分孽数等等量测连续性变数病斑长度、作物产量、株高、土壤水分含量等等二质量性状资料质量性状又称属性性状,指只能观察而不能量测的性状。如:遗传上符合独立分配、自由组合和连锁规律的性状花色、粒色、芒的有无、果实形状等统计次数法:统计具有某个性状的个体数目及具有不同性状的个体数目,按类别计其次数或相对次数。给分法:给予每类性状以相对数量的方法,如小麦籽粒有红白两种颜色,可用 0 表示白色,用 1 表示红色。12.平均数的意义和种类:平均数是数量资料的代表值,表示整个资料内变数的中心位置,并且可以作为一组资料的代表,与另一组资料进行比较。种类:算术平
24、均数 中数 众数 几何平均数(一)算术平均数(mean)、定义:一个数量资料中各个观察值的总和除以观察值个数所得的商,称为算术平均数。 有总体均数和样本均数之分,分别用 和 表示。 应用最广。常简称为平均数或均数。 、算术平均数的重要性质(1)样本中各观察值与其平均数的差数(简称离均差)的总和等于零。(2)样本中各个值与其平均数差数平方的总和,较各个观察值与任何一数值的差数平方和为小,亦即离均差平方的总为最小。(二)中数将所有观察值从小到大依次排列,居中间位置的观察值称为中数,记作 Md。(三)众数(mode)资料中最常见的一数或次数出现最多的一组的中点值,称为众数,记作 Mo.注意:中数和众
25、数作为资料的代表值, 其代表性较差,因为它不能利用资料的全部信息,仅能利用小部分信息,所以应用较少。(四)几何平均数(geometric mean)如有几个观察值,其相乘积开 n 次方所得数值,即为几何平均数,记作 G。 X0)()(1xxinii12.Gx13.变异数:变异数是描述资料变异程度的统计量.常用的变异数主要有:极差、方差、标准差、变异系数等一、极差(Range)又称全距,记作 R,是资料中最大观察值与最小观察值的差数.优点:简单易懂,使用方便。缺点:由两个极端值决定,没有充分利用资料的全部信息,易受资料中不正常的极端值的影响,代表整个样本的变异度有缺陷。应用:n10二、方差(Va
26、riance)能正确反映资料变异度的方法,是用样本全部观察值来度量资料变异程度的变异数。选定一个共同比较的标准平均数:用每一个变数与平均数相比,得到许多个离均差。用离均差的平方和优点:克服离均差之和为零的弊端、加重较大离均差的分量。缺点:各资料 n 值不同。解决办法:ss/(n-1)小样本大样本 总体三、标准差(Standard deviation)标准差为方差的平方根值,以恢复原来的度量单位,并使其数值水平与平均数相适应,不致于过大或过小。14.(1)自由度的意义:在用样本估计方差和标准差时,分母为 n-1,而不是用观察值数目 n,在这里 n-1 称为自由度,记作 或 df,=n-1。因为,
27、我们通常所掌握的样本资料,不知 值,不得不用样本平均数 来代替 ,由于其 与 有一定的偏差,根据离均差平方和为最小,可以推知 总是小于 (-)2 ,这时如果还用样本包含的个体数 n 作为分母进行平均, 就会使样本的标准差比群体参数偏小。为此,用 n-1 代替 n,则可免除偏小的弊病。 (2)自由度的另一含义:对于具有 n 个观察值的样本,在每一个 x 与 比较时,虽然具有 n 个离均差,但因受离均差之和等于零这一条件的限制,所以只有 n-1 个是自由的。maxinR2()sx1)(122nxiSnxi122 )(221()Nxi1)(2nxS Nx2)(2()s标准差的计算方法(一) 直接法(
28、二)15.利用标准差比较的应用条件:1.标准差带有单位,不同单位的标准差不能进行比较.例: 小麦株高的标准差是 4.0cm,穗粒数的标准差为 2.5 粒,这样 4.0cm 与 2.5 粒不能直接比较.2.标准差的可比性基于平均数相等这一条件,基础大小不同,就不能说明变异程度。例:小麦株高 =94.7cm, s=4.0cm穗长 =5.4cm, s=0.5cm不能根据标准差的大小断言:株高的变异程度大于穗长的变异程度.四、变异系数定义:标准差与平均数的比率以百分数来表示,称为变异系数,记作 CV( 或 S%).计算公式: CV(%)=S/ 100%CV 是一个不带单位的纯数,表示单位量的变异,故可
29、用于比较。例:小麦株高 = 94.7cm, s=4.0cm CV(%)=4.22%穗长 =5.4cm, s=0.5cm CV(%)=9.26%结论:小麦穗长的变异程度比株高的变异程度大。 变异系数在田间试验设计中有重要的用途。如在空白试验中,可作为测定土壤差异的指标,而且可作为确定试验小区面积、形状和重复次数的依据。 CV 既受 影响,也受 S 的影响,因此在用 cv 表示样本变异程度时,宜同时列举S 和 ,以免引起误会。第三章 统计推断1.研究总体和样本的关系可从两个方向进行分析: 一是从总体到样本方向抽样分布问题,可称为第方向;二是从样本到总体方向统计推断(statistical infe
30、rence)问题,可称为第方向,两者互为逆命题.本章主要讲述第方向。用样本平均数可以估计总体平均数,但样本平均数有误差,所以推断结论并非绝对正确。之间的差异来自两方面:真实差异和抽样误差。需要对其进行判断。2.统计推断就是根据抽样分布律和概率理论,用样本统计数推断总体参数。 3)4)1xn 求 出 (计 算 ( (5)s=xx统计推断包括参数估计和统计假设测验两个方面的内容。统计推断的前提条件:资料来自随机样本、统计数分布律已知。3.二、 参数估计指用样本统计数对总体参数作点估计和区间估计。、点估计就是用样本统计数直接估计相应的总体参数, 例如用 x 估计 ;用 s2 估计2 等。、根据抽样分
31、布试验,样本统计数亦是一个随机变数,所以不同的样本会有不同的估计值,即点估计具有一定的偏差, 因此有必要估算一个取值范围,使总体参数能够以很高的置信度落在这个区间内,这种用样本统计数在一定的概率保证下估计总体参数所在范围的方法,称为参数的 区间估计 。总体参数可能所在的区间称为置信区间。置信区间的上下限称为置信限。保证参数在该区间内的概率称为置信系数或置信度,以1- 表示。其中 称为显著水平(significance level):是指用于测验假设的概率标准。农业试验中,一般取 0.05 和 0.01,达到 0.05 显著水平称为检验对象间差异显著,用表示;达到 0.01 显著水平称为检验对象
32、间差异极显著,用表示。以式表示为:P(L1L2)=1-式中 指总体参数,如:、2、1-2 等。L1 和 L2 称为置信限,其中 L1 称为置信下限;L2 称为置信上限。三、假设测验假设检验就是用样本统计数对总体假设的真伪做出检验的概率方法。 四、无效假设和备择假设统计假设分为两类:、无效假设:指总体参数与其假设值之间无实质性差异,其差异由抽样误差造成。记作:H0 。用于检验的假设,以其为前提可以计算试验结果出现的概率。无效假设的目的:可以从假设的总体里推断其随机抽样平均数的分布,从而可以计算出某一样本平均数指定值出现的概率,即研究总体和样本的关系,进行假设检验。、备择假设:无效假设被否定后必须
33、接受的后备假设。记作:HA注:H0 和 HA 为对立事件,即:P(H0 HA)五、小概率原理(小概率事件的实际不可能原理)凡是概率很小的事件在一次试验中实际上是不可能出现的。统计推断是以小概率原理为基础而进行的。小概率的标准即为显著性水平。 六、接受区间与否定区间在假设检验中,抽样分布曲线下接受 Ho 的区域称为接受区域,等于总体参数的置信区间,其置信概率为 1-。否定 Ho 的区域称为否定区域,等于总体参数置信区间以外的区域;其概率为显著水平 七、假设检验的基本步骤(1) 对样本所属的总体参数提出假设,包括无效假设 Ho 和备择假设 HA。(2) 确定显著水平 .(3) 计算。在 Ho 正确
34、的前提下,根据统计数的抽样分布计算出所得样本统计数的概率p。(4) 统计推断,将实得样本统计数的概率 p 与确定的显著水平 相比较,依据概率大小作出应接受哪种参数假设的检验。(5) 对结果进行解释。例 4.1:当地小麦品种亩产 0公斤,多年种植的标准差公斤;新引进品种经25 个小区试验,亩产量 330Kg,问两者是否有显著差异?解:、Ho:Kg; HA:Kg;、 0.053 、计算 u 值、根据 .0.05,查表得临界值 u0.05=1.96所以,u u0.05, 330Kg 在抽样分布中的概率 p1.96 u2.576左尾检验 u1.645 u2.326两尾检验和一尾检验的主要区别:(1)两
35、尾检验和一尾检验的假设不同。(2)两尾检验和一尾检验用以划分两个总体的临界值不同。(3)一尾检验比两尾检验容易否定 Ho,鉴定差异显著性的灵敏度较高。九、假设检验的两类错误 第一类错误:如果无效假设 Ho 为真,但通过检验却否定了它,这种错误称为弃真错误,又称统计错误的第类错误,其概率为显著水平 。第二类错误:如果无效假设 Ho 为伪,但通过检验却接受了它,这种错误称为取伪错误,又称为统计推断的第二类错误,其概率以 记。当用样本平均数总体均数作统计推断时,可能会发生第一类错误或第二类错误,但是两类错误不可能同时发生。 第一类错误 会对第二类错误 产生影响,当显著水平从 =0.05 减少到 =0
36、.01时,则会增大第二类错误的概率。 在假设检验中犯第一类错误的概率,其概率为 。 在假设检验中犯第二类错误的概率,其最大值为 =1-。 关于两类错误:、样本容量 n 固定的条件下,提高显著水平 (取较小的 值) ,将增大第二类错误的概率 值。、在 n 和 相同的条件下,真总体平均值 与假设总体平均值 0 的相差(以标准差为单位)愈大,则犯第二类错误的概率越小。、为了降低犯两类错误的概率,需采用一个较低的显著水平,如 =0.05;同时适当增加样本容量,或适当减小总体方差 ,或两者兼有之。、如果真总体的 在接受区间外且 已固定,则改进试验技术和增加样本容量可有效降低犯第二类错误的概率。第二节 平
37、均数的假设测验一、单个样本平均数的统计推断(一)单个样本平均数的假设检验这是检验样本均数所属的总体均数 与假设的总体均数 0 是否相等的假设检验。 无效假设 Ho:=0,0(或者 Ho:0,HA:0)。、u 测验当总体方差 2 已知或 2 未知但 n30 时,用 u 检验。例 4.2:如引进品种与原地方品种比较,因 2 已知时,故用 u 检验:例 4.3:抽检了 80 包方便面,计得净重平均数为 65.05(g),s=2.54(g),试检验该方便面净重的总体均数 是否显著高于标准 0=65(g)?假设 H0:65(g) 对 HA:65(g)显著水平 =0.05检验计算 虽然总体方差 2 未知,
38、但是 n30 为大样本,故可用 u 检验。实得 u65(g),即该方便面净重的总体均数 与标准重量 0=65(g)之间无显著差异。 当总体方差 2 未知,且 n2.3646)=0.05,实得 t 值的概率 p0.05,故接受 Ho:=34(g),否定 HA:34(g), 即该小麦品种千粒重总体均数 与假设总体均数 0=34(g)之间无显著差异。 (二)总体均数 的区间估计当总体方差 2 已知或 2 未知但 n30 时, 的 1- 的置信区间为:/30275/xn/65.0.1824xsn2281.735.()()/938.1.7/81.64()/.6405xxgnxns gsn35.214.0
39、870xts()1.2.xxxuuLu二、两个样本平均数差数的统计推断(一)假设测验、成组数据的比较(两个独立总体均数差数(1-2)的假设检验) 两个处理完全随机设计,各供试单位彼此独立,不论两处理的样本容量是否相同,所得数据为成组数据 (1)u 测验:当两个总体方差 12 和 22 已知时,用 u 测验:例 4.5:某小麦平方米产量的 20.4(Kg)2,在其地块内用、两法抽样:A 法样点,( 11.2Kg,B 法 8 样点,21.4Kg。比较两法每平方米产量是否相等。解:Ho:1=2, HA:12,0.05122220.4,n1=12,n2=8|u|t0.01,推断:否定 Ho:d =0,
40、接受 HA:d0,即:A、B 两法病毒斑数有极显著差异。(二)区间估计、两个总体均数差数(1-2)的区间估计idn22()()/dsn2)/1()167.43.97(ddsn个 )dts()当两个总体方差 12 和 22 未知,且 1222 时(1-2)的 置信区间为:第三节 二项资料的百分数假设测验 一、单个样本百分数(成数)的假设测验目的:测验某一样本百分数所属总体百分数与某一理论值或期望值 p0 的差异显著性。12 1212 12, 12,(). ().x xxtsxts 例 4.14:调查两地块小麦锈病,测验锈病率有无差异。n1=378 株; x1=355 株, = 93.92%n2=
41、396 株, x2=346 株, =87.31%解:H0:p1=p2; HA:p1p2, u0.05=1.96三、二项样本假设测验时的连续性校正二项资料是间断性变数,用连续型分布进行测验时会有误差,易发生第一类错误,所以在n0.05,应接受 H0.F 测验应具备的条件:(1)变数 x 遵循正态分布 N(u, 2)(2)s12、s22 彼此独立。当资料不符合这些条件时,需作适当转换(后叙) 。 例题:测验上例中药剂间变异是否显著大于药剂内变异?H0: t2=e2 ,HA: t2e2 0.05F=t2/e2=168.0/8.17=20.56 F3,12,0.05=3.49, F3,12,0.01=
42、5.95实得 FF0.01,否定 Ho,接受 HA,即药剂间变异显著地大于药剂内变异,不同药剂对苗高的影响不同。 以上通过实例说明通过 FMStMSe 测验处理间所表示出的差异是否真实(比误差大),这一方法即为方差分析法。这里所测验的统计假设是 Ho: t2=e2 或 Ho:A=B=c=D, HA: t2e2 或 A、B、c、D 间存在差异(不一定 A、B、c、D 间均不等,可能部分不等)。 药剂处理苗高方差分析表变异来源 DF SS MS F 显著 F 值(0.05)药剂处理间 3, 504, 168.00, 20.56* 3.49处理内(误差) 12 98 8.17 5.95(0.01)第
43、二节 多重比较有些试验来说,其目的不仅在于了解一组处理间总体上有无实质性差异,更在于了解哪些处理间存在真实差异,故需进一步做处理平均数间的比较。一个试验中 k 个处理,平均数间可能有 k(k-1)2 个比较,因而这种比较是复式比较亦称为多重比较。 多重比较有多种方法,本节主要介绍三种:最小显著差数法(LSD) 、 Duncan 氏新复极差法(SSR)复极差法(q) 、一、最小显著差数法(least significant difference)简称 LSD 法,实质上是 t 测验。 程序:处理间 F 测验显著的前提下,计算出显著水平为 的最小显著差数 LSD;任何两个平均数的差数,如其绝对值L
44、SD,即为在 水平上显著;反之,则为在 水平上不显著。该法又称为 F 测验保护最小显著差数法(Fishers Protected LSD, FPLSD)可知:药剂 D 与 A、D 与 C、以及 B 与 C 处理平均数差数分别为 11、15 和 9,大于 6.17,说明在 0.01 水平上差异显著;药剂 D 与 B、B 与 A 处理平均数差数分别为 6 和 5,在 0.05水平上差异显著;药剂 A 与 C 处理平均数差数为 4,小于 4.40,差异不显著.二、q 法q 测验方法是将一组 k 个平均数由大到小排列后,根据所比较的两个处理平均数的差数是几个平均数间的极差分别确定最小显著极差 LSR 值的方法。