1、第三章 取样和观察记载技术 3.1 抽样技术 从调查对象的总体中抽出若干个体组成样本,以样本代表总体,通过对样本中全部个体作观测计算可获得样本统计量值,并以此值作为总体相应参数(总体真值)的估计值。当然也必须明确,由于样本毕竟是由总体中抽出的部分个体构成,因而所得的样本统计量值与总体真值是有差异的。 这个差异即为抽样误差(Sampling error) 。当抽样误差很小时,样本的统计量值才能很好地代表总体真值;抽样误差较大时,用样本估计总体的可靠性较差。 我们采用抽样观测法,是想通过样本推断总体,无偏估计总体。因此在抽样调查时,总希望抽样误差越小越好。而这在很大程度上取决于抽样技术的正确与否。
2、 正确的抽样技术应从样本容量(Determination of sample size)和抽样方法(Sampling method)两方面来考虑。 3.1.1 样本容量 样本容量指样本中所包含的个体(或抽样单位)数目,即样本的大小。 它影响抽样误差的大小,从理论上讲,样本容量小,抽样误差就大,所得样本就不能很好的代表总体;反之,样本容量大,样本中所包含的总体信息就多,样本对总体的代表性就好,抽样误差就小,由样本统计量值对总体真值的估计精度就高。但是,样本容量增大,意味着抽样成本的加大,因此在实际中,并不是样本容量越大越好。 目前对试验结果抽样调查的样本容量还没有一个确切统一的估计方法。斯丹(C
3、. Stein)认为,样本容量的大小与抽样调查要求的精确度及所研究对象的变异度大小有很大关系。利用这种关系来求样本容量的计算公式可用显著性检验的统计量公式推出。 当从正态总体中抽样时,由样本平均数与总体平均数差异显著性检验求 U 值公式可推出样本容量的计算公式为: 式中 n样本容量。U两尾概率 的临界 U 值,由查正态离差值表取得。S 标准差,反映所研究对象的变异度大小。但是在 n 确定之前,S 是未知的,为了估计 S,可有两种方法:事先进行小型调查来初步估算 S;采用观察值的极差来估计 S,即由总体中最大观察值和最小观察值求极差 R,这时 S R/6。d允许的误差(x ) ,可根据抽样调查要
4、求的精确度确定。1置信度。 例:进行某种胡萝卜株产调查。先随机抽了 10 株得 S=16.58,今欲以 95的置信度使调查所得的样本平均数对总体平均数的允许误差不超过 5g,问需要抽取多少株胡萝卜组成样本才合适? 已知:S=16.5,10.95,0.05,U0.051.96,d5,代入式(2-10) ,得:即对该种胡萝卜株产调查,至少需要调查 42 株,才能以 95的置信度使调查所得样本平均数与总体平均数相差不超过 5g。 如果我们调查的目的是对服从二项分布的总体百分数做出估计,则由样本百分数与总体百分数差异显著性检验求 U 值公式可推出样本容量的计算公式为: 式中 n样本容量。P总体百分数,
5、可由经验或小型调查估得; U两尾概率 的临界 U 值,由查正态离差值表取得。d允许的误差,可根据抽样调查要求的精确度确定。1置信度。例:欲了解某地某种梨树的花序坐果率,已知该种梨树通常坐果率为 40%(p) ,若规定允许误差为 4% (d),在置信度 1=0.99 下至少要调查多少花序? 即至少要调查 998 个花絮才能以 99的置信度保证调查所得的样本百分数与总体百分数相差不超过 4%。 在试验结果抽样调查的样本容量确定时,除了考虑调查要求的精确度和研究对象的变异度大小外,实践中还应考虑所观测项目的工作量大小。一般调查工作量小的项目,如新梢数、叶数、花数、果数,样本容量可大些;而调查工作量大
6、的项目,如果实维生素 C 含量、含酸量等,则样本容量可适当定得小一点。 3.1.2 抽样方法从总体中抽样调查,应抽哪些个体构成样本,即采用何种抽样方法来抽样与样本代表性和准确性密切相关。所以应针对不同的情况,采用不同的抽样方法。常用的方法有以下几种:1顺序抽样(Systematic sampling)又称系统抽样、机械抽样或等距抽样。它是按某种既定顺序从总体中抽取一定数量的个体(抽样单位)构成样本的方法。具体做法是:将总体全部个体 N 按自然顺序进行编号,并将总体平分成若干组。组数等于样本容量 n。然后从第一组内随机抽取 1 个个体(抽样单位) ,再以组内个体数(N/n)为间隔在第二组抽取另一
7、个体(抽样单位) 。如此继续下去,直到抽出所需个体组成样本。例如,欲从容量 N 为 1 000 的总体中抽出一个样本容量 n 为 20 的样本,可先将总体平分为20 组,每组 50 个个体。然后在 150 间随机取 1 个编号作第一个样号,接着每隔 50 取 1个样,如第一为 9,以后各样号分别为 59, 109, 159,959。这种方法比较简单,而且抽出的个体在总体中的分布比较均匀,样本对总体的代表性较好。但是,如果总体内存在周期性变异时,很可能使样本的偏差较大,产生系统误差。另外,从数理统计的观点看,顺序抽样所得样本不能无偏估计抽样误差。 2简单随机抽样(Simple random sa
8、mpling) 这是一种直接从总体中随机抽取若干个体构成样本的抽样方法。 具体做法是:先对总体中所有个体逐个进行编号,然后用随机方法(查随机数字表或抽签法)按样本容量从总体中抽取所需个体组成样本。用这种方法抽样,由于总体中所有个体都有被抽取为样本的相同机会,排除了人的主观意志的干扰,因此所得样本可无偏估计误差,对总体做出正确推断。一般在总体容量不大,变异又较小时,用此法进行抽样效果较好。但如果总体表现明显的部分间差异时,会因抽样个体集中在总体的某一部分,而增大抽样误差,降低精确性。3分层抽样(Stratified random sampling)又叫类型抽样或分类抽样, 是一种混合抽样方法。其
9、具体方法分两个步骤进行:将总体按变异情况分成若干较均匀同质的部分,即区层。各区层的个体(抽样单位)数可等可不等。分别在各区层中按一定比例确定该区层抽样数 ni,并按 ni 在该区层内进行简单随机抽样。最后将各层中抽得的个体(抽样单位)共同组成一个样本。在各区层中抽样的比例可以根据各区层的比例大小和各区层个体间变异程度来考虑,即在个体数较多、变异程度较大的区层抽样比例应大些;反之,抽样比例则可小点。例如,调查某一果园的产量,由于株间产量差异很大,采用分层抽样调查。假设按目测估计产量的高低将全园植株分为高产、中产、低产三个区层,并估计各区层所占比例分别为30% , 50% , 20%。如果确定的样
10、本容量 n 为 40,则在高、中、低产三个区层中的抽样数应分别为 12, 20, 8。于是可按此抽样数分别在各区层进行简单随机抽样,即可得到所需样本。分层抽样实际上是在简单随机抽样的基础上引进了局部控制方法,故其性质类似随机区组试验设计。与简单随机抽样相比,分层抽样能更有效地降低抽样误差,使构成样本的个体在总体中的分布更均匀,从而提高了样本对总体的代表性。 运用分层抽样时,调查者首先对总体情况要有一定的了解,这样才能保证分层的科学性,进而保证样本对总体的代表性。 4整群抽样(Cluster sampling ) 此法是一种以包含若干个体的单位群为抽样对象的抽样方法。首先对所调查总体按需要划分成
11、若干单位群,并对各群进行编号,然后用简单随机抽样法在总体中抽单位群来组成样本。所抽单位群个数与每个群中个体数之乘积等于样本容量n。例如,某总体容量 N 为 10 000,拟从中抽一个容量 n 为 100 的样本。采用整群抽样时,若以每 10 个个体为一单位群进行划分,则该总体被分为 1 000 群。在对此 1 000 群逐一编号后,用简单随机抽样方法从中抽取 10 群即可得到所需的容量为 100 的样本。整群抽样由于只对群编号,并且以群为抽样对象,因而大大减小了抽样工作量,这对总体较大、样本容量较多的抽样比较简便省事。而且如果群间差异程度较小时,所得样本对总体的估计效果也不错。但从另一角度看,
12、也正由于此法以群为抽样对象,其样本中个体较集中,这就影响了它们在总体中的均匀分布。因此,当群间差异较大时,所得样本对总体的代表性较差。5分级抽样(Nested random sampling)又叫阶段抽样。 当抽样调查面较广,或所观测的项目相对较细小时,要一次性直接从总体中抽取样本的所有个体,在技术上是很困难的,这时可采用分级抽样。 其方法是:先将总体分成若干大组(初级单位) ,并从中随机抽取几个大组;然后在所抽大组中再分小组(次级单位) ,并分别随机抽取几个小组;需要时还可再分,最后根据最终抽取的所有单位组的全部个体组成样本,逐个进行观测。例如,调查某一果园的病虫果率,先在果园中随机抽取一部
13、分植株(初级单位) ,再在所抽的植株上随机抽取几个大枝(次级单位) ,最后分别在所抽的大枝中随机抽取几个果实(三级单位)观察病虫危害情况。采用多级抽样应注意各级的连续性。各级抽样多采用简单随机抽样方法,也可以将几种抽样方法结合使用。 6典型抽样(Typical sampling) 指根据试验调查的要求,从总体中有意识有目的地选取一定量的典型植株个体或抽样单位作为样本加以观测。例如,在果树叶分析或光合作用测定中,对取叶的枝条种类和部位都有一定要求,因为由以往试验证明,这类枝条和部位的叶片对全株树的营养和光合作用有代表性。所以抽样时,应有意识地抽取这些部位的枝条和叶片作样本,即进行典型抽样。典型抽
14、样比较简单,所得样本资料符合试验要求,比较容易说明问题。但这种抽样方法在很大程度上受调查者的经验和知识的影响,故应用时一定要慎重。3.2 观察记载技术园艺植物的田间试验,一方面要掌握各试区的产量和其他经济指标,另一方面要了解园艺植物的生长动态和各种环境因子发生的变化。只有根据这二方面的资料,才能作出正确和全面的试验结论。 为了掌握上述两方面的资料,必须经常地、系统地、客观地进行观察记栽。除观察记载试验计划上规定的项目外,还应该随时注意发现和记载某些新问题或异常现象。对于影响试验正常进行的问题,应及时解决;对于某些新苗头,可以增加观察项目。这种深入实际,大量掌握第一手资料的作法是每个研究人员应有
15、的态度。3.2.1 观察记载的内容记录的内容,应根据试验目的要求和不同类型的试验园,确定少而精的原则,掌握必要的关键项目进行系统的观察记载。要应用统一的记载标准;要有专人负责,及时、准确地记载,掌握全面而可靠的资料。 (一)基本资料1试验田的土地面积、分布、平面图及基本建设;2园艺植物的种类、品种、砧木、繁殖方法、苗木来源、年龄。一般按小区或单株注明区号或株号;3试验地过去历史情况和目前土壤情况如前作物、地形、地下水位、表土和心土的深度,各层土壤的分布特点,土质、土壤反应,有机质、氮、磷、钾等含量,土壤物理性状、土壤温度和湿度、土壤排水和肥力情况。4栽植技术如栽植的时期、深度、施肥及移植情况。
16、 (二)气象资料1.温度:气温、地温(不同深度) 。包括日均温、旬平均温度、月平均温度、最高气温、最低气温、510以上生物学积温等。2.日照和蒸发量:晴天日数、日照时数、分布情况、辐射热量、蒸发量;3降水和相对湿度:按旬、月、年分别统计的雨日天数、降水量和相对湿度;4风:风速、风向、持续时间;5灾害性天气。旱、涝、风、雹、雪、冰等。为了满足个别试验的需要,还应增加观测的内容,如研究番茄营养面积与产量的关系时,要测定不同叶层光强的分布、光照强度的日变化、气流的强度、空气温度、土壤温度的变化。在研究大棚、温室的性能时,则要观测温度、光照、湿度等不同部位的变化、日变化和季节性的变化。 气象资料可以在
17、试验田内定点观测,也可以利用就近气象合站的观测结果进行分析,观测的微域气象资料参考价值更大。气象条件的观测,并配合生育期的起止日期,以便进一步分析不同生育期需要的积温,使结果的分析更趁完善。 (三)试验地资料 试验地一般须观察记载试验地的地形、土壤类型、土层深度及地下水位的高低,并测定土壤 pH 值、含盐量和有机质的百分数。必要时还测定土壤氮、磷、钾的总量及可给态氮、磷、钾含量。 (四)栽培管理措施 任何栽培条件的改变,都影响着园艺植物的生长发育,从而引起园艺植物的相应反应。因此要如实记载。1土壤改良和耕作制度;2施肥的时期、肥料的种类、数量、施肥的方法以及园艺植物的反应;3灌水的时期、数量和
18、方法;4病虫害防治 病虫种类,为害时间和程度,防治方法及其效果;5.整形修剪原则、方法及反应;6用工、用料、机械和工具;7.全年管理工作历。(五)园艺植物的生长发育动态记载1园艺植物生长发育情况如干周或干径,株高高和冠径,叶幕或绿叶层体积,新梢生长量,落果时期及数量统计;2不同品种,不同处理的园艺植物结果年龄、逐年产量、果树大小年情况;3选定若干代表植株(不同品种的高产株、低产株)记录产量;4产品质量和室内果品生化分析;5物候期观察如萌芽、开花、成熟及落叶等时期,特别注意园艺植物生长发育临界期,6抗逆性如抗寒、抗热、耐涝、耐早、抗风、抗盐碱等。 3.2.2 对观察记载的几点要求(一)代表性 如
19、果不是对整个试区全部个体进行观察记载,就应严格按照抽样确定的植株进行观察记载。只有这样,才有较好的代表性。如果由于观察记载时经常接触影响样株的正常生长,可用随机抽样的方法替换 1/31/4 的样株。(二)统一标准 对观察记载项目要有一个统一明确的标准。一般应附在记载表的下面或说明栏内。比如记载某辣椒品种的现蕾期,必须规定花蕾多大才算现蕾,有百分之几十的植株现蕾才算现蕾期。只有统一的标准,才便于进行不同品种或处理间的比较。这对多点试验尤为重要,否则记载的数据是没有意义的。(三)及时且不能中断 为了取得系统完整的资料,观察记载必须及时进行且不能中断。不允许补记或估计。万一由于不可抗拒的原因漏记一次或两次,在试验结果分析时,应予以说明。一般若漏记达三次,应把该项目作废。(四)严肃认真 对观察记载要有严谨的科学态度,决不能自欺欺人。对于各项资料的观察记载要准确可靠,应避免看错、记错。一般在田间观察记载要使用带橡皮头铅笔进行。记后注意核对,发现矛盾应马上查对和校正。回到室内及时用钢笔抄写,并注意核对,以后作为原始资料长期保存。3.2.3 观察记载方法见后。第三节 主要项目的测定见后。