1、,生物统计学 第九章 抽 样 原 理 与 方 法,主要内容,抽样误差的估计 样本容量的确定 抽样的基本方法 抽样方案的制定,1抽样误差的估计,假设有一正态总体,对其进行k次抽样,每个样本包含n个观测值,则可得到样本1、样本2、样本k。 这k个样本的平均数可能各不相同,且其中某个样本的平均数刚好等于总体平均数的几率也很小。 样本统计数与总体参数的差别主要由“抽样误差”所引起。抽样误差与总体参数的估计有着密切关系。,样本平均数的标准误和置信区间,从理论上说,各样本平均数的平均数是对总体平均数的最好估计值,即:且容量为n的样本平均数的方差等于总体方差的1/n,即:,样本平均数的标准误和置信区间,在实
2、际工作中,从总体中抽出多个样本计算均值和标准误往往是不现实的。故常采用一个样本的标准差来估计平均数的标准误,即:,样本平均数的标准误和置信区间,则总体平均数在(1-)置信水平上的置信区间为:,样本频率的标准误和置信区间,对于以频率表示的资料,当资料的观测值个数相当大时,其分布也接近正态分布,其标准误的计算公式为:,样本频率的标准误和置信区间,则总体频率在(1-)置信水平上的置信区间为:,2平均数资料样本容量的确定,确定样本容量前,必须先明确能够接受误差的范围,并了解两类错误的概率和变量标准差的大小,并根据试验和经验作出估计。,平均数资料样本容量的确定,在L(置信半径)的计算公式中,s一般根据前
3、人经验或小型试验取得;n一般取无穷大,则t0.051.962。可得:若计算所得n30,则将df n-1带入,直到计算出的n为稳定数值为止。,例题1,某果园内果树的平均果实产量标准差s为10 kg。若以95的可靠性估计果树产量,要求误差不超过2 kg,问应抽取多少果树做样本?,例题2,条件同例题1,若要求估计误差不超过5 kg,问应抽取多少果树做样本?,频率资料样本容量的确定,对于以频率表示统计结果的资料,其样本容量的计算公式改变为:其中L的单位应与p、q一致。,例题3,某医生的按摩疗法预计对患者的治愈率为75,若允许的误差为5,则应调查多少位患者才能验证这一结论(0.05)?,成对资料和非成对
4、资料样本容量的确定,成对资料样本容量的确定 对于成对资料中样本容量的计算,相应的公式为:其中: 为试验所得各对间差异的方差;为各对间差异平均数。,例题4,某药物试验以大鼠为对象,治疗前后大鼠体重差异标准差一般在20 g左右。若要使治疗前后对大鼠体重差异的估计精确到5 g,则需要多少只大鼠做试验(0.05) ?,成对资料和非成对资料样本容量的确定,非成对资料样本容量的确定 对于非成对试验,相应的公式为:其中: 为试验各组间差异的方差为各组平均数的差异值。若计算所得n 16,则将df2(n-1)带入,直到计算出的n为稳定数值为止。,例题5,某科学家对一定年龄女童的体重差异进行了测量,结果显示其差异
5、的标准差为1.5 kg。若要使测量结果的误差为0.2 kg,则应对多少组女童进行调查?,(组),补充:两样本频率比较时样本容量的确定,两样本频率比较时,样本容量的计算公式为:其中: 为合并百分率; 。,例题7,对两个食品厂进行抽查后,发现甲厂产品合格率为95,乙厂为91,若要推断两厂间食品的合格率是否确实相差4,取=0.05时至少要检验多少批食品?,3抽样的基本方法,抽样调查是从总体中抽取一定数量的观察单位组成样本。其目的就是由样本指标来推断总体的特征。抽样方法正确与否,关系到样本是否具有代表性,也直接影响到由样本所得估计值的准确性。 根据研究情况的不同,抽样方法可分为:随机抽样、顺序抽样、典
6、型抽样。,随机抽样,随机抽样要求在进行抽样的过程中,应该使总体内所有个体均有同等机会被抽取。 由于抽样的随机性,可正确地估计试验误差,从而得出科学合理的结论。 随机抽样可分为:简单随机抽样、分层随机抽样、整体抽样、双重抽样。,随机抽样,简单随机抽样 是最简单、最常用的抽样方法,要求被抽总体内每一个体被抽的机会均等。即采用随机的方法直接从总体中抽出若干抽样单位构成样本。,随机抽样,简单随机抽样的方法 将总体内所有抽样单位全部编号,采用随机方法确定被抽单位编号,构成样本。,随机抽样,简单随机抽样的注意事项 简单随机抽样适用于个体间差异较小、所需抽取的样本单位数较小的情况。对于那些具有某种趋向或差异
7、明显和点片式差异的总体不宜使用简单随机抽样。,随机抽样,分层随机抽样 是一种混合抽样,特点在于将总体按变异原因或程度划分成若干区层,然后再用简单随机抽样方法,从各区层按照一定的抽样分数(即一个样本所包括抽样单位数与其总体所包括的抽样单位数的比值)抽选抽样单位。,随机抽样,分层随机抽样的方法 分层随机抽样具体可分两步:1、将总体按变异原因与程度划分成若干区层,使区层内变异尽可能小或变异原因相同,而区层间的变异比较大或变异原因不同;2、在每个区层按一定的抽样分数独立随机抽样。 确定各区层应抽选的抽样单位数有三种方法:1、相等配置;2、比例配置;3、最优配置。,随机抽样,分层随机抽样的优点: 在总体
8、内各抽样单位间的差异比较明显的情况下,若将总体分为几个比较同质的区层,就能提高抽样精度。 分层随机抽样同时运用了随机和分层局部控制原理,不仅降低了抽样误差,也可以运用统计方法来估算抽样误差。,随机抽样,整体抽样 把总体分成若干群,以群为单位,进行随机抽样,对抽到的样本全面调查。 其特点在于以“群”为抽样单位,“群”间的差异越小,被抽的“群”越多,抽样误差越小。 与简单随机抽样相比较,在相等的抽样分数下,它减少了所抽查单位的数目,同时增大了每个调查单位。,随机抽样,整体抽样的方法 将变异程度相近或变异原因相同的抽样单位组成群,再以随机抽样的方式抽出其中的群进行调查。,随机抽样,整体抽样的优缺点
9、整体抽样的优点在于:1、由于一个群只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便;2、与随机抽样相比较,它常常提供较为准确的总体估计值,特别是对于不均匀分布的研究对象;3、只要各群抽选单位相等,整体抽样也可提供总体平均数的无偏估计。 整体抽样的缺点在于:当样本含量一定时,其抽样误差一般大于简单随机抽样,这是因为样本观察单位并非广泛地散布在总体中。,随机抽样,双重抽样 当要研究的性状不容易观察测定时,为了简易调查目标性状,可以设法找出另一种易于观察测定且节省时间和经费的性状,利用这两种性状客观存在的关系,通过测定后一性状结果从而推算前一种性状的测定结果。前一性状一般称为复杂
10、性状或直接性状,后一性状称为简单性状或间接性状。,随机抽样,双重抽样的方法 针对所研究的复杂性状的特性,首先找出与之相关联的简单性状。再通过对该简单性状的测量或调查,推算出复杂性状。 在实际运用中,双重抽样可以推广为多重抽样。,随机抽样,双重抽样的优点 对于复杂性状的调查研究可以通过仅测定少量抽样单位而获得相应于大量抽样单位的精确度。 当复杂性状必须通过破坏性测定才能调查时,则仅有这种双重抽样方法可用。,顺序抽样,按某种既定顺序从总体(有限总体)中抽取一定数量的个体构成样本。 具体方法是,将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间隔,从每一部分各
11、抽取一个观察单位组成样本。,顺序抽样,顺序抽样的优点 可避免抽样时受人们主观偏见的影响,且简便易行。 容易得到一个按比例分配的样本。 样本观察单位在总体分布均匀,故其抽样误差一般小于简单随机抽样,能得到较准确的结果。,顺序抽样,顺序抽样的缺点 如果总体内存在周期性变异或单调增(减)趋势时,则很可能会得到一个偏差很大的样本,产生明显的系统误差。 顺序抽样得到的样本并不是彼此独立的,因此,对抽样误差的估计只是近似的。通过顺序抽样的方法,不能计算抽样误差、估计总体平均数的置信区间。,典型抽样,根据初步资料或经验判断,有意识、有目的地选取一个典型群体作为代表(即样本)进行调查记载,以估计整个总体。 典
12、型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种方法。 这种抽样方法完全依赖于调查工作者的经验和技能,结果很不稳定,也无法估计抽样误差。,典型抽样,典型抽样的优点 典型样本代表着总体的绝大多数,如果选择合适,可得到可靠的结果,尤其从容量很大的总体中选取较小数量的抽样单位时,往往采用这种方法。 典型抽样的缺点 抽样方法完全依赖于调查工作者的经验和技能,结果很不稳定,也无法估计抽样误差。,4抽样调查的目的和指标要求,在制订抽样方案时,首先应弄清抽样目的及要解决的问题,要有具体的目的和指标。是要了解总体的平均数,还是要了解事物间
13、的相应联系,这些问题要通过具体的指标(即性状)来体现。,确定调查对象,调查对象指我们所要研究的总体,即根据调查目的确定的观察对象;而观察单位是指组成调查对象的各个单位或个体。 一般来说,总体大,抽样单位可大一些,总体小,抽样单位可小一些。抽样单位的大小应视具体问题的性质及费用等来确定。,确定抽样调查的方法,抽样方案中采用何种方法是制定抽样方案的关键。抽样方法应根据具体调查研究的目的和对象,结合各种抽样方法的特点,并考虑抽样费用、工作难易和估计值的精确度等综合因素作出决定。 一般来讲,精确度要求高的,尽量采用分层随机抽样、整体抽样和顺序抽样;要求计算抽样误差时,就必须采用随机抽样;要求费用低廉,
14、抽样易于进行时,采用顺序抽样、典型抽样、整体抽样。,确定抽样调查的方法,两次抽样法 第一次抽样先做小型的初步调查,以摸清总体的概况为主,确定抽样的初级单位是什么。然后再确定次级抽样单位是什么。 在第一次抽样的基础上作出第二次抽样调查方案,确定第二次抽样的样本容量、抽样方法以及作出测量单位和方法的具体规定,达到两次抽样的最优配置。,确定样本容量和抽样分数,一般地讲,样本容量与精确度有关,样本容量越大,精确度越高。但样本容量的增加势必引起人、财、物耗费的增加和时间的延长,因此样本容量的大小应适当。 样本容量与置信概率也有关,置信概率要求高的,样本容量应适当大些,否则样本容量可适当小些。要求抽样误差
15、小的,样本容量应大些,否则样本容量可适当小些。 在一定容量的总体中,抽样分数与样本容量成正比。一般地讲,抽样分数应在样本容量确定后再确定。这样可以根据样本容量,适当考虑总体容量来确定抽样分数。,总体单位编号,对总体单位编号就是将总体的所有抽样单位依其所处的自然位置或某种特征编排号码。编号方法无统一规定,可根据实际情况及习惯酌情确定。,编制抽样调查表,在抽样调查方案制订中,要根据调查内容编制各种表格,以便调查时使用。 为了记录测量值以及指导测量过程,需要设计一份调查问卷和详细的填表说明。调查问卷也称调查表,它应该包含所有的调查项目。,抽样调查的组织工作,制订抽样调查的组织计划,包括组织领导、时问与进度、人员分工、经费核算、质量检查方法等。 大规模调查开展之前,最好作一次小规模的试查以取得经验。这样可以及时发现问题,并加以改进。,谢 谢!,