1、第六章 抽样,本章主要内容,抽样的意义与作用 概率抽样的原理与程序概率抽样方法 户内抽样与PPS抽样 非概率抽样方法样本规模与抽样误差,第一节 抽样的意义与作用,一、抽样的概念 二、抽样的作用 三、抽样的类型,一、抽样的概念,抽样指的是从组成某个总体的所有元素的集合中,按一定方式选择或抽取一部分元素,即抽取总体的一个子集的过程,或者说,抽样就是从总体中按一定方式选择或抽取样本的过程。 与整体调查相比,抽样调查的优越性: 调查费用较低; 速度快; 应用范围广; 可获得内容丰富的资料; 准确度高。,抽样术语:,总体(注意:研究总体和调查总体) 样本 抽样 个体与抽样单位 抽样框:抽样范围 参数值与
2、统计值 抽样误差 置信水平与置信区间,二、抽样的作用,抽样的目的之一,就是要通过这些样本值去估计和推断各种总体值 抽样作为人们从部分认识整体这一过程的关键环节 其基本作用是向人们提供一种实现“由部分认识总体”这一目标的途径和手段,三、抽样的类型,各种抽样都可以归为概率抽样和非概率抽样抽样两大类 这是两种有着本质区别的抽样类型: 概率抽样:是依据概率论的原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,它使总体中每一个体都有一个已知不为零的被选机会进入样本,而保证样本具有代表性。 非概率抽样:主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象,它不考虑抽样中的等概率原则,
3、因而往往产生较大的误差,难以保证样本的代表性。,第二节 概率抽样的原理与程序,一、概率抽样的基本原理 二、抽样分布 三、抽样的一般程序 四、抽样设计的原则 五、概率抽样的基本观念及其影响因素,一、概率抽样的基本原理,所谓随机抽取,就是保证总体中的每一个个体都有同等的机会入选样本 或者说,总体中的每一个成员被抽中的概率相等,即被抽中的机会相等,三、抽样的一般程序,界定总体 对研究总体的界定过程也就是对他的基本构成单位,所包含的内容以及空间与时间的范围等作出规定的过程,同时也是确定调查对象,及它的内涵、外延及数量的过程。 制定抽样框 抽样框是概率抽样一个最基本的要求,它的质量关系着抽样的质量。 设
4、计抽取方案 包括确定样本所包含个体的数目,选择抽样的具体方法。 实际抽取样本 评估样本质量:样本对于总体的代表性问题始终是抽样中关注的中心问题。,四、抽样设计的原则,一个优秀的抽样设计应该满足下列四条标准,也就是进行抽样设计的四个原则:,目的性原则 可测性原则 可行性原则 经济性原则,概率抽样背后的基本观念,问题:如果所有总体中的成员在所有方面人口特征、态度、经历、行为等都是相同的,那么就无需进行仔细的抽样了。 概率抽样的基本观念:要对总体进行有用的描述,从该总体中抽样出来的样本必须包含总体的各种差异特征。 但要做到这一点,并不容易,影响因素,1、有意识与无意识的抽样误差 2、代表性(大体接近
5、)与选择概率 1)概率抽样虽然无法完美地代表总体,但较其他抽样方法更具有代表性,可以避免各种偏见。 2)概率抽样能够使我们估计样本的精确度及代表性。(依赖于随机选择程序) 3、随机选择:任何要素都具有同等的、独立于其他事件的被抽到的概率。(用随机数表或电脑程序,避免人为的自觉或不自觉的偏见),4、样本分布和抽样误差的评估P与Q代表二项变量的总体参数值:如果有60%的学生赞成校规而40%的学生反对,P与Q分别代表60%与40%; n代表每组样本包含的样本量(样本的大小); S则代表标准误。(指出抽样结果集中在总体参数附近多大范围内) S与n成反比,与PQ的乘机成正比。,5、置信水平与置信区间 置
6、信水平(confident level):总体参数值落在一既定置信区间的估测概率。如,我们可以有95%的信心说35%至45%的投票者会支持候选人A。 置信区间(confident interval):估测总体参数值的范围。,第三节 概率抽样方法,概率抽样(probability sampling):是依据概率论的原理,按照随机原则进行的抽样,因而它能够避免抽样过程中的人为误差,它使总体中每一个体都有一个已知不为零的被选机会进入样本,而保证样本具有代表性。 概率抽样分为等概率抽样(随机抽样)和不等概率抽样。还可分为: 一、简单随机抽样 二、系统抽样 三、分层抽样 四、整群抽样 五、多段抽样,一、
7、简单随机抽样(纯随机抽样)simple random sampling,是一种特殊的等概率抽样方法,总体中每一个体均有同等被选机会,而且样本中每一个体是被单独选出的。 是一种元素抽样。 分重复抽样和不重复抽样。 随机数字表是由数字0-9组成的表,由电子计算机编制而成。 具体详见P130.,步骤: 取得一份总体所有元素的名单(抽样框); 将总体中的所有元素一一按顺序编号; 根据总体规模是几位数来确定从随机数表中选几位数码;(按照从左到右或从上到下或依对角线或从右到左的顺序,小于或等于总体规模的选出,大于的或重复的则不要.直到选够所需要的样本数)用什么原则并不重要,关键是一旦建立原则就要从头到尾都
8、依这个原则去做. 依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素. 缺点?,二、系统抽样(或等距抽样,机械抽样) systematic sampling,系统抽样是简单随机抽样的一个变种 具体做法是: (A)将总体的所有个体前后排列起来。 (B)计算抽样距离。抽样距离K=N/n(N为总体包含个体数;n为样本所含个体数); (C)在头K个个体中,用完全随机的方式抽取一个个体,设其所在的位置的序号是A。 (D)自A开始,每隔K个个体抽取一个个体,即陆续抽取的个体所在位置序号为A,A+K,A+2KA+(n-1)K。 (E)将n个个体合起来,就构成了该总体的一个样本。,系统抽样的特点:,与
9、简单随机抽样相比,更易实施,工作量较少; 样本在总体中的分布更平均,故而抽样误差小于或至少等于简单随机抽样,即较其更精确。 系统抽样的样本个体在每一层的相对应位置上,而分层抽样则是由每层随机抽取的。 系统抽样是以总体的随机排列为前提的,如果总体的排列出现有规律的分布时,就会使系统抽样产生很大误差,降低样本的代表性。 系统抽样适用于同质性较高的群体。当总体内不同类别之间所含个体的数目相差过于悬殊时,采用此法样本的代表性可能较差。这种情况一般使用分层抽样。,三、分层抽样 stratification,分层抽样就是先将总体按一种或几种特征(性别班级教育地理位置等)分为几个同质性的总体(类、群),每一
10、个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本。 分层抽样的优点: (A)当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点。 (B)分层抽样可以提高总体参数估计的精确度。 (C)有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以同时满足这两个要求 (D)便于行政管理。,前面三种抽样方式的共性:有一个要素名单. 但是许多有趣的社会研究都需要从一个不易获得抽样名单的总体中抽样,如:一个城市一个州一个国家的人口全国的大学生等.在这些例子中,抽样的设计必定更加复杂,通常必须先进行整群要素抽样(称为群),然后再从这些群中
11、抽取要素.既运用整群抽样的方法.,四、整群抽样(聚类抽样) cluster sampling,整群抽样是将总体按某种标准划分为一些子群体,每一个子群为一个抽样单位,用随机的方法从中抽若干子群,将抽出的子群中所有个体合起来作为总体的样本。 多级整群抽样方法一直重复两个基本步骤:1.列表名册(先编制初级抽样单位(如街道教会等)的名册或将之分层2.抽样(根据选出的初级抽样单位再编制其要素名单或被分层,得到次级抽样单位名单进行抽样,如此一直重复下去.如街道_居委会_居民户_抽样),整群抽样与分层抽样异同: 它们在第一步都是根据某种标准将总体分为一些小群 两者的抽样方式不同 由于抽样方式的不同,导致两者
12、间划分子群的原则也不同。在分层抽样中,层的划分依据的是层之间异质性高,层内则尽可能同质的原则。整群抽样因仅抽取某几个子群作为整体的代表,如果子群间差异显著,且每个子群内同质性很高,那么这种情况下抽取的几个子群显然无法代表总体。因此,整群抽样的分群原则应与分层抽样不同,它是使得群体间异质性低,群内异质性高,因此,分层抽样适用于界质分明的群体,而整群抽样适用于界质不清的总体。,整群抽样的优缺点:,整群抽样的优点: 它可以通过转换抽样单位扩大抽样的应用范围; 可以节省人财物力; 许多调查往往很难得到总体的所有个体的可靠名单,有时即使可以得到,所需费用也十分昂贵,这就限制了抽样的应用范围。这种情况下,
13、使用整群抽样获得抽样框就容易得多。 整群抽样通过将抽样单位由个人转换成群体,使由简单随机抽样和分层抽样所不能进行的抽样调查成为可能 ,扩大了抽样的应用范围。 整群抽样的缺点: (A)样本分布不均匀,样本的代表性较差,与其他抽样方法相比,相同样本数,抽样误差较大; (B)分析整群样本的资料,如抽样误差,统计推断,假设检验要比前面几种抽样方法复杂;,五、多阶段抽样(多级抽样):,在整群抽样中,当子群数或子群内部个体数目较多,彼此间的差异不太大时,常采用更经济方法,即不将样本子群的所有个体作为样本,而是再从中用前述各种随机抽样的方法抽取样本,因而最终样本的获得经过两次抽样,我们称其为二阶段整群抽样,
14、同样可做三阶段、四阶段即多阶段整群抽样。 多阶段抽样的特点: 多阶段抽样通过采用由高级抽样单位过渡到低级抽样单位的方法,解决了低级抽样单位不易获得的抽样框的问题,并且可以使样本的分布较为集中,从而大大降低调查所费人财物力。 多阶段抽样由于在各阶段抽样时可根据具体情况灵活选用不同抽样方法,故能综合各种抽样方法的优点,提高样本质量。 特别适用于调查范围大、单位多、情况复杂的调查对象。 多阶段抽样由于每阶段抽样都会产生误差,因此经多阶段抽样得到的样本的误差也相应增加,这是它的不足。,但运用整群抽样也会存在问题,特别是当街道大小不同(以户数来计算)时就会出现问题. 当被抽样的群的规模很大时,应当采用一
15、种修正的的抽样设计,即概率比例抽样(probability proportionate to size,PPS).这种方式可以预防上述问题,仍可以在总体中每个要素被选中的机会相同的情形下选出最终的样本.,第四节 户内抽样与PPS抽样,一、户内抽样的方法 按照kish的户内抽样的方法抽取被访对象的好处是,它不仅可以使研究者收集到样本家庭的资料。同时也可以收集这些被访者所构成的个人样本的资料,这种资料可以用来描述这一地区所有成年人所构成的总体 二、PPS抽样 社会研究中最重要、也最常用的一种不等概率抽样叫做“概率与元素的规模大小成比例的抽样”,简称PPS抽样,做法: 第一阶段:每个群按照其规模(所
16、含元素的数量)被给予大小不等的抽取概率;大的群具有比小的群更大一些的概率; 第二阶段:从每个抽中的群中都抽取同样多的元素(也是不等概率的).(大群中的元素被抽中的概率显然就小于被抽中的小的群中的元素了) 这一大一小,平衡了由于群的规模所带来的概率差异.,第五节 非概率抽样方法,非概率抽样是根据研究者的主观意愿、判断或是否方便研究任务的要求和对调查对象的分析等因素,主观地、有意识地在研究对象的总体中进行选择,抽取对象,它不考虑抽样中的等概率原则,因此每个个体进入样本的概率是未知的,而且由于排除不了调查者的主观影响,因而无法说明样本是否重现了总体的结构,往往产生较大的误差,难以保证样本的代表性,用
17、这样的样本推论总体是极不可靠的。 分为: 一、偶遇抽样 二、判断抽样 三、定额抽样 四、雪球抽样,一、偶遇抽样(方便/就近抽样):,是指研究这将在一定时间、一定环境里所能遇见到或接触到的人均选入样本的方法。 优点是方便省力,但样本代表性差,有很大偶然性。,二、主观抽样(判断抽样,立意抽样),主观抽样中的“主观”有两种含义: 主观抽样又称为立意抽样或判断抽样,即研究者依据主观判断选取可以代表总体的个体作为样本; 第二种含义是有目的地选择样本的意思。,三、定额抽样(配额抽样) quota sampling,它与分层抽样中的比例抽样相似,也是按调查对象的某种属性或特征将总体中所有个体分为若干类或层,
18、然后在各层中抽样,样本中各层(类)所占比例与他们在总体中所占比例一样,但不同的是,分层抽样中各层样本是随机抽取的,而定额抽样中各层样本是非随机抽取的。 定额抽样是以代表总体为目的的,因此它必须对总体的性质有充分的了解, 定额抽样假定: 只要类型划分较细,那么同一类型中的每一个个体都是同质的,因而无需采用随机抽样。 只要类型划分合理,而且分配给各类的名额符合总体中各类人员的分布,那么样本就可以准确地反映总体。 如,1920年从电话簿车牌登记名单中选择测验对象,成功预测了1924、1928、1932年的总统大选。1936年的预测错误。? 盖洛普民意测验1936年运用配额抽样方法成功预测了美国总统大
19、选。用同样的方法成功预测了1940、1944年总统大选。但1948年的预测错误。?,四、滚雪球抽样,是先从几个适合的调查对象开始,然后通过他们得到更多的调查对象,这样一步步扩大样本范围。适合于探索性研究. 当调查总体的个体信息不充分时,常采用此种方法。但是,用这种方法抽样最后仍有许多个体无法找到,还有些个体因某些愿意被提供者故意漏掉不提,这两者都可能具有某些值得注意的性质,因而可能产生偏误。,第六节 样本规模与抽样误差,一、样本规模 样本规模:又称样本大小、样本容量,指的是样本内所含个体数量的多少。,二、影响样本规模确定的因素,总体规模:在一定精度要求下,总体越大其样本要求亦应越大 推断的把握性与精确性 总体的异质性程度:总体内部异质性程度越低,所需样本容量越小。 研究者所拥有的经费、人力和时间:在选定抽样方法后,须分别考察和计算这一方法所需样本数。,三、样本规模与抽样误差,由重复简单随机抽样的误差公式可知,抽样误差与样本大小密切相关,样本越大,越接近总体,抽样误差越小。 因此,对样本的精确度要求越高,所允许的误差则越小,样本就应越大,反之亦然。,