1、公共管理研究方法,主讲 王齐梅,Research in the Social Sciences,第六章 抽 样,1 抽样的意义与作用 2 概率抽样的原理与程序 3 概率抽样方法 4 户内抽样与PPS抽样 5 非概率抽样,抽样是研究设计的主要内容之一,也是社会调查的一个重要步骤,它不仅与研究目的及研究内容紧密相关,而且还直接关系到资料的收集、整理与分析,同时它还涉及到整个研究的费用以及应用的范围。,在本章中,你们将了解 到社会科学家如何通过选择一小部分人进行研究,并将结论推及到千百万未被研究的人。,著名的抽样失败案例1936,美国文学文摘(Literary Digest )预测总统候选人A. L
2、andon 和F. Roosevelt的得票率。(兰登VS罗斯福)从电话薄的车牌登记名单中抽出1000万人,收到200万人回应。抽样调查预测A. Landon的支持率为57%, F. Roosevelt的支持率为43%,但实际他以61%的优势获胜。,讨论:您知道这次调查失败的原因是什么吗? 在1936年,能能装电话或订阅文学文摘杂志的人在经济上都相对富裕而文学文摘杂志忽略了许多没有电话及不属于任何俱乐部的低收入人群因当时政治与经济分歧严重收入不太高的大多数选民倾向于选罗斯福占投票总数比例较小的富人则倾向于选兰登所以选举结果使文学文摘大失脸面,抽样成功案例1968,G. Gallup 的美国民意
3、调查研究所(American Institute of Public Opinion) 仅用2000人作为样本成功地预测总统候选人R. Nixon的得票率(抽样调查预测的支持率为43%,实际得票率42.9%)。,抽样调查(Sampling survey)运用一定的方法在调查对象总体中抽取一部分调查对象作为样本,并对样本调查结果来推断总体的方法,1 抽样的意义与作用,一、基本术语,元素(element)元素是构成总体的最基本单位,是搜集信息的单位和进行分析的基础,总体(population)总体是构成它的所有元素的集合 总体通常与构成它的元素(Element)共同定义:总体是构成它的所有元素的集
4、合,而元素则是构成总体的基本单位。(一个总体所包含的元素数常用大写字母 N 表示),例: 课题:某省大学生的择业倾向 总体:该省所有在校大学生的集合; 元素:每一个在校大学生;,研究总体研究总体是在理论上明确界定的个体的集合体 它必须受几个方面的限定:内容、单位、范围、时间,例:妇女生育率 总体:妇女 研究总体:2011年介于15-49岁之间的中国妇女。 从理论上可以找到所有研究对象,但是,实际上有些事无法调查到的,如精神病患者;台湾地区妇女,调查总体调查总体是研究者从中实际抽取调查样本的个体的集合体 它往往是对研究总体的进一步界定,即对时间、范围做更进一步规定 一般地说,样本只能推论调查总体
5、而不是研究总体,例:妇女生育率 总体:妇女 研究总体:2011年介于15-49岁之间的中国妇女。 调查总体:2011年介于15-49岁之间的中国妇女。将台湾、在医院和监狱里的妇女除外。,样本样本(sample)就是从总体中按一定方式抽取出的一部分元素的集合 一个样本就是总体的一个子集,抽样所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程 抽样是从总体中按一定方式选择或抽取样本的过程,抽样单位 (sampling unit)抽样单位就是一次直接的抽样所使用的基本单位 指在抽样各阶段中考虑选取的某个元素或者某组元素
6、 在更复杂的抽样中,需要采用不同层次的抽样单位,研究课题:某城市居民的家庭生活质量 抽样:从该城市10万户家庭中,按照一定方式抽出1万户家庭的过程。 样本:1万户家庭 抽样单位: 若利用随机数表直接抽,则抽样单位为家庭,若采用先抽社区,再抽家庭的方式,则抽样单位为社区和家庭。,抽样框 抽样框(sampling frame)又称做抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单,例: 从一所中学的全体学生中,直接抽取200名学生作为样本,那么,这所中学全体学生的名单就是这次抽样的抽样框;如果是从这所中学的所有班级中抽取部分班级的学生作为调查的样本,那么,此时的抽样框就不再是全校学生的名单
7、,而是全校所有班级的名单了。,参数值 参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现 在统计中最常见的参数值是某一变量的平均值 参数值只有通过对总体中的每一个元素都进行调查或测量才能得到,例: 某市待业青年的平均年龄、某厂工人的平均收入等等,它们分别是关于某市待业青年这一总体在年龄这一变量上的综合描述,以及某厂工人这一总体在收入这一变量上的综合描述。,统计值 统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述 是样本中所有元素的某种特征的综合数量表现 抽样的目的之一,就是要通过这些样本值去估计和
8、推断各种参数值 抽样设计的目标,就是尽可能使所抽取的样本的估计量接近总体的参数值,抽样误差 概率抽样方法很少能提供与所要推论的总体参数值完全相等的统计值,置信水平与置信区间 置信水平与置信区间是测量抽样误差程度的两个关键概念 我们用置信水平来表示样本统计值的精确度,它指的是总体参数值落在样本统计值某一区间的概率,或者说,总体参数值落在样本统计值某一区间中的把握性程度。它反映的是抽样的可靠性程度置信区间是指在一定的置信度下,样本值与总体值之间的误差范围。它所反映的是抽样的精确性程度。范围越大,精确性程度越低;范围越小,精确性程度越高,例:从某一机关一万名干部中抽取200人为样本,调查其平均工资,
9、若样本的平均工资为100元,那么总体平均工资落在95-105元这一区间的概率可能为96%(误差为+5或-5元),落在90-110元的概率可能为99% (误差为+10或-10元)。 因此,置信区间越大,置信水平越高,误差越大,抽样精确性越低,反之亦然。,二、抽样的作用,在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题 抽样方法是架在研究者十分有限的人力、财力和时间与庞杂、广阔、纷繁、多变的社会现象之间的一座桥梁,例:1984年美国总统选举预测与实际结果比较%,案例说明: 1、正确预测了谁将赢得选举。 2、预测结果紧紧围绕在实际选举结果的周围,表示样本
10、结果能准确地代表总体的选举情况。,三、抽样的类型,抽样方法,非概率抽样,概率抽样,多段抽样,系统抽样,分层抽样,整群抽样,简单随机抽样,偶遇抽样,判断抽样,定额抽样,雪球抽样,2 概率抽样的原理与程序,一、概率抽样的基本原理,1、异质性概率抽样的前提“世上没有两片完全相同的树叶”,现实社会中更没有两个完全相同的人。在各种社会总体都普遍存在异质性的现实面前,严格的概率抽样程序与方法就必不可少。而概率样本所要反映的正是总体本身所具有的那种内在的异质性结构。,一个100人组成的总体,44位女性汉族 44位男性汉族 6位女性少数民族 6位男性少数民族,一个方便的样本:易得,但没有代表性,2、随机抽取概
11、率抽样的合理性投掷硬币事件发生的客观概率,抽样的最终目的在于通过对样本的统计值的描述来相对准确地勾画出总体的面貌。概率抽样的方法可以帮助我们实现这一目标。并且可以对这种勾画的准确程度作出估计。(任何要素都有同等、独立被抽到的概率)随机抽取(random selection)是这一过程的关键。,所谓随机抽取,就是保证总体中的每一个个体都有同等的机会入选样本。或者说,总体中的每一个成员被抽中的概率相等(也即被抽中的机会相等)。而且,任何一个个体的入选与否,与其他个体毫不相关,互不影响。或者说,每一个个体的抽取都是相互独立的,是一种随机事件。,对于投掷硬币的结果(总体)来说,只有正面和反面(个体)两
12、种可能。每次投掷硬币相当于一次抽样过程(从两种可能性中抽取一种);这种抽样是随机的(两种可能性都可能出现,且出现的机会均等)尽管一次具体的随机抽样(一次投掷)只会有一种结果,或者说出现某一种情况(正面或反面)的概率为100;但是若下次不同的抽样的结果,却总是趋向于两种情况出现的次数各为50即趋向于两种不同结果本身所具有的概率,或者说趋向于总体内在结构中所蕴涵的随机事件的概率。,最好的例子:投掷硬币,这个例子告诉我们,在各种随机事件的背后,存在着事件发生的客观概率,正是这种概率决定着随机事件的发展变化规律。概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按总体内在结构中所蕴涵的
13、各种随机事件的概率来构成样本,使样本成为总体的缩影。,概率抽样的一个基本原则,如果总体中的每一个体被抽去为样本的概率相同,那么,从这个总体中抽去的样本就具有对该总体的代表性。,概率抽样的优点,概率抽样虽然无法完美地代表总体,但较其他抽样方法更具代表性 概率理论使我们能够估计样本的精确度和代表性节约时间和成本,二、抽样的一般程序,界定研究总体和调查总体制定抽样框决定抽样方案实际抽取样本评估样本质量,抽样的程序,界定总体:对从中抽取样本的总体范围与界限作明确的界定。要考虑调查总体是否代表总体(文学文摘抽样失败案例),案例:1936年文摘杂志总统民意测验,这一实例告诉我们,要有效地进行抽样,必须事先
14、了解和掌握总体的结构及各方面的情况,并依据研究的目的明确地界定总体的范围。样本必须取自明确界定后的总体,样本中所得的结果,也只能推广到这种最初已作出明确界定的总体范围中。,制定抽样框:根据已经明确的总体范围,收集总体中全部抽样单位的名单,并通过对名单进行统一编号来建立其供抽样使用的抽样框。 需要注意的是,当抽样是分几个阶段、在几个不同的抽样层次上进行时,则要分别建立起几个不同的抽样框。,决定抽样方案:根据研究的目的要求依据各种抽样方法的特点以及其他有关因素。,实际抽取样本:从抽样框中抽取一个个的抽样样本,构成调查样本。依据抽样方法的不同,以及依据抽样框是否可以事先得到等因素,实际的抽样工作既可
15、能在研究者到达实地之前就完成,也可能需要到达实地后才能完成。即既可能先抽好样本,再下去直接对预先抽好的对象进行调查或研究;也可能一边抽取样本一边就开始调查或研究。,评估样本质量:样本评估:对样本的质量、代表性、偏差等等进行初步的检验和衡量,其目的是防止由于样本的偏差过大而导致调查的失误。方法:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。,四、抽样设计的原则,目的性原则可测性原则可行性原则经济性原则,目的性原则,指在进行抽样方案设计时,要以课题研究的总体方案和研究的目标为依据。以研究的问题为出发点,从最有利于研究资料的获取,以及最符合研究的目的等因素来考虑抽样
16、方案和抽样方法的设计。,可测性原则,指的是抽样设计能够从样本自身计算出有效的估计值或者抽样变动的近似值。在研究中通常用标准误来表示。这是统计推断必需的基础,是样本结果与未知的总体值之间客观、科学的桥梁。,可行性原则,是指研究者所设计的抽样方案必须在实践上切实可行。它意味着研究者所设计的方案能够预料实际抽样过程中所可能出现的各种问题,并设计了处理这些问题的方法。,经济性原则,主要指的是抽样方案的设计要与研究的可得资源相适应。这种资源主要包括研究的经费、时间、人力等等。,3 概率抽样方法,概率抽样简单随机抽样系统抽样分层抽样整群抽样多段抽样,非概率抽样偶遇抽样判断抽样定额抽样雪球抽样,概率抽样是按
17、照概率原理进行的,它要求样本的抽取具有随机性。 随机原则就是使总体中每一个体都有一个已知不为零的被选机会进入样本。特点:能够避免抽样过程中的人为误差,保证样本的代表性。概率抽样分为两大类:等概率抽样和不等概率抽样。,一、简单随机抽样 (simple random sampling),又称纯随机抽样,是概率抽样的最基本形式。A type of probability sample in which the units composing a population are assigned numbers, a set of random numbers is then generated, an
18、d the units having those numbers are included in the sample. Although probability theory and the calculations it provides assume this basic sampling method, it is seldom used for practical reasons.,常用的方法:A、总体元素较少时,类似于抽签方法。B、总体元素较多时,随机数表法基本原理:从N中抽取n练习 1:我系共有学生300人,系学生会打算采用简单随机抽样的办法,从中抽取60人进行调查。,具体方法(
19、总体元素少时):,先编制一个抽样框,把总体各单位编上号码写在纸片上搓成纸团,作成签和阄(给每个学生编号,从001到300,并写在纸片上);然后,把签和阄放在一个盒子内搅拌均匀;最后,随机从盒子内抽取签和阄,被抽中的签和阄上的号码所代表的单位就是样本,直到抽满规定的样本为止(从300张纸条里抽取60张,并找相关同学)。特点:总体单位很多时,写号码的工作量就很大,搅拌均匀也不容易,因而此法经常在总体规模较小的时候使用,简单随机抽样,随机数表,总体元素多时,采用随机数表,利用随机数表进行抽样的具体步骤:,先取得一份总体所有元素的名单(即抽样框) 将总体中所有元素一一按顺序编号 根据总体规模是几位数来
20、确定从随机数表中选几位数码 以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍 根据样本规模的要求选择出足够的数码个数 依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素,对照附表中的随机数表,练习随机抽样。要从3000个人(或其他分析单位)的总体中用简单随机抽样的方法选取100个人作为样本进行调查。,练习 2,步 骤,首先,将总体中所有的人编码:本例中编码为1-3000。接下来的问题是从随机数表中随机选取100个数字。这100个数字所对应的人就是样本。接下来是确定所选择的随机数需要几位数。需要有四位数字才能保证所有人都有被选中的机会 。(如果总数为21654的话,需要选择五
21、位数的随机数)。因此,我们要从0001到9999的数字中抽取100个随机数。,我们可以随意确定表格中选取数字的顺序:依纵列的方向向下选取,也可以依纵列的方向往上选取,由左到右或者由右到左,也可以依对角线的方式选取。什么方式并不重要,关键是从头到尾贯彻使用这种方法。这里我们为了方便选择从纵列方向,当一列到了末端时,可以从下一列最顶端选起,当一页选完以后,可以从下一页的第一纵列继续选取。现在,我们决定从那里开始。可以闭着眼睛随便戳一个数字。也可以随意想一个行号和列号,譬如第五行第三列作为开始。,假设我们从第五行第三列的第三个数字作为起点,会看到这个数字是0906,那么第一个样本就为0906,由第三
22、列往下,我们选择0041,2507,2683,然后从下一列开始。依次进行,选足100个随机数。样本的编码就为0906等。,随机数表抽样例,二、系统抽样 (systematic sampling),又称等距抽样或机械抽样A type of probability sample in which every kth unit in a list is selected for inclusion in the sample: e.g., every 25th student in the college directory of students. K is computed by dividin
23、g the size of the population by the desired sample size and is called the sampling interval. Within certain constraints, systematic sampling is a functional equivalent of simple random sampling and usually easier to do.Sampling interval = population size / sample sizesampling ratio = sample size / p
24、opulation size,是把总体的单位进行编号排序后,在计算出来某种间隔,然后按照这一固定的间隔抽取个体的号码来组成样本的方法。练习:在某大学总共3000名学生中,抽取一个容量为100的大学生样本。,具体步骤,给总体中的每一个个体按顺序编号,即制定出抽样框 计算出抽样间距。计算方法是用总体的规模除以样本的规模:K,在最前面的K个个体中,采用简单随机抽样的方法抽取一个个体,记下这个个体的编号(假设所抽取的这个个体的编号为A),它称做随机的起点 e.g.如果K=10,就从01-10号中抽签决定一个号码作为起点,假定为05在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为
25、A,A十K,A十2K,A十(n一1)K 将这n个个体合起来,就构成了该总体的一个样本,随机起始的分层系统抽样, 系统抽样的两个要求:(两个随机) 1、抽样框中要素在抽样前随机排列。系统抽样的一个十分重要的前提条件,是总体中个体的排列,相对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。否则,系统抽样的结果将会产生极大的偏差2、开始抽的第一个号码须随机 因此,我们在使用系统抽样方法时,一定要注意抽样框的编制方法。,注意:,总体名单中,个体的排列具有某种次序上的先后、等级上的高低的情况 例如:我们从2000户家庭的社区,抽取50户进行消费状况的调查,而2000户家庭的名单是按照
26、家庭收入的多少按照由高到低排列的。抽样间距=2000/50=40如果两个人选择样本,一个人选择初始号码为3,另一个人选择初始号码为38,那么肯定前者家庭平均收入远远高于后者。解决措施:重新编排总体名单;改用其他抽样方法。,总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况 例如:某大学总共3000名学生,抽取100人,抽样间隔为30。但是如果总体名单按教学班排列、每班刚好30人左右,而且各班的名单按照成绩高低排列,如果样本的初始号为2号,那么样本全是好学生;如果样本初始号为25 号,样本全部为差学生。解决措施;打乱,在第一个抽样间距内,随机确定第一次抽样的起点。,三、分层抽样 (st
27、ratified sampling),又称做类型抽样是先将总体中的所有单位按某种特征或标志(如性别、年龄、职业或地域等)划分为若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。,分类,随机抽样,总体,子群,样本,分层抽样示意图,例:800家私营企业,抽取100家。,(譬如:我们调查的主题是看各种不同类型企业为国家创税情况)步骤:(1)800家企业按产业分为3个类型,第一产业80个,第二产业320个,第三产业400个。(2)第一产业10%,100*10%应该抽取10个第二产业40%,100*40%应该抽取40个第三产业
28、50%, 100*50%应该抽取50个(3)按照简单随机抽样或等距随机抽样抽取样本。,优点,当一个总体其内部分层明显时,分层抽样能够克服简单随机抽样的缺点 。采用分层抽样的最基本目的,正是在于把异质性较强的总体分成一个个同质性较强的子总体,以便提高抽样的效率,达到更好的抽样效果。分层抽样可以提高总体参数估计值的精确度 有些研究不仅要了解总体的情形,而且还要了解某些类别的情形,分层抽样可以同时满足这两个要求,因为我们可以将每一类(层)看作一个总体。此外,对总体的不同部分还可以采用不同的抽样方法。 便于行政管理,需要注意:,分层的标准问题(分层原则): 以调查所要分析和研究的主要变量或相关的变量作
29、为分层的标准。 比如,若要研究居民的消费状况和消费趋向,可以以居民家庭人均收入作为分层标准 以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。 在工厂进行,可以以工作性质作为分层标准,将全厂职工分为干部、工人、技术人员、勤杂人员 以那些已有明显层次区分的变量作为分层变量。,分层的比例问题:按比例分层:指的是按照各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。不按比例分层:便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理。,四、整群抽样 (cluster sampling),整群抽样
30、:又称为聚类随机抽样或者集体随机抽样),它是从总体中随机抽取一些小的群体,然后由所抽出的若干小群体(家庭、学校中的班级、工厂的车间、城市中的居委会)内的所有元素构成抽样调查的样本。,最大特点是:抽样单位不是单个的个体,而是成群的个体。从总体中随机抽取一些小的群体,所抽取的若干小群体内的所有元素构成调查的样本。整群抽样中对小群体的抽取可采用简单随机抽样、系统抽样或分层抽样的方法。,具体步骤,A、先将总体各单位按一定的标准分成许多群体,并将每一个群体看做一个抽样单位。B、利用简单随机抽样、系统随机抽样或分层抽样从这些群体中抽取若干作为样本。C、对样本群体中每一个单位逐个进行调查。例如:某中学共有1
31、00个班级,每班都是30名学生,总共有3000名学生,现在要抽300名学生作为样本进行体检。,首先,将100个班级按专业编号1-100, 然后从全校100个班级中,采取简单随机抽样的方法(或是系统抽样、分层抽样的方法)抽取10个班级, 最后由这10个班级的全部学生(300名)构成样本。,整群抽样示意图,优点:简便易行节省费用缺点:样本分布面不广样本对总体的代表性相对较差,几种抽样方法的比较,假设我们的总体是全国所有城市的集合,我们要抽取一个规模为40个城市的样本。*667请分别用简单随机抽样、系统抽样、分层抽样和整群抽样方法进行抽样,并比较彼此之间的异同。,整群抽样与分层抽样的区别,当某个总体
32、是由若干个有着自然界限和区分的子群(或类别、层次)所组成,同时,不同子群相互之间差别很大、而每个子群内部的差异不大时,则适合于分层抽样的方法反之,当不同子群相互之间差别不大、而每个子群内部的异质性程度比较大时,则特别适合于采用整群抽样的方法,五、多段抽样 (multistage sampling),又称为多级抽样或分段抽样是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行e.g.大学院系班级学生,具体操作,从总体中随机抽取若干大群,从大群中抽取小群,一层层抽,抽到最基本的抽样元素为止。,多级整群抽样,例 1:调查某市青年工人的状况,以企业为单位抽样,即以全市所有企业为抽样框,从中随机
33、抽取一部分企业 在抽中的企业里,以车间为抽样单位抽样,即从全部车间中抽取若干个车间 再在抽中的车间内抽取青年工人,注 意:,在运用多段抽样方法时,需要注意的是要在类别和个体之间保持平衡,或者,保持合适的比例。,假设某市共有2.4万名教师,他们分布在全市10个区的200所学校中。现在要抽取一个由1200名教师组成的样本。,例 2:,抽样方案选择,究竟该选择哪一种抽样方案呢?或者说,如何确定每一阶段抽样的单位数目呢?,主要考虑的因素,各个抽样阶段中的子总体同质性程度 要考虑研究者所拥有的人力和经费,多段抽样的方法适用于总体范围特别大、对象的层次特别多的社会研究。由于它不需要总体的全部名单,各阶段的
34、抽样单位数一般较少,因而抽样比较容易进行。但由于每级抽样时都会产生误差,故这种抽样方法的误差较大,这是它的主要不足。在同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数而适当减少最后阶段的样本数。所以,当研究者的人力和经费允许时,应尽量扩大开头阶段的抽样规模。,某县20个乡镇,每个乡镇有10个行政村,每个行政村有10个自然村,每个自然村有50户。这样,全县就共有200个行政村,2000个自然村,10万户。现在决定采用多段抽样方法对该县计划生育状况按5/1000的比例进行抽样调查,共抽取500户,如何抽?,练习,步 骤,首先,确定抽样单位。根据该县社会组织的4个层次,即乡镇、行政村、自
35、然村和户,采取4段抽样抽取样本。乡镇为1级单位,行政村为2级单位,自然村为3级单位,户为4级单位。(4级单位也可以是企业、车间、班组、工人;学校、年级、班组、学生。),采用不同的方法,分4段逐步抽取样本:一段抽样,从县抽到乡镇。适宜用分层抽样(由于该县乡镇之间经济发展状况差异较大)。具体做法首先,编制抽样框。假定以经济发展状况为标准,将该县的20个乡镇分为经济发展状况较好的、一般的和较差的3类,分别为4个、12 个、4个。其次,确定样本的数量。假定在一级单位中抽取25% 的单位即5个乡镇作为样本。再次,按照随机抽样和上述比例,在经济状况较好的4个乡镇中抽取1个乡镇,一般的几个乡镇中抽3个乡镇,
36、较差的4个乡镇中抽1个乡镇作为样本。,具体做法:首先,编制抽样框。就是把第1级样本中的5个乡镇的50个行政村(2级单位),按一定的标准(如按空间分布)确定他们的编号1-50。其次,计算抽样间隔。假定从第2级单位中抽取20%的单位即10个行政村作为第2级样本,其间隔就是50/10=5。 再次,抽取第一个样本,我们随机抽取第3个行政村作为样本。 这样我们就抽到了第3、8、13、18、23、28、33、38、43、48这些行政村作为样本。,二段抽样,从乡镇抽到行政村,采用系统抽样。,三段抽样,从行政村抽到自然村,为了便于集中调查,节约人财物力和时间,我们采用整群抽样。具体做法:首先,划分群体,将2级
37、样本10个行政村所属的100个自然村,按照地理位置把每两个相近的自然村划分为一个群体,共50个群体。其次,抽取第3级样本,即按照随机抽样的原则从50个群体中抽出10个群体作为第3级样本。四段抽样,从自然村到户。(为了简便,选用简单随机抽样),4 户内抽样与PPS抽样,一、户内抽样以家庭为单位时,从入选家庭中抽取一个成年人构成访谈对象的抽样方法。(一)方法:科什选择法(kish),具体做法: 1、调查表编号。,2、印制选择卡,给每个调查员发一套(八张),Kish 选择表,3、给抽中家庭每个成年人进行编号并排序。方法是男性在前、年级大的在前。,4、根据调查表上的编号找出编号相同的那种“选择表”查出
38、中选个体的序号,进行调查。,优 点,它不仅可以使研究者收集到样本家庭的资料,同时也可以收集到由这些被访者所构成的个人样本的资料,这种资料可以用来描述这一地区所有成年人所构成的总体。因为由按这种方法抽出来的人所组成的样本,在年龄、性别、文化程度等方面的分布与总体的分布往往十分接近。,生日法,随机确定一年中的某一天为标准日期 与Kish方法相似,需要了解所抽中的户中18岁以上的人口数,以及每人的生日是几号 计算出每人的生日距离标准日期的天数 从中选出生日距离标准日期最近的人作为调查对象,二、PPS抽样,多段抽样中,其实暗含了一个假定:即每一个阶段抽样时,其元素的规模是相同的。比如第一阶段抽取街道时
39、,暗含了每个街道规模相同。第二阶段从街道抽取居委会时,也是暗含了每个居委会的规模相同。在这样的假定下,采取上述几种随机抽样的,最终每户居民被抽中的概率相等。,但现在的问题是,现实生活中不仅每一个街道包含的居委户数不同,而且每一个居委会中所包含的居民户数也不同。因而按照上述多段抽样的方法来抽取样本时,最终每户居民被抽中的概率实际上是不同的。,举 例,例1:假设一个城市有100000户居民,分属200个居委会 ,从中抽取1000名居民。例2:从全市100家企业、总共20万名职工中,抽取1000名职工进行调查。,PPS 抽样,不等概率抽样概率与元素的规模大小成比例的抽样(Sampling with
40、Probability Proportional to size),原 理,以阶段性的(或暂时的)不等概率换取最终的、总体的等概率。,具体做法,在第一阶段,每个群按照其规模(其所含元素的数量)被给予大小不等的抽取概率。大的群具有比小的群更大一些的概念。到了抽样的第二阶段,从每个抽中的群中都抽取同样多的元素(也是不等概率的)。正是通过这样两个阶段上的不等概率抽样,使得总体中的每一个元素最终都具有同样的被抽中的概率。,实 质,第一个阶段中,大的群被抽中的概率大,而小的群被抽中的概率小;这样到了第二阶段,被抽中的大的群中的元素被抽中的概率显然就小于被抽中的上群中的元素了。正是这一大一小,平衡了由于群
41、的规模带来的概率差异。,公 式,每一个元素被抽中的概率,所抽取的群数,总体的规模,群的规模,群的规模,平均每个群中 所要抽取的元素,PPS 抽样方法的多阶段情形(例1),每一户居民被抽中的概率,所抽取的街道数,总体的规模,街道的规模,街道的规模,居委会的规模,每个居委会中所要抽取的户数,居委会的规模,例 2:,5 非概率抽样方法,非概率抽样探索性研究偶遇抽样判断抽样定额抽样雪球抽样,一、偶遇抽样 (accidental sampling),又称作方便抽样或自然抽样是研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象区别随机抽
42、样,二、判断抽样 (judgmental sampling),又叫立意抽样 (purposive sampling) 调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法,难点:确定抽样标准优点:发挥研究者主观能动性缺点:无法判断样本代表性,三、定额抽样 (quota sampling),又称作配额抽样研究者尽可能地依据那些有可能影响研究变量的各种因素来对总体分层,并找出具有各种不同特征的成员在总体中所占的比例然后依据依据这种划分以及各类成员的比例选择调查对象,如果把各种因素或各种特征看作不同的变数的话,那么,定额抽样实际上就是依据这些变数的组合。,例:,假设某高校有4000名学生,
43、其中男生占60,女生占40;文科学生和理科学生各占50;一年级学生占40、二年级、三年级、四年级学生分别占30、20和l0。现在要用定额抽样方法依上述三个变数抽取一个规模为100人的样本。,依据总体的构成和样本规模,我们得到的定额表,当研究的主要目标不是去推断总体状况,而主要是为了检验理论、解释关系或比较不同性质的群体时,通常不需要进行严格的随机抽样,不需要得到对总体有代表性、有概括性的样本。此时的抽样标准不是代表性,而是合适性抽样适合研究的目标,适合检验理论和假设的需要,适合比较的需要。,英克尔斯在研究“人的现代性”时的配额抽样设计,特点:按事先规定的条件,有目的地寻找。区别分层抽样,定额抽
44、样与分层抽样的区别,定额抽样之所以分层分类,其目的在于要抽选出一个总体的“模拟物”,其方法则是通过主观的分析来确定和选择组成这种模拟物的成员。也就是说,定额抽样注重的是样本与总体在结构比例上的表面一致性。分层抽样进行分层,一方面是要提高各层间的异质性与同层中的同质性,另一方面也是为了照顾到某些比例小的层次,使得所抽样本的代表性进一步提高,误差进一步减小。而其抽样的方法则是完全依据概率原则,排除主观因素,客观地、等概率地到各层中进行抽样,这与定额抽样中那种“按事先规定的条件,有目的地寻找”的做法是完全不同的。,四、雪球抽样 (snowball sampling),当我们无法了解总体情况时,可以从
45、总体中少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人;再去找那些人并再询问他们知道的人。如同滚雪球一样,我们可以找到越来越多具有相同性质的群体成员。,6 样本规模与抽样误差,一、样本规模样本规模又称为样本容量,它指的是样本中所含个案的多少确定样本规模也是每一项具体的社会研究所必须解决的问题之一,统计学中通常以30为界,把样本分为大样本(30个个案及以上)和小样本(30个个案以下)当样本规模大于30时,其平均值的分布将接近于正态分布,样本规模确定,(一)均值样本容量公式t2 t 为某一信度所对应的临界 N=- 为总体标准差 e e 为误差范围(允许误差),(二)成数的样本规模计算
46、公式t2 (1-) t 为某一信度所对应的临界 N = - 为总体的成数或百分比 e e 为误差范围(允许误差),95%置信水平下不同抽样误差所要求的样本规模,二、影响样本规模确定的因素,总体的规模 估计的精确性要求 总体的异质性程度 研究者所拥有的经费、人力和时间,1、总体的规模,2、抽样的精确性,置信度又称为置信水平,它指的是总体参数值落在样本统计值某一区间的概率,或者说,总体参数值落在样本统计值某一区间中的把握性程度。它反映的是抽样的可靠性程度一般来说,在其他条件一定的情况下,置信度越高,即推论的把握性越大,则所要求的样本规模就越大,置信区间是指在一定的置信度下,样本值与总体值之间的误差
47、范围。它所反映的是抽样的精确性程度。范围越大,精确性程度越低;范围越小,精确性程度越高在其他条件一定的情况下,置信区间越小,即样本值与总体值之间的误差范围越小,则所要求的样本规模就越大,3、总体的异质性程度,一般来说,要达到同样的精确性,在同质程度高的总体中抽样时,所需要的样本规模就小一些;而在异质程度高的总体中抽样时,所需要的样本规模就大一些。,原 因,同质性越高,表明总体在各种变量上的分布越集中,波动性越小,同样规模的样本对总体的反映就越难确。异质性程度越高,表明总体在各种变量上的分布越分散,波动性越大,同样规模的样本对总体的反映就会越差。,4、研究者所拥有的经费、人力和时间,从样本的代表
48、性、抽样的精确性考虑,则样本规模当然是越大越好;但抽样所得到的样本是要用来进行调查的。样本规模越大,同时也意味着所需要投入的人力、物力和时间越多;意味着所可能受到的限制和障碍也越多。从抽样的可行性、简便性考虑,样本规模又是越小越好;究竟选择多大规模的样本,往往需要作出选择。这种选择的一个重要祛码,就是研究者所拥有的经费、人力利时间。,三、样本规模与抽样误差,抽样误差就是用样本值去估计总体值时所出现的误差。它是由于抽样本身的随机性所引起的误差。抽样误差主要取决于总体的分布方差和抽样规模,这两个因素都可以导致抽样误差的增加或降低。,注 意,对于比较小的样本来说,样本规模上的很小的一点增加,便会带来
49、精确性方面很明显的增加 而对于比较大的样本来说,同样增加这么多个个案,却收效甚微,什么是抽样中的随机性?为什么概率抽样的方法能够保证样本对总体的代表性?抽样设计的基本原则是什么?分层抽样与整群抽样的具体操作方法是怎样的?二者之间有何异同?什么情况下应选用分层抽样?什么情况下则应选用整群抽样?如果条件允许,多段抽样中应尽可能扩大哪一级样本的规模?为什么?,思考与实践,在实际社会调查中,有哪些因素影响到研究者对样本规模的确定?某市有300所小学,共240000名学生。这些小学分布在全市5个行政区中。其中重点小学有30所,一般小学有240所,较差的小学有30所。现要从全市小学生中抽取1200名学生进行调查,以了解全市小学生的学习情况。请设计一种抽样方案。从社会科学期刊中选择三篇研究报告,分析并评价这些研究中所采用的抽样方法。,