1、第6章 抽样,第1节 抽样原理,第2节 抽样的方法,第3节 样本容量,第1节 抽样原理,一、抽样与抽样调查,二、抽样术语,三、抽样的程序,四、抽样分布与抽样原理,一、抽样与抽样调查,抽样(Sampling)是一种选择调查对象的程序和方法。 抽样调查是依据一定抽样方法从构成研究对象整体的总体中抽取部分作为样本进行调查研究,然后用样本的调查结果来推论和说明总体的一种调查方式。,总体:是构成研究单位的所有单位的集合,该单位是构成总体的基本单位。 Population:The set of units that the researcher wishes to explain. 样本:就是从总体中以一
2、定的抽样方法抽取的一部分单位的集合,一个样本也就是总体的一个子集。 Sample: A subset of all units (elements) in the population,二、抽样术语:总体与样本,抽样框:是一次直接抽样时所有抽样单位的名单。 Sample Frame: a list of which is used to represent all the element in the population . 抽样比率:一次抽样中,样本占总体的比率。 Sampling Ratio: ratio of the size of the sample to the size of
3、population.,二、抽样术语:抽样框与抽样比率,参数值:是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。 Parameter: a characteristic of the population 统计值:也称样本值,它是关于样本中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。 Statistic: a characteristic of the sample,二、抽样术语:参数值与统计值,抽样单位(sampling unit):是一次直接抽样所使用的基本单位。 抽样误差:是指由于抽样本身的随机性而导致的用样本值推论总体值时的误差,
4、它是样本代表性大小的一个标准,是不可避免的。,二、抽样术语:抽样单位与抽样误差,1界定总体 2编制抽样框 3确定样本数和抽样方法 4实际抽取样本 5评估样本质量,三、抽样的程序,四、抽样分布,四、抽样分布原理:SAMPLE=1,四、抽样分布原理:SAMPLE=2,四、抽样分布原理:样本增大与抽样误差的关系,第2节 抽样的方法,一、概率抽样方法(Probability Sampling),二、非概率抽样方法(Nonprobability sampling),1.简单随机抽样,一、概率抽样方法,2.系统抽样,3.分层抽样,4.整群抽样,5.多阶段抽样,6.PPS抽样,7.户内抽样,1.简单随机抽样
5、 Sample random sampling: select people basedon a true random procedure (1)运用随机数表、抓阄、计算机处理; (2)要求调查对象的名单必须是可以列举出来的。,一、概率抽样方法:简单随机抽样,示例:EXCELL随机抽样“=INT(RAND()*(b-a)+a) ”,用随机数表抽样方法:500名学生中抽取80名,2.系统抽样 Systematic sampling: select every Kth person 步骤: (1)排列抽样框名单; (2)计算抽样距离K(抽样比率的倒数,实为抽样框数N/样本数); (3)选择起始C
6、ASE; (4)选择样本:A+nK(n=0,1,2,3),一、概率抽样方法:系统抽样,系统抽样示例:36人中选5人,系统抽样可能遇到的问题: (1)当总体的排列没有规律时,用等距抽样较好,但如果总体排列按某种规律循环出现,用等距抽样就有危险(以总体的随机排列为前提) (距离不能等于循环节的倍数) (2)抽样框的名单如果可以按一定标准编号,比如从收入高到低,间距为25,则起点对样本的偏差比较大。 (3)K不为整数时的处理。,一、概率抽样方法:系统抽样,K=8:,K=7:,系统抽样示例:36人中选5人,分层抽样: Stratified sampling: systematically select
7、 elements in each of previously established categories 先将总体依照某种或某几种特性分为几个子总体 整群抽样: Cluster sampling: take multi stage samples in each of several levels 各群体的同质性高的总体用整群抽样较好 各分层群体异质性高的总体用分层抽样较好,一、概率抽样方法:分层抽样与整群抽样,群内异质性低 群间异质性高,群内异质性高 群间异质性低,整群抽样,分层抽样,一、概率抽样方法:分层抽样与整群抽样,一、概率抽样方法:分层抽样,1.分层的标准选择: (1)研究的主要
8、变量或相关变量作为分层的标准; (2)分层标准具有区分层间差异大而层内差异小的特征; (3),一、概率抽样方法:分层抽样,农村学生95%,某高校 学生分 布情况,城市 学生占5%,抽样条件:学生总数5000人,现要抽取500人,抽样调查该校学生的月平均消费。 假如农村学生的月均消费为500元,城市学生月消费为800元。,等比抽样与异比抽样:,一、概率抽样方法:分层抽样,抽样条件:学生总数5000人,现要抽取500人,计算该校学生的月平均消费。 假如农村学生的月均消费为500元,城市学生月消费为800元,因此该校学生的月均消费(参数值)应为: (500元/人*4500人+800元/人*250人)
9、/5000人=490元 异比抽样法:农村城市各抽取250名,其计算的月均消费统计值: (500元/人*250人+800元/人*250人)/500人=650元 加权后计算的统计值(权重=等比抽样人数/异比抽样人数): 475/250(500元/人*250人)+25/250(800元/人*250人)/500人=515元,等比抽样与异比抽样:,群内异质性高 群间异质性高,一、概率抽样方法:多阶段抽样,总 体,哪一级的异质性高,就在哪一级提高样本比率,一级抽样,二级抽样,一、概率抽样方法:多阶段抽样,一、概率抽样方法:多阶段抽样,从某县10个乡镇200个村中抽取1200名农民调查。,10X4X30=1
10、200 2X20X30=1200 10X20X6=1200 8X15X10=1200 5X12X20=1200 4X10X30=1200 3X10X40=1200 2X10X60=1200 1X12X100=1200,三种抽样方法的比较,一、概率抽样方法:PPS抽样,PPS抽样:概率与元素的规模大小成比例的抽样 Sampling with probability proportional to size 特点:是多阶段抽样方法的特定形式,其二级单位规模的大小影响到被抽取的概率。,例: 抽样条件:在武汉50所大学,每个大学的学生数差异很大,现在要在这50所大学中抽取20所,共抽取2000名学生进
11、行调查。,一、概率抽样方法:PPS抽样,一、概率抽样方法:户内抽样,户内抽样: Within-household Sampling 往往是多阶段抽样的最后环节,一般使用“KISH选择法”,一、概率抽样方法:户内抽样,KISH表,1.偶遇抽样,二、非概率抽样方法,2.主观抽样,3.定额抽样,4.滚雪球抽样,偶遇抽样(方便抽样) Haphazard sampling: select anyone who is convenient 主观抽样 Purposive sampling: select anyone in a hard to find target population,二、非概率抽样方法
12、:偶遇抽样与主观抽样,定额抽样 Quota sampling: select anyone in predetermined groups 滚雪球抽样 Snowball sampling: select people connected to another,二、非概率抽样方法:定额抽样与雪球抽样,第3节 样本容量,一、样本容量定性确定方法,二、样本容量定量确定方法,三、常用抽样比率,影响样本容量的因素:1.决策的重要性2.研究的性质3.变量的个数4.完成率(回复率低则样本容量大)5.总体的性质(同质性高则小,否则大)6.资源限制(资金与时间),一、样本容量确定的定性方法,N=t2s2/e2N
13、=t2p(1-p)/e2,二、样本容量确定的定量方法,总体规模与样本量间的关系,样本容量确定的统计学方法,1.调查平均值问题,对于估计平均值问题,计算其所需的样本容量的公式:Z 标准误差的置信水平的临界值(即总体平均值包括在指定置信区间内的置信度是多少?标准误差的置信水平允许确切值Z)总体标准差; E 可接受的抽样误差范围(允许误差)。t值与E值必须由调查人员与客户进行磋商后确定。总体标准差 值只能通过以前的资料、试点调查、二手资料通过主观判断等途径来确定。 应用举例,计算平均数的样本容量确定应用举例,例:研究快餐族平均每月吃快餐的次数。 与委托单位磋商以及对精确度的要求后,调查人员规定估计值
14、不得超过实际值的0.10(1/10)。即允许误差E值确定为0.10。 调研人员认为,考虑全局,需要把实际总体平均值在(样本平均值E)区间以内的置信度定为95%。而若要置信度为95%,应必须在2倍标准误差范围内(严格是1.96)。即Z值可确定为2。值借用公司以前作过的类似调查的资料,标准差为1.39,以此作为 值。,2.计算比例问题,这就是比例问题调查的样本容量确定问题。 公式:公式中,P为总体比例的估计值,可以借用过去的调查估计值。 例:确定研究最90天内曾在网上购物的所有成年人的比例或百分比的调查的样本容量。 假设可接受的误差范围为2%,即E值确定为0.02。 假定调查人员要求抽样估计在实际
15、总体比例的2%范围内的置信度为95%,那么按前例,可将2作为Z值代入公式。 根据前一次调查,有5%的被调查者表示在最近90天内曾在网上购物,因此,可将0.05作为P值代入公式。,计算样本容量的公式中没有一个用到总体容量。只有样本容量相对于总体容量而言过大(5%以上)时,总体容量才会影响到样本量的大小。 当样本容量超过总体容量的5%时,就需要调整样本容量。 一般都假设样本的抽取是相互独立的(独立假设),这一假设在样本相对于总体很小时成立。当样本量占总体比例相对较大(5%以上)时,假设就不成立。因此,我们必须调整标准公式。 如前面关于平均数的样本容量就应作调整,公式为:n修改后的样本量。n原样本量
16、。 N为总体单位数。 如总体单位数为2000,原样本量为400,则修改后的样本量应为:,3.注意事项抽样比率过大问题,3.注意事项无回答的问题,实际调查中,由于调查对象未找到或拒绝访问等原因,实际收回的样本数与理论决定的样本数可能不同。 另外,即使所有样本单位都接受了调查,还会因为他们对调查中各个问题的回答率不同,而发生不同的调查项目样本规模不一致的情况。 因此,确定样本大小时,还应将这些情况考虑进去。 例,初确定的样本容量是1000,但估计可能有20%的无回答,则实际调查所用的样本容量1000/80%=1250。,4.附录总体异质程度,其他条件一定,总体异质性程度越大,所要求的样本容量越大;
17、反之,所要求的样本容量就越小。 总体的异质程度大小可用标准差估计值来反映。 标准差计算公式:应用举例:,4.附录标准差计算公式应用举例,调查某地家庭每月用于购买家用电器的支出情况。事先抽取10户(n)进行调查。经计算,平均每月每户用于购买家电的支出为500元( )。实际上,每户用于购买家电的支出有很大差别,分别为:385、390、500、450、800、345、510、240、680、700。在实际调查过程中,总体标准差估计值既可以根据经验或上次调查积累结果而定,也可以根据小规模试验调查结果而定。,4.附录正态分布表检验常用的显著度与否定域,李沛良:社会研究的统计应用,社会科学文献出版社2001年版,387页。,A2+B2=C2 A并非越大越好,当A达至极限后,必须增大很多才行 A与B此消彼长,因此,如何协调二者,可以减少总误差 为了使C最小,最佳选择是A与B相等。,总误 差C,抽样 误差B,非抽样误差A,三、常用抽样比率:抽样误差与总误差之间的关系,三、常用抽样的比率(经验),