1、第四章 抽样调查,统计推断的过程,第一节 抽样调查的意义及基本概念,一、抽样调查的意义,一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。,二、抽样调查的适用范围,抽样调查方法是市场研究以及各种实证性研究在调查方法上的必然选择,和普查相比,它具有准确度高、成本低、速度快、应用面广等优点。,1.实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物;,2.虽可进行全面调查观察,但比较困难或并不必要;,3.对普查或全面调查统计资料的质量进行检查和修正;,4.抽
2、样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况;,5.利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。,一般适用于以下范围:,三、抽样调查的基本概念,(一) 总体和样本,总体:所要调查观察的全部事物。 总体单位数用N表示。 有限和无限,样本:抽取出来调查观察的单位。 抽样总体的单位数用n表示。 n 30 大样本 n 30 小样本,(二) 总体指标和样本指标,总体指标:总体的那些指标。抽样指标:样本的那些指标。,抽样框 即总体单位的名单,是指对可以选择作为样本的总体单位列出名册或顺序编号,以确定总体的抽样范围和结构。,样本个数指从总体中可能抽
3、取的样本的数量。样本容量指一个样本所包括的单位数。,(三) 抽样方法(组织形式),概率抽样:根据已知的概率选取样本 简单随机抽样:完全随机地抽选样本 分层抽样:总体分成不同的“层”,然后在每一层内进行抽样 整群抽样:将一组被调查者(群)作为一个抽样单位 等距抽样:在样本框中每隔一定距离抽选一个被调查者非概率抽样:不是完全按随机原则选取样本 非随机抽样:由调查人员自由选取被调查者 判断抽样:通过某些条件过滤来选择被调查者放回和不放回抽样,抽样方法,统计调查误差的含义和种类,统计调查误差有两种一种是登记误差(非抽样误差)一种是代表性误差(抽样误差),登记误差,登记误差是由于调查过程中各个有关环节上
4、的工作不准确而带来的。产生登记误差的主要原因是计量错误,记录错误,计算错误,抄录错误,在逐级上报道程中的汇总错误,被调查者所报不实或调查者有意虑报瞒报,以及调查方案的规定不明确,等等。,代表性误差,非全面调查从总体产抽出一部分单位进行观察,并用根据这部分单位算出的指标来估计总体的指标,这同总体的实际指标会有一定差别,这就是代表性误差产生的原因。,推断统计:利用样本统计量对总体某些性质或数量特征进行推断。,随机原则,总体,样本,总体参数,统计量,推断估计,参数估计,检验,假设检验,抽样分布,抽样分布,简单随机抽样和简单随机样本的性质,无限总体,有限总体,不放回,放 回,样本,样本,放回,不放 回
5、,样本,样本,独立性和同一性,同一性,当n/N5%时,有限总体不放回抽样等同于放回抽样,无限总体,所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布是一种理论概率分布随机变量是 样本统计量样本均值, 样本比例等结果来自容量相同的所有可能样本,抽样分布,样本均值的抽样分布,【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为X1=1、X2=2、X3=3 、X4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布, 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表,样本均值的抽样分布 (一个例子), 计算
6、出各样本的均值,如下表。并给出样本均值的抽样分布,所有样本均值的均值和方差,式中:M为样本数目比较及结论:1. 样本均值的均值(数学期望)等于总体均值 2. 样本均值的方差等于总体方差的1/n,样本均值的分布与总体分布的比较,抽样分布, = 2.5 2 =1.25,总体分布,样本均值的抽样分布与中心极限定理,当总体服从正态分布N (,2 )时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为,方差为2/n。即XN(,2/n),中心极限定理,中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的
7、正态分布,中心极限定理,的分布趋于正态分布的过程,抽样分布与总体分布的关系,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布,均值的抽样标准误差,所有可能的样本均值的标准差,测度所有样本均值的离散程度也称标准误差小于总体标准差计算公式为,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为,比例,在重复选取容量为的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,
8、样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布,样本方差的分布,设总体服从正态分布N (,2 ), X1,X2,Xn为来自该正态总体的样本,则样本方差 s2 的分布为,将2(n 1)称为自由度为(n-1)的卡方分布,样本方差的分布,在重复选取容量为的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为 (n -1) 的2分布,即,由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来设 ,则令 ,则 Y 服从自由度为1的2分
9、布,即 当总体 ,从中抽取容量为n的样本,则,2分布,分布的变量值始终为正 分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 期望为:E(2)=n,方差为:D(2)=2n(n为自由度) 可加性:若U和V为两个独立的2分布随机变量,U2(n1), V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布,卡方 (c2) 分布,两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差 方差为各自的方差之和,两个样本均值之差的抽样分布,两个样本均值之差的抽样分布,两个总体都服从二项分布分别从两个
10、总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和,两个样本比例之差的抽样分布,两个样本方差比的抽样分布,两个总体都为正态分布,即X1N(1 ,12),X2N(2 ,22 )从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自由度为(n1-1),分母自由度为(n2-1) 的F分布,即,将F(n1-1 , n2-1 )称为第一自由度为(n1-1),第二自由度为(n2-1)的F分布,由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名则设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则 称F为服从自由度n1和n2的F分布,记为,F分布,两个样本方差比的抽样分布, 不同样本容量的抽样分布,T 统计量的分布,设X1,X2,Xn1是来自正态总体N(1,12 )的一个样本, 称,为统计量,它服从自由度为(n-1)的t 分布,t 分布 (Student 分布),定义,t 分布,则称 T 服从自由度为 n 的T 分布.,