1、第六章 参数估计,第一节 抽样及抽样组织形式,一、抽样调查的概念 从总体中抽出样本进行调查,并运用数理统计的方法,对总体进行估计和推断。 随机抽样:按随机原则 非随机抽样,抽样调查的基本术语,1、总体和样本 2、总体指标和样本指标 3、重复抽样与不重复抽样 4、抽样框和抽样单元,二、抽样调查方式,1、简单随机抽样: 要有抽样框 适用于总体规模不很大,或者总体分布较均匀 2、分层随机抽样:分组+随机抽样,3、系统随机抽样:排序+随机抽样 有关标志排序 无关标志排序 4、整群随机抽样 5、多阶段抽样,抽样调查的特点,1、按随机原则来抽样。 2、由样本对总体进行估计。 3、抽样误差可以实现计算并控制
2、。 4、从适用性来看: A、不适合全面调查的 B、破坏性的试验 C、可用于质量控制过程 D、可对普查资料进行必要的修正。,第二节 抽样分布,主要内容: 掌握抽样分布的概念 了解几种常见的导出分布 掌握常见统计量的分布规律(样本均值、样本比例、样本方差)前提:可重复的简单随机抽样,样本满 足独立同分布的条件。,一、抽样分布的概念 即样本统计量的概率分布。常见样本统计量包括样本均值、样本比例、样本方差。 精确分布下能够明确其分布表达式。 近似分布:往往借助于极限定理,寻求在样本容量趋于无穷大时的极限分布。,二、 导出分布,设 是独立同分布的随机变量,且,则 随机变量 的分布称作 自由度为 n 的
3、分布,记为,分布,n3 时为右偏钟型分布; E( )=n,V( )=2n; 具有可加性; 当n时,以正态分布为其极限分布。,分布的密度曲线,2. t 分布 定义,t分布的密度曲线,与标准正态分布相比,t分布的中心部分较低,两个尾部较高 随着自由度n的不断增大,t分布越来越趋近于标准正态分布,3. F 分布,设X与Y相互独立,X ,Y , 则称随机变量 服从第一自由度为 第二自由度为 的 F 分布,记作,正偏分布,不以正态分布为极限,F分布的密度曲线,三、样本统计量的抽样分布,常用的统计量与总体参数的符号,容量相同的所有可能样本的样本均值的概率分布 一种理论概率分布 进行推断总体均值的理论基础,
4、样本均值的抽样分布,样本均值的抽样分布 (例题分析),【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下,均值和方差,样本均值的抽样分布 (例题分析), 现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的抽样分布 (例题分析), 计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较 (例题分析), = 2.5 2 =1.25,总体分布,抽样分布与总体分布的关系,样本均值的抽样分布 与中心极限定理,当总体服从正态分布
5、N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即 x N(,2/n),中心极限定理 (central limit theorem),中心极限定理:设从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,定理1:当总体服从 ,样本均值证明: X服从 ,对一个容量为n的简单随机样本,定理2:当总体的均值和方差均有限,当样本容量充分大时,无论总体分布形式如何,样本均值均服从正态分布,中心极限定理 (central limit theorem),中心极限定理:设从均值为,方差
6、为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,定理3:当总体服从正态分布且方差未知,并且是小样本情况下,样本均值的分布可用t分布来描述。,样本均值的平均抽样误差,所有可能的样本均值的标准差,测度所有样本均值的离散程度 小于总体标准差 计算公式为,样本比例的抽样分布,总体(或样本)中具有某种属性的单位与全部单位总数之比 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比 总体比例可表示为样本比例可表示为,比例 (proportion),容量相同的所有可能样本的样本比例的概率分布 当样本容量很大时,样本比例的抽样
7、分布可用正态分布近似 一种理论概率分布 推断总体总体比例P的理论基础,样本比例的抽样分布,从总体中抽取一个容 量为 n 的样本,则样本中具有某种特征的单位数x 服从二项分布。即在大样本条件下,若 np和n(1-p)均大于5,则样本比例p近似服从正态分布。,样本比例的数学期望样本比例的方差 重复抽样,样本比例的抽样分布 (数学期望与方差),样本方差的抽样分布,样本方差的分布,对于来自正态总体的简单随机样本,则比值的抽样分布服从自由度为 (n-1)的 2分布,即其中,,大样本条件下,样本标准差S的分布近似服从正态分布,简单随机重复抽样时样本统计量的抽样分布,不重复抽样的修正因子,修正因子为:当很大
8、,n/N比较小时,修正因子常忽略不计。,均值分布的数学期望和方差,抽 样 方 法 均 值 方 差 标 准差,从无限总体抽 样或从有限总体放回抽样,从有限总体不放回抽样,根据中心极限定理,只要样本足够大, 就近似服从正态分布。,样本比例分布的数学期望和方差,抽 样 方 法 均 值 方 差 标 准差,从无限总体抽 样和从有限总体放回抽样,从有限总体不放回抽样,第三节 参数估计,抽样估计:根据样本信息对总体某些特征进行估计或推断。 参数估计:对总体数字特征的抽样估计叫参数估计。,总体,样本,总体参数,统计量,估计推断,参数估计,抽样分布,一、 点估计,点估计,也叫定值估计,是以一个样本的估计量来估计
9、总体参数。 一、矩估计法:用样本矩去估计相应的总体矩。矩估计法是英国统计学家 K.Pearson提出的。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。因此,只要总体X的k阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。,一阶原点矩,三阶中心矩,四阶中心矩,二阶中心矩,(均值),(方差),一阶中心矩,设 都是参数 的无偏估计量,若 则称 是较 有效的估计量。,样本估计量的均值应等于被估计总体参数的真值,即,二、估计量优劣的标准,无偏性,有效性,一致性,也称相合性,是指当n时,估计量依概率
10、收敛于总体参数的真值,即,区间估计就是根据样本估计量以一定可靠程度推断总体参数所在的区间范围。,第4节 区间估计,总体参数,样本统计量,置信度,显著性水平,表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体真值的可能性。,为参数 的置信度为 的置信区间, 为置信下限, 为置信上限。,给定置信度 ,由样本统计量 的抽样 分布可得,于是参数 的置信度为 的置信区间为:,为抽样的极限误差,即误差范围的大小。,给定置信度 ,查标准正态分布表得临界值 ,使得,一、总体均值的区间估计,1、总体方差 已知,分布为正态,置信区间为 ,其中,为抽样极限误差, 抽样平均误差。,注1:总体方差已知,分布未知
11、,但是大样本时,由抽样分布定理可知,样本均值近似服从正态分布,因此估计总体均值的方法与上述方法相同。,置信区间为,例:某企业从长期实践得知,其产品直径是一随机变量,服从标准差为0.05的正态分布从某日产品中随机抽取个,测得其直径分别为14.8,15.3,15.1,15.1,14.7,15.1(单位厘米)。在0.95的置信度下,试求该产品直径的均值的置信区间。,给定置信度 ,查 t 分布表得临界值 ,使得,2、正态总体 ,方差未知,用s 去代替,置信区间为,其中 为抽样平均误差, 为允许误差,注2:总体方差未知,分布正态,且为大样本时,由于 t 分布可用正态分布近似,所以对总体均值的估计也可按正
12、态分布处理。,置信区间为,简单随机抽样时参数的区间估计,未知时,用S,未知时,用S,设总体X服从正态分布 ,则,二、总体方差的区间估计,给定置信度 ,查 分布表得临界值 和 ,使得,于是所求置信区间为,三、总体比例的区间估计,大样本时样本比例p的渐近分布为正态分布,因为P未知,此时常用p去代替P.给定置信度 ,查正态分布表得临界值 ,抽样极限误差为 ,其中,于是总体比例P的置信区间为,总体中某一部分单位总数NP的置信区间为,总体均值的区间估计 (正态总体:实例),【例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差 =0.15mm,试建立该种零
13、件平均长度的置信区间,给定置信水平为0.95。,总体均值的区间估计 (正态总体:实例),解:已知N(,0.152),x2.14, n=9, 1- = 0.95,/2=1.96总体均值的置信区间为,我们可以95的概率保证该种零件的平均长度在21.30221.498 mm之间,总体均值的区间估计 (非正态总体:实例),【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。,总体均值的区间估计 (非正态总体:实例),解:已知 x26, =6,n=100, 1- = 0.95,
14、/2=1.96,我们可以95的概率保证平均每天参加锻炼的时间在24.82427.176 分钟之间,总体均值的区间估计 (实例),【例】从一个正态总体中抽取一个随机样本, n = 25 ,其均值x = 50 ,标准差 s = 8。 建立总体均值m 的95%的置信区间。,总体均值的区间估计 (实例),解:已知N(,2),x=50, s=8, n=25, 1- = 0.95,t/2=2.0639。,我们可以95的概率保证总体均值在46.6953.30 之间,1、抽样容量的确定 n太大,调查花费大;n太小,误差小,代表性差。 若规定在一定概率把握程度下允许误差为 ,那么 可根据 来确定合适的样本容量n
15、。,第五节 抽样容量的确定, 估计总体均值 重复抽样不重复抽样, 估计总体比例时,公式同上。其中,因P是总体未知比例,所以求n时应遵循以下原则: 取供选择的经验比例中和0.5最接近的一个; b.若没有给出供选择的经验比例,取P(1-P)=0.5。,样本容量的确定 (实例),【例】一家广告公想估计某类商店去年所花的平均广告费用有多少。经验表明,总体方差约为1800000元。如置信度取95%,并要使估计处在总体平均值附近500元的范围内,这家广告公司应抽多大的样本?,样本容量的确定 (实例),解:已知2=1800000,=0.05, Z/2=1.96,=500,应抽取的样本容量为,样本容量的确定
16、(实例),【例】一家市场调研公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对比例p的估计误差不超过0.05,要求的可靠程度为95%,应抽多大容量的样本(没有可利用的p估计值)。,样本容量的确定 (实例),应抽取的样本容量为,2、影响n大小的因素,总体方差2:总体方差未知时,通常用以前同类调查的资料代替。若有多个方差值供选择时,取其最大者。 允许误差:允许误差增大,意味着推断要求的精度降低,在其它条件不变的情况下,必要的抽样数目可减少。反之,应增大。 置信度1-:置信度1-与临界值z/2同方向变化,所以在其它条件不变的情况下,要提高置信度,需增加抽样容量。,抽样方法:相同条件下,n不重复n重复。当总体单位数很大时,二者差异很小。所以为简便,实际中当N很大时,抽样数目按重复抽样公式计算。 抽样组织方式:上述公式是简单随机抽样下确定的必要抽样数目公式。其它抽样组织方式下的公式可根据相应的误差公式来求得。,待估计参数,已知条件,置信区间,两个正态总体,已知,两个正态总体,未知,两个非 正态总体 n1,n230,两个总体均值之差 1-2,简单随机抽样时参数的区间估计,