1、2019/9/30,扬州大学管理学院,1,第七章 抽样推断,第一节 抽样推断的意义 第二节 抽样误差 第三节 抽样推断的方法 第四节 抽样调查的组织方式,2019/9/30,扬州大学管理学院,2,一、抽样推断的概念和特点,1、概念:,抽样推断是按随机原则从全部研究对 象中抽取部分单位(样本)进行观察,并根据 样本的实际数据对总体的数量特征作出具 有一定可靠程度的估计和判断。,第一节 抽样推断的意义,2019/9/30,扬州大学管理学院,3,2、意义:,(1)有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。例如,对无限总体不能采用全面调查。另外,有些产品的质量检查具有破坏
2、性,不可能进行全面调查,只能采用抽样调查。,第一节 抽样推断的意义,(2)从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。,2019/9/30,扬州大学管理学院,4,(3)抽样调查的结果可以对全面调查的结 果进行检查和修正。,第一节 抽样推断的意义,(5)利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的真伪,依决定行动的取舍。,(4)抽样调查可以用于工业生产过程的质 量控制。,2019/9/30,扬州大学管理学院,5,3、特点:,(1)它是由部分推断整体的一种认识方法。,(2)抽样推断建立在随机取样的基础上。,(3)抽样推断运用概率估计的
3、方法。,(4)抽样推断的抽样误差是不可避免的, 但可以事先计算并加以控制。,第一节 抽样推断的意义,2019/9/30,扬州大学管理学院,6,二、统计推断内容,1统计学:描述统计学:研究如何全面收集被研究客观事 物的数据资料并进行简缩处理,描述其群体特征 和数量规律性。推断统计学:研究如何有效地收集和使用被 研究客观事物的不完整并且带有随机干扰的数据 资料,以对其群体特征和数量规律性给出尽可能 精确、可靠的推断性结论。,2019/9/30,扬州大学管理学院,7,2推断统计参数估计:由对部分进行观测取得的 数据对研究对象整体的数量特征取值给出 估计方法。假设检验:由对部分进行观测取得的 数据对研
4、究对象的数量规律性是否具有某 种指定特征进行检验。,2019/9/30,扬州大学管理学院,8,统计推断的过程,2019/9/30,扬州大学管理学院,9,(一)全及总体和样本总体,全及总体(Population)是所要研究的对象,又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。 全及总体单位数(N)一般很大。,三、有关抽样的基本概念,2019/9/30,扬州大学管理学院,10,又称子样。是从全及总体中随机抽取出来 的,做为代表这一总体的部分单位组成的集 合体。样本单位总数用“n”表示。样本选取的基本原则:代表性:样本的每个分量都与总体有相同 的分布独立性:样本的每个分量
5、都是相互独立的,样本(Sample) :,2019/9/30,扬州大学管理学院,11,随着样本容量的增大,样本对总体 的代表性越来越高,并且当样本单位数 足够多时,样本平均数愈接近总体平均 数。 对于一次抽样调查,全及总体是唯 一确定的,样本总体不是这样,样本是 不确定的,一个全及总体可能抽出很多 个样本总体,样本的个数和样本的容量 有关,也和抽样的方法有关。,2019/9/30,扬州大学管理学院,12,(二)参 数 和 统 计 量,参数:,指反映总体数量特征的综合指标。,参数,研究总体中 的数量标志,总体平均数,总体方差,研究总体中 的品质标志,总体成数,成数方差,2019/9/30,扬州大
6、学管理学院,13,统计量:,根据样本数据计算的综合指标。,研究数 量标志,样本平均数,样本标准差,研究品 质标志,样本成数,成数标准差,2019/9/30,扬州大学管理学院,14,(三)样本容量和样本个数,样本容量:,一个样本包含的单位数。用 “n”表示。 一般要求 n 30大样本,样本个数:,从一个全及总体中可能抽取的样本数目。,(四)重复抽样和不重复抽样,重复抽样:又称回置抽样。,不重复抽样:又称不回置抽样。,考虑顺序时,可能组成的样本数目:,不考虑顺序时,可能组成的样本数目:,考虑顺序时,可能组成的样本数目:,不考虑顺序时,可能组成的样本数目:,2019/9/30,扬州大学管理学院,15
7、,抽样方法,不重复抽样,考虑顺序,不考虑顺序,4,3,2,是否考虑顺序,1,1考虑顺序的重复抽样; 2不考虑顺序的重复抽样; 3考虑顺序的不重复抽样; 4不考虑顺序的不重复抽样。,重复抽样,2019/9/30,扬州大学管理学院,16,2019/9/30,扬州大学管理学院,17,四、抽样推断的理论基础 1、抽样推断的理论基础:大数(定律)法则大数定律即关于大量的随机现象具有稳定 性质的法则。它说明如果被研究的总体是由大 量的相互独立的随机因素所构成,而且因素对 总体的影响都相对地小,那么对这些大量因素 加以综合平均的结果,因素的个别影响将相互 抵消,而呈现出它们共同作用的倾向,使总体 具有稳定的
8、性质。,2019/9/30,扬州大学管理学院,18,大数定律证明,如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位为n,可以以几乎趋近于1的概率,来期望平均数与总体平均数的绝对离差为任意小,即对于任意的正数a有:式中: 为抽样平均数; 为总体平均数;n为抽样单位数。,2019/9/30,扬州大学管理学院,19,2、抽样推断的理论基础:中心极限定理人们已经知道,在自然界和生产实践中遇到的 大量随机变量都服从或近似服从正态分布,正因 如此,正态分布占有特别重要的地位。那么,如 何判断一个随机变量服从正态分布显得尤为重要。 如经过长期的观测,人们已经知道,很多工程测 量中产生的误差X
9、都是服从正态分布的随机变量。 在什么条件下, , 这是十八世纪 以来概率论研究的中心课题,因而,从二十世纪 二十年代开始,习惯上把研究随机变量和的分布 收敛到正态分布的这类定理称为中心极限定理 (Central Limit Theorems),2019/9/30,扬州大学管理学院,20,(林德伯格莱维(Lindeberg-Lvy)中心极限定理) 设 是一相互独立同分布随机变量序列,则对任意的实数,总有,2019/9/30,扬州大学管理学院,21,本定理的证明在20世纪20年代由林德伯格和莱维给出,因证明较复杂,在此从略。由定理可知,当n充分大时,,由于它对 的分布形式没有要求,因而得到广泛使用
10、。,2019/9/30,扬州大学管理学院,22,第二节抽样误差 一、抽样误差 二、抽样平均误差 三、抽样极限误差 四、抽样误差的概率度,2019/9/30,扬州大学管理学院,23,第二节 抽 样 误 差,一、抽样误差的含义,(一) 统计误差有两种:1、登记性误差:由于调查整理过程中登记错误 和计算不准而产生的。2、代表性误差:由于用样本资料代表总体资料 而产生的,全面调查中不存在这种误差,其中由 于不按照随机原则抽样造成的误差为系统性误差, 由于随机抽样的偶然因素使样本各单位的结构 不足以代表总体各单位的结构,而引起抽样指标和 全及指标之间的绝对离差为抽样误差。,2019/9/30,扬州大学管
11、理学院,24,(二)影响抽样误差大小的因素,1、总体各单位标志值的变异程度,2、样本的单位数,3、抽样方法,4、抽样推断的组织形式,2019/9/30,扬州大学管理学院,25,二、抽样平均误差,1、概念:抽样平均误差是抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数抽样成数与总体成数的平均误差程度。,2、计算方法:,抽样平均数 的平均误差,抽样成数 平均误差,(以上两个公式实际上就是第四章讲的标准差。 但反映的是样本指标与总体指标的平均离差程度),2019/9/30,扬州大学管理学院,26,抽样平均数平均误差的计算公式:,采用重复抽样:,此公式说明,抽样平均误差与总体标准差成正比,
12、与样本容量开方成反比。(当总体标准差未知时, 可用样本标准差代替),通过计算可说明以下几点:,样本平均数的平均数等于总体平均数。,抽样平均数的标准差仅为总体标准差的,可通过调整样本单位数来控制抽样平均误差。,2019/9/30,扬州大学管理学院,27,例题:假定抽样单位数增加 2 倍、0.5倍时,抽样平均误差怎样变化?,解:抽样单位数增加 2 倍,即为原来的 3 倍,则:,抽样单位数增加 0.5倍,即为原来的 1.5倍,则:,即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。,即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。,2019/9/30,扬州大学管理学院
13、,28,采用不重复抽样:,公式表明:抽样平均误差不仅与总体变异程度、 样本容量有关,而且与抽样方法有关。,例题一:,随机抽选某校学生100人,调查他们的体 重。得到他们的平均体重为58公斤,标 准差为10公斤。问抽样推断的平均误差 是多少?,例题二:,某厂生产一种新型灯泡共2000只,随机 抽出400只作耐用时间试验,测试结果 平均使用寿命为4800小时,样本标准差 为300小时,求抽样推断的平均误差?,2019/9/30,扬州大学管理学院,29,例题一解:,即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。,例题二解:,计算结果表明:根据部分产品推断全部产品的平均使
14、用寿命时,采用不重复抽样比重复抽样的平均误差要小。,已知:,则:,已知:,则:,2019/9/30,扬州大学管理学院,30,抽样成数平均误差的计算公式,采用重复抽样:,采用不重复抽样:,例题三:,某校随机抽选400名学生,发现戴眼镜的学 生有80人。根据样本资料推断全部学生中戴 眼镜的学生所占比重时,抽样误差为多大?,例题四:,一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?,2019/9/30,扬州大学管理学院,31,例 题 三 解:,已知:,则:样本成数,即:根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。,2019/9/
15、30,扬州大学管理学院,32,例 题 四 解:,已知:,则:样本合格率,计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。,2019/9/30,扬州大学管理学院,33,三、抽 样 极 限 误 差,含义:,抽样极限误差指在进行抽样估计时,根据研究 对象的变异程度和分析任务的要求所确定的样 本指标与总体指标之间可允许的最大误差范围。,计算方法:,它等于样本指标可允许变动的上限 或下限与总体指标之差的绝对值。,抽样平均数极限误差:,抽样成数极限误差:,2019/9/30,扬州大学管理学院,34,四、抽样误差的概率度,含义:,抽样误差的概率度是
16、测量抽样估计可靠 程度的一个参数。用符号“ t ”表示。,公式表示:,(t 是极限误差与抽样平均误差的比值),(极限误差是 t 倍的抽样平均误差),上式可变形为:,2019/9/30,扬州大学管理学院,35,第三节 抽样估计的方法,一、作为优良估计量的条件,总体参数优良估计的标准,无偏性,一致性,有效性,2019/9/30,扬州大学管理学院,36,无偏性 (unbiasedness),设,是未知参数的一个点估计量,若,满足,则称,是的无偏估计量,否则称为有偏估计量,2019/9/30,扬州大学管理学院,37,一致性 (consistency),一致性:随着样本容量的增大,估计量的值越来越接近被
17、估计的总体参数,2019/9/30,扬州大学管理学院,38,有效性 (efficiency),有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,2019/9/30,扬州大学管理学院,39,第三节 抽样估计的方法,二、总体参数的点估计,总体参数点估计的特点: 直接使样本指标等于总体指标:即令,2019/9/30,扬州大学管理学院,40,三、总体参数的区间估计,(一)总体参数区间估计的特点:,第三节 抽样估计的方法,区间估计三要素,估计值,抽样误差范围,概率保证程度,2019/9/30,扬州大学管理学院,41,1、根据给定的概率F(t),推算抽样极限误差及总体参数的可能范围,分
18、 析 步 骤:,(1)抽取样本,计算样本指标。,(2)根据给定的F(t)查表求得概率度 t 。,(3)根据概率度和抽样平均误差计算抽样极限误差。,(4)计算被估计值的上、下限,对总体参数作出区间估计。,(二)总体参数区间估计的方法,2019/9/30,扬州大学管理学院,42,2、根据给定的抽样误差范围,求概率保证程度,分析步骤: (1)抽取样本,计算抽样指标。 (2)根据给定的极限误差范围估计总体参数的上限和下限。 (3)计算概率度。 (4)查表求出概率F(t),并对总体参数作出区间估计。,2019/9/30,扬州大学管理学院,43,某农场进行小麦产量抽样调查,小麦 播种总面积为1万亩,采用不
19、重复简单 随机抽样,从中抽选了100亩作为样本 进行实割实测,测得样本平均亩产400 斤,方差144斤。,1、以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间?,要求计算:,例 题 一:,2、以99.73%的可靠性推断该农场小麦平均亩产可能在多少斤之间?,2019/9/30,扬州大学管理学院,44,例题一解题过程:,已知:N=10000 n=100,问题一解:,1、计算抽样平均误差,2、计算抽样极限误差,3、计算总体平均数的置信区间,上限:,下限:,即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.,2019/9/30,扬州大学管理学院,45,
20、同上解题过程:,已知:N=10000 n=100,问题二解:,1、计算抽样平均误差,2、计算抽样极限误差,3、计算总体平均数的置信区间,上限:,下限:,即:以99.73%的可靠性估计该农场小麦平均亩产量在396.43斤至403.57斤之间.,2019/9/30,扬州大学管理学院,46,例 题 二:,某纱厂某时期内生产了10万个单位的纱,按纯随机 抽样方式抽取2000个单位检验,检验结果合格率为 95%,废品率为5%,试以95%的把握程度,估计全部 纱合格品率的区间范围及合格品数量的区间范围?,已知:,区间下限:,区间上限:,2019/9/30,扬州大学管理学院,47,例 题 三:,为调查农民生
21、活状况,在某地区5000户农民 中,按不重复简单随机抽样法,抽取400户 进行调查,得知这400户中拥有彩色电视机 的农户为87户。,要求计算:,1、以95%的把握程度估计该地区全部农户 中拥有彩色电视机的农户在多大比例之间?,2019/9/30,扬州大学管理学院,48,例 题 三 的 问 题 一 解:,已知:N=5000,n=400,1、计算样本成数:,2、计算抽样平均误差:,3、计算抽样极限误差:,4、计算总体P的置信区间:,下限:,上限:,即:以95%的把握程度估计该地区农户中拥有彩电的农户在17.87%至25.63%之间。,2019/9/30,扬州大学管理学院,49,(三)样本单位数的
22、计算方法:,通过抽样极限误差公式计算必要的样本单位数。,重复抽样:,不重复抽样:,抽样平均数,抽样成数,2019/9/30,扬州大学管理学院,50,某农场进行小麦产量抽样调查,小麦 播种总面积为1万亩,采用不重复简单 随机抽样,从中抽选了100亩作为样本 进行实割实测,测得样本平均亩产400 斤,方差144斤。要求计算:,3、若概率保证程度为95.45%不变, 要求抽样允许误差不超过1斤,问至少 应抽多少亩作为样本?,接 例 题 一:,2019/9/30,扬州大学管理学院,51,问题三解:,已知:,则样本单位数:,即:当,至少应抽544.6亩作为样本。,2019/9/30,扬州大学管理学院,5
23、2,接 例 题 三:,为调查农民生活状况,在某地区5000户农民 中,按不重复简单随机抽样法,抽取400户 进行调查,得知这400户中拥有彩色电视机 的农户为87户。以95%的把握程度。,要求计算:,2、抽样允许误差不超过0.02,其它条件不变, 问应抽多少户作为样本?,2019/9/30,扬州大学管理学院,53,解:,当,其他条件不变时:,=1635(户),2019/9/30,扬州大学管理学院,54,一简单随机抽样 (simple random sampling),从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中 抽取元素的具体方法有重复抽样和不重
24、复抽样 特点 简单、直观,在抽样框完整时,可直接从中抽取样本 用样本统计量对目标量进行估计比较方便 局限性 当N很大时,不易构造抽样框 抽出的单位很分散,给实施调查增加了困难 没有利用其他辅助信息以提高估计的效率,第四节 抽样的组织形式,2019/9/30,扬州大学管理学院,55,二分层抽样 (stratified sampling),将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本 优点 保证样本的结构与总体的结构比较相近,从而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层的目标量进行估计,2019/9/30,扬州大学管理学院,56
25、,三整群抽样 (cluster sampling),将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查 特点 抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便调查的实施 缺点是估计的精度较差,2019/9/30,扬州大学管理学院,57,四系统抽样 (systematic sampling),将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位 先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位 优点:操作简便,可提高估计的
26、精度 缺点:对估计量方差的估计比较困难,2019/9/30,扬州大学管理学院,58,五二阶抽样与多阶段抽样 (two&multi-stage sampling),先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查 群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样 不需要对每个高级别的抽样单元建立关于低级别抽样单元的抽样框,节约调查费用 需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开 在大规模的抽样调查中,经常被采用的方法,2019/9/30,扬州大学管理学院,59,抽样方法,2019/9/30,扬州大学管理学院,60,抽样调查设计,1.抽样方案设计抽样方法的选择和组合样本容量的确定 2.调查方法确定例:问卷调查、座谈会调查、电话调查等 3.估计量的构造建立由所得数据能够给出目标量估计值的估计方 法估计量具有较好的概率性质,例如无偏性、方差 小构造估计量方差的估计量采用自加权估计量,