1、第六章 抽样推断,一、教学目的和要求:1、理解正态分布、标准正态分布和抽样分布的基本概念;2、明确抽样推断的概念、特点和作用;3、理解抽样误差的影响因素;4、掌握抽样平均误差的计算方法;5、掌握参数估计方法与必要样本容量确定的方法。,二、教学重点:1、正态分布、标准正态分布和抽样分布的基本概念;2、抽样推断的概念、特点和作用;3、抽样平均误差的计算方法;4、参数估计方法与必要样本容量确定的方法。,三、教学难点:1、抽样平均误差的计算方法;2、参数估计方法与必要样本容量确定的方法;,四、教学方法:讲授法、案例法 五、教学时数:6+2学时,六、教学内容:第一节 正态分布和标准正态分布第二节 抽样推
2、断概述第三节 抽样误差第四节 参数估计第五节 样本容量的确定第六节 假设检验,第一节 正态分布和标准正态分布,一、正态分布 (一)、正态分布及其特征 1、正态分布的意义 (1)大量的客观现象服从或近似地服从正态分布; (2)正态分布具有许多良好的数学性质; (3)标准正态分布的分布函数表,使正态分布的应用更加方便。,(二)、正态分布曲线的形成例如:某单位96人的月收入资料整理后的分布情况,根据表中数据,绘制频率分布直方图如下。,可见:正态分布曲线实际上是频率分布直方图的极限分布或理论分布。,(三)、正态分布曲线的概率密度及其特征其数学表达式也称为概率密度函数,正态分布曲线的特征: 1、一个高峰
3、;(即(x)在x=处有最大值) 2、一个对称轴;(直线x= ) 3、一个渐近线;(以横轴为渐近线) 4、曲线在x=处有拐点;(曲线在拐点处改变自己下降的方向) 5、两个参数 和决定曲线的形状。,下面分别讨论两个参数对曲线形状的影响:(1)、(x)在x=处达到峰值,在x=处有拐点,且以x= 为对称。因此,在2一定的情况下,若增大,图形右移,若减小,则图形左移,但整个图形不变。,图中123,(2)改变2值,在不变的情况下,越小,则对应图形越尖瘦,下图中:分别等于2;1;0.5,可以发现:是正态分布曲线的数学期望或总体均值;是正态分布曲线的标准差或2是正态分布曲线的方差。根据正态分布概率密度函数的计
4、算,有几个典型区间的概率值值得关注。,二、标准正态分布 (一)、标准正态分布的概率密度函数为方便计算和使用正态分布的概率密度,需要对变量值进行标准化转换。设x 的标准值为z,如果用=0,=1代入正态分布的概率密度函数,可得:,标准正态分布可以看着是一般正态分布的一个特例。一般正态分布记作:,标准正态分布记作:,一般正态分布经过标准转换后,都将成为唯一的图形:,(二)、标准正态分布N(0,1)的概率密度(或分布曲线下的面积):,由于标准正态分布的图形是唯一的,因此使用标准正态分布无需计算概率密度,只要会查标准正态分布概率表就可以了。(附表1),(三)、标准正态分布的应用:1、可以简便地查出随机变
5、量在某一区间的概率;例题p1102、根据某一区间的概率求随机变量x的值;例题P1113、测定学生考试成绩的标准分。例题P112,第二节 抽样推断概述一、抽样推断的概念和特点:1、概念:抽样推断是按照随机原则,从全部研究总体中抽取一部分单位进行调查,并依据所获得的数据对总体的某一数量特征作出具有一定可靠程度的估计与推断的一种统计方法。2、抽样推断的特点:随机原则;部分估计总体;运用概率估计的方法进行抽样推断 ;存在误差并可以控制。,二、抽样推断的内容:1、参数估计2、假设检验,三、抽样推断的应用范围:对某些不可能进行全面调查而又需要了解其全面情况的社会经济现象,必须应用抽样法。(如:无限总体、破
6、坏性试验、总体过大、单位过于分散而全面实际调查不可能,或对全面调查资料的质量进行检查和修正等),四、有关抽样的基本概念:(一)、全及总体和样本总体1、全及总体又称总体:指所要认识的研究对象的全体。一般用“N”来表示总体单位数。2、样本总体又称子样或样本:是从全及总体中随机抽取出来的作为代表这一总体的那部分单位所组成的集合体。一般用“n”来表示样本总体的单位数。(一定的研究目的下,总体是确定的、唯一的,而样本不是唯一的。),(二)、样本容量和样本个数1、样本容量:样本总体中所包含的单位数。即n的大小。根据经验,一般把n30称为大样本,把n30称为小样本。2、样本个数:指从一个总体中可能抽取的样本
7、个数。,(三)、抽样分布的基本问题1、总体分布及其特征总体分布:总体中所有个体关于某个变量(标志)的取值所形成的分布。反映总体分布特征的指标叫总体参数,在抽样实践中,常用的总体参数有两个:总体均值和总体方差(标准差) 总体平均数及其标准差(或方差)。,是非变量(总体成数)的平均数及其标准差,2、样本分布及其特征样本分布:样本中所有个体关于某个变量(标志)的取值所形成的分布,或者说是关于n个观测值的分布。反映样本分布特征的指标叫样本统计量,在抽样实践中,常用的样本统计量也有两个:样本均值和样本方差(标准差)样本平均数和样本标准差,样本标准差在样本容量n很大时,可用下式近似计算,是非变量(样本成数
8、)的平均数和标准差,样本容量n很大时,可用下式近似计算,3、抽样分布及其特征抽样分布:是从容量为N的总体中抽取容量为n的样本时,所有可能的样本统计量所形成的分布。抽样分布就是样本统计量的概率分布。反映抽样分布特征的指标:样本统计量的数学期望和方差。 简单随机抽样条件下:,抽样调查中,参数的具体数值事先未知,需要抽样来估计。而统计量是随机变量,它的取值随样本的不同而发生变化。一个总体有多少个样本,则样本统计量就有多少种取值,从而形成该统计量的分布,此分布是抽样推断的基础。(即抽样分布),(四)、抽样方法:重复抽样和不重复抽样1、重复抽样:指从总体N个单位中随机抽取一个容量为n的样本,每次从总体中
9、抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取n次,组成所要求容量的样本。 样本可能数目为 2、不重复抽样:要从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行n次,便构成一个样本。样本可能数目为,(五)抽样的组织形式: 1、简单随机抽样 2、机械抽样(或等距抽样) (1)无序等距抽样 (2)有序等距抽样 (3)对称等距抽样 3、类型抽样(或分层抽样) (1)等比例分配抽样单位数 (2)不等比例分配抽样单位数 4、整群抽样 5、多阶段抽样,五、抽样推断的理论依据1、概率论的基本原理概率论与数理统计是研究随
10、机现象统计规律性的学科。 随机现象的规律性只有在相同的条件下进行大量重复试验时才会呈现出来。也就是说,要从随机现象中去寻求必然的法则,应该研究大量随机现象。(频率的稳定性是概率定义的客观基础。)研究大量的随机现象,常常采用极限形式,由此导致对极限定理进行研究。极限定理的内容很广泛,其中最重要的有两种: 大数定理和中心极限定理,2、大数定理大量观察的基础上,研究随机现象数量特征变化规律的定理。如:贝努里大数定理、契贝晓夫大数定理、辛钦大数定律等。3、中心极限定理设从均值为 (有限)的任意一个总体中抽取样本容量为n的样本,当n充分大时,样本均值 的抽样分布近似服从均值为 的正态分布。在统计学中,正
11、态分布有着十分重要的地位。因此,常把证明其极限分布为正态分布的定理统称为中心极限定理。,第三节 抽样误差一、抽样误差的意义:1、抽样误差:指的是偶然性的代表性误差。它是抽样调查所固有的,是无法避免与消除的,但可用数学方法计算其数量界限,通过抽样设计控制其范围,所以也称为可控制误差。抽样误差的数字,随样本的不同而变化,所以它也是随机变量。,2、影响抽样误差大小的主要因素:(1)、样本单位数的多少(2)、总体被研究标志的变异程度(3)、抽样方法(4)、抽样调查的组织形式,二、抽样平均误差 (一)、抽样平均误差的意义抽样平均误差:是反映抽样误差一般水平的指标,通常用抽样平均数(或抽样成数)的标准差来
12、度量。平均来说,样本估计量与总体参数之间的抽样误差愈小,样本对总体的代表性就愈大。 抽样平均数的抽样平均误差和抽样成数的抽样平均误差的理论公式:,由于总体平均数和总体成数未知,实践中可根据定义公式推导出抽样平均误差的计算公式,(二)、简单随机抽样抽样平均误差的计算方法1、抽样平均数的抽样平均误差重复抽样条件下:不重复抽样条件下:,2、抽样成数的抽样平均误差重复抽样条件下:不重复抽样条件下:,当N较大时, 的计算结果十分接近,此时,不重复抽样条件下的抽样平均误差的近似公式为:,由于 ,所以,不重复抽样条件下的抽样平均误差总是小于重复抽样的抽样平均误差。,三、抽样极限误差:指抽样指标和总体指标之间
13、误差的可能范围。用 分别表示抽样平均数的极限误差和抽样成数的极限误差。,上面等式可变换为下列不等式:,上面不等式表明抽样平均数和抽样成数在一个什么区间内变化。,因为总体平均数和总体成数是未知的,而抽样平均数和抽样成数可求得,所以,可用抽样平均数和抽样成数来估计总体平均数和总体成数。上面不等式又可变形为下列不等式:,常用此不等式,来对总体平均数和总体成数进行区间估计。,四、抽样估计的置信度1、抽样估计的置信度:指样本指标(统计量)和总体指标(参数)的误差不超过一定范围的概率保证程度,又称可靠程度、可信度、把握程度等,通常用 来表示。抽样平均数估计的置信度:抽样成数估计的置信度:,根据中心极限定理
14、,抽样平均数以总体平均数为中心,两边完全对称分布,且抽样平均数愈接近总体平均数,出现的可能性愈大,概率愈大;反之,亦然。由正态分布可求得:,2、概率度:抽样极限误差与抽样平均误差的比值,用来测定抽样误差范围的大小,是估计可靠程度的一个参数。,可以看出:,可由标准正态分布表查得临界值Z,概率为(1-a),服从标准正态分布,数理统计证明,概率度z(或t)与抽样估计的可靠性(概率保证程度)P之间保持一定的函数关系,即概率保证程度是概率度的函数。,第四节 参数估计 (是以样本统计量作为未知总体参数的估计量)一、总体参数的点估计1、含义:又叫定值估计,是以样本统计量作为相应总体参数的估计量,而不考虑任何
15、抽样误差。2、优点:计算简便,能提供总体参数的具体估计值。3、不足:没有表明抽样估计的误差,更没有指明估计的可靠程度。,4、优良估计量的标准:对于一个总体参数,可以构造多个统计量去估计它,那么,哪一种统计量作为总体参数的估计量才是最优的呢?,(1)、无偏性: (2)、一致性: (3)、有效性:,由于抽样成数是01分布的平均数的表现形式,所以也完全符合优良估计的三个标准。,二、总体平均数的区间估计1、区间估计:建立在点估计基础上的、考虑误差范围(估计精度)和可靠性的一种统计推断方法。2、置信区间:当估计全及总体的平均指标 时,在给定的可靠程度P=F(z)=1-a的条件下,若不等式成立,则称区间
16、为 的可靠程度是P=F(z)=1-a的置信区间。,3、常见的估计问题有两类:(1)、根据给定的置信度,求抽样极限误差步骤:先求出样本平均数和抽样平均误差,再根据给定的置信度求抽样极限误差,并确定总体平均数的置信区间。,(2)、根据给定的抽样误差范围,求置信度步骤:先求出样本平均数和抽样平均误差,再根据给定的极限误差求相应的置信度,并确定总体平均数的置信区间。,三、总体成数的区间估计与总体平均数的区间估计类似,常见的估计问题也有两类:(1)、根据给定的置信度,求抽样极限误差步骤:先求出样本成数和抽样平均误差,再根据给定的置信度求抽样极限误差,并确定总体成数的置信区间。,(2)、根据给定的抽样误差
17、范围,求置信度步骤:先求出样本成数和抽样平均误差,再根据给定的极限误差求相应的置信度,并确定总体成数的置信区间。,第五节 样本容量的确定一、确定样本容量的意义确定合适的样本容量n是抽样设计的一项重要工作。样本容量和抽样误差及调查费用都有直接的联系。一般来说,样本容量以满足在一定的概率保证下抽样误差不超过给定的允许范围的最小样本容量为界。,二、简单随机抽样样本容量的确定1、估计总体平均数时,样本容量的确定(1)、重复抽样条件下根据公式:,推导出:,(2)、不重复抽样条件下根据公式:,推导出:,2、估计总体成数时,样本容量的确定(1)、重复抽样条件下,(2)、不重复抽样条件下,三、影响样本容量的因
18、素从以上分析可以看出,影响样本容量的因素有:1、总体各单位间标志值的变异程度,即总体方差;2、抽样极限误差的大小;3、调查结果的置信度,即可靠性;4、抽取样本单位的方法;5、抽样的组织形式。,第六节 假设检验,一、假设检验的基本原理在未知总体参数的情况下,事先对总体参数或其分布形态作出一个假设(原假设),然后利用抽取的样本信息来判断这个假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应该接受或否定原假设的统计方法。,2、抽样分布从一个总体中随机抽取容量相同的各种样本,再根据所有可能抽取的样本数据计算出的该统计量的数值分布,称为统计量的抽样分布。,拒绝域,拒绝域,三、假设检验的步骤 1、建立假设原假设是被检验的主题,一般是指检验者有可能推翻、但没有充分的依据就不能轻易推翻的假设;备择假设是原假设的对立面。原假设必须包括等号在内,它和备择假设应覆盖所有可能的情形。 2、确定检验统计量检验统计量是判定样本值与假设的总体参数之间的差异是否显著的主要依据。(见前面所述),4、比较并作出检验结论根据样本数据计算出的检验统计量的数值,然后与检验统计量的临界值进行比较,作出接受或拒绝原假设的检验结论。,本 章 小 节,