1、1第五章 参数估计和假设检验统计推断:利用样本统计量对总体某些性质或数量特征进行推断。两类问题:参数估计和假设检验基本特点:(1)以随机样本为基础;(2)以分布理论为依据;(3)推断的只是一种可能的结果;(4)是归纳推理和演绎推理的结合。归纳推理从样本 总体演绎推理大前提(分布规律) 小前提(样本信息) 结果本章主要内容:阐述统计推断的基本原理和常用的几种参数估计和假设检验方法。第一节 抽样分布一、简单随机抽样和简单随机样本的性质无限总体 有限总体抽样方法:随机样本:样本性质: 独 立 性 和 同 一 性 同一性(当 n/N5%时,有限总体不放回抽样等同于放回抽样)二、统计量与抽样分布1统计量
2、:即样本指标。如:样本均值 ,样本成数 ,样本方差放回不放回放回不放回nXi22 )(1SinPi22抽样分布:某一统计量所有可能的样本的取值形成的分布。性 质0P( Xi) 1 P(X i)=1数字特征均值 E(X) 方差 Ex-E(x)2方差的平方根即抽样分布的标准差就是推断的抽样误差。三、样本均值的抽样分布(简称均值的分布)总体 X, (N) 样本 x, (n)均值 =X i/N 均值所有可能的样本的均值( )所形成的分布,称为样本均值的抽样分布。均值分布的数学期望和方差抽 样 方 法 均 值 方 差 标 准 差(1)从无限总体抽样和有限总体放回抽样(2)从有限总体不放回抽样。从正态总体
3、中抽样得到的均值的分布也服从正态分布。从非正态总体中抽样得到的均值的分布呢? Xi抽样 n,21xE)(nx2)( )1(2Nx nx1Nx即 均 值 推 断 的 抽 样 误 差和 ,12nnxx3中心极限定理:无论总体为何种分布,只要样本 n 足够大(n30) ,均值( )标准化为(z )变量,必定服从标准正态分布,均值( )则服从正态分布,即:四、两个样本均值之差的抽样分布从两个总体中分别独立地抽取两个样本(n 1, n2) ,它们的均值之差( )所形成的抽样分布。总体 X1(N 1) 总体 X2, (N 2)样本 n1 样本 n2(1)如果:(2)如果两个总体都是非正态总体,只要 n1、
4、n 2 足够大,根据中心极限定理,可知(有限总体不放回抽样)五、样本成数(即比例)的抽样分布(简称成数的分布)总体 X, (N) 样本 x, (n)成数 P=Ni/N 成数所有可能的样本的成数( )所形成的分布,称为样本成数的抽样分布。成数分布的数学期望和方差抽 样 方 法 数 学 期 望 方 差 标 准 差)(x x)(,)/,(),10(/ 22 NXnNXX 或 )(抽样?21)(估 计)(x )(xAx212x),(1NX,22NX)( 212121 则 ),()(212121 nx)1(212121 NPi/n,214(1)从无限总体抽样和从有限总体放回抽样(2)从有限总体不放回抽样
5、根据中心极限定理,只要样本足够大, 的分布就近似正态分布。 (当 P 一定, np 和 nq 大于 5 时 就近似正态分布。 )六、两个样本成数之差的抽样分布从两个总体中分别独立地抽取两个样本 n1、n 2,它们的成数之差( )所形成的分布。总体 X1, (N 1) 总体 X2, (N 2)(P 1) (P 2)(估计)样本 n1 样本 n2,当 n1、n 2 都足够大时,样本成数 都近似服从正态分布,两个样本成数之差( )也近似服从正态分布。第二节 参数估计一、参数估计的基本原理两种估计方法点估计 区间估计nEPi)/()i )1(2NnPq/2Pq)1( NnP)1(,/ nNq,即成数推
6、断的抽样误差。2P1-P2=?)( )(A2121,P21P)1()1(,)()22212121 NnqnqN,(212151点估计:以样本指标直接估计总体参数。点估计优良性评价准则(1)无偏性。估计量 的数学期望等于总体参数,即 ,该估计量称为无偏估计。(2)有效性。当 为 的无偏估计时, 方差 越小, 无偏估计越有效。(3)一致性。对于无限总体,如果对任意 ,有,则称 是 的一致估计。(4)充分性。一个估计量如能完全地包含未知参数信息,即为充分估计量。2区间估计:估计未知参数所在的可能的区间。区间估计优良性评价要求(1)置信度。随机区间 包含 的概率(即可靠程度)越大越好。(2)精确度。随
7、机区间 的平均长度 (即误差范围)越小越好。 置信区间频率解释的图解: E02)()|(|nnPLimn1)(ULP ),(UL,L),(LUE以总体均值 为中心的样本均值的正态分布x6区间估计的一般形式:或:总体参数 估计值 误差范围:一定倍数的抽样误差。例如 抽样误差 一定时, 越大,概率(可靠性)大; 随之增大,精确度就差。二、总体均值和成数的置信区间待估参数 已知条件 置信区间正态总体, 2 已知正态总体, 2 未知非正态总体,n30 未知时,用 S总体均值()有限总体,n30(不放回抽样) 未知时,用 S两个正态总体 已知两个总体均值之差( 1- 2) 两个正态总体, 未知但相等)(
8、)( nZx2n/2x nZX/2tn)1(/212NnZX21,2121)(21,1X21)2(1 nStpn2121Z7两个非正态总体n130,n 230两个总体成数之差(P 1-P2)N1P15, n 1q15N2P25, n 2q25第三节 分层抽样、整群抽样的估计待估参数 已知条件 置信区间总体均值()有限总体不放回抽样(n 等比例分配于各层)各层 nh30分层抽样 总体成数(P)有限总体不放回抽样(n 等比例分配于各层)各层 nh30总体均值 ()有限总体不放回抽样,样本群数r 足够大整群抽样总体成数(P)有限总体不放回抽样,样本群数r 足够大要点解释1、分层抽样(等比例分配)总体
9、均值的估计总体 N, 2 样本 n, N1, 1, 12分 L 层N2, 2, 222121 )(nqPZP21222,)()(,hLhststSNnXShLhstst qpnPSZ)()121)(22rXSRrZribb)()(22RrrPi2,SXst 2111222LLLSXn抽样8估计NL, L, L2记为:N h, h, h2平均层内方差:分层抽样的抽样误差决定于平均层内方差。2、整群抽样总体均值的估计总体群数 R 样本群数 rC JL P均值: 群间方差:2hhhSXn1 LN1Lhhhhst)(stE均值: 212hLhN 212LhSn估计 )()(2nSxst 抽样误差: 1
10、2NZXst置信区间:CA B C D EFHGI JKL M NO P QRii1riiX1)(XERiib122(riibS122)(9抽样误差:置信区间:整群抽样的抽样误差决定于群间方差。样本数的确定例:误差范围待估参数 已知条件 样本数的确定正态总体, 2 已知总体均值()有限总体,不放回抽样, 2 已知服从正态分布,简单随机抽样总体成数(P)有限总体,不放回抽样分层抽样总体均值()有限总体不放回抽样,等比例分配样本整群抽样总体均值()有限总体不放回抽样, 服从正态分布)1()(2RrSXb2Zzxx ZnZ 22,22x22ZNnx 22pPqZnp2X)(2222hxhN 2222
11、)(1ibhxRZr10第四节 假设检验的基本原理一、假设检验的基本思想1小概率原理如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件 A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中 A 竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。总 体 样 本(某种假设) 观察结果(接受) (拒绝)小概率事件 小概率事未 发 生 件 发 生2假设的形式H0原假设, H1备择假设双尾检验:H 0: = 0 , H1: 0单尾检验:H 0: 0 , H1: 0H0: 0 , H1: 0假设检验就是根据样本观察结果对原假设(H 0)进行检验,接受 H0,就否定 H1;拒绝
12、H0,就接受 H1。二、假设检验规则与两类错误1、确定检验规则检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝 H0;反之,差异不显著,接受 H0。差 异 临界点 判 断抽样检验11c 拒绝 H0c 接受 H0怎样确定 c?2、两类错误接受或拒绝 H0,都可能犯错误I 类错误 弃真错误,发生的概率为 II 类错误 取伪错误,发生的概率为 检验决策 H0 为真 H0 非真拒绝 H0 犯 I 类错误() 正确接受 H0 正确 犯 II 类错误( ) 大 就小, 小 就大基本原则:力求在控制 前提下减少 显著性水平,取值:0.1, 0.05, 0.001, 等。如果犯 I类错
13、误损失更大,为减少损失, 值取小;如果犯 II 类错误损失更大, 值取大。确定 ,就确定了临界点 c。设有总体:XN(, 2) , 2 已知。随机抽样:样本均值 。 标准化: 。确定 值,查概率表,知临界值计算Z 值,作出判断。三、假设检验的一般步骤(1)建立总体假设H0,H 1(2) (3) (4)|0X ),(nNXX10n|2拒绝域 接受域 拒绝域2Z02Z2212抽样得到样 选择统计量 根据具体决策本观察值 确定 H0 为真 要求确定 (6) 时的抽样分布 (5)计算检验统计量 确定分布上的临界的数值 点 C 和检验规则第五节 几种常见的 假设检验一、总体均值的检验类型 条 件 检验统
14、计量 H0、H 1 拒绝域 (1) H0:= 0H1: 0(2) H0: 0H1: 0I正态总体 2 已知(3) H0: 0H1: 0(1) H0:= 0H1: 0(2) H0: 0H1: 0II正态总体 2 未知(n30)(3) H0: 0H1: 0III非正态总体n30 2 已知或未知(1) H0:= 0H1: 0(7)nxZ0nSxt0nxZ0S0Z220Z0ZZ0-Zt02t2t0tt0-t2Z2Z0 ZZ0 ZZ0-Z比较并作出检验判断13(2) H0: 0H1: 0(3) H0: 0H1: 0二、两个总体均值之差的检验类型 条 件 检验统计量 H0、H 1 拒绝域 (1) H0:
15、1= 2H1: 1 2(2) H0: 1 2H1: 1 2I两个正态总体 1, 2已知(3) H0: 1 2H1: 1 2(1) H0: 1= 2H1: 1 2(2) H0: 1 2H1: 1 2II两个正态总体 1, 2未知,但相等(3) H0: 1 2H1: 1 2III两个非正态总体n130,n230, (1) H0: 1= 2H1: 1 221nxZ21nSxtpZ0Z0ZZ0-Zt02t2t0tt0-tZZ02)()(1nSSp0Z0 Z-Z2121nxZ21nSx2214(2) H0: 1 2H1: 1 2 1, 2已知或未知(3) H0: 1 2H1: 1 2三、总体成数的检验条 件 检验统计量 H0、H 1 拒绝域 (1) H0:P=P 0H1:PP 0(2) H0:PP 0H1:PP 01(P)np5nq5(3) H0:PP 0H1:PP 0(1) H0:P 1=P2H1:P 1P 2(2) H0:P 1P 2H1:P 1P 22(P1-P2)n1p15n1q15n2p25n2q25(3) H0:P 1P 2H1:P 1P 22Z2ZnqPZ0 Z20Z0ZZ0-Z2121nqPZZ0Z0ZZ0-Z21Z2