1、第4章 用样本推断总体,主要内容,4.1怎样进行推断? 4.2总体参数估计 4.3总体假设检验2,4.1怎样进行推断,人们通常关心总体的某个特征值:平均成本,平均价格;产品合格率,次品率;一批产品销售价格的标准差,产品成本的标准差等等 要得到这些指标,不可能把所有的产品都测试一遍 根据样本值推断和估计总体的特征值 用估计量估计总体参数 估计量:是样本的函数,其中并不含有任何未知参数,4.1怎样进行推断,用估计量估计总体参数的基本方法 1)点估计法 估计的结果只是一个确定的值。用样本指标直接替代总体指标。如;2)区间估计法 估计的结果是一个区间。该区间由点估计值加上或减去估计误差而得到,点估计法
2、,例:设某批产品的寿命服从均匀分布,但是参数未知,随机地抽取五个产品,测得寿命分别是1265小时,1257小时,1276小时,1269小时和1266小时,试求总体均值和标准差。 解:样本平均寿命和标准差分别是:,区间估计法,区间估计法的步骤: 1)确定未知总体参数落在某区间内的概率1-,介于01之间 2)(1),称为置信水平;是参数不落在区间内的概率 3)置信水平1-,通常取值为 99%, 95%, 90%即=0.01=1%, =0.05=5%, =0.10=10%,区间估计法,90% 样本,95% 样本,99% 样本,影响区间宽度的因素,影响因素: 1. 数据离散度 .数据越离散,区间越宽
3、2. 样本容量 n。样本容量越大,区间越窄 3. 置信水平 (1)。置信水平越大,区间越大,估计量的优劣标准,估计总体参数的估计量有许多个 用好的估计量去估计总体参数 好的估计量的标准是: 1)无偏性:样本均值、样本比例、样本方差是总体特征值的无偏估计 2)有效性:在所有无偏估计量中,方差最小的是有效的 3)一致性:随着样本量的增大,点估计量的值越来越接近总体参数的真实值,4.2总体参数估计,1)一个总体均值的区间估计 2)两个总体均值之差的区间估计,一个总体均值的区间估计,1)假设 已知总体的标准差 总体服从正态分布 如果不是正态, 可被正态分布逼近 (样本n 30)2)置信区间:( ),一
4、个总体均值的区间估计,总体均值区间估计的计算步骤: 1)确定置信水平1-a ; 2)根据置信水平,确定其临界值Za/2值; 3)实际抽样,并计算样本均值和抽样标准误差 4)确定置信区间:( ) 例4.1;,一个总体均值的区间估计 (X未知且小样本),假设:总体服从正态分布 总体标准差未知;用样本标准差s代替总体标准差 用 t 分布代替标准正态分布, t 分布的自由度为n-1置信区间:( )例4.2,为临界值,两个总体均值之差的区间估计,独立样本(Independent sample):两个样本是从两个总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素相互独立。 1.大样本条件下 (1)
5、在两个总体的方差12 和22 均已知的情况下, 两个总体均值之差的置信区间为:,两个总体均值之差的区间估计,1.大样本条件下 (2)在两个总体的方差12 和22 均未知的情况下,可用两个样本的方差s12和s22代替。 这时,两个总体均值之差的置信区间为:,两个总体均值之差的区间估计,这时,两个样本均值之差经标准化后服从自由度为的t分布。两个总体均值之差的置信区间为:,2. 小样本条件下 (1)当两个总体的方差均已知时,可建立两个总体均值之差的置信区间 (2)当两个总体的方差12和22均未知,且12=22时,可用两个样本的方差s12和s22计算总体方差的合并估计量sp2 。,两个总体均值之差的区
6、间估计,配对样本(Matched sample),即一个样本中的数据与另一个样本中的数据相对应。 1)大样本条件下,两个总体均值之差的置信区间为:2)小样本条件下,两个总体均值之差的置信区间为:,其中,d-为各差值的均值;当总体标准差未知时,可以用样本差值的标准差替代 。,两个总体均值之差的区间估计,为比较分析北京市同一地区不同年份二手房价格的差异,某房地产中介公司从中关村地区2007年第四季度的二手房交易中,抽取了8个交易作为样本;并根据2008年当月市场行情,分别对这8个房源进行重新估价,得到二手房价格如下表所示(单位:万元)。假定二手房价格服从正态分布,且方差相等。试以95%置信水平估计
7、中关村地区2008年第一季度和2007年第四季度的二手房平均价格差值的置信区间。,两个总体均值之差的区间估计,已知n=8,总体方差未知;计算得。由于1-=0.95,在95%置信水平下的置信区间为:即(10.172,6.604) 结果表明:在置信水平为95%时,总体平均价格的差异介于10.17万元6.60万元之间。即认为中关村地区2008年第一季度比2007年第四季度的二手房平均价格有显著提高。,总体比例的区间估计,1)单一总体比例的区间估计 2)两个总体比例之差的区间估计,单一总体比例的区间估计,1)假设 总体服从二项分布 可以用正态分布近似估计 n p 5 且 n (1 - p) 5 2)置
8、信区间估计,P为总体比例。若总体比例未知,用样本比例代替,两个总体比例之差的区间估计,1)假设 总体服从二项分布 可以用正态分布近似估计 n p1 5 且 n (1 - p1 ) 5; n p2 5 且 n (1 p2 ) 5 2)置信区间估计,两个总体比例之差的区间估计,根据前面的数据,整理得出2008年第一季度与2007年第四季度交易价格在43万元以上的二手房交易数量及所占比例,试在95%置信水平下估计这两个时期,交易价格在43万元以上的二手房交易所占比例的差值的置信区间。整理数据如下 :,两个总体比例之差的区间估计,已知 在95%置信水平下的置信区间为:即(38.5%,4.62%)。 结
9、果表明:当置信水平为95%时,两个年份价格在43万元以上的二手房交易所占比例的差异介于-38.50%到4.62%之间。本例中,所求置信区间包含0,说明我们没有足够的理由认为2008年第一季度与2007年第四季度价格在43万元以上的二手房交易所占比例存在显著差异。,总体方差的区间估计,1)假设 总体服从正态分布 2)用 分布,自由度为n-1 3)置信区间:,总体方差的区间估计,假定二手房的交易价格服从正态分布。试在95%的置信水平下估计二手房交易价格方差的置信区间,总体方差的区间估计,计算得 由a=0.05在95%置信水平下的置信区间为:即(191.99%,466.3);相应地,总体标准差的置信区间为(13.86,21.59)。 结果表明:当置信水平为95%时,2007年第四季度二手房交易价格的标准差介于13.86万元到21.59万元之间。,本章小结,参数估计的基本原理 点估计 区间估计,