1、统计推论:就是根据局部资料(样本统计量),对总体参数值进行推断。,统计推论具有两方面的特点:1、由于样本资料来源于总体,因此,样本资料的特性在某种程度上能反映总体的特性。2、由于社会资料的随机性,抽样的结果不是唯一的,一次抽样结果不一定恰好就等于总体的结果,而且当总体参数未知时,即便等于,我们也不知道。,统计推论,统计推论所要介绍的是如何正确处理样本和总体之间的数量关系,从而的实现从样本正确推论到总体。统计推论的理论基础是概率论。,统计推论可分为两大类:,1、参数估计,即通过样本统计量对总体未知的参数值进行估计。2、假设检验,即通过样本统计量对总体参数值的某种假设进行检验。,参数估计与假设检验
2、在逻辑上的区别,参数估计是先看样本的情况,再问总体的情况。假设检验则是先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。即要先构思总体情况,才进行抽样和分析样本的资料。,第四章 参数估计,参数估计有两种做法,一是点值估计(或称点估计:point estimation)二是区间估计(或称间距估计:interval estimation)二者都要求样本是以随机方法抽取的。,第一节,参数值的点值估计,点值估计:根据样本资料,以一个最适当的样本统计量来代表总体参数值。优缺点:简单明确,但不能说明估计结果的抽样误差e和把握程度1-。点值估计是区间估计的基础。,一、点值估计的基本含义,总体
3、参数的点估计公式,1样本均值2样本方差3样本成数 即用样本的 作为总体的参数的点估计值。,例1. 根据抽样调查,以下是8名同学“社会统计学”考试得分,求:总体的均值、方差、标准差的点估计值。,解:,根据抽样调查,可以求出样本,例2:,工会为了解春游期间需租用几辆公共汽车,在全厂10000名职工中进行了共100人的简单随机抽样调查。统计结果,其中有20名愿意外出春游。设每辆可载乘客50名,问估计要预备多少辆公共汽车?,解:根据抽样调查愿意外出春游的样本成数为:,我们可以用P作为愿意外出春游总体成数P的点估计,因此,全厂估计将有:100000.2=2000人参加春游,又因每辆公共汽车可容乘客50人
4、,因此有:2000/ 50=40辆,即估计预租40辆公共汽车,可满足全厂春游的需要。,回答问题:第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数?,第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?,估计值的衡量标准:无偏性、有效性、一致性,二、衡量点估计值好坏的标准,设为待估计的总体参数,为样本统计量,则的优良标准为:,若,则称为比更有效的估计量(有效性),若,则称为的无偏估计量(无偏性),若越大越小,则称为 的一致估计量(一致性),为的无偏、有效、一致估计量; 为的无偏、有效、一致估计量; 为的无偏、有效、一致估计量。,从估计
5、值的优良标准看点估计,第二节小样本正态总体的区间估计,一、有关区间估计的几个概念,1.区间估计:就是以两个数值之间的间距来估计参数值。 2.置信区间(可信间距):两个数值之间的间距,称为置信区间。 例:我们用Q作为未知参数Q的估计值,那么区间为 区间的大小,反映了估计值的准确性,置信度(可信度)或称作置信概率或置信系数,它表示用置信区间估计的可靠性,即置信区间内包含参数Q的概率。即: 显著性水平,它表示用置信区间估计不可靠的概率。置信度1-与显著性水平之和为1。,3、置信度与显著性水平,置位区间与置信度之间的关系,在样本容量n一定情况下,置信区间和置信度是相互制约的。 置信度愈大(即估计的可靠
6、性愈大),则相应的置信区间也愈宽(估计的值愈不精确)。精确性越高,置信区间愈窄,置信度愈小。,二、正态总体的均值的区间估计,如果总体分布满足N(,2 ),根据方差是否已知分为以下两种情况: 1总体方差( 2 )为已知 x N(,2/n ) 根据抽样分布的讨论,样本均值的标准分满足标准正态分布:,对于的双侧置信区间为:,置信度1- /2 /2 -Z/2 x Z/2,有:,当置信度为1-=0.95时,置信区间为: 当置信度为1-=0.99时,置信区间为,0.6827,区间估计原理,落在范围内的概率为68.27%,0.9545,区间估计原理,落在范围内的概率为95.45%,0.9973,区间估计原理
7、,落在范围内的概率为99.73%,计算样本统计量,计算标准误差,计算抽样误差,确定置信区间,(以估计 为例):,区间估计步骤,SE,E,例:某工厂妇女从事家务劳动时间服从正态分布N(,0.662),根据36人的随机抽样调查,每天平均从事家务劳动时间为x=2.65小时,求的双侧量信区间(置信度1-=0.95)。,解:,2总体方差(2 )未知,当总体满足正态分布,但2 未知的情况,统计量的标准分满足自由度为K=n-1的t分布,有,t=(n-1) /2 /2,x,例:设某社区受教育程度服从正态分布N(, 2), 2 未知,根据25人的随机抽样调查,平均受教育年限和标准差S分别为11.5年和3.6年。
8、求的双侧置信区间(1-=0.99)。,第三节,大样本区间估计(n50),一、大样本总体均值的区间估计,式中: X为样本均值1-为置信度 为显著性水平 s 为的点估计值, 未知时,用s代替,为正态分布双侧区间的分位点,x,大样本区间估计注意:,不要求总体为正态分布。不要求总体方差 2 (或)为已知量,由于样本容量n50,无论用或S,其分布都将是正态分布。,由532名商业周刊订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95置信区间。,则:该置信区间为:,均值的区间估计举例,例:设某区受教育程度的总体分布,方
9、差均未知,现进行了50人的抽样调查,得知均值=11.5,S=3.6。,求置信度为0.99的双侧置信区间。解:依题意,总体分布形式未知,但样本容量n=50,所以可采用大样本区间估计公式,置信度1-=0.99,查表得有,二、大样本总体成数P的区间估计,(一)总体成数P的点值估计 如果在样本容量为n的简单随机抽样中,对于所需研究的A共出现m次,则样本成数: =m/n,(二)大样本总体成数P的区间估计,例:设根据某地100户的随机抽查,其中有60户拥有电脑,求该地拥有电脑成数P的置信区间(置信度为0.95),得 所以该地拥有电脑成数P的置信区间(1-=0.95)为0.504, 0.696 结论:根据抽
10、样调查,该地拥有电脑的居民所占比例在0.504到0.696之间,这个估计的把握程度为95%。,第四节,必要抽样数目的 确定,样本容量,调查误差,调查费用,小样本容量节省费用但调查误差大,大样本容量调查误差小但费用较大,找出在规定误差范围内的最小样本容量,找出在限定费用范围内的最大样本容量,确定样本容量的意义,确定样本容量的准则,1.在能够付出的研究代价(人力、资金、时间等)限度内,选取最大的样本。2.需参考的统计公式:允许误差为多大?允许误差e愈小,要求样本愈大。研究个案之间的相互差异有多大?如果研究的个案之间的差异愈大,则样本就要愈大。置信度1-抽样方式(简单随机/机械 重复/不重复),确定
11、样本容量的准则,3.一份问卷包含若干变量,根据不同变量计算出得样本容量不相同取最大的样本容量取最主要的变量作为n的依据,一、均值估计必要抽样数目的确定,2不重复抽样,通常的做法是先确定置信度,然后确定抽样允许误差。, 或 S 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的S; b 试验调查样本的S。,计算结果通常向上进位,估计均值时的样本容量(以重复抽样为例),E,E,例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样允许误差分别不超过500元和100元,样本容量应为多少?,例:某单位共有职工4810人,
12、为了有95%的可靠性使非重复抽样的平均数,其误差不超过5元,求样本容量(已知 =18.7元),二、成数估计必要抽样数目的确定,2.不重复抽样,通常的做法是先确定置信度,然后确定抽样允许误差。,P 或 p 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的p; b 试验调查样本的p ; c 取p=0.5,p*(1-p)max=0.25。,计算结果通常向上进位,估计成数时的样本容量(以重复抽样为例),某网站一个由400名使用者组成的样本表明,该网站的使用者中26的使用者为女性。在95的置信度下,若希望将抽样极限误差控制在3,则样本容量应当为:,估计成数时的样本容量计算,例:调查一批机械零件的合格比率,依据过去资料,合格率曾有过99%,97%和95%三种情况 ,现要求允许误差不超过1%,要求推行把握程度为95%,问需抽查多少零件?,复习P465,1、某学校准备采用抽样调查了解学生平均每周用于文体活动的时间。置信度为99%,允许误差要求控制在1(小时)之内,求所需的样本容量?(已知=5小时)2、电视台为了解戏曲节目的收看率,拟进行一次抽样调查。根据50户的试调查,收看率为68%。现要求抽样调查的结果,误差不超过5%,置信度为0.95,求所需的样本容量?,