1、第二章 概率分布与t检验,2-1 理论分布2-2 样本平均数的抽样分布2-3 统计假设检验概述,2-1 理论分布,1、事件与概率1.1 事件 随机事件的特点: 在一定的条件下,有多种可能的结果发生,事前人们不能预言哪种结果; 对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性; 但在相同条件下进行大量重复试验时,其试验结果呈现出某种固有的规律性频率,即随机事件的统计规律性。,(1) 必然事件:(2) 不可能事件:(3) 随机事件:,例如,种子的发芽率试验,少量的种籽作试验时,其发芽率可能是85%、95%,但当进行重复大量样本的试验时,其发芽率越来越接近90%,这90%实际上是这批种籽的
2、发芽率或称为概率。,1.2 概 率,在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率m/n越来越稳定地接近某一数值p,那么就把P称为随机事件A的概率。,1.3 小概率事件原理,概率表示了随机事件在一次试验中出现的机率。若随机事件的概率很小,例如0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,实际上可以看成是不可能发生的。统计学上,把小概率事件在一次试验中看成是不可能发生的事件称为小概率事件原理。此原理是统计学上进行假设检验(
3、显著性检验)的基本依据。,1)连续型随机变量(如身高、体重、物质浓度)的概率分布,可用随机变量x在某个区间内取值的概率P(ax1), (df2) t分布的标准差与总体标准差没有关连。因此,特别适用于抽样误差大的小样本。,其特点是:1) t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。2) t分布密度曲线以纵轴左右对称,且在t0时,函数值最大。3) 与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。4) df越大,t分布越趋近于标准正态分布。当n30时,t分布与标准正态分布的区别很小;n100时,t分布基本与标准正态分布相同;,5) 当df一定时,概率
4、P越大,临界t值越小;概率P越小,临界t值越大。,图 2-13 t分布密度曲线,2-3 统计假设检验概述,1、显著性检验的基本原理1.1 概念1) 统计检验(统计推断):根据抽样分布规律和概率理论,由样本统计数去推断总体参数的方法。包括假设检验和参数估计2) 假设检验:根据某种实际需要,对未知或不完全知道的统计总体提出一些假设(这些假设构成完全事件),然后由样本的实际结果计算后,作出的在一定概率意义上应当接受的那种假设的检验。,如在白班生产的产品与晚班生产的产品,其质量的差异是由抽样误差产生的还是由生产工人产生的差异。 3)参数估计:由样本的统计数对总体的参数作出的点估计和区间估计。 4)点估
5、计:以统计数估计相应的总体参数。如由样本平均数估计总体平均数,由样本标准误估计总体标准误。 5)区间估计:根据统计数的概率分布,估计出相应的总体参数()的范围区间,1.2 显著性检验的意义,对两个样本进行比较时,判断样本间差异是抽样误差造成的,还是本质不同引起的。这正是显著性检验要解决的问题。由于总体平均数未知,在进行显著性检验时只能以样本平均数作为检验对象,更确切地说,是以两样本平均数的差数作为检验对象。,为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征:1)、离均差的平方和最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。2)、样本平均数是总体平均数的无偏估
6、计值。3)、根据统计学中心极限定理,样本平均数的分布服从或逼近正态分布。,1.3 统计假设检验的数学模型,对于两个不同处理的样本,其平均值表示为: 这说明两个样本平均数之差也包括了两部分:一部分是两个总体平均数的差( ),称 试 验 的 处 理 效 应(treatment effect);另一部分是试验误差( )。,2、显著性检验的基本步骤,(1)首先对试验样本所在的总体作假设I、无效假设(H0):假设总体平均数与某一指定值相等或假设两个总体参数相等,这种假设称为无效假设, 表示处理效应无效,是由误差造成的。II、备择假设(HA):备择假设是在无效假设被否定时准备接受的假设,与无效假设一起构成
7、完全事件。,(2)确定显著水平,一般为0.05或0.01的小概率。(3)在无效假设成立的前提下,根据统计数的抽样分布规律,计算无效假设正确的概率。 (4)根据“小概率事件不可能性原理”否定或接受无效假设 。若Pta ,则在a 水平上否定H0,接受HA;若Pa, 或|t| ta ,则在a水平上接受H0,表明是因误差而产生的。,【例2.1】 某矿泉水企业的自动装罐机,在正常工作状态时,每罐净容量具正态分布N(500,64)(单位:mL)。某日随机抽查了10瓶,得结果如下:505,512,497,493,508, 515,502,495,490,510,问瓶装机工作是否正常?解: 根据题意,本例应进
8、行双尾t检验。1) 提出无效假设与备择假设2) 计算t值经计算得:3) 查临界t值,作出统计推断 由df=9,查t值表(附表3)得 ,因为|t|0.05,故 , 即装罐机工作正常。,(1)两尾检验无效假设 备择假设 备择假设中包括了 或 两种可能。这个假设的目的在于判断两均值有无差异,而不考虑谁大谁小。在生产实践中,双尾检验不一定符合实际情况,常用一尾检验。如采用某种新的技术来提高某化工产品的质量,此种技术的实施不会降低质量。,3、两尾检验与单尾检验,(2)一尾检验即统计假设仅有一个否定区域的检验叫一尾检验。此时查一尾检验的临界t值。 无效假设应为:备择假设应为: ,即新配套技术的实施使质量有
9、所提高。这时的否定域在t分布曲线的右尾。反之,若无效假设 备择假设 此时的否定域在t分布曲线的左尾。 显然,单尾检验的 =双尾检验的,图2-3 两尾检验和一尾检验,选用单尾检验还是双尾检验,应根据专业知识及要求在试验设计时确定。一般若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差别,则选用双尾检验;若根据理论知识或实践经验判断,甲处理的效果不会比乙处理的效果差,分析的目的在于推断甲处理是否比乙处理好,则用单尾检验。,【例2.2】表2-6为随机抽取的秦冠和红富士苹果果实各11个的果肉硬度(磅/cm2,1磅=0.4526kg),问两品种的果肉硬度有无显著差异?表2-6 苹果果实的果肉硬度 (磅/cm2)解:此例经计算得1) 提出无效假设与备择假设 2) 计算t值,3) 查临界值,作出统计推断 当df=20时,查临界t值得: |t|0.05,4、显著性检验中应注意的问题,(1)为了保证试验结果的可靠性,要有严密、合理的试验设计或抽样设计,保证各样本是从相应同质总体中随机抽取的。 (2)选用的显著性检验方法应符合其应用条件。 (3)要正确理解差异显著或极显著的统计意义。 (4)合理建立统计假设,正确计算检验统计量。 (5)结论不能绝对化。,作 业,t分布有哪些基本特点?简述统计假设检验的基本步骤。统计假设检验中应注意哪些问题?,