1、第五节 正态分布 一、正态分布的意义 1、客观世界确有许多现象的数据是服从正态分布的,因此可以用来配合这些现象的样本分布从而发现这些现象的理论分布。 2、在适当的条件下,它可以用来作为二项分布及其它间断性随机变量或连续型随机变量的近似分布,这样就可以用正态分布替代其它分布以计算概率和进行假设测验。 3、虽然有些总体不做正态分布,但从总体中随机抽取的样本平均数及其它一些统计数的分布,在样本容量适当大时,仍然趋近于正态分布,因此可以用来研究这些统计数的抽样分布。,二、正态分布的密度函数和累积函数 1、密度函数和正态曲线对于平均数是,标准差是的正态分布,其密度函数为:,其中:- 0 。,正态分布密度
2、函数在直角坐标上的图象称正态曲线,x,决定正态曲线最高点横坐标的值,决定正态曲线最高点纵坐标的值和曲线的开张程度, 越小,曲线越陡峭,数据越整齐。 N( ,2 ),N(156,4.82),N(15,4),正态曲线有一组而不是一条,2、正态分布的累积函数,对于任何总体分布,随机变量X的值落入任意区间(a,b)的概率,为:,非标准正态分布:,三、标准正态分布 称=0,=1时的正态分布为标准正态分布,记为N(0,1)。 1、标准正态分布的密度函数和累积函数 密度函数:,其中:- u,累积函数:,标准正态分布的分布曲线,标准正态分布的累积分布曲线,u,2、标准正态分布的特性 在u=0时,(u)达到最大
3、值 当u不论向哪个方向远离0时,e的指数都变成一个绝对值值越来越大的负数,因此(u)的值都减小。 曲线以纵坐标为对称轴,即 (u)= (-u),2、标准正态分布的特性 曲线在 u=-1和u=1处有两个拐点 曲线和横轴所夹的面积为1 对于标准正态曲线的累积分布函数(u)的值,有编制好的数值表,从表中可以查出(u)的值。, 下列一些值很重要: P(-1 u 1)=0.6827, P( -2 u 2 )=0.9543, P(-3 u 3)=0.9973, P(-1.96 u 1.96)=0.9500, P(-2.576 u 2.576)=0.9900,四、正态分布表(累积函数表)的查法 1、标准正态
4、分布 随机变量落在某区间(a,b)内的概率,可以从标准正态分布表中查出。 附表 2 列出了对于 -2.99 U 2.99时的(u)的值。,附表2 正态分布表,查 P (u -1.23)=(-1.23)= 0.10935P (u 2.21) = (2.21)= 0.98645,2、利用下面的一些关系式,从附表2中可以查到一些常用的概率,b、P(Uu)= (-u),a、P(0Uu)= (u) -0.5,b、P(Uu) = 1- (u),c、P(| U| u)= 2 (-u),d、P(|U|u)= 1-2 (-u),e、P (u1Uu2) = (u2) - (u1),例:P(-0.82 U 1.15
5、)= (1.15) - (-0.82)= 0.87493 - 0.20611 = 0.66882,3、非标准正态分布: 常见的情形是 N(,2),为了能够使用正态分布表,可将N(,2)化成 N(0,1),再按上述方法从正态分布表中查取相应的数值。 化为标准正态分布的方法:令:,于是,X的累积函数:,例:已知“三尺三”高粱品种的株高分布服从正态分布 N(156.2,4.822)(cm),求 株高低于161cm的概率,株高高于164cm的概率和株高在152cm和162cm之间的概率? 解:已知株高X服从N(156.2,4.822),,当X161cm时,,标准正态离差,当X164cm时,,当152X
6、162时,,五、正态分布的分位数,1、单侧分位数,上侧分位数:,下侧分位数:,当,时的,当,时的,0.05,2、双侧分位数,时的,当,3、正态分布上侧分位数(u)表的查法:,u0.01 = 2.326 u0.05 / 2 = 1.960 u0.01/ 2 = 2.576,六、中心极限定理 假设被研究的随机变量X,可以表示为许多相互独立的随机变量Xi的和,那么,如果Xi的数量很大,而且每一个别的Xi对于X所起的作用很小,则可以被认为X服从或近似地服从正态分布。 生物界乃至整个自然界中,符合正态分布的现象非常之多,所以正态分布是生物统计学的基础。,复习思考题 什么是随机变量?举例说明随机变量的种类
7、? 举例说明如何利用随机变量表示一个事件?如何利用随机变量定义总体和样本? 为什么连续型随机变量取得某一具体观测值的概率是0? 离散型随机变量和连续型随机变量的累积函数有何区别? 累计函数和分布曲线的主要用途。 二项分布的应用前提和条件?泊松分布和二项分布概率函数的关系? 正态分布的意义和特点。 正态分布的密度函数和分布曲线的特点。 什么是正态分布的分位数?都有哪些种?,第六节 抽样分布 生物统计学最核心的问题就是研究总体和样本之间的关系问题,总体,样本,抽样,统计推断,从一个已知的总体中,独立随机地抽取含量为 n的样本,研究所得样本的各种统计量的概率分布,即为抽样分布。,一、从 一个正态总体
8、中抽取的样本统计量的分布 (一)、样本平均数的分布 1、标准差 已知时样本平均数的分布-u 分布 若随机变量X服从 N(,2),当我们以 n 为样本容量从 N(,2)中抽样,则以抽取的样本平均数 作为随机 变量时, 服从正态分布,且:,即:,将平均数标准化,则:,u 服从N(0,1),若X来自非正态总体,或有限总体,只要样本容量 n足够大,则从总体中抽取的样本平均数 依然 服从正态分布,且有:,将平均数标准化,则: ,,u服从N(0,1),即:,例:假如某总体由三个数字2、4、6组成,现在从该总体中做放回式抽样, 样本容量 样本 样本数n=1 2 4 6 31 平均数 2 4 6n=2 2 2
9、 ,2 4 ,4 2,2 6,6 2, 4 4, 4 6,6 4,6 6 32 平均数 2 3 3 4 4 4 5 5 6n=3 222,224,244,246,426,624,442,446,644,664,666, 33 平均数 2 2.67 3.33 4 4 4 3.33 4.67 4.67 5.33 6 n=4 34=81 n=5 35=243 n=6 36=729 n=8 38=6561 n=10 310=59049 n=20 5904959049,2、标准差未知时的样本平均数的分布-t 分布 若总体的方差是未知的,即标准差 未知,可以用样 本的标准差 s代替总体的标准差 ,则变量
10、变为,t,u 符合 N(0,1)分布, t 则不服从标准正态分布, 而是服从具有(n-1)自由度的 t 分布,其中,称为样本标准误差。,t 分布的密度函数 :,t 分布也是一种对称分布,它只有一个参量,即自由度,以 df 表示。 所谓自由度是指独立观察值的个数。 随着 df 的增加,t分布越来越接近于标准正态分布,df = 时 ,= 0, = 1,t分布与N(0,1)重合,因此,当n很大 时的t分布可以近似地按N(0,1)分布处理。,t 分布的分位数:,上侧分位数,下侧分位数,单侧分位数,双侧分位数:,t,-t, / 2, / 2,t,-t,t/2,t 分布的分位数表,查t 5, 0.05=2
11、.015 t 5, 0.05 / 2=2.571,(二)、样本方差的分布 从N(,2)中以 n 为样本容量进行抽样,抽取 的样本标准差 s ,为连续型随机变量,当我们以,称该随机变量为 s2 的 标准化 的随机变量,且该随机变量仍为连续型的随机变量。,作为一个新的随机变量时,,称上式为具有 n -1 自由度的卡方。,我们以 来命名新的随机变量,则有:,分布是概率分布曲线随自由度 df 而改变的一 类分布,它的密度函数为:,分布的分布曲线及分位数,分位数表的查法,二、从两个正态分布总体中抽取的样本统计量的分布 若有N1(1,12)和 N2( 2,22 ),从N1中以n1为样本容量进行抽样,并独立
12、地从 N2中以n2为样 本容量进行抽样,求出,研究 和 的分布,则依下列情形的不同而不同。,(一)、标准差 i 已知时,两个平均数的差的分布 -u 分布,若以 作为新的随机变量,则从统计学(随机 变量的数学期望)理论可以证明, 做正态分布, 且有:,即: 服从 N( ),现将 标准化 ,则标准化的随机变量 u 为:,(二)标准差 i 未知但相等时,两个平均数的差( ) 的分布-t 分布,若 = =,则用 和 代替 ,应以样本方差的加权 平均数来替代 ,即有:,此时的标准化随机变量,转化为:,t =,且有自由度 df=n1+n2-2 。,此时,有最小的抽样误差。,若 n1=n2=n ,则有:,(
13、三)两个样本方差比的分布F分布,从平均数和方差分别为(1,12)和(2,22)的两个正态 总体中,抽出含量分别为n1 和 n2 的样本,并分别求出它们的 样本方s12和s22,则标准化后的样本方差之比称为 F。 F为连续型随机变量:,F分布的分布曲线的形状是由一对自由度df1和df2决定的:df1=n1-1,df2=n2-1,1. F 分布的分布曲线,2. F 分布的分位数,若 P(Fdf1,df2 Fdf1,df2,)= , 称 Fdf1,df2, 为 的上侧分位数。 若 P( Fdf1,df2 Fdf1,df2,1- )=1- , 称 Fdf1,df2,1- 为 的下侧分位数。 上侧分位数
14、的表示方法:Fdf1,df2, 下侧分位数的表示方法:Fdf1,df2,1- 双侧分位数的表示方法:Fdf1,df2,1-/2 , Fdf1,df2,/2,若 P(F F)= , 称 F为 的上侧分位数。 若 P(F F1- )=1- , 称 F1- 为 的下侧分位数。 即:P(F F1- )= , 称 F1- 为 的下侧分位数。,辨误!,下侧分位数的换算:,2. F上侧分位数表的查法:,F4,20,0.01 = 4.431 ,,F4,20,0.99 = 1/ F20,4,0.01 =1/14.02 =0.071,抽样分布 如何初步判断一个生物性状是否符合正态分布? 在一个正态总体中抽取的样本
15、平均数的分布,与 总体标准差有怎样的关系? 2 分位数和 F 分位数的下侧分位数表示方法为什 么与t分位数、u分位数的下侧分位数表示方法不同? 查找下列分位数:20.05,3;20.95,3;F4,20,0.05; F4,20,0.095;t20,0.05;t20,0.05/2;-t15,0.05;u0.05;u0.05/2; u0.01;u0.01/2,作业:P26 :1.1,P27: 1.3,P28:1.7,1.12。P41:2.13, 2.14, 2.15P59:3.4, 3.5,P60:3.14, 3.17,P41:2.13, 理论平均数(总体平均数) =500 0.1+750 0.4
16、+875 0.3 +1000.2=632.5方差:,P41: 2.14,略P41: 2.15 1、农场主期望的盈利=20000 0.6+(-12000 ) 0.4=7200(元) 2、农场主赔本的数学期望(理论平均数)=12000 0.4+0 0.6=4800(元) 保险费1000元,农场主是否买保险? 3、农场主买保险后期望的盈利= 20000 0.6 + 0 0.4 - 1000 = 11000(元),4、保险公司赔偿损失的数学期望=12000 0.4+0 0.6=4800 你认为保险公司收取的保险金是太多还是太少? 5、保险公司亏本的最主要的原因是什么? 6、航空保险费仅 20元/人次,为什么被指责为暴利产品?,P59:3.4, 解:二项分布问题,P59:3.5,,其他的思路?,P60:3.14 P(Xx)=0.95?,P60: 3.17,0.05,0.95,-u0.05,= -1.645,= -1.645x=?,查表写出下列分位数:,查表写出下列分位数:,查表写出下列分位数:,