1、1,正态分布 T分布,生物统计学,2,正态分布,3,样本有几个特别重要的数字特征,这些数字是描述样本频率分布特征的,称之为样本特征数 而在生物统计学中,样本特征数使用频繁的有以下几个1.算术平均数,简称平均数( )。,4,2.样本方差:样本中各数据与样本平均数的差的平方和的平均数。3.样本标准差:样本方差的算术平方根做。,5,样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。 方差和标准差是测算离散趋势最重要、最常用的指标。,6,正态分布的概念 如果把数值变量资料编制频数表后绘制频数分布图(又称直方图,它用矩形面积表示数值变量资料的频数分布,每条
2、直条的宽表示组距,直条的面积表示频数(或频率)大小,直条与直条之间不留空隙。),若频数分布呈现中间为最多,左右两侧基本对称,越靠近中间频数越多,离中间越远,频数越少,形成一个中间频数多,两侧频数逐渐减少且基本对称的分布,那我们一般认为该数值 变量服从或近似服从 数学上的正态分布。,7,当n,直方条面积(频率)各自的概率 然后组距时,直方条的宽度,直方条垂直线,各个直方条顶点间的连线构成一条光滑的曲线,即:概率密度曲线,而曲线下(直方条)的总面积始终为,在区间a,b的概率对应曲线段下的面积(直方条面积) 。,8,正态分布的概念,9,正态曲线的定义:,函数,称f( x)的图象称为正态曲线 式中:=
3、 3.1416 e= 2.71828 x-表示变量 -表示理论平均数 -表示总体标准差 2表示总体方差 这个公式表示x变量区间内发生的概率,10,如果变量X的概率密度函数服从上述函数,则称该变量服从正态分布。记做,11,在不变的情况下 函数曲线形状不变,若变大时,曲线位置向右移; 若变小时,曲线位置向左移,故称为位置参数。,12,在不变的情况下 函数曲线位置不变,若变大时,曲线形状变的越来越“胖”和“矮”; 若变小时,曲线形状变的越来越“瘦”和“高”,故称为形态参数或变异度参数。,13,正态曲线的性质,(1)曲线在x轴的上方,与x轴不相交. (2)曲线是单峰的,它关于直线x=对称. (3)曲线
4、在x=处达到峰值(最高点) (4)曲线与x轴之间的面积为1 (5)当 x时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近.(6)当一定时,曲线的形状由确定 .越大,曲线越“矮胖”,表示总体的分布越分散;越小,曲线越“瘦高”,表示总体的分布越集中.,14,而整个正态分布则应该是各区间密度函数的累计积分. 一种连续的分布不可能求某项(某点)的概率,而只能求某个区间的概率. 任意两点x1,x2且(x1x2),X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积,15,标准正态分布,正态分布由和所决定,不同的、值就决定了不同的正态分布密度函数,因
5、此在实际计算中很不方便的。需将一般的N(,2 )转换为=0, 2 =1的正态分布。我们称=0, 2 =1的正态分布为标准正态分布(standard normal distribution),就是由正态分布密度函数,得到标准正态分布密度函数:,16,由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,最好的解决办法:将正态分布转化为标准正态分布,然后根据标准正态分布表直接查出概率值。 对于服从任意正态分布N(,2)的随机变量,欲求其在某个区间的取值概率,需先将它标准化为标准正态分布N(0,1)的随机变量,然后查表即可。,17,正态分布转化为标准正态分布可以将x作一变换,令,u称为标准正态变
6、量或标准正态离差,服从标准正态分布的随机变量,这个变换称为标准化或u变换,由于x是随机变量,因此u也是随机变量,所得到的随机变量U也服从正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为u分布。,18,变换后的正态分布密度函数为:,标准正态分布均具有=0,2=1的特性,如果随机变量u服从标准正态分布,可记为:uN(0,1),19,标准正态函数,20,事实上,上面的计算已经制成了表格,只要知道了平均数和标准差即可查出相应的区间概率.,21,特殊区间的概率:,若XN ,则对于任何实数a0,概率为如图中的阴影部分的面积,对于固定的 和 而言,该面积随着 的减少而变大。这说
7、明 越小, 落在区间 的概率越大,即X集中在 周围概率越大。,特别地有,22,我们从上图看到,正态总体在 以外取值的概率只有4.6,在 以外取值的概率只有0.3 。,由于这些概率值很小(一般不超过5 ),通常称这些情况发生为小概率事件。,23,T分布 几个重要概念,从一个正态总体中抽取的样本统计量的分布样本平均数 和样本方差S2是描述样本特征的两个最重要的统计量,如果原总体的平均数为,标准差为,那么样本平均数抽样总体:,平均数为:,标准差为:,为样本平均数抽样总体的标准误差简称为标准误,标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的离散程度。,24,经计算得出两个重要结论,
8、抽样的样本平均数的平均数等于总体平均数,即,抽样的抽样平均数的标准差等于总体标准差除以样本单位数的平方根。即,25,4. t-分布(不要求),设有服从正态分布的随机变量x,正态分布的标准化公式为:,对于总体方差2已知的总体,根据公式可以知道样本平均数在某一区间内出现的概率,公式为:,附:,服从标准正态分布,26,假如2未知,而且样本容量又比较小(n30)时:,标准化公式可变换为:,它不再服从标准正态分布,T分布类似于正态分布,也是一种对称分布,它只有一个参数,就是自由度 所谓自由度是指独立观测值的个数,应为计算标准差时所使用的n个观测值,受到平均数x的约束,这就等于有一个观测值不能独立取值,因
9、此自由度为df=n-1,服从具有n-1自由度t-分布,27,T分布的密度函数为:,T分布的计算已列成表格,应用时可根据需要由t值,自由度查概率;也可以由概率,自由度查t值.,28,t 分布的双侧分位点,假定 X t (n) , 给定:0 1 , 如果一个数 c 满足:P | X | c = ,,则称这个数 c 是自由度n 的 t 分布的双侧 分位点 (数) ,记成 t / 2 (n) 。,对称分布的双侧 分位点就是上侧 /2 分位点,29,标准正态分布 N (0,1 ) 的双侧 分位点,记为 : u / 2,如:双侧 0.05 分位点 u0.025 = 1.96,30,t-分布的特点,(1)t分布为对称分布,关于t = 0对称;只有一个峰,峰值在t = 0处;与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平,(2)t分布曲线受自由度df 的影响,自由度越小,离散程度越大,(3) t分布的极限是正态分布。df越大,t分布越趋近标准正态分布,当n 30时,t分布与标准正态分布的区别很小;n 100时,t分布基本与标准正态分布相同;n时,t 分布与标准正态分布完全一致,