1、第六章 数理统计的基本知识,数理统计是以概率论为基础,根据试验或观察得到的数据,来研究随机现象通过统计分析,对研究对象的客观规律性作出合理的估计和推断,第一节 总体与样本,在一个统计问题中,我们把所研究对象的全体称为一个总体总体中的每个元素(即每一个研究对象)称为个体若总体中包含有限个个体,则称这个总体为有限总体,否则称为无限总体,总体中所包含的个体总数称为总体容量,在统计问题中,人们所关心的往往不是总体的一切方面,而是它的某一项数量指标X因此,我们把这个数量指标X所有可能取值的全体就作为总体看待,称为总体X,X是一个随机变量我们要根据试验或观察得到的数据来得到X的概率分布和数字特征,分别称为
2、总体的分布和数字特征,如果总体 X 的分布函数为F(x),则 X 的样本 X1,X2,Xn 的联合分布函数为 . 如果总体 X 为连续型且概率密度为 f(x),则样本(X1,X2,Xn)的联合概率密度为 ,第二节 统计量及其分布,一、统计量,样本是总体的代表,是统计推断的依据在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的函数,来进行统计推断,定义1 设(X1,X2,Xn)是来自总体 X 的一个样本,t = g(t1, t2, tn) 为t1, t2, , tn的一个单值实函数,并且其中不包含任何未知参数,则称 T = g(X1, X2, , Xn)为一个统计量设 x1, x2
3、, xn 是相应于样本 X1, X2, ,Xn 的样本值,则称 g(x1,x2,, xn)是统计量T = g(X1,X2,Xn)的观察值,二、样本矩,下面给出几个常用的统计量设(X1,X2,Xn)是来自总体 X 的一个样本,(x1,x2,xn)是样本观察值,定义:样本均值 ,样本分差 .样本标准差(均方差) ,样本k阶(原点)矩 (k=1,2, ) . 样本k阶中心矩 (k=1,2, ) .,显然 , ,它们的观察值分别为,三、顺序统计量,定义2 (X1,X2,Xn)是总体X的一个样本,(x1,x2,xn)是一个样本观察值,将它由小到大的顺序排列,得到x(1)x(2)x(n) ,取x(i)作为
4、X(i)的观测值,由此得到的统计量X(1),X(2),X(n)称为样本(X1,X2,Xn)的一组顺序统计量,X(i)称为第i个顺序统计量或第i项统计量Rn = x(n)x(1) 分别称为样本中位数和样本极差样本均值、顺序统计量的首项及末项、样本中位数描述了样本在数轴上的大致位置;样本方差与样本极差描述了样本的分散程度,第三节 样本分布函数与频率直方图,一、样本分布函数,样本能够反映总体X的信息,总体X的分布函数F(x)是否能由样本来“表示”?回答是肯定的,我们用下面介绍的样本函数来近似表示总体X的分布函数,样本分布函数Fn(x)具有以下性质:10Fn(x)1;2Fn(x)是单调不减函数;3Fn
5、(x)是处处右连续的,对于样本观察值 (x1,x2,xn),为了求其对应的样本分布函数 Fn(x) 之值,只须将这 n 个值中小于或等 x 的个数除以样本容量 n 即可对于给定的x,Fn(x)是 n 次重复独立试验中事件 Xx 出现的频率,而理论分布函数F(x)是事件Xx发生的概率,由伯努利定理知,对任意给定的正数,有, 即Fn(x)按概率收敛于F(x)进一步还有如下结论,定理 (格利文科(W. Glivenko)定理) 设总体X的分布函数为F(x), 样本分布函数Fn(x),则对于任何实数x,有证明从略以上结论是我们用样本去推断总体的依据,二、频率直方图,如果说样本分布函数是通过随机样本对总
6、体分布函数的反映,那么下面介绍的频率直方图就是样本对总体概率密度函数的反映(假设总体是连续随机变量),依据总体 X 的一个样本观察值(x1,x2,xn)画直方图的一般步骤如下:1找出x1,x2,xn中的最小值x(1)与最大值x(n)2选择常数a、b(ax(1),bx(n),在区间a,b内插入k1个分点; a=t0100时,取 k 为1015通常取 ti 比样本观察值精度高一位,3对于每个小区间(ti-1,ti,数出x1,x2,xn落入其中的个数 ni (称为频数),再算出频率,i=1, 2, , k4在 xOy 平面上, 对每个 i, 画出以(ti-1,ti 为底,以 yi=fi /t (i=
7、1,2,k) 为高的矩形这种图称为频率直方图,简称直方图,直方图中第 i 个小矩形面积 yit=fi (i=1,2,k),k 个小矩形的面积之和为1由于样本观察值的 n 个数值 x1,x2,xn是从总体X 中独立抽取的,它们落入区间 (ti-1,ti 的频率 fi 近似等于随机变量 X 在该区间内取值的概率,即 fiPti-1Xti=pi,i=1,2,k, 当 X 是连续随机变量,且概率密度为 f (x) 时,则有,i=1,2,k 由此可见直方图在一定程度上反映了X 的概率密度情况,第四节 几个常用统计量的分布,统计量是样本的函数,它是一个随机变量, 下面介绍来自正态总体的几个常用统计量的分布
8、,一、 分布,2 (n)分布的概率密度(不证): 其中 为 函数 在 处的函数值,二、t 分布(学生分布),1定义 设XN (0,1),Y (n),且 X 与Y 独立,则称随机变量 服从自由度为 n 的 t 分布,记作 t t (n),2t (n)分布的概率密度(不证):,3性质:t (n) 分布的概率密度关于 y 轴对称,且,4t (n) 分布的上 分位点:设 t t (n),对于给定正数 ,称满足条件 的点 为 t (n) 分布的上 分位点,且有,三、F分布,2F(m,n)分布的概率密度为,4F (m, n) 分布的上 分位点:设 FF(m, n),对于给定正数 ,称满足条件 的点 为F(
9、m, n)分布的上 分位点,且有,第五节 正态总体统计量的分布,本节介绍来自正态总体的样本均值与样本方差的抽样分布这是参数估计与假设检验的基础,定理1 设 为来自总体 X 的样本,则,,定理2 ,定理3 设X1,X2,Xn是正态总体 的一个样本,则样本均值 与样本方差 S 2 相互独立,且有,定理4 设X1,X2,Xn是正态总体 的样本, 与S 2分别为样本均值与样本方差, 则有,证 由 , 则有,定理5 设总体 ,总体 ,且 X 与 Y 独立X1,X2,与Y1,Y2,分别为来自总体 X 与总体 Y 的样本,且这两组样本相互独立,则有,.,(ii) 若 ,则, 其中 ,(iii) ,(iv) ,证 (i) 略,解 . 由 ,即 ,得所求概率为,例1 从总体 N ( 52,6.32 ) 中随机抽取一容量为 36 的样本,求样本均值 落在 50.8 到 53.8 之间的概率,例2 设 X1,X2,X10 为总体 N (0,0.09)的一个样本,求 ,例3 设总体 , 样本 X1, X2, ,X6,设 Y = ( X1+X2+X3 )2 + ( X4+X5+X6 )2,求C, 使CY 服从 分布,并求自由度,