1、周 圣 武,数理统计,Tel: 13852138385 E-mail: ,中国矿业大学 理学院,第二章 数理统计的基本概念,2.1 引言 2.2 总体、样本与统计模型 2.3 统计量和抽样分布 2.4 2分布、t分布和F分布 2.5 次序统计量 2.6 描述性统计分析总体特征的识别,2.1 引言,数理统计问题可以分为两大类:,如何科学地安排试验,以获取有效的随机数据。 描述统计学。 如:试验设计、抽样方法。 研究如何分析所获得的随机数据,对所研究的问题进行科学的、合理的估计和推断,尽可能地为采取一定的决策提供依据,作出精确而可靠的结论. 推断统计学。如:参数估计、假设检验等。,2.1 引言,应
2、用数理统计方法解决实际问题的基本步骤: (1)确定研究对象、研究目的; (2)数据收集与整理; (3)数据分析; (4)应用数据分析结果解决实际问题。,2.2总体、样本与统计模型,1.总体,研究对象的某项数量指标值的全体称为总体。,总体中每个研究对象(元素)称为样本。,例如:咱们班男生的身高;人的体温;徐州地区下个月的气温;徐州地区下个月的降雨量;,总体,有限总体,无限总体,总体可以用一个随机变量 X 及其分布来描述。,此总体就可以用随机变量X或其分布函数,例如,研究某批灯泡的寿命时,,这批灯泡中每个,灯泡的寿命是我们所关心的指标.,表示.,2.样本,样本:在总体中抽取的部分个体。,样本容量:
3、样本中所含个体的数目n。,定义 为了准确地进行判断,对抽样有所要求:, 代表性:样本的每个分量,与总体X 有相同的,分布函数;, 独立性:,为相互独立的随机变量,,满足以上条件的样本,称为来自总体,X 的容量为n 的一个简单随机样本(简称样本)。,样本的一次具体实现,称为样本值。,联合分布函数为,联合概率密度为,2.3 统计量和抽样分布,定义1 设,是来自总体X 的一个样本,,为一实值连续函数,,其不包含任何,未知参数,则称,为一个统计量。,为,的观测值。,注:,仍为随机变量。,是一个数。,例如 总体,是一个样本,,则,均为统计量。,均不是统计量。,均为统计量。,几个常用的统计量,1.样本均值
4、,2.样本方差,设,是来自总体X 的一个样本,,3. 样本标准差,4.样本k 阶原点矩,5.样本k 阶中心矩,它们的观察值分别为:,其样本为,例2 设总体X 服从参数为的 泊松分布,X的样本为,求,例1 设总体X 的数学期望和方差分别为,是来自总体,例3,设,的一样本,总,体,的,阶矩,存在,证明,(1),(2),证,由辛钦大数定律,知,2.4 几个常用的分布,记为,定义 设,相互独立, 都服从正态,分布N (0,1), 则称随机变量,所服从的分布为自由度为 n 的,分布.,分布,1.,分布的概率密度为,其中伽玛函数,定理1,证明 当x0时,依定义有,作球坐标变换,其中,该变换的Jacobi行
5、列式为,其中,是,的函数,与r无关,其中,由,得,显然,当x0时,,所以的概率密度为,相互独立, 都服从标准正态,证明,例1 设,分布,证明 因为,所以,又 X1, X2 , , Xn 相互独立,,也相互独立。,且 X1,X2 相,这个性质叫 分布的可加性。,(1) 设,互独立,则,分布的性质,E(X)=n, D(X)=2n,(2) 若,证明,则,所以,则,c 2 分布的分位点,称满足条件,分位点.,为,分布的上,的点,对于给定的正数,记作 Tt (n)。,所服从的分布为自由度为 n 的 t 分布.,设XN(0,1) ,Y,则称变量, 且X与Y相互独立,,2. t 分布,t 分布的概率密度为,
6、(1)设Tt(n),则,(2)t 分布的概率密度关于x = 0 对称,t 分布的 性质,E(T) = 0, D(T) = n / (n-2), n 2,当 n 充分大时,其图形类似于标准正态分布,概率密度的图形。,但对于较小的 n,t 分布与N (0,1) 分布相差,很大。,(3) t 分布的分位点,对于给定的正数,,称满足条件,分位点。,为,分布的上,的点,设,X与Y相互独立,则称,服从自由度为,3.F 分布,n1及 n2 的F分布,,记作 F F ( n1,n2)。,(2) 若X F(n1,n2),则,n2 2,(1) 由定义可知,, F(n2,n1),性质,n2 4,(3) F 分布的分
7、位点,对于给定的正数,称满足条件,分位点.,分布的上,的点,为,证明: 设,由定义,又因为,故,例1 设总体X , Y 相互独立,其样本为,试求统计量,服从什么分布?,解 由已知得,所以,例2 设总体X 服从正态分布,,其样本为,解 由已知得,所以,故,例3 已知总体X 服从自由度为n 的 t 分布,求证:,解 由已知得,其中,故,所以,还能得,2.5 正态总体的统计量的分布,1. 单个正态总体的统计量的分布,定理 1,设 X1, X2 , , Xn 是取自正态总体,的样本,,分别为样本均值和样本方差,则有,相互独立,定理2 设总体X 服从正态分布,是X 的样本,,分别为样本均值和样本方差,则
8、有,证明 因为,是样本,的线性组,合,故,,标准化后可得,又因为,相互独立,所以,也相互独立,则由t 分布的定义得,2. 两个正态总体的统计量的分布,定理 3,设 X1, X2 , , Xn1 与Y1, Y2 , , Yn2分别是来自,正态总体,的样本,并且这两个样,本相互独立,记,则有, 当,时,其中,例4 设总体X 服从正态分布,,其样本为,解 由已知得,,得,例5 设总体X 服从正态分布,,其样本为,解 由已知得,查表,例6 设总体X 服从正态分布,,其样本为,解 因为,例7 设总体X 服从正态分布,,其样本为,解 由已知得,所以,标准化得,又因为,故,例8 设总体X , Y 相互独立,
9、其样本为,试求以下概率,解 由已知得,则,所以,例9,一个样本,求,(1),(2),由定理 2 知,解,例9,一个样本,求,(1),(2),查表可得,2.5 次序统计量,称为样本,的次序统计量.,特别地,,注,说明:,定理1 设 独立同分布,,为其次序统计量,则,若F(x)具有概率密度f(x),则 X(k)的概率密度为,例,解,样本的分布,1)样本的频数分布,将n个样本值,按从小到大排列,把相同,的数合并,并指出其频数(样本中各数出现的次数),2)样本的经验分布函数,样本值,样本值小于或等于x的个数,作,样本的经验分布函数,给出了在n次独立重复试验中,事件,出现的频率,具有分布函数的一切性质。
10、如:,非降,右连续;,由频数分布知,若样本为n维r.v,那么对于每一样本值,就可作一个经验分布函数,故,是随机变量,-n次独立重复试验中,事件,发生的频率。,由伯努利大数定律,,这就是我们可以由样本推断总体的基本理论依据.,格列汶科进一步证明了:当n时,Fn(x)以概率1关于x一致收敛于F(x),即,这就是著名的格列汶科定理.,定理告诉我们,当样本容量n足够大时,对所有的x, Fn(x)与F(x)之差的绝对值都很小,这件事发生的概率为1.,2.6 描述性统计分析总体特征的识别,2.6.1 描述统计量,1、中心位置的描述,2、变异性的描述,3、样本偏度系数和峰度系数,所谓描述性统计分析,就是对一
11、组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征。 描述性统计分析的项目很多,常用的如 平均数、标准差、中位数、极差、偏态程度 等等。这些分析是复杂统计分析的基础。,数据分布的特征,数据分布特征的测度,1.中心位置的描述,(1)分类数据:众数 (2)顺序数据:中位数和分位数 (3)数值型数据:均值 (4)众数、中位数和均值的比较,(1)众数(mode),出现次数最多的变量值 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,众数 (不唯一性),无众数 原始数据: 10 5 9 12 6 8,一个众数 原始数据: 6
12、5 9 8 5 5,多于一个众数 原始数据: 25 28 28 36 42 42,(2)中位数(median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,样本中位数,定义,其观测值为,(3)数值型数据的中位数 (9个数据的算例),【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位
13、数 1080,(4)数值型数据的中位数 (10个数据的算例),【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,(5)四分位数(quartile),排序后处于25%和75%位置上的值,不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,数值型数据的四分位数(9个数据的算例),【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850
14、960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,数值型数据的四分位数 (10个数据的算例),【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,均值(mean),集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据,简单均值与加权均值,设一组数据为: x1 ,x2 , ,xn 各组的组中值为:M1 ,M2 , ,Mk 相应的频数
15、为: f1 , f2 , ,fk,简单均值,加权均值,已改至此!,加权均值 (例题分析),加权均值 (权数对均值的影响),甲乙两组各有10名学生,他们的考试成绩及其分布数据如下甲组: 考试成绩(x ): 0 20 100人数分布(f ):1 1 8乙组: 考试成绩(x): 0 20 100人数分布(f ):8 1 1,均值 (数学性质),1. 各变量值与均值的离差之和等于零,2. 各变量值与均值的离差平方和最小,2、变异性的描述,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,四分位差 (q
16、uartile deviation),对顺序数据离散程度的测度 也称为内距或四分间距 上四分位数与下四分位数之差QD = QU QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性,极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,方差和标准差 (variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,样
17、本方差和标准差 (simple variance and standard deviation),方差的计算公式,标准差的计算公式,3、 样本偏度系数和峰度系数,偏度系数定义为,峰度系数定义为,峰度系数主要用来反映分布的偏倚性.对于所有3阶矩存在的对称分布,偏度系数为0.偏度系数和峰度系数常用来衡量分布与正态分布的差异.正态分布的峰度系数都是0.,样本偏度系数和峰度系数分别定义为,偏度(skewness),统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度偏度系数=0为对称分布偏度系数 0为右偏分布偏度系数 0为左偏分布,偏态与峰态 (从直方图上观察),按销售量分组(台),结论
18、:1. 为右偏分布2. 峰态适中,某电脑公司销售量分布的直方图,峰度(kurtosis),统计学家Pearson于1905年首次提出 数据分布扁平程度的测度 峰度系数=0扁平峰度适中 峰度系数0为尖峰分布,偏态,峰态,2.6.2 总体特征的样本表现,1、总体分布的常见形态,2、直方图,3、茎叶图,4、箱线图,众数、中位数和均值的关系,1、总体分布的常见形态,2、 直方图(histogram)直方图是利用观测样本对一元总体(即单个变量)的常用描述方法。当样本比较大时,我们可以把变量的取值范围划分成若干个区间,计算观测值中落入每个区间的频率列成表格并画出直方图,用来推测总体分布的形。具体步骤参见书
19、本例2.6.3。,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布。 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。 直方图下的总面积等于1。,分组数据的图示 (直方图的绘制),分组数据的图示 (折线图的绘制),折线图与直方图 下的面积相等!,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,3、茎叶图(stem-and-leaf display),用于显示未分组的原始数据的分布 由“茎”和“叶”两部分构成,其图形是由数字组成的 以该组数据的高
20、位数值作树茎,低位数字作树叶 树叶上只保留一位数字 对于n(20 n 300)个数据,茎叶图最大行数不超过L = 10 lg(n) 6. 茎叶图类似于横置的直方图,但又有区别 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,茎叶图(例题分析),3、箱线图(box plot),用于显示未分组的原始数据的分布 箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成 其绘制方法是: 首先找出一组数据的5个特征值,即最大值、最小值、中位数Me 和两个四分位数(下四分位数QL和上四分位数QU) 连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接,单批数据箱线图 (箱线图的构成),分布的形状与箱线图,不同分布的箱线图,