1、数理统计,概率论基本知识点,重庆大学数统学院 李寒宇 240783951 13594230969,5、概率的运算性质: 1)不可能事件概率为零,即: ;,2)有限可加性: 互斥,3)设A为任一随机事件,则: ;,4)设A,B为任意两个随机事件,则:当 时 , ;,5)单调性:若 ,则 ;,6) ;,1、分布函数: 定义:设X为随机变量, 为任意实数,称函数 R 为随机变量X的分布函数。,性质:1)单调不减性:即 当时,有 ;2) ;3) 是右连续函数,即对于任意 的x,有 ;,2、分布列: 定义:设随机变量X的所有可能取值为且则称此数列为离散型随机变量的分布列。,性质1:,性质2:,性质3:
2、,分布列与分布函数之间的关系,3、密度函数:定义:如果存在一个非负可积函数 ,对任意实数x,有则称X为连续型随机变量,称 为X 的分布密度或密度函数。,性质1:性质2:性质3:,4、常见分布: 二项分布 :X的分布律:,线性可加性:若 , ,且相互独立,则:,2)Poisson分布XP():,4)均匀分布XUa,b:,5)指数分布X():,6)正态分布XN(,):,2,正态分布密度函数曲线,6.1)标准正态分布XN(0,1):,1、二维随机变量及其推广:,四、二维随机变量,1)二维随机变量的分布函数:,2)二维离散型随机变量的联合分布列 :,显然:,称:,为X 的边缘分布列;,为Y 的边缘分布
3、列;,3)二维连续型随机变量的联合密度函数:,为X 的边缘密度函数;,为Y 的边缘密度函数;,4)二维随机变量的独立性:,若对于任意的x,y,满足如下关系:,则可称随机变量X 与Y 相互独立。,判断独立性:,五、随机变量的数字特征:,1、一维随机变量的数学期望:,设离散型随机变量X 的分布列为:,如果级数 收敛,则称级数:,为离散型随机变量X 的数学期望。,函数变换的数学期望:,设连续型随机变量X 的密度函数为 ,若 收敛,则称:,为连续型随机变量X 的数学期望。,X是离散型:X是连续型,其密度函数是 :一般用如下公式:,2、方差:,3、数学期望和方差的性质:,1)c为常数,则 , ;,2)
4、,,3) ,,4)若X与Y独立,则:,常用分布的数字特征,4、二维随机变量的数学期望:(EX,EY),离散型,连续型,一般地,协方差、相关系数和矩:,(1)X 和Y 协方差:,协方差和相关系数的性质:,(2)X 和Y 相关系数:,(3)矩:,称为X 的k 阶原点矩;,称为X 的k 阶中心矩;,称为X,Y 的k+l 阶原点矩;,称为X,Y 的k+l阶中心混合矩;,数理统计,统 计 概 念,重庆大学数统学院 李寒宇 240783951 13594230969,6、样本分布的计算,1)、设总体X 的分布函数为 ,X1,X n 是来自总体X 的样本,则该样本的联合分布函数为:,2)、若总体X 是连续
5、型随机变量,且具有密度函数 , 则样本( X1,X n )的联合密度函数为 ,也称为概率分布。,3)、当总体X 是离散型随机变量,且具有分布列 时,,记:,* 故任意样本(X1,X n)的概率分布统一为:,则样本( X1,X n )的联合密度函数也为:,1)定义:设X1,X n为总体X 的一个样本, 为关于n维变量 的连续函数,且该函数中不含任何未知参数( 取定值时),则称 为统计量,很明显,统计量是一个随机变量。,7、统计量,2)常用的统计量:,样本均值:,样本方差:,样本k 阶原点矩:,样本k 阶中心矩:,样本标准差:,显然:,3)样本均值 有如下性质:,(1):,(2): 若总体的均值、
6、方差存在,且 ,则,(3): 当n时, 。,4)样本方差S2的性质:,(1) 如果 存在,则:,(2) 对任意实数a,有:,三、顺序统计量、经验分布函数 和直方图,定义:设(X1,X n) 为总体X 的样本, 是样本观测值,将样本值从小到大排列:。定义随机变量 的取值为 ,则称 为 的顺序统计量,且称 为最小统计量, 为最大统计量。,1、顺序统计量,第k个顺序统计量,设 是总体X 的分布函数, 为总体X的密度函数,则:,2、最小最大统计量的分布:,1) 最大统计量 的分布为:,2) 最小统计量 的分布为:,3、经验分布函数:,定义:设 为总体X 的样本的观测值,将这些值按大小排序为: ,并对任
7、意实数x,记,则称 为总体X 的经验分布函数。,思想:利用样本中样品的频率估计总体的概率,描述连续性随机变量的密度函数曲线,当样本容量较大(n85)时,能够很好的近似总体的密度函数曲线。,4、直方图:,直方图方法步骤:,直方图方法步骤:,直方图结果:,2、正态总体下一些几个重要的抽样分布,1)卡方分布: 定义:设 为n个独立同分布于 的随机变量,记 ,则称服从参数为n的卡方分布,记为:,四、抽样分布,(4) 性质:, 设 ,则 , ;, 线性可加性:设 , ,且 随机变量 和 相互独立,则: ;, 设 ,则 ;,(3)密度函数曲线:,2)t 分布 :,(1) 定义:设 ,且X,Y 相互 独立,
8、记: ,则称T 服从自由度为n的t分布,记为: 。,(4) 性质:,当n1时,ET 0,密度函数曲线关于y轴对称。,当n2时, 。,当n=1时, 密度函数:,当n时, 。即当n充分大时(45),随机变量T 近似服从标准正态分布。,(3) 密度函数曲线:,(1)定义:设 ,且X 与Y 相互独立,记: ,则称F 服从自由度为m与n的F 分布,记为:,3)F 分布 :,(4) 性质:,当 时,则 ;,当 ,则 ;,(3) 密度函数曲线:,例4、设 独立同分布于 ,令,,,求: 1) 参数a,b, 使 服从 分布,并求其自由度;,2) 参数c, 使 服从t 分布,并求其自由度;,3) 参数d,使得 服
9、从F 分布,并求其自由度;,3、抽样分布定理:,定理1 设总体 ,X1,X n为总体X 的样本, 分别为样本均值和样本方差,则:,1) , ;,2) ;,3) 相互独立。,推论1:设 来自于正态总体 ,则:,推论2:设X1,X mmm ,Y1,Y n 分别来自正态总体 和 ,并且两组样本相互独立,则:,正态总体为基础,4、分位数,定义:设X 为一随机变量, 分布函数为F(x),给定概率p,存在 ,使得满足: 称 为p -分位数。,设X 的密度函数为f (x),如图所示,分位数 表示刻度以左的一块阴影面积为p 。,常见的分位数:,1、标准正态分布:u-分位数,记为 ;,性质:,u-分位数查表,2
10、、t 分布:t-分位数,记为 ;,性质:,当n 45时, ;,3、 分布: -分位数,记为 ;,4、 F分布:F-分位数,记为 ;,性质:,1)当n 45时, ;,2) .,3),数理统计,参 数 估 计,重庆大学数统学院 李寒宇 240783951 13594230969,原理:样本的k阶原点距去估计相应总体的k阶原点距.定理:在n时,有:即:样本k 阶原点矩依概率p 收敛于总体k 阶原点矩。,二、矩估计法,总体X 具有密度函数 ,其中参数未知。如果总体的k 阶矩E(X k)存在,计算公式为:显然E(X k)是参数的函数,记为 。 这样就构建了关于的方程,求解获得估计值.,总体的k 阶原点
11、矩E(Xk)存在,设X1,Xn是来自总体X 的样本,则样本k 阶原点 矩Mk易求。,矩估计方法的步骤: (1) 求出未知参数与总体矩的关系式:,(2) 当n充分大时,令:,(3) 求解以上m个方程组得到的解,记为: ,称为1,n的矩估计值。 观测值换成样本即为矩估计量.,通常情况,由于总体分布的参数不超过两个,参数和2的矩估计量:,记 = E(X ) ,2= DX(它们是未知的), 因为:E(X 2 ) = DX + E2X = 2 + 2,实用中常用S2估计2,1)基本思想:使样本获得最大概率的参数值作为总体未知参数的估计值。,2)对离散型总体X:概率分布,样本(X1,Xn)在 处的概率为:
12、,最大似然估计量,分布列,极大似然估计,3)对连续型总体:样本(X1,Xn)在 处的概率为:,其大小与 无关。,令:,称为似然函数。,原理:寻找 使得:,称 为极大似然估计量。,密度函数,(2) 求解 ,得极大似然函数估计量 。,4)极大似然估计法的步骤:,(1) 求似然函数 ;,对极值问题:,利用极值原理令:,,,,,称方程组为似然方程组。,为了计算方便,似然方程组可改写为:,,,,,称之为参数1,n的极大似然估计量。,附注:方程组无解时需回归似然函数或求数值解.,1、无偏性:定义:设 是参数的一个估计量,若对任意的,有 ,则称 是参数的无偏估计量。,四、点估计的优良准则,2、最小方差无偏性
13、定义1:设 和 都是未知参数的无偏估计量,并且对任意的满足: , 则称 比 有效。,(有效性),定义2:如果存在一个的无偏估计量,使得对的任意无偏估计量T,当时,有 ,则称T *为的一致最小方差无偏估计量。(UMVUE),2) 存在并且可以在的积分号下对求偏导数, g() 存在, 则对任意 :,定理1 (Cramer-Rao不等式):设总体X 的概率分布或密度函数为 ,其中为未知参数, X1,Xn为总体X 的样本, 为g()的无偏估计量,且满足如下条件:,1)集合 与参数无关;,其中: 称为方差下界(或C-R下界), I()称为Fisher信息量。,注:,1.,2.,方差达到C-R下界的无偏估
14、计称为有效估计。,定理2:在定理1的条件下有: 1) 为 的有效估计量的充要条件是 可化为形式 ,即:,其中 与似然函数形式上完全一样,只是将似然函数中的小写字符 改写成大写字符Xi 。 仅是的函数,并且为 的无偏估计量。,有效估计一致最小方差无偏估计无偏估计.,2) C() 和I()之间的关系:,C() 和D(T )之间的关系:,3) 的有效估计量是唯一的;,4) 的有效估计量一定是 的唯一极大似然估计量。,三.相合性(一致性).,定义 对任给的 满足:,定理,因: 是最小方差无偏估计量,2、单个正态总体的期望和方差的区间估计,1) 的区间估计,目的:求给定置信度为1-时的置信区间。,故存在
15、常数c,使得:,即:,由置信度1-与 分布确定常数c,可得的区间估计.,五、区间估计,(1)当2已知时:,因:,给定1- ,有:,即:,即的置信度为1-的置信区间为:,(2)当2未知时:,因:,给定1- ,与2已知相同,将u分位数变为t分位数即可,故:,的置信度为1-的置信区间为:,2)2的区间估计,目的:参数为未知时2的置信区间。,因:S 2是2的最优无偏估计量,故存在k1,k2(k11 k2) ,使得:,,从而,故:2的置信区间应为 ,其中参数由置信度1-和总体X 的分布确定。,当1-给定,且 , 由定义知:,即:,令:,故:,故置信区间为:,一般置信区间的求解步骤:,保证分布易求,3、两
16、个正态总体的区间估计:,假设总体 ,(X1,Xn)是X 的样本,总体 , (Y1,Ym)是Y的样本。,1)两个正态总体均值差的区间估计:,因: 是1-2的最小方差无偏估计量,故:则:1-2置信区间形式为:,当 已知时:1-2 的置信度为1-的置信区间为:,(2) 当 未知时: 当n30, m30时,1-2 的置信度为1-的置信区间为:, 当n, m 较小时,设 ,则:,所以:1-2 的置信度为1-的置信区间为:,其中:,则有:,当n, m 较小时, ,查阅。,2) 两个正态总体方差比 的置信区间:,当 未知时,,设:,,即:,又因:,,,得:,所以:,令:,,,得:,的置信度为1-的置信区间:
17、,当 已知时,,三.非正态总体情况,一般难以计算,但样本容量较大时,可以化为正态总体情况处理.以下讨论0-1分布的参数 p 的置信区间.此处假定 n 30,XB(1,p),用样本均值估计p,数理统计,假 设 检 验,重庆大学数统学院 李寒宇 240783951 13594230969,首先对总体的某信息作出假设,先假设原假设成立,备择假设,原假设,某种信息,如未知参数的最优估计量与参数的差别不会太大,应很小,假设原假设成立,也应很小,所以,0,0,很大就是一个小概率事件,若发生了,自然有理由相信原假设不成立;否则,不能否定原假设,只能接受,基本思想,在区域,的概率,即原假设成立时拒绝原假设的
18、概率,假设检验的基本步骤:,1)提出原假设H0与备择假设H1 ; 2)分析并提出原假设H0的拒绝(否定)域的形式K0; 3)给出显著性水平 ,确定拒绝域K0 ;4)作出是否拒绝H0的判断。,充分理由才能否定的 作为原假设,未知参数的最优估计量 与参数的差别不会太大,二、参数假设检验,1、单个正态总体参数的假设检验: 设X1,Xn是来自总体XN(, 2 )的样本.,1)的假设检验,关于的各种统计假设形式: H0:0 ; H1:0 ; H0:0 ; H1:0 ; H0:0 ; H1:0 ; H0:0 ; H1:0 ; H0:0 ; H1:0 ;,2) 2的假设检验,关于2的各种统计假设形式: H0
19、: 202 ; H1: 202 ; H0: 202 ; H1: 2 02 ; H0: 202 ; H1: 2 02; H0: 202 ; H1: 2 02 ; H0: 202 ; H1: 202 ;,设X1,Xn是来自总体XN(, 2 )的样本,2、两个正态总体参数的假设检验,假设总体 ,(X1,Xn)是X 的样本,总体 , (Y1,Ym)是Y的样本。相互独立,1)对两总体均值的检验, H0: 1 2 ; H1: 1 2 ; H0: 1 2 ; H1: 1 2 ; H0: 1 2 ; H1: 1 2 ; H0: 1 2 ; H1: 1 2 ; H0: 1 2 ; H1: 1 2 ;,其中:,
20、H0: 12 22 ; H1: 12 22 ; H0: 12 22 ; H1: 12 22 ; H0: 12 22 ; H1: 12 22 ; H0: 12 22 ; H1: 12 22 ; H0: 12 22 ; H1: 12 22 ;,2)对两总体方差的检验,中心极限定理:,设 独立同分布,且 ,,则:,非正态总体的参数假设检验,二项分布参数假设检验,非正态总体的参数假设检验,泊松分布参数假设检验,三、非参数假设检验,1、总体分布函数的假设检验,2、独立性假设检验,3、两总体分布比较的假设检验,20:19:46,1、总体分布函数的假设检验,提出假设:H0: F (x)F0(x); H1:
21、F(x)F0(x);,设X1,Xn是来自总体的样本,F(x) 为分布函数 (未知);,F0(x)为理论上的分布。,20:19:46,注意:1、m一般为46,最多1215;2、区间长度不一定相同,但每个区间至少包含5个样品,20:19:46,H0: F(x)F0(x);,差别不大,差别不大,不大,不大,20:19:46,拒绝域:,拟合优度检验法,不大,不大,20:19:46,拒绝域:,F0(x)已知;,定理:当原假设 成立时,若 不含有参数时,无论 是何分布,均有,20:19:46,拒绝域:,F0(x)未知;,定理:当原假设 成立时,若 含有r个参数 时,可用其最大似然估计量 代替,再计算 记为
22、 , 此时,20:19:46,提出统计假设: H0:X 与Y 独立; H1: X 与Y 不独立,2、独立性假设检验,上述统计假设可转化为:,总体为随机向量(X,Y),20:19:46,假设(X,Y)的联合分布函数为F(x,y);边缘分布函数为FX(x), FY(y),H0:F(x,y)=FX(x)FY(y); H1:F(x,y)FX(x)FY(y),假设(X,Y)为离散型随机向量,上述统计假设可转化为:,20:19:46,抽样:X的取值a1, , ar; Y的取值b1, , bs,差别不大,不大,不大,20:19:46,差别不大,不大,不大,拒绝域:,其中:,拒绝域:,20:19:46,pij
23、已知,pij未知,r+s-2参数,20:19:46,20:19:46,3、两总体分布比较的假设检验,设 分别为连续型总体X,Y 的分布函数, 为它们的密度函数,这些函数都未知。 X1,X n、Y1,Y m是分别来自X 和Y 的样本,且相互独立,样本值分别为 , 。统计假设是:,20:19:46,20:19:46,情形1:m=n且xiyi,Xiyi个数n+; xiyi个数n-,n+n-=n,不能太小,拒绝域,检验方法:符号检验法,情形2:m,n且xi,yi无要求,20:19:46,秩和检验法,20:19:46,112,数理统计,回 归 分 析,重庆大学数统学院 李寒宇 240783951 13
24、594230969,113,二、一元线性回归,1、回归模型:,设 为观测值,满足模型,回归函数,20:19:46,任务:估计、检验未知参数,114,找:,最小二乘法,20:19:46,尽可能小,尽可能小,尽可能小,115,得:,20:19:46,20:19:46,116,117,性质1: 残差和为零,即 ;,性质2: 在样本回归直线上,即,且:,3、样本回归直线和参数估计量的性质,118,性质3,119,性质4、,是2的无偏估计量。,性质5、 分别与 相互独立,且有:,(1),(2),(3)10成立时,有,记:,120,4、显著性检验,样本回归直线中Y 与X 之间线性相关性的显 著性检验:,统
25、计假设:H0:1=0; H1:10;,1)F 检验法 2)t 检验法 3)r 检验法,20:19:46,121,1)F 检验法,因 是1的无偏估计量,即:,则H0的拒绝域为:,则:,又:,20:19:46,122,2)t 检验法,则H0的拒绝域为:,故拒绝域为:,20:19:46,123,3)r 检验法,20:19:46,故拒绝域为:,124,1)点预测:,预测值。,回归方程:,20:19:46,预测与控制,2)区间预测:,y0的置信度为1-的的置信区间,20:19:46,125,126,20:19:46,127,Y0 的区间预测,20:19:46,128,特别地:,当样本容量n很大,且 在
26、附近时,有:,则:,Y 0的预测区间为:,20:19:46,129,130,20:19:46,当样本容量n很大,且 在 附近时,令:,数理统计,方 差 分 析,重庆大学数统学院 李寒宇 240783951 13594230969,试验指标:试验中所观测到的试验结果。,涉及的概念:,因素:试验中需要考察的、可以控制的条件,水平:因素所处的不同状态,影响某农作物亩产量的因素:品种、施肥量、气候等,施肥量的多少,80斤,100斤,组内均值,总体均值,总离差平方和,组间差平方和,统计假设:,组内差平方和,且:,平方和分解公式,统计分析,,,是 的点估计量。,效应值:第i个水平对实验指标的特殊影响,故
27、可由 的大小来判断Ai对试验指标的影响大小。,故:,故:i的置信度为1的置信区间为:,期望的置信区间,无交互作用的双因素方差分析:,第五章.双因素方差分析(Two way Analysis of Variance),提出假设:,第五章.双因素方差分析(Two way Analysis of Variance),分析:,分析:,第五章.双因素方差分析(Two way Analysis of Variance),双因素方差分析表:,假设判别:,第五章.双因素方差分析(Two way Analysis of Variance),有交互作用的双因素方差分析,第五章.双因素方差分析(Two way An
28、alysis of Variance),有交互作用的双因素方差分析:提出假设,第五章.双因素方差分析(Two way Analysis of Variance),第五章.双因素方差分析(Two way Analysis of Variance),有交互作用的双因素方差符号表示与定义:,其中, r是A因素的水平数,s是 B因素的水平数,n是重复试验次数.,正交设计(Orthogonal design):是试验设计中的一种方法,第五章 . 正交设计与方差分析,正交表:,.正交设计与方差分析(Orthogonal design and Analysis of Variance),两列间交互作用的位置:,结束,