收藏 分享(赏)

5.均值比较.pptx

上传人:dwy79026 文档编号:6405199 上传时间:2019-04-11 格式:PPTX 页数:127 大小:3.43MB
下载 相关 举报
5.均值比较.pptx_第1页
第1页 / 共127页
5.均值比较.pptx_第2页
第2页 / 共127页
5.均值比较.pptx_第3页
第3页 / 共127页
5.均值比较.pptx_第4页
第4页 / 共127页
5.均值比较.pptx_第5页
第5页 / 共127页
点击查看更多>>
资源描述

1、补充知识: 概率统计预备知识,一、一维随机变量:,离散型随机变量:随机变量X,取值只有有限个或可数个.,离散型随机变量分布列:X取值为 x1,x2,且称为随机变量X的分布列,并满足:,随机变量:取值由随机试验的结果决定的变量,分为连续型和离散型两大类.由多个随机变量组成的向量称为随机向量或多元随机变量.,分布列常用一维表格表示:,称X为连续型随机变量, f (x)为X的分布密度或密度函数, 它有以下性质:,如已知密度函数f (x),就可以求任何事件的概率:,一元随机变量的分布函数:F (x)=P(Xx),连续型随机变量:存在非负可积的函数 f (x),对任意实数 x ,有,二、常用分布,1.0

2、-1分布: XB(1,p),属离散型,描述只有两个状态的随机实验.,2.二项分布: XB(n,p),属离散型,描述只有两个状态的多次随机实验,也称为n重贝努利分布。n=1时即为0-1分布.,3.泊松分布: XP(),属离散型,描述随机到达现象.,4.均匀分布: XU(a,b),属连续型.X在a,b内连续地机会均等地取值,其密度函数为:,在实际事例中,当一个随机事件, 例如、来到某公共汽车站的乘客、显微镜下某区域中的白血球等等,以固定的平均 瞬时速率(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积) 内出现的次数或个数就近似地服从泊松分布P()。,其分布函数为:,5.指数分布:

3、XE(),属连续型.常用于描述人或物的寿命问题,其密度函数为:,6.正态分布:XN(a,2),属连续型.大量随机变量的分布近似于正态分布,是最重要的分布之一,其密度函数为:,N(0,1)称为标准正态分布,其密度函数为:,标准正态分布的分布函数为:,这个积分较难计算,可通过查正态分布表得到相应的值.,1.数学期望:,三、随机变量的数字特征,X是离散型:,X是连续型,其密度函数是 f(x):,期望EX有如下性质:,2.方差:DX=E(X-EX)2,X是离散型:,X是连续型,其密度函数是 f(x):,方差表示随机变量对于其重心(期望)的离散程度,它的计算一般用如下公式:,方差DX有如下性质:,四.常

4、用分布的数字特征:,五.多维随机变量及其分布,n 维随机变量常记为:,特别地, 2 维随机变量常记为:,它们也分为连续型和离散型:,1. 以 2 维离散随机变量(X,Y )为例,它的联合分布列为:,它也可表示为一个二维表(矩阵),随机变量X 的分布列为:,随机变量Y 的分布列为:,称为(X,Y) 的边缘分布列,有,当然也有,2. 多维连续型随机变量,对 X 有非负可积函数 和实数,称为随机变量X的联合分布密度函数。,对二 维连续型随机变量(X,Y), 联合分布密度为 f(x,y):,1) 联合分布密度:,2) 边缘分布密度:,3. 多维随机变量分布函数(以二维为例),2) 连续型,称 X,Y

5、相互独立,4. 多维随机变量独立性(以二维为例),1) 离散型,5.两个随机变量的协方差、相关系数:,协方差、相关系数的性质:,1)n个随机变量的协方差矩阵:,定义:协方差矩阵,2)定义:随机向量X的相关系数矩阵,3)协方差矩阵和相关系数矩阵的性质:,6.多元正态分布,定义:多元正态分布,下图是当 时二元正态分布的钟形密度曲面图。,二元正态分布的密度曲面图 :,多元正态分布的性质:,若k个随机变量 、 是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z 的平方和被称为服从自由度为k的卡方分布,记作,卡方分布推导,卡方分布密度函数和图像,T分布密度函数和图像,F分布密

6、度函数和图像,F分布由两个独立的卡方分布之比得来:,F分布的密度函数为:,偏度( , 右偏 ),峰度,三.大数定律与中心极限定理,独立同分布,记,且已知 则有大数定律:,即 依概率收敛到 ,即,即不管 Xi 服从什么分布,当 n 相当大时,它们的均值接近于 它们的数学期望。,独立同分布,记,则有中心极限定理:,即,即不管 Xi 服从什么分布,当 n 相当大时,它们的均值 近似地服从正态分布.,多元正态分布参数估计,均值向量与协差阵的估计,均值向量与协差阵的估计,均值向量与协差阵的估计,其中: 独立,且具有强相合性,并且是充分统计量。,假设检验,假定咖啡的分袋包装生产线的装袋重量服从正态分布N(

7、,2)。生产线按每袋净重150克的技术标准控制操作。现从生产线抽取简单随机样本n=100袋,测得其平均重量为 =149.8克,样本标准差s=0.872克。问该生产线的装袋净重的期望值是否为150克(即问生产线是否处于控制状态)?,所谓假设检验,就是事先对总体的参数或总体分布形式做出一个假设,然后利用抽取的样本信息来判断这个假设(原假设)是否合理,即判断总体的真实情况与原假设是否存在显著的系统性差异,所以假设检验又被称为显著性检验。,一个完整的假设检验过程,包括以下几个步骤: (1)提出假设; (2)构造适当的检验统计量,并根据样本计 算统计量的具体数值; (3)规定显著性水平,建立检验规则;

8、(4)做出判断。,原假设与备择假设,原假设一般用H0表示,通常是设定总体参数等于某值,或服从某个分布函数等;备择假设是与原假设互相排斥的假设,原假设与备择假设不可能同时成立。所谓假设检验问题实质上就是要判断H0是否正确,若拒绝原假设H0 ,则意味着接受备择假设H1 。 如,我们可以提出两个假设:假设平均袋装咖啡重量与所要控制的标准没有显著差异,记为 ;假设平均袋装咖啡重量与所要控制的标准有显著差异,记为 。,检验统计量,所谓检验统计量,就是根据所抽取的样本计算的用于检验原假设是否成立的随机变量。 检验统计量中应当含有所要检验的总体参数,以便在“总体参数等于某数值”的假定下研究样本统计量的观测结

9、果。 检验统计量还应该在“H0成立”的前提下有已知的分布,从而便于计算出现某种特定的观测结果的概率。,显著性水平、P-值与临界值,小概率事件在单独一次的试验中基本上不会发生,可以不予考虑。在假设检验中,我们做出判断时所依据的逻辑是:如果在原假设正确的前提下,检验统计量的样本观测值的出现属于小概率事件,那么可以认为原假设不可信,从而否定它,转而接受备择假设。,至于小概率的标准是多大?这要根据实际问题而定。假设检验中,称这一标准为显著性水平,用来表示,在应用中,通常取=0.01,=0.05。一般来说,犯第一类错误可能造成的损失越大,的取值应当越小。对假设检验问题做出判断可依据两种规则:一是P-值规

10、则;二是临界值规则。,(一)P-值规则所谓P-值,实际上是检验统计量超过(大于或小于)具体样本观测值的概率。 P-值就是当原假设为真时得到现有样本观察结果或比之更极端结果出现的概率。如果P-值小于所给定的显著性水平,则认为原假设不太可能成立;如果P-值大于所给定的标准,则认为没有充分的证据否定原假设。,(二)临界值规则假设检验中,还有另外一种做出结论的方法:根据所提出的显著性水平标准(它是概率密度曲线的尾部面积)查表得到相应的检验统计量的数值,称作临界值,直接用检验统计量的观测值与临界值作比较,观测值落在临界值所划定的尾部(称之为拒绝域)内,便拒绝原假设;观测值落在临界值所划定的尾部之外(称之

11、为不能拒绝域)的范围内,则认为拒绝原假设的证据不足。这种做出检验结论的方法,我们称之为临界值规则。,显然,P-值规则和临界值规则是等价的。在做检验的时候,只用其中一个规则即可。 P-值规则较之临界值规则具有更明显的优点。这主要是:第一,它更加简捷;第二,在值规则的检验结论中,对于犯第一类错误的概率的表述更加精确。 推荐使用P-值规则。,1、单正态总体均值的检验,设 是来自正态总体X的一个简单随机样 本,样本均值为 ,根据单个总体的抽样分布结 论,选用统计量,选用统计量:,双侧检验与单侧检验的假设形式,双侧检验,左侧检验,右侧检验,总体均值的检验,2、双总体均值是否相等的检验,3、两配对样本t检

12、验,1、什么是两配对样本t检验?根据样本数据对样本来自两配对总体的均值是否有显著性差异进行判断。具体分为两种: 用于同一研究对象分别给予两种不同处理结果; 对同一研究对象处理结果前后进行比较。 2、前提: 两个样本应是配对的; 样本来自的两个总体应服从正态分布。,3.基本实现思路设两总体 分别服从正态分布,为实现我们的目的,最好的方法是去考察成对数据的差 。由于两测量值之差可认为服从正态分布,故 ,检验两样本差异转化为检验如下假设: 这是单个正态总体均值是否为0的检验问题。由于 未知,因此对此问题用t检验,检验统计连变成 ,其中, 分别为 样本均值与样本标准差。在 水平上拒绝域为,例:某企业员

13、工在开展质量管理活动中,为提高产品的一个关键参数,有人提出需要增加一道工序。为验证这道工序是否有用,从所生产的产品中随机抽取7件产品,首先测得其参数值,然后通过增加的工序加工后再次测定其参数值,结果如下表。试问在 水平上能否认为该道工序对提高参数值有用?解:数据之差为:-3.1 -9.8 -6.1 1.4 5.2 -7.8 -4.9均值与标准差分别为检验统计量,拒绝域为样本未落入拒绝域中,所以在 水平上还不能认为该道工序对提高参数值有用,R语言中的t检验(两均值比较问题),t.test(x, y = NULL, alternative = c(“two.sided“, “less“, “gre

14、ater“), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, .),3 单因子方差分析,1、问题的提出 2、方差分析的检验统计量 3、关于方差分析的两点说明,一、问题的提出,【例】已知在一组给定的条件下饲养小鸡所增加的体重服从正态分布。某养鸡场欲检验四种饲料配方对小鸡增重的影响是否不相同(假定已经经过检验表明不同饲料配方下的小鸡增重方差相等)。为此,他们对四组初始条件完全相同的小鸡,在完全相同的其他饲养条件下,分别使用四种不同的饲料配方进行喂养。所得到的增重数据如表。表 四种不同饲料配方下小鸡的增重情况,6-61,对

15、于类似本例的问题,一般地,把随机变量分组的数目记作m,我们可建立下列假设:,二、方差分析的检验统计量,【例】利用表中的数据进行单因子方差分析(显著水平为=0.05)。,6-68,方差分析表,(一)方差分析中变量的类型方差分析中的因变量是数量型变量。自变量可以是品质型变量,也可以是数量型变量。当自变量是数量型变量的时候,也要对其作统计分组设计,也就是将它按品质型变量来处理。(二)总体的正态性和同方差方差分析适用于多个正态总体Yi(i=1,2,m)均值的比较,且要求它们具有相同的方差。不过在实际应用中,即使对于正态性和同方差性都存在很大背离的数据,方差分析仍不失为一种提供有用的近似信息的技术。,三

16、、关于方差分析的两点说明,双因子方差分析,一、问题的提出 二、有交互作用的双因子方差分析,一、问题的提出,方差分析中的“因子”,也称因素。它是一个独立的变量(自变量)。在上一节的例子中,我们要分析饲料是否为影响增重产生差异的原因,所以饲料是因子。该例中所考察的因子只有“饲料”一个,而其他因子如鸡的品种,饲养条件等保持不变,我们称这种方差分析为单因子方差分析。如果要同时考察饲料和鸡的品种两个因子对小鸡的增重是否有影响,则称之为双因子方差分析。,多元正态分布总体均值向量和协方差阵的检验,总体均值向量的检验 协方差阵的检验 多个正态总体参数的检验,1、一个正态总体 均值向量的检验,利用假设检验的结果

17、求均值的置信域,2、两个正态总体均值向量的检验,多个正态总体均值向量的检验,协方差阵的检验,1、一个正态总体协差阵的检验,2、多个协差阵相等检验,至少有一对,1.6 实例分析,通过上面的理论分析知道,多元正态总体均值向量和协差阵的最大似然估计分别是样本均值向量和样本协差阵。利用SPSS软件可以迅速地计算出多元分布的样本均值向量、样本离差阵和样本协差阵。下面通过一个实例来说明多元正态分布参数估计的SPSS实现过程。从沪深两市上市公司中随机抽取300家公司,取其三个反映收益情况的三个财务指标:每股收益率(eps)、净资产收益率(roe)和总资产收益率(roa)。现要求对这三个指标的均值和协差阵进行

18、估计。,在SPSS中计算样本均值向量的步骤如下:1. 选择菜单项AnalyzeDescriptive StatisticsDescriptives,打开Descriptives对话框,如图2.1。将待估计的三个变量移入右边的Variables列表框中。,一、均值向量的估计,图2.1 Descriptives对话框,2. 单击Options按钮,打开Options子对话框,如图2.2所示。在对话框中选择Mean复选框,即计算样本均值向量。单击Continue按钮返回主对话框。,图2.2 Options子对话框,3. 单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.2。即样本均

19、值向量为(0.175,0.044,0.026)。,表2.2 样本均值向量,在SPSS中计算样本协差阵的步骤如下:1. 选择菜单项AnalyzeCorrelateBivariate,打开Bivariate Correlations对话框,如图2.3。将三个变量移入右边的Variables列表框中。,二、协差阵的估计,图2.3 Bivariate Correlations对话框,2. 单击Options按钮,打开Options子对话框,如图2.4。选择Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵。单击Continue按钮,返回主对话框。,图2.4 Options子对话框,3. 单击OK按钮,执行操作。则在结果输出窗口中给出相关分析表。表中Pearson Correlation给出皮尔逊相关系数矩阵,Sum of Squares and Cross-products给出样本离差阵,Covariance给出样本协差阵。值得注意的是,这里给出的样本协差阵是S/(n-1) ,而不是S/n 。,表2.3 样本相关系数矩阵、离差阵与协差阵,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报