分享
分享赚钱 收藏 举报 版权申诉 / 89

类型概率统计(二).ppt

  • 上传人:weiwoduzun
  • 文档编号:5698368
  • 上传时间:2019-03-13
  • 格式:PPT
  • 页数:89
  • 大小:3.82MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    概率统计(二).ppt
    资源描述:

    1、1.统计学分为两类:描述统计和推断统计.描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。 2.推断统计:根据样本所包含的信息来建立关于总体的种种结论. 3.统计推断包括两类问题:统计估计和假设检验. 4.参数估计:点估计和区间估计,1.总体:研究对象的全体。如一批灯泡。,2.个体:组成总体的每个元素。如某个灯泡。,3.总体的容量:总体中所包含的个体的个数.,抛开实际背景,总体就是一堆数,这堆数中有大有小,有的出现机会多,有的出现的机会少.因此,用一个概率分布来描述和归纳总结总体是恰当的.,从这个意义看,总体就是一个分布

    2、而其数量指标就是服从这个分布的随机变量.,4.总体的随机样本:从总体中随机抽取的n个个体的集合. n 称为样本容量.样本中的个体称为样品.,随机样本具有所谓的两重性:一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2, ,Xn表示;,另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值,此时,用小写字母x1, x2, , xn表示是恰当的,它们被称为是样本值;,统计学分为两大类:描述统计和推断统计.,一、描述统计,中位数: 将一组数据按照大小顺序排列,如果数据的个数是奇数,则处于中间位置的一个数是这组数据的中位数;如果数

    3、据的个数是偶数,则处于中间位置的两个数椐的平均数就是这组数据的中位数;,这组数据的中位数,例如,500 600 600 600 600 650 750 800 900 2000 3000,中位数的作用和意义:中位数也是用来描述数据的集中趋势的,它是一个位置代表值。如果知道一组数据的中位数,那么可以知道,小于或大于这个中位数的数据约各占一半。,频数频率分布表,样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布或频率分布表.,直方图,横坐标表示所关心变量的取值区间,纵坐标表示频数,这样就得到频数直方图.若把纵轴改成频率就得到频率直方图.,练习: 为研究某厂工人生产某种产品的能

    4、力,我们随机调查了20名工人某天生产的该种产品的数量,数据如下,使用SPSS软件对这20个数据(样本)进行整理,绘出频数直方图.,定义,设,为取自总体X的样本,,将其按大小顺序排序,则称 X(k) 为第 k 个次序统计量( No.k Order Statistic),特别地,称,为最小顺序统计量(Minimum order Statistic),称,为最大顺序统计量(Maximum order Statistic) 。,次序统计量,总体分位数与样本分位数,(一)总体分位数,定义5-3-2: 设总体 X 的分布函数为 F (x) ,满足,(5-3-7),的 x称为 X 的 分位数,如下图所示。,

    5、 的几个的常用值如 =0, 0.25, 0.05, 0.1, 0.9, 0.95, 0.975 等等,(二)样本分位数,定义: 设,为取自总体 X 的次序统计量,称 mp,为样本 p 分位数。(Sample p Quantile ),特别地,当 p = 时,称 mp 为样本中位数。,五数概括与箱线图,次序统计量的应用之一就是五数概括与箱线图。在得到有序样本后,容易计算如下五个值: 最小观测值 x min = x (1) ; 最大观测值 x max = x (n); 第一 4 分位数 Q 1 = m 0.25 中位数 Q 2 =m 0.5 ; 第三 4 分位数 Q3 = m 0.75 。 所谓五

    6、数概括就是指用这五个数来大致描述一批数据的轮廓。,例 :下表是某厂 160 名销售人员某月的销售量数据的有序样本,由该批数据可计算得到:,五数概括的图形表示称为箱线图,由箱子和线段组成。下图是该例中样本数据的箱线图,其作法如下,下面就通过一个具体的实例说明之。,表 某厂 160 名销售员的月销售量的有序样本,(1)画一个箱子,其两侧恰为第一 4 分位数和第三 4 分位数,在中位数位置上画一条竖线,它在箱子内,这个箱子包含了样本中 50% 的数据;,图 5-11 月销售量数据的箱线图,(2)在箱子左右两侧各引出一条水平线,分别至最小值和最大值为止,每条线段包含了样本中 25% 的数据。,箱线图可

    7、用来对数据分布的形状进行大致的判断。图 5-12 给出三种常见的箱线图,分别对应对称分布、左偏分布和右偏分布。,左斜的 对称 的 右斜的,图 5-12 三种常见的箱线图及其对应的分布轮廓,如果我们要对几批数据进行比较,则可以在一张纸上同时画出这批数据的箱线图。下图是某厂 20 天生产的某种产品的直径数据画成的箱线图,从图中可以清楚地看出,第 17 天的产品出现了异常。,二、统计量,常用统计量,1.样本均值,2.样本方差,偏差平方和,区间估计能够反映出估计的精度.,三、区间估计、置信区间,今抽9件测量其长度, 得数据如下(单位:mm): 142, 138, 150, 165, 156, 148,

    8、 132, 135, 160.,解,例,例 某地一年级12名女大学生体重与肺活量的数据如下(见corr.sav),问该地一年级女大学生的体重与肺活量的相关系数是多少?两者是否存在线性相关关系,正相关还是负相关?,计算可以知道,该地12例的一年级女大学生的体重 和肺活量之间呈正相关,相关系数是0.741。,四、假设检验,但我们不能由此就判断该地的一年级女大学生的体重和肺活量之间呈正相关,相关系数是0.741。事实上,由于这12例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。若总体相关系数()为零,由于抽样误差,从总体抽出的样本所计算出来的相关系数r可能不等于零。因此就要对r进行假设检验

    9、,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。具体方法见 相关分析.pdf.,假设检验(hypothesis testing)是在样本的基础上对总体的某种结论作出判断的一种方法。它是统计推断的重要组成部分,分为参数假设检验和非参数假设检验,对总体分布中未知参数的假设检验称为参数假设检验,而对未知分布函数的类型或其某些特征提出的假设称为非参数假设检验。,例 某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今从一批产品中随机的抽取15段进行测量, 其结果如下:,假定切割的长度X服从正态分布, 且标准差没有变化, 试问该机工作是否正常

    10、?,数学期望(均值),方差,拒真概率,受伪概率,假设检验的步骤,例 某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今从一批产品中随机的抽取15段进行测量, 其结果如下:,假定切割的长度服从正态分布, 且标准差没有变化, 试问该机工作是否正常?,解,即样本观测值落入接受域,接受原假设,,这是方差已知的条件下的双边检验问题, 使用z统计量,根据题目给出的数据,有z=,例 某地一年级12名女大学生体重与肺活量的数据如下(见corr.sav),问该地一年级女大学生的体重与肺活量的相关系数是多少?两者是否存在线性相关关系,正相关还是负相关?,本例使用SPSS判

    11、断的具体方法见 相关分析.pdf.,五、均值比较,统计分析常常采取抽样研究的方法,即从总体中随机抽取一定数量的样本进行研究来推断总体的特性。由于总体中的每个个体间均存在差异,即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同。又由于实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差,使样本统计量与总体参数之间存在差异。由此可以得到这样的认识:均值不相等的两组样本不一定来自均值不同的总体。 能否用样本均值估计总体均值?两个变量均值接近的样本是否来自均值相同的总体?换句话说,两组样本某变量均值不同,其差异是否具有统计意义?能否说明总体

    12、差异?这是各种研究工作中经常提出的问题。这就要进行均值比较。,进行均值比较及检验的过程,MEANS过程:不同水平下(不同组)的描述统计量,如男女的平均工资,各工种的平均工资。目的在于比较。术语:水平数(指分类变量的值数,如sex变量有2个值,称为有两个水平)、单元Cell(指因变量按分类变量值所分的组)、水平组合 T test 过程:对样本进行T检验的过程 单一样本的T检验:检验单个变量的均值是否与给定的常数之间存在差异。 独立样本的T检验:检验两组不相关的样本是否来自具有相同均值的总体(均值是否相同,如男女的平均收入是否相同,是否有显著性差异) 配对T检验:检验两组相关的样本是否来自具有相同

    13、均值的总体(前后比较,如训练效果,治疗效果) One-Way ANOVA:一元(单因素)方差分析,用于检验几个(三个或三个以上)独立的组,是否来自均值相同的总体。,(一)利用SPSS做单个样本的T检验,如果已知总体均数,进行样本均数与总体均数之间的差异显著性检验属于单一样本的T检验。在SPSS中,单一样本的T检验由“One-Sample T Test”过程来完成。,例:某厂生产的某种铝材的长度服从正态分布,其均值设定为240cm,现从该厂抽取5件产品,没得其长度的数据见“铝材长度.sav“,试判断该厂此类铝材的升度是否满足设定要求?,本例是方差未知时关于正态均值的双侧假设检验问题. 原假设为H

    14、0:=240;备择假设为:H1: 在SPSS中执行Analyze Compare Means One-Sample T Test命令,打开对话框:,将”铝材长度”变量选入test variable(s)对话框,在test value处输入240,并在options选项中确定置信水平,点击OK!,t值为-2.795,相伴概率(sig.为0.049)小于显著性水平0.05,说明产品的长度与设定均值有显著差异,认为该厂生产的铝材不满足设定要求.,(二)利用SPSS做独立样本的T检验 (Independent-Sample T Test过程) (见“两独立样本T检验.pdf”),对于相互独立的两个来自

    15、正态总体的样本,利用独立样本的T检验来检验这两个样本的均值和方差是否来源于同一总体。在SPSS中,独立样本的T检验由“Independent-Sample T Test”过程来完成。,例 在某康健医院中测得有11例克山病患者与13名健康人的血磷值如下表所示,请问该地急性克山病患者与健康人的血磷值是否不相同?,数据见“血磷值.sav“.,1.首先新建立变量 “血磷值“和“group“, 对两种类型的人进 行分组,1代表克 山病患者,2代表 健康人,2.使用SPSS进行检验,3.点选Define groups,在Group1中输入表示第一组的“1”, 在Group2中输入表示第二组的“2”,之后点

    16、“Continue“,4.点选Options,输入置信度,OK!,这里使用的置信度为95%,显著性水平为0.05,5.得到结果,进行分析,这一部分为Levenes 方差齐性检验,用于判断两总体方差是否具有方差齐性.其中F=0.032,相伴概率sig.为0.860大于显著性水平0.05,因此接受原假设,认为克山病患者与健康人的血磷值具有方差齐性.,由于克山病患者与健康人的血磷值具有方差齐性,因此看输出结果的“Equal variances assumed”这一行对应的t值,可知t=2.524,自由度为22,相伴概率sig.为0.019小于显著性水平0.05,拒绝原假设,认为克山病患者与健康人的血

    17、磷值具有显著差异.,6.再回到下表,进一步得到结论,从而最终的统计结论为按=0.05水准,认为克山病患者与健康人的血磷值不同,上表中样本均数来看,可认为克山病患者的血磷值较高。,(三)利用SPSS做配对样本T检验 (Paired-Samples T Test过程) (见“配对样本T检验.pdf”, 数据文件为pair.sav, 结果输出文件为“pair(配对样本T检验)分析结果.spo”),(四)利用SPSS做方差分析 (One-Way ANOVA过程),方差分析是英国大统计学家费歇尔(R.A.Fisher)在20世纪20年代创立的起初用于农田间试验结果的分析,随后迅速发展完善,被广泛应用于在

    18、工、农业生产,经济、管理领域,工程技术和科学研究中.方差分析是研究分类变量对数值型变量的影响从形式上看,方差分析是比较多个总体均值是否相等,但本质上它所研究的是变量之间的关系,1、 方差分析中的基本概念在实际问题中,影响一个数值型随机变量的因素一般会有很多,例如影响农作物产量的因素就有种子品种,肥料、雨水等;影响化工产品的产出率的因素可能有原料成分、剂量、催化剂、反应温度、机器设备和操作水平等等为了找出影响结果(效果)最显著的因素,并指出它们在什么状态下对结果最有利,就要先做些试验,然后对测试的数据进行统计推断.方差分析就是对实测数据进行统计分析,鉴别各个因素对试验结果影响程度的方法,方差分析

    19、采用的方法是通过检验各总体的均值是否相等,来判断分类型自变量对数值型因变量(响应变量)是否有显著影响.由于检验各总体的均值是否相等的方法是通过计算分析观测数据的变差而实现的,所以称之为方差分析当方差分析中只涉及一个分类型自变量时,称为单因素方差分析,当涉及两(多)个分类型自变量时称为双(多)因素方差分析,【例1】某化肥生产商要检验三种新产品的效果,在同一地区选取18块大小相同,土质相近的农田中播种同样的种子,用等量的甲乙丙化肥各施于六块农田,试验结果每块农田的粮食产量如下所示试根据试验数据推断甲乙丙三种化肥的肥效是否存在差异,单因素方差分析,本例中,只考虑化肥这一个因素(记为A)对粮食产量的影

    20、响,三种不同的化肥称为该因素的三个不同水平(分别记为A1,A2,A3) 从表中数据看出,即使是施同一种化肥,由于随机因素(温度,湿度等)的影响,产量也不同,因而有:(1) 粮食产量是随机变量,是数值型的变量;(2) 把同一化肥(A的同一水平)得到的粮食产量看作同一总体抽得的样本,施用不同化肥得到的粮食产量视为不同总体下抽得的样本,表中数据应看成从三个总体X1,X2,X3中分别抽了容量为6的样本的观测值.推断甲乙丙三种化肥的肥效是否存在差异的问题,就是要辨别粮食产量之间的差异主要是由随机误差造成的,还是由不同化肥造成的,这一问题可归结为三个总体是否有相同分布的讨论,由于在实际中有充分的理由认为粮

    21、食产量服从正态分布, 且在安排试验时, 除所关心的因素(这里是化肥)外, 其它试验条件总是尽可能做到一致. 这使我们可以认为每个总体的方差相同 即 XiN(i,2) i = 1, 2, 3因此,推断三个总体是否具有相同分布的问题就简化为:检验几个具有相同方差的正态总体均值是否相等的问题,即只需检验 H0: 1 = 2 = 3,象这类检验若干同方差的正态总体均值是否相等的一种统计分析方法称为方差分析,2 单因素方差分析的数学模型进行单因素方差分析时,需要得到如表2所示的数据结构 表2 单因素方差分析中数据结构,表中用A表示因素,A的m个取值称为m个水平分别用A1,A2,Am表示,每个水平对应一个

    22、总体从不同水平(总体)中抽出的样本容量可以相同,也可以不同若不同水平抽出的样本容量相同则称为均衡数据,否则称非均衡数据,设xij表示第i个总体的第j个观测值(j = 1, 2, ,ni, i = 1,2,m), 由于 ,i = 1, 2, , m 单因素方差分析模型常可表示为: xij = i + ij ,相互独立,1im,1jni. 其中i表示第i个总体的均值,ij为随机误差ij N(0,2),各ij相互独立.,3.方差分析的方法对不同水平下均值是否相同的检验H0:1 = 2 = = m,H1:1,2,m不全相等;,下面简单介绍检验统计量及检验方法以 表示所有xij的总平均值, 表示第i组数

    23、据的组内平均值,即其中n = n1 + n2 + + nm统计量:称为总离差平方和,或简称总平方和. 它反映了全部试验数据之间的差异,另外反映了每组数据均值和总平均值的误差,称为组间离差平方和,简称组间平方和,或称因素A平方和反映了组内数据和组内平均的随机误差,称为组内离差平方和,或称为误差平方和,可以证明 SST = SSMA + SSE构造检验统计量可以证明,在H0成立下,可以证明,对给定显著性水平 (0, 1),H0的拒绝域为:若由观测数据xij(j = 1, 2, , ni,i = 1, 2, , m)计算得到F的观测值为F0, 当F0落入拒绝域时拒绝原假设H0, 可以认为因素A对响应

    24、变量有显著影响;否则不能拒绝H0,认为因素A对响应变量无显著影响,另外,F统计量的P值为P=PF F0,在显著水平下,若P=PF F0 , 则拒绝原假设H0, 可以认为所考虑的因素对响应变量有显著影响;否则不能拒绝H0, 认为所考虑的因素对响应变量无显著影响通常将上述计算结果表示为方差分析表.利用方差分析表中的信息,就可以对因素各水平间的差异是否显著做出判断,【实验1】利用SPSS对例1做方差分析,(1)在SPSS中输入18块地的亩产量数据,并根据所施化肥进行分组,1表示“甲化肥”,2表示“乙化肥”,3表示“丙化肥”,(2)打开菜单:Analyze Compare means one-Way

    25、ANOVA,将“亩产量”选入Dependent List,“化肥”选入Factor,(3)打开菜单Post Hoc(指定一种多重比较检验方法和水准):,Post Hoc对话框:该对话框用于设置多重比较和配对比较。方差分析一旦确定各组均值间存在差异显著,多重比较检测可以求出均值相等的组;配对比较可找出和其它组均值有差异的组,并输出显著性水平为0.05(默认)的均值比较矩阵,在矩阵中用星号表示有差异的组。,在“Post Hoc”按钮对话框中分为Equar Variances Assumed复选框组:一组当各组方差齐时可用的两两比较方法,共有14种,其中最常用的为LSD和S-N-K法注: 1.LSD

    26、 (Least-significant difference): 最小显著差数法,用t检验完成各组均值间的配对比较。对多重比较误差率不进行调整。 2.S-N-K (Student-Newmnan-Keuls): 用Student Range分布进行所有各组均值间的配对比较。在该比较过程中,各组均值从大到小按顺序排列,最先比较最末端的差异。,在“Post Hoc”按钮对话框中分为Equar Variances Not Assumed复选框组:一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnettss C法较常用.注:1.Tamhanes T2, t检验进行配对比较。2.Dunne

    27、tts T3,采用基于学生氏最大模的成对比较法。3.Games-Howell,Games-Howell比较,该方法较灵活。4.Dunnetts C,采用基于学生氏极值的成对比较法,根据需要在PostHoc对话框中选择一种检验方法,并确定Significance level中的显著性水平,单击Continue,回到下述左边对话框后,再单击Options,选择Homogeneity of variance test 进行方差齐性 检验,根据需要选择Descriptive.,单击Continue,再单击OK!,(4)输出结果,该表格给出来方差齐性的检验结果,相伴概率P=0.890,所以认为方差齐次;

    28、,该表格给出来方差分析的内容.F=0.848,相伴概率P=0.4480.05,接受原假设,认为差异不显著,即没有足够的证据证明三种化肥的肥效有显著差异,【实验2】为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本 每个行业各抽取5家企业, 所抽取的这些企业在服务对象、服务内容、企业规模等方面基本上是相同的然后统计出最近一年中消费者对总共20家企业投诉的次数结果如下:,和上例方法相同,使用SPSS的分析结果如下:,和上例方法相同,使用SPSS的分析结果如下:,该表格给出来方差齐性的检验结果,相伴概率P=0.759,所以认为方差齐次;,和上例方法相同,使用SPSS的分析结果如下:,该表格给出来方差分析的内容.F=3.295,相伴概率P=0.0480.05,拒绝原假设,认为差异显著,即不同行业的服务质量是有差异的.,和上例方法相同,使用SPSS的分析结果如下:,由上表中的数据可以看出,从平均投诉的次数(MEAN值)来看,家电制造业收到的投诉次数最多(59),航空公司最低(35),从各分组的标准差(Std.Deviation)来看,航空公司的服务最稳定(方差最小),任务: 阅读论文单因素方差分析在车辆主观评价中的应用,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:概率统计(二).ppt
    链接地址:https://www.docduoduo.com/p-5698368.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开