收藏 分享(赏)

统计学复习资料(期中版).doc

上传人:dzzj200808 文档编号:2726262 上传时间:2018-09-26 格式:DOC 页数:38 大小:749.26KB
下载 相关 举报
统计学复习资料(期中版).doc_第1页
第1页 / 共38页
统计学复习资料(期中版).doc_第2页
第2页 / 共38页
统计学复习资料(期中版).doc_第3页
第3页 / 共38页
统计学复习资料(期中版).doc_第4页
第4页 / 共38页
统计学复习资料(期中版).doc_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、第 1 章 统计与数据1.统计学是一门收集、分析、展示和解释数据的科学。2.描述统计(Descriptive Statistics):用表格、图形和数字来概括、显示数据特征的统计方法。3.推断统计(Inferential Statistics):从总体中抽取样本,并利用样本数据来推断总体特征的统计方法。总体(population):由统计研究所涉及的那些同质个体(也称单位)所形成的集合。样本(sample) :所研究总体的一部分。推断统计的主要任务:用统计量估计参数参数(parameter):描述总体数量特征的概念常用希腊字母。统计量(statistic) :描述样本数量特征的概念,常用英文字

2、母表示4.数据的计量尺度与类型(1) 、定类尺度 (Nominal Scale ):也称列名尺度、名义尺度、分类尺度各类之间无等级次序 各类别可以用数字代码表示根据定类尺度得到的数据为分类数据。(2) 、定序尺度(Ordinal Scale):也称顺序尺度数据表现为“类别”可对等级、大小等排序未测量出类别之间的准确差值根据定序尺度得到的数据为顺序数据。(3) 、定距尺度 Interval Scale:也称间隔尺度数据表现为“数值”可以进行加减运算“0”是只是尺度上的一个点,不代表“不存在”根据定距尺度得到的数据为间距数据。(4) 、定比尺度 Ratio Scale:也称比率尺度数据表现为“数值

3、”可以进行加减、乘除运算“0”表示“没有”或“不存在”据定比尺度得到的数据为比率数据。【四种计量尺度的比较】(1) 、四种尺度所包含的信息量是依次递增的,级别由低到高。(2) 、根据较高层次的计量尺度可以获得较低层次的计量尺度。(3) 、不同的尺度数据对应这不同数据显示方法和分析方法。5.变量是用来描述现象某种令人感兴趣的特征的概念。品质变量是描述个体有关属性特征的变量,本质上不能用数字来表示。例如性别。数量变量是描述个体有关数量特征的变量,都是用数字来表示的。例如人数,年龄等。离散型变量指的是有限个数值或诸如 0,1,2之类无限可列值的变量。 如果某一变量可以取某一区间或多个区间中任意数值,

4、则该变量称为连续型变量。 6.横截面数据(Cross-sectional data)是在同一时点或是大约在同一时点所收集的数据。时间序列数据(Time series data )是按时间顺序取得的一系列数据。例如我国历年的 GDP。面板数据(Panel Data):对多个事物在不同时期或时点上进行测量得到的数据 。如 1990-2008 年全国各个省份的 GDP 7.统计指标的概念一般有两种理解和两种使用方法:(1) 、统计指标是指反映现象数量特征的概念。如年末人口数、商品销售额、劳动生产率等。(2) 、统计指标是反映现象数量特征的概念和具体数值。我国 2004 年的国内生产总值为 13651

5、5 亿元 。 【分类】:(1)总量指标:也称为绝对数,以绝对数形式表现现象规模和水平的统计指标。可以分为时点数和时期数。时点数 是描述某种现象在某一个特定时刻(某一瞬间或某一时点)数量表现的数据。时期数 是描述某种现象在某一个特定时间范围内所实现的成果的数据。区分数据是时点数还是时期数的方法之一看其加总后的结果是否有意义。若有意义则该指标必定是时期数。反之,则必定是时点数。 (2)相对指标:采用两个有联系的数值进行对比而得到的比值。也称为相对数,(3)平均指标:也称为平均数,反映现象在某一时间或空间上的平均数量水平。8.常用统计软件:IBM SPSS Statistics、Excel、R 软件

6、、SAS 软件第 2 章 数据的来源1.数据的来源:(1)一手数据(直接来源): 一是来自调查或观察,二是来自实验。调查是取得社会经济数据的重要手段。(2)二手数据(间接来源):主要是公开出版或报道的数据,有些是未公开出版的数据。在我国,公开出版或报道的社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介。2.统计调查是社会经济数据的主要来源。实际中常用的统计调查方式主要有:抽样调查、普查、统计报表(1)普查是为某一特定目的而专门组织的一次性全面调查。 【特点】:普查通常是一次性的或周期性的。普查一般需要规定统一的标准时点。普查数据的准确性、标准化程度均较高 ;普查的调查项目较少,适用范围

7、较狭窄,调查资料缺乏深度。(2)抽样调查:是一种非全面调查,它是按照一定程序从总体中抽选一部分单位(样本)进行调查或观察,并以此对总体参数做出推断的调查方法。可以单独使用,也可用来对普查数据进行评价、修正或补充根据抽选样本的方法,抽样调查可以分为:概率抽样:也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知。概率抽样中可以对抽样误差进行控制。在我国,习惯上将概率抽样称为抽样调查。不满足概率抽样要求的抽样都被归为非概率抽样。非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差。【概率抽样中的随机原则】在抽选样本时排除主观因素的影响(不是有意识的

8、抽选某些单位) ,使每个单位都有一定的机会被抽中。等概率抽样:抽样时每个单位被选中的概率都相等。不等概率抽样:抽样时不是每个单位被选中的概率都相等。【抽样调查的特点】经济性、时效性强、适应面广、有可能获得比普查更高的数据质量 。(3)统计报表是按照国家有关法规规定,自上而下地统一布置、自下而上地逐级提供基本统计报表的统计报告制度。是我国特有的统计调查方法。可以是全面调查,也可以是非全面调查。按报表内容和实施范围不同,分为国家、部门和地方统计报表 按报送周期长短不同,分为日报、旬报、季报、半年报和年报 按填报单位不同,分为基层统计报表和综合统计报表。 3.在抽样调查中可以把总体分成若干个互不重叠

9、又穷尽的有限个部分,每个部分称为一个抽样单位 (抽样单元,Sampling unit)。抽样单位可以是一个总体单位,也可以包含多个个体。抽样单位的名单称为抽样框(Sampling Frame)。抽样框应尽可能与目标总体相一致。例如名单抽样框、区域抽样框、时间表抽样框。4.简单随机抽样(Simple Random Sampling):也称纯随机抽样。直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等。可分为有放回和无放回两种方式。是最基本的抽样方法有放回抽样:也称为重复抽样,在一个单位被选入样本后,记录其编号,然后将其放回总体中继续参与随后的抽样过程。无放回抽样:也称为不重复抽样,在一

10、个单位被选入样本后,不再放回总体参与随后的抽样过程。重复抽样的计算公式比不重复抽样简单,但误差也比不重复抽样略大。实际应用中一般采用不重复抽样。【抽选样本单位的方法】 (1)抽签法:用均匀同质的材料制作 N 个签并充分混合,然后一次抽取 n 个签,或一次抽取一个签但不放回,直至抽满 n 个签为止。(2)随机数法: 随机数表、随机数骰子、摇奖机、计算机产生的伪随机数【简单随机抽样最适用的场合】当总体内样本单位不多,且有完备名册,可用于编号时;对研究的目的而言总内样本单位间的差异不大时;无法充分获得总体信息时。5.系统抽样 (Systematic Sampling)(也称等距抽样):将总体 N 个

11、单位按某种顺序排列,按规则确定一个随机起点,再每隔一定间隔逐个抽取样本单位的抽样方法。直线等距抽样:将总体分成 n 个组,每组有 k=N/n 个单位,在第一组随机选择一个单位,之后每隔 k 个选择一个。【等距抽样的特点】总体单位的顺序可能影响抽样结果:各单元的排队顺序与所研究的内容无关;各单元的排队顺序与所研究的内容有内在联系。优点:抽取样本简便易行,易于监控。【主要适用场合】总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的;总体内单位数过多,而抽取的样本又较多时;总体内的单位数不能确定时(例如抽取学号最后一位为 8 的学生进行调查)6.分层抽样 (Stratified Sampli

12、ng)也称分类抽样或类型抽样。即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式。【特点】可以提高样本的代表性,提高估计的精度:在估计总体参数的同时还能估计每层的参数。总体方差等于层间方差和层内方差的加权和,而抽样误差只受层内方差的影响。因此分层时应使层间方差尽可能大(从而层内方差小) 。【最适用的场合】当总体内样本单位的差异较大时;分层后能达到层间差异大,层内差异小的原则时按比例分层抽样:各层的抽样比例都相等(等于 n/N)。在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样

13、。在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理。7.整群抽样 (Cluster Sampling):先将总体分为 R 个群(即次级单位或子总体) ,每个群包含若干总体单位。按某种方式从中随机抽取 r 个群,然后对抽中的群的所有单位都进行调查的抽样方式。【特点】(1)样本单位比较集中,容易集中力量进行调查,便于组织与管理,也节省了调查时间和费用。(2)不需要所有总体单位的抽样框。(3)由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量) 。(4)总体方差等于群内方差和群间方差的加权和,而抽样误差只受群间方差的影响。因此分群时应使群

14、间方差小。【最适用的场合】:总体名单不易获得时;为节省调查成本时 ;群内差异大,而群间的变异小时8.多阶段抽样:先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法。【特点】(1)适用于总体分布很广,不可能从总体中直接抽取样本单位的情况。(2)不需要全部低级单位的抽样框,节省了调查费用。(3)方法灵活多样。抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件。凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则。9. 不满足概率抽样要求的抽样都被归为非概

15、率抽样。非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差.【分类】:(1)方便抽样 Convenience sampling :纯粹以方便基本着眼的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题。也译为便利抽样、偶遇抽样。(2)判断抽样 Judgment Sampling:调查者根据主观经验和判断从总体中选取有代表性的单位构成样本。精度取决于抽样者的经验。不能获得估计值的精度。适用于总体单位极不相同而样本容量又很小的情况 (3)配额抽样 Quota sampling :是非随机抽样方法中最常用的一种抽样方法。分为两个步骤:根据研究人员认为较重要的一些变量把总体单位

16、分类,指定每一类中的定额;然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位。(4)雪球抽样 Snowball Sampling:也译为滚雪球抽样 。其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止。主要用于对稀少群体的调查。10.抽样调查中的误差:误差是指估计值与真实值之间的差异。(1)抽样误差(Sampling error):由于抽选样本的随机性造成的误差,也称为代表性误差。在抽样调查中,抽样误差就不可避免。在概率抽样中抽样误差是能够计量且可以得到控制的。影响抽样误差的主要因素包括:总体内部的差异程度;样本容

17、量的大小;抽样的方式方法等。(2)非抽样误差(Nonsampling error):除抽样误差以外的所有误差。通常认为是由于调查程序执行中的错误与不足引起的。主要包括抽样框误差、无回答误差和计量误差。国内也称为“工作误差” 或“调查误差” 。抽样框误差( sampling frame error , Coverage Error):当目标总体与抽样框所涵盖的元素不一致时,就会产生抽样误差。抽样框误差包括:丢失目标总体单位、包含非目标总体单位,复合连接等。无回答误差 (Nonresponse Error):因缺失部分指定样本单位的数据或调查问卷中的部分数据项而引起的误差都称为无回答误差。计量误差

18、 (Measurement Error):计量误差是指调查中获得的数据与调查项目真实值之间不一致而产生的误差, 也称为登记性误差11.调查方案:指导整个调查过程的纲领性文件。【主要内容】:调查目的:为什么调查? 调查对象和调查单位:向谁调查? 调查内容 :调查什么?调查时间及其他问题调查内容:需要调查的具体项目。通常以表格的形式来表现,称为调查表。 调查表的组成部分:表头:说明调查表的名称、被调查单位的名称质等。表体:调查的具体项目。表脚:填报人签名、日期等。调查时间两种含义:调查资料所属的时间,回答 “调查何时”的问题;调查工作的起止时间,回答 “何时调查”的问题。12.数据调查方法:数据的

19、收集方法归纳起来可分为询问调查和观察实验两大类。询问调查是调查者与被调查者与被调查者直接或间接触以获得数据的一种方法。【分类】 (1)访问调查:调查者与被调查者通过面对面地交谈而获得资料。可分为标准式访问和非标准式访问:标准式访问通常按事先设计好的问卷进行非标准式访问事先一般不制作问卷(2) 邮寄调查:也称邮寄问卷调查,是一种标准化调查。调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷。通过某种方式将调查表或问卷送至被调查者手中,由被调查者填写,然后将问卷寄回指定收集点。问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种。(3)电话调查:调查者利用电话与被调查者进行语言交流以获

20、得信息。优点:时效快、成本低;覆盖面广。缺点:每次调查时间不能过长;不能提过于复杂的问题;对挂断电话拒绝回答者很难做工作。(4)电脑辅助调查:又称电脑辅助电话调查,电脑与电话相结合完成调查的全过程。一般需借助专门的软件进行,硬件设备要求较高。(5) 座谈会:也称集体访谈,将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料。参加座谈会的人数不宜过多,一般为 610 人。侧重于定性研究。(6)个别深度访问:一次只有一名受访者参加、针对特殊问题的调查。适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题。侧重于定性研究。(7)观察法:就调查对象的行动和意识,调查人员边

21、观察边记录以收集所需信息。调查人员不是强行介入,能够在被调查者不察觉的情况下获得资料。(8)实验法:在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。研究在其它条件相同的条件下,所控制的一个(或一组)变量对另外一个(或一组)变量的影响。观察或实验:调查者通过直接的观察或实验获得数据的方法。13.问卷设计的步骤:(1)根据研究目的建立分析架构(2)决定问卷之形式(3)编拟问卷初稿(4)邀请专家学者检查、修订问卷 (5)预试问卷(6)问卷定稿并订定使用说明问卷的基本结构:(1)开头部分:问候语,填写说明,问卷编号(2)甄别部分:也称过滤,通过一些问题筛掉不符合条件的被调查者。(3

22、)主体部分:要调查的全部问题,以及这些问题可供选择的答案(4)背景部分:要调查的全部问题,以及这些问题可供选择的答案问卷中问题的设计 :(1)提问的内容尽可能短。(2)用词要确切通俗,避免不具体的问题(3)一项提问只包含一项内容(4)避免诱导性提问 (5)避免否定形式的提问(6)避免敏感性问题问卷中答案的设计:开放性问题是指对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由做出回答,属于自由回答型。 封闭型问题是指对问题事先设计出了各种可能的答案,由被调查者从中选择。 封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。 设计问题顺序应注意

23、的问题:(1)问题的安排应具有逻辑性;(2)问题的安排应先易后难、由浅入深;(3)问卷主体部分的问题通常按过滤性、热身性、容易性、困难性的顺序进行排列 。第 3 章 数据的描述1.统计分组:就是按照研究目的将数据分成若干组的统计方法。关键:选择分组变量和划分各组界限统计分组的结果是形成频数分布(分布数列,Frequency Distribution)两个构成要素:各组的分组界限、每组中的次数或频率2.分组方法:(1)单变量值分组:将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。(2) 组距分组:将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。分组必须遵循“不重

24、不漏”的原则。分为等距与不等距分组,各组组距都相等时为等距分组,为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。应用中可能需要把第一组和/或最后一组设为开口组。【步骤】(1)、确定组数:通常为 5 到 15 (20)组。Sturges 提出的经验公式:分组组数 K 应满足(2)、确定组距和各组界限,建议为 5,10的倍数。 ,2Kn)2lg(1n组距( 最大值 - 最小值) 组数 (3)、根据分组整理成频数分布表【基本概念】 下 限:一个组的最小可能值上 限:一个组的最大可能值组 距:上限与下限之差组中值:下限与上限之间的中点值, (下限+上限)/2。开口组的组中

25、值可以按以下方法计算:缺下限:上限-邻组组距/2, 缺上限:下限 +邻组组距/23.列联表(Contingency table ):如果对数据同时根据两个变量分组,汇总得到的结果称为列联表。列联表反映的是两个变量的联合分布,可以用来分析两关变量之间的关系。也称为交叉分组表(Cross tabulation) 。列联表一般根据两个定性变量进行编制,如果是定量变量则需要先对单个变量进行分组。列联表中的数字为交叉单元格中的频数或频率。4.常用统计图(1)条形图:用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。(2)圆形图:也叫饼图,它是用圆形

26、及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。3654616077218090500010000150002000025000300003500040000第 一 产 业 第 二 产 业 第 三 产 业(3)直方图:用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。注意对不等距分组:纵轴必须表示为频数密度频数密度=频数 /组距 (面积之和 =总频数)手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。【直方图与条形图的异同】都是用来反映数据的分

27、布状况,适用于不同类型的数据。条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。直方图的各矩形通常是连续排列,条形图则是分开排列。第 一 产 业15%第 二 产 业52%第 三 产 业33%02468105 10 15 20 25 30 35 40审 计 时 间 ( 天 )频数(4)折线图:折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点(组中值 )用直线连接起来,再把原来的直方图抹掉。折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点

28、通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。(5)茎叶图:主要用于显示未分组的原始数据的分布。由“茎”和“叶”两部分构成,其图形是由数字组成的。通常以数据的高位数值作树茎,低位数字作树叶,树叶上只保留一位数字。树叶的竖列要对齐,以计算各组的次数。(6)线图:利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。01234567895 10 15 20 25 30 35 40审 计 时 间 ( 天 )频数0.010000.020000.

29、030000.040000.050000.060000.070000.080000.01996 1997 1998 1999 2000 2001 2002 2003定 期 活 期描述定性数据:条形图、饼图描述定量数据:线图、直方图、箱线图、茎叶图【绘制统计图时的注意事项】(1) 、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息。时间一般绘在横轴,指标数据绘在纵轴。长宽比例要适当 ,其长宽比例大致为 10:7。一般情况下,纵轴数据下端应从“0”开始。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断。(2) 、图形要尽量简明。图形应该突出所要传达的信息,不必

30、要的标签、背景、网格线、等会分散读者的注意力。(3) 、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等。(4) 、反复加工和修改是获得优秀统计图形的重要步骤。统计软件给出的统计图形没有多少可以不加修改而直接应用。5.统计表:统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。【制作要求】原则:科学、实用、美观、简练。标题简明扼要,满足 3W 要求(When, Where, W

31、hat) 。结构合理,长宽比例要适当。 统计表为“开口式” ; 表的上下两条横线一般用粗线,其他线用细线,线条要少。数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。必要时可在表的下方加上注释。6.集中趋势:一组数据向其中心值靠拢的倾向和程度。常用的集中趋势的测度指标:算术平均数 中位数 众数(1)算术平均数(均值,Arithmetic Mean)总体均值常用 表示。样本均值常用 表示。样本均值的计算公式:简单平均数:加权平均数(分

32、组数据) :根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果。只有各组数据在组内呈对称或均匀分布时,根据分组资料的计算结果才会与原始数据的计算结果一致。(2) 中位数(Median):一组数据按大小顺序排列后,处在数列中点位置的数值。n 为奇数时等于第(n+1)/2 个数。n 为偶数时等于第 n/2 和 n/2+1 个数的平均值(3) 众数(Mode): 一组数据中出现次数最多的变量值。【众数、中位数和算术平均数的关系】或_X xnxxnii1kiikiiffxx110_Mxe左偏分布:对称分布:右偏分布;分配为钟形、轻微不对称的经验公式:【平均数、中位数、众数的

33、特点】算术平均数 :易受极端值影响(使用了全部数据 ),数学性质优良,主要用于数值型数据,数据对称分布或接近对称分布时应用中位数: 不受极端值影响,数据分布偏斜程度较大时应用 ;主要用于顺序数据众数: 不受极端值影响不具有惟一性数据分布偏斜程度较大时应用; 主要用于分类数据(4) 分位数(Quantile):把顺序排列的一组数据分割为若干相等部分的分割点的数值 。分位数可以反映数据分布的相对位置(而不单单是中心位置) 。常用的有四分位数、十分位数、百分位数。四分位数(Quartile):Q1 Q2 Q3 十分位数(Decile): D1 D2 D9百分位数(percentile):P1 P2

34、P99四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值 。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大) 。对原始数据:0_Mxe_0xMe)(2_xMMeeo _23xMeoSPSS 中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。Excel 中四分位数的位置分别为(n+3)/4, 2(n+1)/4, (3 n+1)/4。如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。(5)根据时间序列计算平均数时间序列中每一个观测值称为发展水平。要研究的那个时间的发展水平称为报告期水平,作为比较基础的时间的发展水平称为基期水

35、平。根据观测值表现形式的不同可以分为绝对数、相对数或平均数时间序列。绝对数时间序列又可分为时期序列和时点序列。时期序列:不同时期的观测值可以相加,相加结果表明现象在更长一段时间内的活动总量。时点序列:不同时点的观测值相加没有实际意义。平均发展水平:(1)时期序列:(2) “连续”时点序列:按时期序列的公式计算(3)不连续的时点序列:先计算出两个点之间的平均数,再用相隔的时期长度 加权计算总的平均数。(4)根据相对数和平均数时间序列计算序时平均数:发展速度是是序列中两个发展水平相比的结果。可以分为环比发展速度和定基发展速度。定基发展速度等于相应各环比发展速度的连乘积;环比发展速度等于相邻两个定基

36、发展速度之商。nananii121. bac发 =1 iia环 比 发 展 速 度 0 =ai定 基 发 展 速 度发展速度-100%等于增长速度。7.离散程度:(1)全距(Range):极差,是一组数据的最大值与最小值之差。R=最大值-最小值组距分组数据可根据最高组上限 -最低组下限计算。受极端值的影响(2)四分位距(Inter-Quartile Range, IQR)等于上四分位数与下四分位数之差反映了中间 50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。(3)方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。总

37、体方差和样本方差的符号不同,计算公式也不一样。是反映定量数据离散程度的最常用的指标。(4)离散系数(Coefficient of Variation):标准差与其相应的均值之比,表示为13QIQRNXNii122)( 1)(122nxsniiKiii iiffX1122)( kiiki iiffxs1122)(( 样 本 )或( 总 体 ) xscvXCV百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义。8.分布的形状:(1)偏态偏态系数有多种计算方法,在统计软件中(如 Ex

38、cel 等)通常采用以下公式:左偏分布(也称负偏分布) :偏态系数 SK 0;偏态系数的绝对值越大,偏斜越严重。(2)峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用 K 表示。左偏分布 右偏分布 3)()2)(1( sxnSKi扁平分布峰态尖峰分布统计软件(如 Excel 等)中常用以下公式计算:峰度系数 K0,与正态分布相比该分布一般为尖峰、肥尾,肩部较瘦。9.箱线图最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数 Q1、Q2、Q3 画出中间的盒子,然后由盒子两端分别向最大、最小值连线。在 SPSS 中标准的箱线图一般是这样绘制的:先

39、根据三个四分位数 Q1、Q2、Q3 画出中间的盒子;由 Q3 至 Q3+1.5*IQR 区间内的最大值向盒子的顶端连线,由 Q1 至 Q1-1.5*IQR区间内的最小值向盒子的底部连线;处于 Q3+1.5*IQR 至 Q3+3*IQR 或者 Q1-1.5*IQR 至 Q1-3*IQR 范围内的数据用圆圈标出;大于 Q3+3*IQR 或者小于 Q1-3*IQR 的用星号标出。【分布的形状与箱线图】10. 数据的 Z 值:也称标准化值,等于变量值与其平均数的离差除以标准差,用 Z 表示。 Z 值的均值等于 0,标准差等于 1。是对某一个值在一组数据中相对位置的度量。例如,)3)(2(13)()3)

40、(2)(1( 4nsxnnKi左偏分布Q1 中位数Q 3对称分布Q1 中位数Q3右偏分布Q 1 中位数Q 3sxxziiz0 说明观测值大于均值。z Z /2 时拒绝零假设,否则不能拒绝零假设。(2)根据 p 值进行假设检验:双侧检验p 值也称为观测到的显著性水平, 是能拒绝 H0 的 的最小值,决策规则: p 值 t 时拒绝零假设,否则不能拒绝零假设。(2)根据 p 值进行假设检验:右侧检验决策规则: p 值 =5,n(1-p0) =5)决策规则:同均值的决策规则,可以使用 Z 值、p 值或置信区间进行双侧、左侧或右侧检验。6.两个总体均值差异的假设检验 (1)、两个独立样本的假设检验与一个总体的情况类似,两个总体均值假设检验中的备择假设一般有以下三种情况:两个总体均值的比较:检验统计量的选择)t(bs0oHP中中 )z(bs0oHP中)t(0obsHPp中中 )z(bs0oHP中 )1,0()1(00NnpZ0:21H:210:21H总体正态?大样本?方差已知?否是是 否否是中Zt 中增大 n; 数学变换等。方差相等? 中否是

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报