1、10090统计学2017 年 12 月期末考试指导 二、重点复习内容第一章 绪论本章没有教学难点,主要目的是解释统计学的基本思维方式与学习方法。第二章 统计调查一统计指标:描述总体特征的名称1. 总体与单位客观存在的,在同一性质基础上结合起来的许多个别事物的整体,称为统计总体,简称总体。构成统计总体的个别事物,称为总体单位,简称单位,或称个体。2. 总体的特征同质性、大量性、差异性。3. 统计尺度1) 列名尺度:是指对事物仅做平等的分组或分类,而不提供更多的描述。2) 顺序尺度:是指除提供名称描述外,还可对事物进行排序。3) 间隔尺度:指能够提供两个测度之间的数量间隔。4) 比率尺度:是指在两
2、个测度之间,可以比较其比例关系。4. 统计指标六要素1) 指标名称:指描述指标的文字。2) 计量单位:指标的计量尺度。3) 计算方法:计算方法指在对总体进行测度时所使用的方法和注意事项。4) 时间限制:该指标描述的对象在时间上的范围。5) 空间限制:该指标所描述的对象在空间上的范围。6) 指标数值:指标的最终计算结果,以数字形式表现。二统计调查的分类1. 按范围分类:全面调查、非全面调查全面调查是指对总体的全部单位均进行调查,也称为普查。全面调查由于是对全部单位进行的调查,因此不会出现以偏概全的误差。全面调查存在着如下一些缺陷:1) 成本大、周期长:由于全面调查要涉及到总体的所有单位,而总体单
3、位数有时多达数万人甚至上亿人,进行普查的工作量是非常大的。2) 经济上不可行:有一些调查如果采用普查的方式,在经济上成本过大,超过了调查可能带来的收益,从而是不可行的。3) 对于破坏性调查,不可能进行普查:有一些调查活动本身对于调查对象是有破坏性的。4) 质量控制困难:由于全面调查涉及的单位数较多,调查人员多、时间长,质量控制往往难以保证。如果不能保证调查过程中手段的严格,就难以保证调查质量。非全面调查是指仅对总体中的一部分单位进行调查,由这一部分单位的情况来反映总体的情况。非全面调查主要包括三种方式:1) 重点调查。对总体中影响全局的主要单位进行调查,而对不影响全局的单位不进行调查。重点调查
4、关注的是宏观现象,对于微观主体的状况不进行深入研究。22) 典型调查。对总体中具有代表性的单位进行调查。典型调查的主要着眼点在于对各类具体单位的微观分析,而不关注整体的宏观情况。3) 抽样调查。2. 按方法分类:观察法、采访法、报告法、问卷调查法三抽样调查1. 概率抽样:指总体中的单位以确定的概率进入样本。包括以下几种类型:1) 简单随机抽样:也称纯随机抽样,指对总体不进行任何处理的情况下,所进行的等概率抽样。所有的总体单位以一个相同的非零概率进入样本。2) 分层抽样:将总体按主要标志划分为若干个层,再在每一层中进行随机抽选。3) 等距抽样:将总体按某一标志进行排列后,按相同的间隔进行抽选。又
5、称为机械抽样,系统抽样。4) 整群抽样:将总体全部单位分成若干个部分,随机抽选一部分单位,对选中的单位进行全面调查。5) 多阶段抽样:把整个抽样过程分为若干个阶段,逐级抽出受访者。2. 非概率抽样,指单位进入样本的概率事先是未知的。非概率抽样一般是作为概率抽样的一种近似方法而进行的。包括以下类型:1) 便利抽样:根据方便为原则进行抽选。2) 判断抽样:由访问员人为判断受访者的身份,确定是否选择作为样本。3) 配额抽样:根据一定的身份配额抽选受访者进行调查。4) 滚雪球抽样:是一种针对稀疏总体进行的抽样方法,抽选时,先找到几个符合条件的受访者,然后通过这些受访者找到更多符合条件的受访者,逐步外推
6、,直至达到要求的样本数。四调查误差的构成1. 抽样误差抽样误差是指在抽样调查中,由于使用样本信息推断总体情况,而可能出现的误差。2. 非抽样误差非抽样误差指不是由于样本的代表性,而是由于调查过程的各种其他因素而带来的误差。非抽样误差包括下列三种类型:抽样框误差:抽样框误差主要是指抽样框与实际的抽样总体存在差异而造成的误差。无回答误差:所谓无回答误差是指未能从指定的样本处获得有效的回答。计量误差:计量误差是指在对个体进行调查时,调查结果与个体的真实情况出现的差异。第三章 描述统计一数据分组1分组标志: 一批数据可以按不同的标志进行分组,选择分组标志要根据研究目的进行。2组数: 按同一标志,可以将
7、数据分成不同数量的组。3组距: 组距是指每个组的范围跨度。4组限: 组限指组与组之间的界限。5组中值(组中值的计算)组中值是一个组中处于中间位置的值,往往用以代表一个组的平均状况。 2上 限 下 限组 中 值 3对于缺上限或者缺下限的组,组中值的计算有几种不同的情况(1)根据邻近组组距推算 邻 近 组 组 距缺 下 限 组 组 中 值 上 限 21邻 近 组 组 距缺 上 限 组 组 中 值 下 限(2)对于缺下限组而言,当邻近组组距过大时,使用上限的一半计算。(3)根据现实情况人为确定。二次数分配次数分配是指观察值按分组标志分配在各组内的记录数。各组中观察值的数量称为次数,也称频数。各组次数
8、与总次数的比例,称为频率。四总量指标和相对指标总量指标是反映社会经济现象总体规模或水平的指标,又称为绝对数。相对指标是两个有联系的总量指标对比计算的比率,又称为相对数。根据相比较的总量指标之间的关系不同,相对指标可以划分为若干种类型:(1)结构相对指标 总 体 的 整 体总 体 的 某 一 部 分结 构 相 对 指 标 (2)比例相对指标 总 体 的 乙 部 分总 体 的 甲 部 分比 例 相 对 指 标 (3)强度相对指标 总 体 的 乙 方 面总 体 的 甲 方 面强 度 相 对 指 标 (4)比较相对指标 乙 总 体甲 总 体比 较 相 对 指 标 (5)动态相对指标 总 体 的 乙 时
9、 期 指 标总 体 的 甲 时 期 指 标动 态 相 对 指 标 五描述总量指标和相对指标的一些常用术语1静态比较与动态比较将同一时期的统计指标放在一起进行比较,称为静态比较。将不同时期的统计指标放在一起进行比较,称为动态比较。2基期与报告期,定基比较与环比比较在进行动态比较时,有时会用当前的数据与过去某一时间的数据进行对比。此时,将当前的数据称为报告期数据,将用于比较的过去的数据称为基期数据。如果观察的是若干个时期的数据,每个时期的数据均与同一个基期数据进行对比,则这种比较方法,称为定基比较。4如果在观察若干个时期的数据时,每一数据均与前一时期进行对比,则这种比较方法称为环比比较。六平均指标
10、1. 算术平均数(要求会计算)算术平均数也称均值,是所有数的总和与数量之商。用公式表示为: nxi2. 调和平均数调和平均数是根据标志值的倒数计算出来的平均指标,其意义与算术平均数一致。公式为:iixMH3. 几何平均数几何平均数是在数列具有连乘积特征的情况下所计算的平均数。计算公式为:nixG4. 众数众数是一组数据中出现次数最多的变量值。众数的计算公式如下: iLMo21其中:L 表示众数组的下限;表示众数组与前一组的次数之差;1表示众数组与后一组的次数之差;2表示众数组的组距。i5. 中位数中位数是位于统计数列中间位置上的数。中位数的位置计算公式为 21N6. 分位数分位数是指将一列数据
11、 K 等分的各种数。7. 截尾均值截尾均值是指在一个数列中,去掉两端的极端值后所计算的算术平均数,也称为切尾均值。七.离散程度指标1极差极差是数据的最大值与最小值之差,用公式表示如下: 。MinaxR2内距5内距也称四分位差,是指第三四分位数与第一四分位数之差,用公式表示如下:。13QIR3平均绝对差平均绝对差是指各个标志值对其算术平均数的平均离差。 nxDA.4方差和标准差(要求会计算)平均绝对差使用绝对值来消除离差的正负号,在数学处理中,具有一些不方便之处。方差是使用求平方的方式来消除正负号,便于数学处理。方差的计算公式为: 22xi方差的平均根称为标准差: i5离散系数标准差相对于平均数
12、的大小,称为离散系数。 xV八.探索性数据分析是从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律,以便选择分析方法。对于在探索性数据分析中发现的数据规律,分析者需要使用特定的统计模型进行证实分析,以确定规律是否正确。探索性数据分析有四大主题,分别是:1) 耐抗性:所谓耐抗性,是指分析方法对于数据局部不良行为的非敏感性。2) 残差:残差是指从数据中减去一个总括统计量或拟合模型后的残余部分。当残差出现异常时,数据中往往有值得注意的系统性问题。3) 重新表达:重新表达是指找到一个新的尺度对数据进行重新描述,以便简化分析。4) 图示:图示是以图形的方法描述数据,以帮助分析者看出数据、拟
13、合、残差等行为,从而抓住想象不到的特点和常见的一贯行为。第四章 统计指数一.概念:指数是反映某一时期某一社会经济现象变动情况的指标。二.指数的计算原理1个体指数的计算个体指数的计算就是用两个时期的同一指标进行直接对比。2总指数的计算总指数是指涉及到若干个同类指标的指数。例如某一时期的商品价格指数,涉及到同一市场上的许多种商品,此时就涉及到多个指标的合并问题。三.综合指数计算思路(要求会计算)1拉氏指数:拉斯配雷斯提出使用基期变量作为同度量因素计算出来的指数,称为拉氏指数。 01qpK2帕氏指数:帕许提出使用报告期变量作为同度量因素计算出来的指数,称为帕氏指数。610qpK四.总平均数指数因素分
14、析1概念平均指标在不同的时间或者不同空间上对比形成的相对数,称为总平均数指数,也称为可变构成指数。2结构变化影响指数由于构成总体的个体数量比例发生变化,对总平均数产生的影响,称为结构变化影响指数。3固定构成指数指在构成不变的情况下,由于个体的平均水平发生变化,而对总平均数产生的影响。第五章 时间数列一.时间序列的构成与表现形式同类社会经济现象的统计资料,按时间先后顺序的排列,称为时间数列。时间序列的一般表现形式如下: ICSTfYt,其中各个分项的含义分别为:1) T:长期趋势,指社会经济现象在较长的一段时间内所表现出来的稳定的趋势性。2) S:季节变动,社会经济现象表现出来的与日历周期同步的
15、周期性。3) C:循环变动,循环变动也是一种周期性的变动,不过这种周期无法直接用日历周期来进行解释。4) I:不规则变动,由各种无法解释的因素而引起的经济波动,一般不表现出明显的规律性。二.趋势变动的测定(简答题只需答出要点)1修匀方法修匀方法是指从数列本身出发,通过平均的方法,消除数列的短期波动,使数列表现出稳定的趋势性。修匀方法包括两类1) 时距扩大法2) 移动平均法移动平均法是将时距扩大法进行了一个平移,从序列顶端向下,选择 N 个时间点进行一次平均,然后将选择范围向下移动一个时间点,再进行一次平均,依次类推。每次平均的结果,记录在 N 个时间点的中间位置上。对于奇数周期的移动平均法,计
16、算出来的平均值直接记录在居中的时间点上;对于偶数周期的移动平均法,则需要进行两次移动平均,第一次按偶数周期计算,结果分别写在居中的两个时间点中间,第二次再将居中的时间点两侧的两个移动平均结果再进行一次移动平均,计算出最终结果。移动平均法除了选择时距之外,还可以选择移动平均计算时的权重。移动平均法的时距选择是根据研究目的而定的:如果研究的目的是为了将周期变动的影响去除掉,则移动平均的周期需要与实际经济波动的周期一致;如果研究目的是为了修匀不规则变动,显示出周期的影响,则移动平均的周期应当大大地小于实际周期,并采用加权移动平均法,一定程度地突出实际数值。2.拟合方法拟合方法是从数据的内在规律性出发
17、,利用数学模型来对数列进行拟合处理,寻找最适合数列的数学模型,并以数学模型的规律来推断时间数列的规律。71) 分段平均法分段平均法是一种进行曲线拟合的简单方法,其做法是将时间数列的各项数值平均分为几部分,分别求各部分的平均数,然后将各个平均数标在图上,由此确定两个点或者三个点,根据这些点确定对应的曲线。2) 最小二乘法三.季节变动的测定季节变动的测定目的在于计算出季节指数,季节指数反映季节的实际数量与理论数量的差异,通常用比值表示。 各 季 的 理 论 数 量各 季 的 实 际 数 量季 节 指 数 1按月平均法按月平均法是将全年的总量分配到每个月份,作为当月的理论数量,再以各月的实际数量进行
18、比较。2趋势剔除法(要求掌握具体步骤)趋势剔除法的核心在于充分考虑了长期趋势对于时间数列的影响,在计算各月的理论数量时,使用当月的趋势值代替年平均值。具体步骤为:1) 利用移动平均法,求出对应各季的趋势值;2) 以各季的实际数量与趋势值相除,获得各季的季节变化情况;3) 将各年的同一季节情况进行平均,得各季未修正指数;4) 进行指数修正。第六章 抽样估计(本章无重点)一.参数与统计量参数是指描述总体分布状况的数;统计量是指由样本构造出来的数。二.影响抽样误差的因素根据抽样误差的计算公式,可以看出,影响抽样误差的主要因素主要有下列四个方面:(1)目标总体的变异程度:目标总体的变异程度( )是影响
19、抽样误差的最主要的因素之一,总体的变异程度越大,在确定样本下的抽样误差越大。(2)样本容量:抽样误差与样本量的平方根成正比。(3)抽样方式:有放回抽样和无放回抽样的计算公式略有不同,如果采用无放回的方式,抽样误差会略小一些。(4)抽样的组织形式:抽样的组织形式是纯随机抽样、分层抽样、整群抽样或者多阶段抽样等方式,各种方式都有对应的误差计算公式,不同情况下的抽样误差相差也比较大。第七章 假设检验本章的内容已超出基础统计学原理范围,讲授时均不进行数学推导,仅提供常规处理方法。一.检验原理1. 提出原假设和备择假设;2. 确定适当的检验统计量 T;3. 规定显著性水平 a(犯弃真错误的概率) ;4.
20、 计算检验统计量 T 的值;5. 作出统计决策。第八章 方差分析与相关分析8一.方差分析1基本概念方差分析的概念:比较组间方差是否可以用组内方差来进行解释,从而判断若干组样本是否来自同一总体。方差分析可以一次检验多组样本,避免了 t 检验一次只能比较两组的缺陷。方差分析只能反映出各组样本中存在着差异,但具体是哪一组样本存在差异,无法进行判定。2方差分析原理计算观察值的组间方差和组内方差,并计算两者的比值,如果该比值比较小,说明组间方差与组内方差比较接近,组间方差可以用组内方差来解释,从而说明组间差异不存在。三、重点习题(一)名词解释1. 列名尺度:是指对事物仅做平等的分组或分类,而不提供更多的
21、描述。2. 分层抽样:将总体按主要标志划分为若干个层,再在每一层中进行随机抽选。3. 定基比较:如果观察的是若干个时期的数据,每个时期的数据均与同一个基期数据进行对比,则这种比较方法,称为定基比较。4. 平均绝对差:平均绝对差是指各个标志值对其算术平均数的平均离差。 nxDA.(二)简答题1. 什么是组中值,对于缺上限或者缺下限的开口组,如何计算组中值。答题要点:组中值是一个组中处于中间位置的值,往往用以代表一个组的平均状况。 2上 限 下 限组 中 值 对于缺上限或者缺下限的组,组中值的计算有几种不同的情况(1)根据邻近组组距推算 邻 近 组 组 距缺 下 限 组 组 中 值 上 限 21邻
22、 近 组 组 距缺 上 限 组 组 中 值 下 限(2)对于缺下限组而言,当邻近组组距过大时,使用上限的一半计算。(3)根据现实情况人为确定有些情况下,一个组的上下限虽然不能确定,但可以进行模糊地判断,此时就可以利用这种模糊判断的结果,确定该组的组中值。2. 在分组式数列中,如何计算众数?答题要点:在分组式数列中,众数的计算公式如下: iLMo21其中:L 表示众数组的下限;表示众数组与前一组的次数之差;19表示众数组与后一组的次数之差;2表示众数组的组距。i3. 时间数列是由哪些因素构成的?答题要点:同类社会经济现象的统计资料,按时间先后顺序的排列,称为时间数列。时间序列的一般表现形式如下:
23、 ICSTfYt,其中各个分项的含义分别为:(1)T:长期趋势(Secular Trend) ,指社会经济现象在较长的一段时间内所表现出来的稳定的趋势性。(2)S:季节变动(Seasonal Fluctuation) ,社会经济现象表现出来的与日历周期同步的周期性。(3)C:循环变动(Cyclical Movement) ,循环变动也是一种周期性的变动,不过这种周期无法直接用日历周期来进行解释。(4)I:不规则变动(Irregular Variations) ,由各种无法解释的因素而引起的经济波动,一般不表现出明显的规律性。(三)计算题1.某菜场五种蔬菜的销售情况如下蔬菜 销售量(万斤) 价格
24、(元斤)白菜 15 1.0蒜苗 7 1.6茄子 5 1.2辣椒 2 2.2西红柿 13 0.8请计算该菜场蔬菜的平均销售价格。(150000*1+70000*1.6+50000*1.2+20000*2.2+130000*0.8)/(15+7+5+2+13 )*10000)=1.12382.有两批货物,包装重量如下(单位:公斤)第一批 50 51 52 53 54 55 56 57 58 59第二批 50 50.5 51 51.5 52 52.5 53 53.5 54 54.5试比较两批货物重量的方差,确定哪批货物的包装重量更均匀。方差的定义:设一组数据 x1,x2,x3xn 中,各组数据与它们
25、的平均数 x(拔)的差的平方分别是(x1-x 拔)2 , (x2-x 拔)2(xn-x 拔)2,那么我们用他们的平均数 s2=【 ( x1-x 拔)2+(x2-x 拔)2+(xn-x 拔)2】/n 来衡量这组数据的波动大小,并把它叫做这组数据的方差。10根据上面公式可得乙货物更均匀3.某车队过去两个月出车次数及单车载货量情况如下车型 9 月单车载货量(吨车) 10 月单车载货量(吨车) 9 月出车次数 10 月出车次数挂车 10.2 10.5 300 400平板车 26.0 28.2 250 280重型卡车 8.7 9.5 5000 6000轻型卡车 1.2 1.5 12000 24000试计
26、算该车队 10 月份单车载货量的帕氏指数及出车次数的拉氏指数。4.某海关口岸的日平均入境人数在各季节间有明显的变化,以下是过去五年中的统计结果(单位:人)年份 春季 夏季 秋季 冬季1997 年 2114 5179 7405 131261998 年 2849 7402 8468 181561999 年 4312 11137 14898 261372000 年 6937 14204 21605 404912001 年 8714 19581 34434 63120试用趋势剔除法求入境人数的季节指数。5.从一批货物中抽选 30 箱,测量其重量如下(单位:公斤)23.96,24.03,24.19,24
27、.30,24.38,24.40,24.47,24.49,24.58,24.81,24.82,24.86,24.99,25.09,25.11,25.12,25.14,25.16,25.16,25.18,25.18,25.21,25.24,25.34,25.45,25.50,25.69,25.76,25.82,25.99试在 90的置信度水平下,估计这批货物的平均重量。名词解释和简答题请在教材和 ppt 中查找答案,计算题说明如下:计算题要有步骤、公式及结果才能得全部分数。1解答:利用加权算术平均数公式=_。ifx2.解答:使用公式 计算方差nxi22对于第一批货物: , 2对于第二批货物: ,
28、x11所以,根据方差判断, 更均匀。3解答:单车载货量的帕氏指数: _10qpKP出车次数的拉氏指数: _0L4解答:第一步:计算各季度的四季度移动平均,由于移动平均周期为偶数,需要进行两次移动平均,计算结果为年份 春季 夏季 秋季 冬季1997 年1998 年1999 年2000 年2001 年第二步:用原数据除以趋势值,得到各季的季节比率年份 春季 夏季 秋季 冬季1997 年1998 年1999 年2000 年2001 年第三步:求各季节的平均值季节 春季 夏季 秋季 冬季平均值第四步,进行指数修正计算四个季节的平均值之和为: 修正系数为: 修正后各季节指数为季节 春季 夏秋 秋季 冬季平均值5解答:使用公式 计算样本标准差为_12nxs样本平均数的标准差为 _s样本平均数为_,对应 90%置信度水平的 t 值为 1.64,则总体平均数的置信区间为_。注意:统计学考试需要使用科学计算器,请同学们务必携带。!