统计学整理.doc-道客多多_道客多多docduoduo.com

资源描述

1、考点 1 统计学的产生和发展（小题目）（一）萌芽期（17 世纪中18 世纪中）1.德国的记述学派（国势学派）康令和阿痕瓦尔（1764 年首创统计学一词）他们在大学中开设“国势学”采用记述性材料，讲述国家“ 显著事项”，籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。2.政治算术学派英国的威廉配第，约翰格朗特威廉配第的代表著政治算术对当时的英、荷、法等国的“国富和力量”进行了数量的计算和比较；格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。（定量）（二）近代期（18 世纪末19 世纪末）1.数理统计学派法国的拉普拉斯，比利时的凯特勒。拉普拉斯把

2、古典概率论引进统计学，发展了概率论，推广了概率论在统计中的应用；凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论融合改造为近代意义的统计学。他是数理统计学派的奠定人，有“统计学之父”之称。2.社会统计学派德国的克尼斯、恩格尔、梅尔等。他们强调统计学是研究社会现象的科学，包括统计资料的搜集、整理和分析研究，目的是要揭示现象内部的联系。（三）统计学的现代期（20 世纪初至今）数理统计学与社会统计学逐步融合成为统一的现代统计学。统计学的主流从描述统计学转向推断统计学。20 世纪 30年代 R费希尔的推断统计理论标志着现代数理统计学的确立。考点 2 描述统计学与推断统计学的关系描

3、述统计学与推断统计学是现代统计学的两个组成部分，相辅相成，缺一不可。描述统计是推断统计的前提基础，推断统计是描述统计的发展延伸。样本数据总体数据考点 3 理论统计与应用统计描述统计（统计数据的搜集、整理、显示和分析等）推断统计（利用样本信息和概率论对总体的数量特征进行估计和检验等）（反映客观现象的数据总体内在的数量规律性概率论（包括分布理论、大数定律和中心极限定理等）1.理论统计：研究统计学的一般理论；研究统计方法的数学原理2.应用统计：研究统计学在各领域的具体应用考点 4 数据的直接来源普查、抽样调查、重点调查和典型调查，重点关注 4 种方法的优缺点1.普查为某一特定目的，专门组织的一次

4、性全面调查。一种摸清国情、国力的重要调查方法。特点：（1）一次性或周期性的；（2）需要规定统一的标准调查时间，保证结果的准确性；（3）数据较准确，规范化程度也高，因此可作为抽样调查和其他调查的依据；（4）使用范围较窄，只能调查一些最基本或特定的现象。（5 年经济调查、10 年人口调查）2.抽样调查按照一定的概率从总体中抽取一部分单位构成样本，并根据样本信息推断总体数量特征的一种非全面调查。一种应用最为广泛的调查组织方式。（产品质量破坏检验、居民住宅调查）特点：（1）按随机原则抽取；（2）存在由样本推断总体产生的抽样误差，但其误差可计算也可控制；（3）适用范围广，且节约成本，可以保证实效性。3

5、.重点调查：它只从全部总体单位中选择少数重点单位进行调查，这些重点单位尽管在全部总体单位中出现的频数极少。特点：（1）主要适用于通过重点单位来反映主要情况或基本趋势的调查；（2）投入少、调查速度快；（3）用于定量研究。4.典型调查是从全部总体单位中选择一个或几个有代表性（典型性）的单位进行深入细致调查的一种调查组织方式。特点：（1）适用于通过典型单位来描述或揭示事物的本质或规律的调查；例如，研究工业企业的经济效益，可在同行业中选择一个或几个经济效益突出的单位做调查，从中找出经济效益好的原因和经验。（2）主要用于定性研究，调查结果一般不能推断总体。考点 5 统计数据的质量1 抽样误差（不可避免、

6、但可计算、可控）（1）由抽样的随机性所带来的误差（2）所有样本可能的结果与总体真值之间的平均差异（3）影响抽样误差的大小的因素：样本量；总体的变异性；要求的可靠性2 非抽样误差（可以避免）（1）由其他原因造成的样本观察结果与总体真值之间的差异（2）存在于所有的调查之中(概率抽样、非概率抽样和全面调查)（3）有抽样框误差、回答误差、无回答误差、调查员误差、测量误差（4）控制方法：调查员的培训、调查结果进行检验。3 质量要求：精度、准确性、关联性及时性、一致性。考点 6 统计学基本概念中的变量变量：在研究总体时，我们重点关注的是总体单位具有哪些特征或属性，我们把这些特征称为变量。变量的名称是针

7、对总体中每一基本单位的属性都存在着差异而言的。（性别：品质变量，成绩：数量变量）考点 7 统计数据的分组品质标志分组：按照性别、质量等级等定性指标分组数量标志分组：按照数量或数值等定量指标分组分组原则：“不重不漏”和“上限不在内”考点 8 确定组距与组限一组数据的最大值与最小值之差称为极差，用 R 表示，即R 最大值最小值（1）组距：由组数（K）和极差（ R）就可确定组距（d），即 dR/k。（2）组中值：各组取相同的组距，再选择接近数据中的最小值作为第一组的组中值。无上限的开口组的组中值=下限邻组组距/2无下限的开口组的组中值=上限邻组组距/2（3）组限：下限组中值d/2 上限组中值d/ 2

8、即组距上限下限，组中值(上限+ 下限)/ 220 分：考点 9 分布集中趋势的测度（测度值的特点，分组后数据的计算）1、众数(M 0)特点：（1）不受极端值的影响（2）一组数据可能没有众数或有几个众数（3）主要用于分类数据，也可用于顺序数据和数值型数据确定：（1）品质数据（分类数据、顺序数据）的众数是频数最大的数据；（2）分组后的数值型数据则为：M0L+（ff -1)/(ff -1+ff +1）iM0L+（ff -1)/(ff -1+ff +1）iM0：众数 L：众数组的下限组值 V ：上限值f：众数组的频数 f-1：众数前一组的频数 f+1：众数后一组的频数 i：众数组的组距2、中位数(M

9、e）特点：（1）排序后处于中间位置；（2）不受极端值的影响；（3）主要用于顺序数据，也可用数值型数据，但不能用于分类数据；（4）各变量值与中位数的离差绝对值之和最小，即minMxn1i ei。中数位置的确定：原始数据：(n+1)/2 分组数据：中位数的位置 =n/2 中位数计算：3、四分位数特点：（1）排序后处于 25%和 75%位置上的值；（2）不受极端值的影响；（3）主要用于顺序数据，也可用于数值型数据，但不能用于分类数据；例】：9 个家庭的人均月收入数据原始数据: 1500 750 780 1080 850 960 2000 1250 1630排序: 750 780 850 960 10

10、80 1250 1500 1630 2000位置: 1 2 3 4 5 6 7 8 9【例】：10 个家庭的人均月收入数据排序: 660 750 780 850 960 1080 1250 1500 1630 2000位置: 1 2 3 4 5 6 7 8 9 104、均值特点：（1）集中趋势的最常用测度值；（2）一组数据的均衡点所在，体现了数据的必然性特征；（3）易受极端值的影响；（4）用于数值型数据，不能用于分类数据和顺序数据计算：根据分组数据计算加权均值（若不习惯用 Mi 表示组中值，就用书中的 Xi 表示）5.平均数特点：6.几何平均数是均值的另一种类型，主要用于比率或速度的平均.考点

11、 10 分布离散程度的测度（特点、方差、标准差计算）1、极差特点：（1）一组数据的最大值与最小值之差；（2）离散程度的最简单测度值；（3）易受极端值影响；未考虑数据的分布。计算公式： R = max(xi) - min(xi)2、内距（1）也称四分位差，上四分位数与下四分位数之差：内距=Q UQ L（2）反映了中间 50%数据的离散程度；（3）不受极端值的影响；（4）可衡量中位数的代表性。3、方差和标准差（1）离散程度的测度值之一；最常用的测度值；（2）反映了数据的分布；反映了各变量值与均值的平均差异；（3）根据总体数据计算的，称为总体方差或标准差；根据样本数据计算的，称为样本方差或标准差。

12、注意：方差和标准差的计算都是分组数据的计算，先要判断是总体还是样本。总体方差和标准差（重点看分组数据的计算公式）样本方差和标准差（重点看分组数据的计算公式）4、离散系数（1）标准差与其相应的均值之比；（2）对数据相对离散程度的测度；（3）消除了数据水平高低和计量单位的影响；（4）用于对不同组别数据离散程度的比较。计算公式：（分组数据）考点 11 常用的抽样方法（P96）（优缺点、抽样分布的形式）简单随机抽样、分层、系统、整群抽样中心极限定理：设从均值为，方差为 2/n 的一个任意总体中抽取容量为 n的样本，当 n充分大时，样本均值的抽样分布近似服从均值为、方差为 2/n 的正态分布。例题

13、：总体平均数为 20，方差 2=10，样本单位数 n=10，样本均值的平均数=20，则样本均值的方差=1。（公式打不出来，老师复习时提过，笔记上应该有）考点 12 点估计与区间估计（P123 小题目）对于给定的置信区间的宽度=2*（允许误差/实际误差）允许误差的公式在课本 P142。影响置信区间宽度的因素：（1）总体数据的离散程度（）；（2）样本容量：当置信水平（置信系数）固定时，区间宽度随样本量的增大而增大；（3）置信水平：当样本量给定时，区间宽度随着置信水平的增大而增大。样本容量越大，提供的有关总体的信息越多。常用的置信水平值 99%，95%，90%；相应的值分别为 0.01， 0.05

14、， 0.10 。（10 分）考点 13 总体均值（）的区间估计(大样本)计算题判断 2已知还是未知。无论其未知还是已知，其统计量都是 Z，但是公式不同。1.假定条件总体服从正态分布（ n30）2、使用正态分布统计量 z 3、总体均值 u 在 1-a 置信水平下的置信区间（要写成区间的形式）【例】一家食品生产企业以生产袋装食品为主，为对产量质量进行监测，企业质检部门经常要进行抽检，以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25 袋，测得每袋重量如下表所示。已知产品重量的分布服从正态分布，且总体标准差为10g。试估计该批产品平均重量的置信区间，置信水平为 95%考点 14

15、样本量的确定（熟记 P142 公式 4.28 和 P143 公式 4.30）考点 15 双侧检验与单侧检验(假设的形式)双侧检验：I 统计量 I 临界值，拒绝 H0左侧检验：统计量临界值，拒绝 H0考点 16 两类错误结合课本 P1531.第类错误(弃真错误)：原假设为真时拒绝原假设。第类错误的概率记为，被称为显著性水平。2.第类错误(取伪错误)：原假设为假时未拒绝原假设。第类错误的概率记为。3.两类错误的关系：与不可能同时减小或者增大。越小，犯第类错误的可能性越小，犯第类错误的可能性越大。比较容易控制，不易控制。考点 17 方差分析（定义）（10 分）方差分析表补充完整1

16、. 检验多个总体均值是否相等的统计方法。通过分析数据的误差来检验各总体的均值是否相等，从而判断分类型自变量对数值型因变量是否有显著影响。2. 研究分类型自变量对数值型因变量的影响一个或多个分类型自变量；一个数值型因变量3. 有单因素方差分析和双因素方差分析单因素方差分析：涉及一个分类的自变量；双因素方差分析：涉及两个分类的自变量考点 18 方差分析的 3 个基本假定（P187188）1. 每个总体都应服从正态分布。对于因素的每一个水平，其观察值是来自服从正态分布总体的简单随机样本。比如，每个行业被投诉的次数必需服从正态分布。2. 各个总体的方差（ 2）必须相同。即各组观察数据是从具有相同方差

17、的总体中抽取的。比如，四个行业被投诉次数的方差都相等。3. 观察值是独立的。比如，每个行业被投诉的次数与其他行业被投诉的次数独立。考点 19 单因素方差分析（10 分）（将所给表补充完整并进行分析）分析步骤：1. 提出假设（1）一般提法H0：u 1= u2= uk 自变量对因变量没有显著影响 H1：u 1，u 2 ，，u k不全相等自变量对因变量有显著影响（2）注意：拒绝原假设，只表明至少有两个总体的均值不相等，并不意味着所有的均值都不相等. 2.构造检验的统计量（1）计算因素各水平（总体）的均值。假定从第 i 个总体中抽取一个容量为 ni 的简单随机样本，第 i 个总体的样本均值为该样本

18、的全部观察值总和除以观察值的个数，公式为：式中： ni 为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值（2）计算全部观察值的总平均值全部观察值的总和除以观察值的总个数计算公式为（3）计算误差平方和SST（总误差平方和）：全部观察值 xij 与总平均值的离差平方和。反映全部观察值的离散状况。其计算公式为前例的计算结果：SST = (57-47.869565)2+(58-47.869565)2 =115.9295SSA（水平项误差平方和）：各组平均值与总平均值的离差平方和；反映各总体的样本均值之间的差异程度，又称组间平方和。该平方和既包括随机误差，也包括系统误差。

19、计算公式为前例的计算结果：SSA = 1456.608696SSE（误差项误差平方和）：每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况，又称组内平方和。该平方和反映的是随机误差的大小计算公式为前例的计算结果：SSE = 2708（4）计算统计量各误差平方和的大小与观察值的多少有关，为消除观察值多少对误差平方和大小的影响，需要将其平均，这就是均方，也称为方差。计算方法是用误差平方和除以相应的自由度。三个平方和对应的自由度分别是SST 的自由度为 n-1，其中 n 为全部观察值的个数SSA 的自由度为 k-1，其中 k 为因素水平(总体) 的个数SSE 的自由度为

20、 n-k组间均方 MSA（SSA 的均方）计算公式为组内方差 MSE（SSE 的均方）计算公式为检验统计量 F 将 MSA 和 MSE 进行对比，即得到所需要的检验统计量 F当 H0为真时，二者的比值服从分子自由度为（ k-1）、分母自由度为（ n-k）的 F 分布，即 3. 统计决策将统计量的值 F 与给定的显著性水平 a 的临界值 Fa 进行比较，作出对原假设 H0的决策。根据给定的显著性水平，在 F 分布表中查找与第一自由度 df1k-1、第二自由度 df2=n-k 相应的临界值 Fa（k-1，n-k）。若 FFa ，则拒绝原假设 H0，表明均值之间的差异是显著的，所检验的因素对观察

21、值有显著影响；若 F0 表明 x 与 y 为正相关；若 rF(1，n-2），则拒绝 H0，认为 0，称回归方程显著。否则，接受 H0，认为 =0 ，称回归方程不显著。回归系数显著性的 t检验（P233）思想： 2是未知的，而且不一定能获得大样本，这时可用 2的无偏估计代替 2去估计参数的标准误差：方差分析 P241 需要掌握步骤：P233（3 个步骤）考点 23 时间序列（定义、构成因素、速度分析指标及计算）时间序列：按时间顺序记录并排列的数据序列两个基本要素：（1）被研究对象所属的时间范围；（2）反映该现象一定时间条件下数量特征的数值，即在不同时间上的统计数据。速度分析指标：发展速度、增长

22、速度、平均发展速度和平均增长速度22()()iSEx2()()iixSEn环比增长速度=环比发展速度1定基增长速度=定基发展速度1平均发展速度和平均增长速度平均增长速度 = 平均发展速度 1平均发展速度的计算几何平均法（水平法）特点：着眼于期末水平时间序列的构成要素长期趋势 T 循环变动 C 季节变动 S 不规则变动 I 测定长期趋势的移动平均法的特点（小题目）（1）对原序列有修匀或平滑的作用。时距项数 K 越大，对数列的修匀作用越强；（2）移动平均项数 K 为偶数时，需移正平均；（3）平均时距项数 K 与季节变动长度一致才能消除季节变动；时距项数 K 和周期一致才能消除周期波动。（4）移

23、动平均会使原序列失去部分信息，平均项数越大，失去的信息越多。测定长期趋势指数平滑法平滑系数的选择需要考虑的方面：（1）值越小，对序列的平滑作用越强，对时间序列的变化反映越慢；值越大，对序列的平滑作用越弱，对时间序列的变化反映越快。（2）如果对趋势的估计主要依靠近期信息，宜选择得大一些；如果希望充分重视历史信息，宜选择得小一些。（3）希望减小初始值的影响，值宜大些；希望突出初始值的影响，值宜小些。（4）可选取几种不同的数值进行比较，最后选择使实际值和估计值均方误差最小的测定长期趋势模型法线性趋势的模型法（2 个题目）课堂练习（题目都是上课老师讲的，答案应该都在笔记上）题 1：

24、某厂 1996 年的产值为 1000 万元，试计算：（1）若 19971998 两年的产值总和为 2310 万元，这 2 年的平均发展速度是多少？（2）若规划 2002 年的产值为 2000 万元，那么后 4 年应有怎样的平均发展速度才能达到目标？题 2：我国 19992003 年人均 GDP 资料如下（单位百元）：年份 99 00 01 02 03 人均 GDP 65 70 76 82 90要求：（1）对我国人均 GDP 用最小二乘法配合直线方程（2）预测 2004 年我国人均 GDP（3）若 04 年的 GDP 为 97，求直线方程以及预测 06 年的 GDP。原始资料平均法（同期平均法

25、P275）（12 分：小题目和计算速度分别 6 分，看习题即可）考点 24 统计指数（分类、加权综合指数的编制方法、同度量因素的作用）指数的分类（1）“质量指标指数”与“数量指标指数”；（2）“个体指数”与“综合指数”；（3）“动态指数”与“静态指数”；（4）其他，如“综合指数”与“平均指数”、 “简单指数”与“加权指数”、“环比指数”与“定基指数”等。加权综合指数的编制方法（1）为了解决复杂现象总体的对比指标不能直接加总的问题，必须引入一个媒介因素（同度量因素），使其转化为相应的价值总量形式；（引入同度量因素，对复杂总体进行综合）（2）为了在综合对比过程中单纯反映对比指标的变动或差异程度，又

26、必须将前面引入的媒介因素的水平固定起来。（将同度量因素固定起来，消除其变动得到影响）综合指数的两个问题：同度量因素指标的确定，同度量因素固定水平的选择。加权综合指数的主要形式注意：（1）在计算相应的质量指标时，应以数量指标指数为同度量因素，比如说，拉式价格的同度量因素为销售量 q0，拉式销售量的同度量因素为 p0，帕式指数也是如此；（2）拉式指数一般大于帕式指数；（3）价格的变动将会增减多少实际开支用拉式指数，物价波动用帕式指数。同度量因素的作用（P301）（1）同度量作用：把“不同度量的现象”转化为“同度量的现象”，把经济意义上不能相加的指标数值过渡为经济意义上可以相加的数值；（2）权数作用：在综合指数中，它还起到了对指标“加权”的作用，具有权衡轻重的作用。因此被称为综合指数的“权数”。相应地，具有同度量因素的综合指数就是“加权综合指数”。

展开阅读全文