统计学复习资料整理.doc-道客多多

资源描述

1、1极差：一组数据的最大值与最小值之差称为极差，也称全距，用 R 表示。其计算公式为：R=max（xi）min（xi）离散系数：也称为变异系数，它是一组数据的标准差与其相应的平均数之比。其计算公式为：V=S/X。离散系数是测量数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。三大统计分布：卡方分布、T 分布、F 分布卡方分布（ 2）定理：设 n 个相互独立并且都服从正态 N（0,1）分布的随机变量 X1、X2，Xn，记则随机变量 2 服从自由度为 n 的 2 分布。统计变量服从卡方分布，其含义是：在给定概率的

2、条件下，满足或者说表达式的概率为。T 分布定理：设随机变量 x，y 相互独立，XN （0,1），Y 2（n）记。则随机变量 T 服从自由度为 n 的 t 分布。设 Tt（n），01，对于满足下列等式的数 ta（ n），称为 t（n）分布的上侧分位数。对于较大的 n（45）可以同标准正态分布的上侧分位数 ua 作为 t（n）分布的上侧分位数F 分布定理：设随机变量 x，y 相互独立，X 2（n1），Y 2（n2）记，则随机变量 F 服从第一自由度为 n1，第二自由度为 n2 的 F 分布，记作：FF （n1，n2）若 FF（n1，n2），易知：，若2则统计量：描述样本特征的

3、概括性数字度量。完全由样本决定的量，叫做统计量；或者说不含有其他未知量的样本的函数称为统计量。统计量可以看做是对样本的一种加工，它吧样本中所包含的关于总体的其一方面的信息集中起来。最常用的统计量是样本均值和样本方差 S2。自由度：随机变量所包含的独立变量的个数。参数估计：就是用样本统计量去估计总体的参数。在参数估计中，用来估计总体参数的统计量的名称称为估计量，用符号表示。样本均值、样本比例、样本方差等都可以是一个估计量。而根据一个具体的样本计算出来的估计量的数值称为估计值。参数估计的方法有点估计和区间估计两种。点估计：就是用样本统计量的某个取值直接作为总体参数的估计值。区间估计：是在点估

4、计的基础上，给出总体参数估计的一个区间范围，该区间通常由样本统计量加减估计误差得到。与点估计不同，进行区间估计时，根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量。样本量：从总体中抽取的一部分元素的集合为样本，构成样本的元素的数目为样本量。样本量的大小是选择检验统计量得一个要素。置信区间：在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间。置信水平：将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平。表示为（1）%，为是总体参数未在区间内的比例。也称置信度或置信系数。假设检验：利用样本信息，对提出的命题进行检验的一套

5、程序和方法。事先对总体参数或分布形式作出某种假设，然后利用样本信息来判断假设是否成立；有参数假设检验和非参数假设检验。采用逻辑上的反证法，依据统计上的小概率原理。单侧检验：拒绝域在右侧或者在左侧的假设检验，左单侧检验右单侧检验双侧检验：拒绝域在两侧的假设检验原假设：提出一个或两个参数是否等于或大于、小于某个特殊值的命题。H0：有待检验的假设，又称 0 假设，收集证据予以反对的假设（总是有等号）备择假设：H1：又称研究假设，收集证据予以支持的假设。与原假设相对立的假设（总是有不等号）方差分析：缩写为 ANOVA，就是通过检验各总体的均值是否相等来判断分类型对数值型变量是否有显著影响的统计方法。

6、因子和处理：在方差分析中，所要检验的对象称为因素或因子，是所研究的分类型变量的另一个名称。因素的不同表现称为处理或水平。总平方和：记为 SST。它是全部观测值 xij 与总均值 x 的误差平方和。组间平方和：记为 SSA，它是各组均值 xi 与总均值 x 的误差平方和，反应各样本之间的差异程度，因此又称为因素平方和。组内平方和：记为 SSE，它是每个水平或组的各样本数据与其组均值的误差平方和，反应了每个样本观测值的离散情况，因此称为组内平方和。该平方和反应了随机误差的大小。SST、SSA、SSE 之间的关系： kinjijkiikinjij ii xxnx1212123组间方差：SSA 的均方

7、，也称为组间均方，记为 MSA，其计算公式为：MSA=组间平方和/自由度=SSA/k1组内方差：SSE 的均方，也称为组内均方，记为 MSE，其计算公式为：MSE=组内平方和/自由度=SSE/nk将上述 MSA 与 MSE 进行对比，即得到所需要的检验统计量 F。当 H0 为真时，二者的比值服从分子自由度为 k1、分母自由度为 nk 的 F 分布。单因素方差分析：研究一个分类型自变量同数值型因变量之间关系的一种统计方法。双因素方差分析：研究两个分类型自变量同数值型因变量之间关系的一种统计方法。当方差分析中涉及两个分类型自变量时，称为双因素方差分析。无重复双因素分析有重复双因素分析相关关系：变

8、量之间存在的不确定的数量关系，称为相关关系，一个变量的取值不能由另一个变量唯一确定。相关系数：是根据样本数据计算的度量两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为；若使根据眼根数据计算的，则称为样本相关系数，记为 r。样本相关系数的计算公式为：LSD：最小显著差异法。存在一定的缺陷。在都与对照相比时可以使用该法。是对检验两个总计均值是否相等的 t 检验方法的总体方差估计加以修正（用 MSE 来代替）而得到的。式中，t /2 为 t 分布的临界值，通过查 t 分布表得到，其自由度为（nk），这里的 k 是因素中水平的个数；MSE 为组内方差；n

9、i 和 nj分别是第 i 个样本和第 j 个样本的样本量。简述评价估计量好坏的标准。1. 无偏性：估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为，所选择的估计量为，如果 E（）=，则称为的无偏估计量。2. 有效性：对同一总体参数的两个无偏点估计量有更小标准差的估计量更有效。在无偏估计的条件下，估计量的方差越小，估计也就越有效。3. 一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数。换而言之，一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。怎样理解置信区间？2222ynxny4在区间估计中，又样本统计量所构造的总体参数的估计区间称为置信区间，

10、其中区间的最小值称为置信下线，最大值称为置信上线。由于统计学家在某种程度是上确信这个区间会包含真正的样本的总体参数，所以给它取名为置信区间。什么是假设检验中的两类错误？两类错误之间存在什么样的数量关系？一类错误是原假设 H0 为真却被我们拒绝了，犯这种错误的概率用表示，所以也称错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概率用表示，所以也称错误或者取伪错误。和在数量上是此消彼长的关系。简述假设检验的基本步骤。1. 提出假设2. 确定适当的检验统计量3. 规定显著性水平4. 计算检验统计量的值5. 作出统计决策方差分析包括哪些类型？它们有何区别？1. 单因素方差

11、分析：研究一个分类型自变量最一个数值型因变量的影响。2. 双因素方差分析：究两个分类型自变量同数值型因变量之间关系的一种统计方法。当方差分析中涉及两个分类型自变量时，称为双因素方差分析。无重复双因素分析：两个影响因素相互独立；可重复双因素分析：两个因素有交互作用，结合后产生新的影响。简述方差分析的基本思想。方差分析的基本假定：1.每个总体都应服从正态分布 2.各个总体的方差必须相同（同质性） 3.观察值是独立的方差分析的基本思想和原理：1.判断均值之间是否有差异时需要借助于方差。 2,。通过对数据误差来源的分析判断不同总体的均值是否相等。 3.即：判断均值之间是否有差异需要进行方差分析。解释

12、R2的含义和作用。R2 称为多重判定系数，在无重复双因素方差分析中用于关系强度的测量。行因素所产生的误差平方和记为 SSR，列因素所产出的误差平方和记为 SSC，这两个平方和加在一起则度量了两个自变量对因变量的联合效应，联合效应与总平方和的比值定义为 R2，其平方根 R 则反映了这两个自变量合起来与因变量之间的关系强度。即：R 2=联合效应/总效应=SSR+SSC/SST简述相关系数的性质。1. r 的取值范围为-1 到 1，r=1 时，完全正线性相关R=-1 时，完全负线性相关R=0 时，不存在线性相关关系0r=-1,负线性相关0F，则不接受 H0双因素方差分析：（1），同单因素一样，首先

13、进行假设，H0,H1；H0,H1(因为是两个因素，所以要分别的假设，最后的结果也是分开的，分别的检验)（2），求出总误差平方和 SST,自由度为 kr-1行误差平方和 SSR,自由度为 k-1列误差平法和 SSC,自由度为 r-1随机误差项平方和 SSE,自由度为(k-1)(r-1)SST=SSR+SSC+SSE(3),根据各误差平方和和自由度，求出各均方，MST,MSE,MSR,MSC下面的步骤和单因素类似，根据行误差均方和随机误差均方的比值MSR/MSE=Fr 根据列误差均方和随机误差均方的比之MSC/MSE=Fc 分别就两种因素中的一种检验，根据自由度，给定的置信度，查出 Fa。分别查

14、找行行和列的，分别比较回归分析与相关分析的区别1.相关分析中，变量 x 变量 y 处于平等的地位；2.回归分析中，变量 y 称为因变量，处在被解释的地位，x 称为自变量，用于预测因变量的变化.3.相关分析主要是描述两个变量之间线性关系的密切程度；4.回归分析不仅可以揭示变量 x 对变量 y 的影响大小，还可以由回归方程进行预测和控制。回归分析与相关分析的联系相关分析反映的是一元回归分析所揭示的两个变量之间线性关系的密切程度；弃法法则：1.四舍五入法2.四舍六入五单双法（1）四舍六入 (2)若舍入的该位数是 5，则分情况：a.若该位数前为奇数，或该位数后还有不为零的数字，则入；b.若该位数后

15、数字全为 0，且其前为偶数，则舍去。计算法则：（1）进行加减法运算结果的有效位数，自左起不超过参加运算中的数值第一个出现的可疑数字位数，如： 1.481.2321.4024.1124.1（2）进行乘除运算，其积商保留的有效数字可比参加运算的有效数字数最少数多一位。如：70.0326.03460.0326.030.193088（0.1931072）0.1930.19（3）求平方、立方、开方运算中，其结果的有效数字与原数值的有效数字位数相同。如 1.221.441.4（4）在对数和反对数运算中，所确定的对数的小数点后的位数应与真数有效数字位数相同。（5）统计计算中，平均值的精度通常较个别观测值高。多于 4 个观测值的平均数有效数字比个别观测值多保留一位。在表示测定精度时，标准差取二位有效数，每当观测参数很大（50）时，才多取一位。

展开阅读全文