1、1、数据类型:分类数据:只能归于某一类别的非数字型数据,它是对事物进行匪类的结果,数据表现为类别,是用文字来表述。 (定性数据或品质数据)顺序数据:只能归于某一有序类别的非数字型数据。有类别,但类别是有序的。 (定性数据或品质数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。(定量数据或数量数据 )2、截面数据:在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况。3、总体:是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成。可分为有限总体和无限总体。4、样本:从总体中抽取
2、的一部分元素的集合,构成样本的元素的数目称为样本量。5、参数(对应总体)是用来描述总体特征的概括性数字度量,是研究者想要了解总体的某种特征值。6、统计量(对应样本)是用来描述样本特征的概括性数字度量。是根据样本数据计算出来来的一个量,由于抽样时随机的,因此统计量是样本的函数。7、调查方法:普查,抽样调查,统计报表8、抽样采集数据的方式分为概率抽样和非概率抽样。9、概率抽样:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样。10、非概率抽样:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样。11、搜集数据的基本方法:自填式、面访式、电话式12、数据的误差:抽样误差和非抽样误差抽样误差:是
3、有抽样的随机性引起的样本结果与总体真值的误差。非抽样误差:相对抽样误差而言的,初抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。13、集中趋势:一组数据向某一中心值靠拢的程度,反映了一组数据中心点的位置所在14、众数(分类数据):是一组数据中出现次数最多的变量值,用 M 表示。众数主要用0于测度分类数据的集中趋势,当然也适用于作为顺序数据以及数值型数据集中趋势的测度值。众数是一个位置代表值,他不受数据中极端值的影响。从分布的角度看,众数是具有明显集中区试点的数值,一组数据分布的最高峰点所对应的数值即为众数。15、中位数(顺序数据):一组数据排序后处于中间位置上的变量值,用
4、M 表示。中位e数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不是用于分类数据。中位数是一个位置代表字号,特点是不受极端值的影响,在研究收入分配时很有用。16、四分位数(顺序数据):也称四分位点,是一组数据排序后处于 25%(下四分位数)和 75%(上四分位数)位置上的值。四分位数是通过 3 个点将全部数据等分为 4 部分,每部分包含 25%的数据。17、平均数也称均值,是一组数据相加后除以数据的个数得到的结果。18、异众比率:非众数组的频数占总频数的比例,用 V 表示。异众比率主要用于衡量众r数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总聘书的比重约达,
5、众数的代表性越差,越小,说明占总频数的比重越小,众数的代表性越好。主要是和测度分类数据的离散程度,对于顺序数据以及数值型数据也可以计算异众比率。19、极差:一组数据的最大值与最小值只差成为极差,也称全距,用 R 表示。20、平均差:也称平均绝对利差,是各变量值与其平均数离差绝对值的平均数,用 M 表d示。21、标准分数:变量值与其平均数的离差除以标准差后的值成为标准分数,也称标准化值或 Z 分数。22、相对离散程度:离散系数:也成为变异系数,是一组数据的标准差与其相应的平均数之比。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;
6、小,说明数据的离散程度也小。23、偏态:是对数据分布对称性的测度。测度偏态的统计量是偏态系数,记作 SK。如果分布式对称的,则偏态系数等于 0。大于 1 或小于-1,成为高度偏态分布,在 0.5-1 或-1 到-0.5,被认为是中等偏态分布;越接近 0,偏斜程度越低。0.4 表示右偏,偏斜程度不大。SK 为正值时,表示正离差值较大,可以判断为正偏或右偏;负值时,表示负离差值较大,判断为负偏或左偏。数值越大,偏斜程度越大。24、峰态:是对数据分布平峰或尖锋程度的测度。测度峰态的统计量是峰态系数。峰态通常是与标准正态分布相比较而言的。服从标准正态分布,峰态系数的值等于 0;不等于 0,表明分布比正
7、态分布更平或更尖,通常称为平峰分布或尖峰分布。当 K0,尖峰分布,数据的分布更集中;小于 0,扁平分布,数据的分布越分散。25、中心极限定理:设从均值为 ,方差为 (有限)的任意一个总体中抽取样本量为2n 的样本,当 n 充分大是,样本均值 的抽样分布近似服从均值为 ,方差为 /n 的正 2态分布。26、区间估计:是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。27、置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间,区间的最小值称为置信下限,最大值称为置信上限。28、置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含
8、总体参数针织的次数所占的比例称为置信水平,为成为置信度或置信系数。29、评估估计量的标准:无偏性(小样本中) 、有效性(小样本中) 、一致性(大样本中) 。无偏性:估计量抽样分布的数学期望等于被估计的总体参数。有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。一致性:随着样本量的增大,点估计量的值越来越接近被估计总体的参数。30、t 分布:类似正态分布的一种对称分布,通常要比正态分布平摊和分散。一个特定的 t分布依赖于称之为自由度的参数。随着自由度的增大,t 分布也逐渐趋于正态分布。31、匹配样本:一个样本中的数据与另一个样本中的数据相对应。32、 错误(弃真错误):原假设 H 为真却被我们拒绝了,烦这种错误的概率用 表示0 33、 错误(取伪错误):原假设为伪我们却没有拒绝,犯这种错误的概率用 表示。 34、P 值:当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P 值越小,我们拒绝原假设的理由越充分。