1、1、统计学方法可以解决的主要问题有哪些?1)现状的客观描述(如不同状况的百分比、均值)2)均值、方差、百分比等统计值是否有本质区别(随机差异?本质差异?)3)依据样本推断总体的概率分布是什么 4)依据数据找出问题的显著因素与关键因素 5)寻找变量的相互关系(相关关系)6)寻找变量间的数量规律 7)依据规律把变量分为具有某些共同特性的类别 8)依据已有规律,判别新数据属于哪个类别等。2、统计学的发展经历了哪些阶段?说明每个阶段的特点。1)古典统计学时代 :政治算术派 国势学派 2)近代统计学时代 :数理统计学派 社会统计学派 3)现代统计学时代:区间估计理论 假设检验理论1、数据计量尺度分为哪几
2、种?不同计量尺度各有什么特点?答:一、定类尺度 二、定序尺度 三、定距尺度 四、定比尺度A 定类尺度特点:(1)定类尺度是最粗略、计量层次最低的计量尺度。(2)定类尺度作为代码的数值不反映各类的优劣、量的大小或顺序,不可以区分大小或进行任何数学运算。(3)对定类尺度的计量结果,可以计算每一类或组中各元素或个体出现的频数。B、定序尺度的特点:(1)定序尺度可以将研究对象分为不同的类别,而且可以反映各类的优劣、量的大小或顺序。(2)定序尺度比定类尺度精确一些,但只是测度了类别之间的顺序,而未测量出类别之间的精确差值。(3)计量结果只能比较大小,不能进行加、减、乘、除。C、定距尺度特点:(1)定距尺
3、度不但可以用数字表示现象各类别的不同和顺序大小的差异,还可以用确切的数值反映现象之间在量方面的差异。(2)反映现象规模水平的数据必须以定距尺度计量,例如产品产量、人口数、国内生产总值等(3)结果可以进行加减。D、定比尺度的特点:(1)反映现象的结构、比重、速度、密度等数量关系(2)定比尺度的计量结果可以进行加、减、乘、除等数学运算2、统计变量分类有哪些?统计数据有哪几种?统计变量定类变量、定序变量、数字变量;统计数据有定类数据、定序数据、定距数据和定比数据。定类变量的值就是定类数据;定序变量的值就是定序数据;数字变量的值即为定距数据或定比数据(这两者统称为定量数据) 。3、抽样调查分为哪两类?
4、各有什么特点?抽样调查分为随机抽样和非随机抽样。随机抽样:在目标总体中不按任何规则抽取一定数量的样本。特点:总体中每个单位被抽中的概率是相同的,完全由许多随机因素综合作用来决定,既排除了抽样时人的主观随意性,也排除了人的主观能动性。当总体变异性大时,随机抽得的样本代表性差。误差可以估计且所需样本数量大,操作不灵活,成本较高。适合结论性调查非随机抽样:在目标总体中按某种规则抽取一定数量的个体作为样本。特点:误差不可估计,使用与探索性研究。 4、简述企业数据收集过程1)首先要弄清楚收集的目的,明确收集方向。一般来说,收集调研数据的用途可分为探测性调研、描述性调研和因果性调研三类;2)制定数据收集计
5、划。计划的制定要贴近现实情况,具备较强的可操作性;3)实施数据收集计划。1、简述频数分布表的编制过程2、什么是茎叶图?有什么特点?把每一项观察分解为茎值和叶值1 茎值确定组别,数的大小基本不变或变化不大的位作为一个主干;2 叶值确定频数,将变化大的位的数作为分枝(叶)3 计数1、简述均值、众数和中位数的关系(一)正态分布时三者的关系 正态分布是以算术平均数为对称轴,两边频数相等。其中频数最大的标志值就是数列居中位置的标志值,也就是权数最大、最具有代表性的那个变量值。因此,正态分布时,算术平均数、中位数和众数三者相等, (二)数据分布不对称时三者的关系1、左偏时众数大于中位数,中位数大于算术平均
6、数;当右偏时算术平均数大于中位数,而中位数又大于众数。2、数据左偏分布,峰部在右,即频数最大的变量值在右,则众数在左,左边各组频数虽小,但组数多。必定拉动均值向左边靠。处于频数中间的中位数应在两者之间。3、数据右偏分布,峰部在左,即频数最大的变量在左,则众数在右,由于算术平均数收极端值影响,在发生右偏出现较大极端值时,算术平均数将增加得更快,而中位数总居于中间位置。1、伯努利试验的条件是什么?伯努利试验要满足:1、各次试验独立进行;2、每次试验又有两种结果:事件 A 发生或不发生。2、泊松分布的应用条件是什么?泊松分布的应用条件是总体的大小至少必须是样本大小的 10 倍;并且某一特征在每次试验
7、中出现的概率 P 必须小于 0.1,适用于描述在单位时间内随机发生的次数。1、为什么要进行抽样?什么是抽样分布?有时,由于总体容量太大、耗时长、成本高、检验具有破坏性,实际操作中由于事件和成本等限制条件存在,无法对总体中的样本进行一一分析。这时,只要样本选择得当,抽样便不失为一种可行性高、适用性强的方法和技术。假如从一个总体中随机抽出样本容量相同的所有可能样本,则可以根据这些样本计算出某个统计量得所有可能值,这些可能值形成一个分布,称为这样本统计量的抽样分布。1、样本容量大小由哪几个因素决定?1)总体方差数值大小的影响。总体方差大,抽样误差大,应多抽取样本。2)置信程度的高低,即置信水平的大小
8、。置信水平越大,推断正确的把握就越大。因而要有较大把握就需要更大的样本容量。3)允许误差的大小,推断精确,误差低,样本容量要求大1、简述方差分析的原理。方差分析作为一种统计方法,是把实验数据的总变异分解为若干个不同来源的分量。因而它所依据的基本原理是变异的可加性。不同来源的变异只有当它们可加时,才能保证总变异分解的可能。具体地讲,它是将总平方和分解为几个不同来源的平方和(这里的平方和指实验数据与平均数离差的平方和)。2 1467 3 028 4 1 1、简述卡方分布的特征。1)卡方统计量非负。我们注意到卡方的计算公式为若干个非负数相加,因此,在卡方分布的图像中,只有第一象限才有分布图。2)卡方
9、分布与自由度有关。自由度越小,分布就越向左边倾斜;而随着自由度的增加,卡方分布的偏斜程度有所缓和,逐渐趋向对称的性质;当自由度继续增大时,卡方分布将逐步趋近于对称,即正态分布。3)在卡方分布中,数据呈正偏或右偏分布。卡方检验一般是单侧检验,其尾部为拒绝的区域(拒绝区域由显著性水平 决定) 。2、简述拟合优度检验及列联表的自由度如何确定。1)在进行拟合优度检验时,自由度得计算公式为:df=k-m-1;式中 k 为数据类别个数,m为样本数据中估计的参数个数,在不考虑任何被估计的参数时,减去 1 是必须的。2)列联表自由度的公式为 df=(r-1)(c-1);r 为列联表中心矩阵的行数;c 为列联表
10、中心矩阵的列数。、简述时间序列的两种的模型。时间序列一般有两种的模型:乘法模型和加法模型。1) 乘法模型是假设时间序列各个构成部分对序列的影响均按比例变化。四种因素对事物的影响是相互的,它们之间存在着一定的关系,因而时间序列中各观察值表现为各种因素的乘积。时间序列的乘法模型可表示为:Y=T*S*C*I;其中 T 和 Y 的度量单位相同,是总量指标,而 S,C 和 I 为比率,以百分比表示。2)加法模型是假设四种因素对时间序列的影响是可加的,并且是相互独立的。时间序列的加法模型可表示为:Y=T+S+C+I;其中,Y,S,C 与 I 都是总量指标。2、季节因素分析的目的是什么,简述季节因素分析方法
11、。1)季节因素分析的目的有两个:一是通过季节因素分析消除时间序列中的季节波动,使时间序列更明显地反映趋势及其他因素的影响;二是通过分析了解季节因素影响作用的大小,掌握季节变动的规律。2)季节因素的分析方法:A 简单平均法 简单平均法是直接通过简单平均来计算季节指数的一种比较常用的方法。该方法的基本原理是,先计算出各年同季的平均数以消除随机波动的影响,作为该季的代表值,然后计算出全年的平均数,作为全年的代表值,将同季平均数与全年平均数之比作为季节指数。B 移动平均趋势剔除法 移动平均趋势剔除法是在移动平均法的基础上,以乘法模型(Y=TSCI)为理论基础的测定季节变动的方法,它能避免长期趋势与周期
12、波动的影响,净化季节变动的规律性,从而实现较为准确的预测。 3、对于有趋势时间序列,如何选择合适的趋势模型进行预测?1)判断是否为年度数据,如果不是年度数据则要用季节因素分析;如果是年度数据则用年度数据预测模型;2)年度数据预测模型有四种:线性趋势模型、二次曲线趋势模型、指数趋势模和自相关模型;A 如果时间序列近似一条直线则用线性趋势模型:如销售额、进出口额和产品的产量等;B 当时间序列中各观察值发展趋势呈抛物线状态,并且各期发展水平的二次增长量(逐期增长量之差)大致相等时,可用最小二乘法配合二次曲线趋势模型来预测;C 当时间序列的观察值按照一定的增长率增长或者衰退,则可以考虑配合指数趋势模型
13、;D 当时间序列的各期观察值之间存在自相关时,可以采用自相关模型来进行预测。1、我国目前编制的时间价格指数主要有哪三类?我国目前编制的时间价格指数主要有三类:一类是与商品市场有关的价格指数,如商品零售价格指数、居民消费价格指数等;一类是与生产资料市场有关的价格指数,如农业生产资料价格指数等;一类是与资本市场有关的价格指数,如股票价格指数、基金价格指数等。1、管理统计学:是一门以经济管理理论为基础,以一般统计学为工具,研究社会和经济管理的有用科学,它研究如何有效地收集、整理和理解反映社会和经济管理实践的数据,以期认识数据的规律性及内在的社会和经济含义。2、统计学:是研究如何收集、整理、分析和解释
14、涉及社会、经济、管理问题的数据,并对研究对象进行统计推断的一门学科。3、随机现象:是指在相同的条件下重复进行试验,每次结果未必相同的现象;或是知道它过去的状况,但未来的发展事前不能完全确定的现象。4、总体:统计学将构成研究对象全部元素的集合称为总体。1、抽样调查:是非全面调查的一种主要组织形式。它是按照随机原则,从若干单体组成的事件总体中,抽取部分单位作为样本进行调查、观察,并用观察结果推断、代表总体数量特征的一种调查方式。2、单纯随即抽样:指在总体中完全随机地抽取样本。不同于个体机会均等,适用于个体特征比较均等的总体。3、抽样误差:是由于抽样的随机性造成的,是用样本统计量估计总体参数时出现的
15、误差,反映了各样本之间存在着一定的非同质性。1、随机事件:在同一组条件下,每次你试验可能出现也可能不出现的事件,称为随机事件。2、样本空间:如果事件 是随机事件试验的所有可能结果,则称其为样本空间。 3、频率代替概率原则:对于随机事件,每次试验的结果都有一定的随机性,但经过反复试验,其统计规律会呈现出来。相对于事件 A,如果进行 N 次随机试验,事件 A 发生的次数为 n,则事件 A 不发生的次数为 N-n。用比值 n/N 来表示事件 A 在 N 次随机试验中发生的概率。通常试验次数 N 取得很大时,比值 n/N 趋于稳定,此时,人们用这个频率作为随机事件 A 的概率近似,这就是所谓的 “频率
16、替代概率原则” 。1、抽样分布 :一个样本统计量的概率分布称为该统计量的抽样分布2、参数估计:根据从总体中抽取的样本估计总体分布中包含的未知参数的方法1、区间估计:区间估计是在点估计的基础上,根据给定的置信度估计总体参数取值范围的方法.2、置信区间:在区间估计中,由样本统计量所构成的总体参数的估计区间称为置信区间。3、独立样本:如果两个样本是从两个总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。4、配对样本:配对样本即一个样本中的数据与另一个样本中的数据相对应。5、边际误差:总体比例的置信区间有两部分组成:总体比例的点估计值和描述估计量精确度的值,这个值称为
17、边际误差。1、假设检验:假设检验也称显性检验,是事先作出一个关于总体参数的假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受或否定假设的统计推断方法。1、非参数检验:在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。 2、拟合优度检验:拟合优度检验是检验随机样本的总体分布与某种特定分布拟合的程度(在一定的标准上) ,也就是检验观测值与理论值之间的接近程度(也就是在一定的显著性水平上) 。1、回归分析:所谓回归分析就是依据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。2、决定系数:除了相关系
18、数以外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数。时间序列分析与预测1、长期趋势:时间序列的观测值在长期过程中逐渐向上或向下移动的一种趋向或状态。2、季节变动:时间序列的观测值受季节影响,一年内重复出现的周期性波动。3、循环波动:时间序列中出现的周期在一年以上的上升与下降交替或以繁荣衰退萧条复苏繁荣为周期的循环往复波动。4、随机波动:由偶然因素引起的除去长期趋势、季节波动和循环变动后剩下的那部分变动。1、个体指数:反映某一项目或变量变动的相对数。2、拉氏指数:以每一个项目的基期或基准点数量为权数的加权综合指数。3、帕氏指数:是以每一个项目的报告期或报告点数量为权数的加权综合指
19、数。4、消费者价格指数:指的是固定权数的加权综合物价指数。5、零售价价格指数:零售价格指数是反映市场商品零售价格变动水平的一种价格指数。1、统计学发展经历了( 古典统计学 )、(近代统计学)和(现代统计学)三个阶段。 2、依据“恩格尔法则” ,家庭收入(越多) ,则饮食支出占家庭收入的百分比(越少) 。3、统计学方法一般可以分为两类:(描述统计学)和(推断统计学) 。4、描述统计是指(研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征 ) 。5、推断统计是指(研究如何通过样本数据去推断总体数量特征。是在对样本
20、数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断) 。6、 (恩格尔系数)用于衡量生活水平。1、数据来源分为(直接来源)和(间接来源)两种。2、依据调查对象的不同,统计调查方式分为(全面调查)和(非全面调查) 。3、全面调查主要有(普查)和(全面统计报表) 。4、非全面调查包括(非全面统计报表) 、 (典型调查) 、 (抽样调查) 、 (重点调查)等。5、统计调查方法归纳起来可分为(询问调查方法)和(观察与实验法)两大类。6、随机抽样类型包括(单纯随机抽样) 、 (分层随机抽样)及(分群随机抽样)等。7、非随机抽样类型包括(便利抽样) 、 (判断抽样)及(配额抽样)等。8
21、、误差分为(非抽样误差)和(抽样误差)两大类。9、非抽样误差包括(覆盖) 、 (无回馈) 、 (道德) 、 (被调查者) 、 (测量误差)等。1、单变量定量数据的图形描述分为(分组图形描述)和(未分组图形描述)两大类。2、单变量定量数据的图形表示方法有(直方图) 、 (折线图) 、 (累积折线图)及(茎叶图) 、(箱线图)等。3、多定量数据的图形表示方法有(散点图) 、 (线图) 、 (组箱线图)及(雷达图)等4、比较具有相同分类且问题可比的定性数据的各样本或总体时,应用(环形图) 。5、描述同时产生的两个定性变量关系的最常用的两种方式为(交叉表)和(多重条形图) 。6、 (条形图)和(饼图)
22、通过反映频数分布表的内容,来描述定性数据。7、累积频数分布图通过反映累积频数分布表的内容来描述(定序数据) 。1、集中趋势的度量有(数值平均数)和(位置平均数) 。2、数值平均数包括(简单算术平均数) 、 (调和平均数)和(几何平均数) 。3、位置平均数包括(中位数) 、 (众数)和(分位数)等。4、调和均值主要用于(不能直接计算均值的数据) ,几何均值则主要用于(计算比率数据的均值) 。5、中位数一般应用于(定序变量) 。 6、当数据呈对称分布或近似对称分布时,选择(平均数 )作为代表值较为适宜;当数据呈偏态分布时, (平均数 )的代表性较差,特别是偏斜的程度较大时,宜选择(众数或中位数 )
23、代表值。7、众数主要适用于(定类)变量;中位数主要适用于(定序)变量;平均数适用于(数字 )变量。8、离散指标可分为(极差) 、 (四分位差) 、 (方差) 、 (标准差)与(标准分数) 、 (离散系数)等,其中(标准差)的应用最广泛。9、 (离散系数)用于比较不同总体或样本数据的离散程度。1、事件结果分为两种情况,可用(伯努利分布)描述2、在产品抽样检验和控制图分析中经常用到(二项分布) 。3、独立重复试验中,试验首次成功所需的试验次数服从(几何分布) 。4、当检验某批产品质量时,从这批产品中随机每次抽取一件,共抽 n 次,而抽出每一件后均不放回到这批产品中去。那么共抽取 n 件产品试验中恰
24、好有 k 件不合格品的概率服从(超几何分布) 。5、 (泊松分布)适合于描述单位时间内随机事件发生的次数,并能作为(二项分布)的近似 6、 (多项分布)应用于一次实验有多个可能结果的情况。7、许多电子产品的寿命分布一般服从(指数分布) 。它在(可靠)研究中是最常用的一种分布形式。8、在实际问题中,当我们无法区分在区间a,b 内取值的随机变量 X 取不同值的可能性有何不同时,我们就可以假定 X 服从a,b上的(均匀分布) 。 9、小样本一般是指(样本容量小于 30 的样本) 。10、 (T 分布)为小样本分布,应用在当对呈正态分布的总体的均值进行估计。11、 (T 分布)开创了小样本方法的研究。
25、 12、 ( )分布主要适用于拟合优度检验和独立性检验,以及对总体方差进行估计和检验。13、 (F 分布)用于方差分析、协方差分析和回归分析等1、依据(中心极限定理) ,来自不同总体的样本均值的抽样分布,随着样本容量的逐渐增加,趋于一种分布(正态分布 ) 。2、点估计的评价准则包括(无偏性 ) 、 (有效性 )和(一致性 )等。1、总体服从正态分布,无论样本容量如何,样本均值的抽样分布均服从(正态分布) ,总体方差已知,均可使用(Z 统计量)建立总体均值的置信区间。2、总体服从正态分布,方差未知,小样本时采用(T 分布 )建立总体均值的的置信区间。1、 (假设检验 )和(参数估计 )是统计推断
26、是的两个组成部分,它们都是利用样本对总体进行某种推断。2、假设检验分为(参数假设检验)和(非参数假设检验) 。3、假设检验的理论根据是(在一次试验中小概率事件几乎不发生 ) 。4、假设检验的决策依据是(样本统计量与假定的总体样本参数的差异大小 ) 。5、假设检验中的两类错误为(弃真错误 )和(取伪错误) 。对于一定的样本量 n, (不能 )同时做到减小犯这两种错误的概率。1、方差分析简称(ANVOA ) ,用于解决(多个均匀值是否相等 )的检验问题。方差分析的对象称为(因素 ) ;因素的内容称为(因素水平 ) 。1、非参数检验的主要方法:( 检验) , (威尔科克逊秩和检验 ) 、 (游程检验
27、 ) , (斯皮尔曼等级相关 )等。2、卡方检验通常被用在如下两个方面:(拟合优度检验) ;(变量间的独立性检验 )。3、列联表是(两个或两个以上变量进行交叉分类 )的频数分布表,它包含有( 观测值)频数和(期望值 )频数。卡方检验通常被用来检验列联表(两变量间的独立性 ) 。1、变量之间的关系有两种:(函数关系 )和(相关关系 ) 。2、相关系数是(对变量之间关系密切程度的度量 ) ,对两个变量之间(线性相关程度 )的度量称为简单相关系数。3、相关关系按照相关的方向不同分为(正相关)和(负相关) ;按照相关形式不同分为(线性相关)和(非线性相关) ;按相关程度分为(完全相关) 、 (不完全相
28、关)和(不相关)。4、一元线性回归用于研究(一个自变量和一个因变量之间的统计关系) 。1、时间序列分为(绝对数时间序列) 、 (相对数时间序列)和(平均数时间序列) 。2、绝对数时间序列分为(时期序列)和(时点序列) 。3、影响时间序列的因素包括(长期趋势) 、 (季节变动) 、 (循环波动)和(随机波动) 。4、时间序列平滑的目的是(消除随机波动) ;平稳时间序列使用(移动平均数)和(指数平滑法)来预测时间序列未来值。5、有趋势的时间序列预测应用(最小二乘法预测)和(自回归类型) 。6、最小二乘法预测模型包括(直线方程) 、 (二次曲线方程)和(指数曲线方程) 。7、循环因子分析的目的为(探索循环波动的规律)和(从时间序列中剔除循环波动的影响)22;测度循环因子最常用的方法为(剩系法) 。1、指数按照计入指数的项目数目的差异分为(个体指数)和(综合指数) ;按照编制方法不同分为(不加权指数)和(加权指数) ;按照反映内容的差异分为(数量指数)和(质量指数) ;按照对比场合的差异分为(时间指数)和(区域指数) 。2、加权指数按照赋予权重的方式不同分为(拉氏指数)和(帕氏指数)