1、数据分析与挖掘重点整理一 名词解释 5*1、逐步筛选策略:多元线性回归,存在解释变量应以怎样的策略和顺序进入方程及方程中多个解释变量之间是否存在多重共线的问题。该策略在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再判断是否存在可以剔除方程的变量。 (该策略在引入变量的每一个阶段都提供了再剔除不显著变量的机会,摒弃了向前筛选策略方法中变量一旦进入回归方程就不会被剔除的弊端。在一定程度上解决了变量之间存在的多重共线问题。 )2、时间序列的季节变动:指一年或更短的时间之内,由于受某种固定周期性因素( 如自然、生产、消费等季节性因素)的影响而呈现出有规律的周期性波动。3、时间序列的循环
2、变动:通常是指周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动。4、序列相关性(回归分析检验中的 DW 检验): 一元及多元线性回归模型假定随机误差项是不相关的,如果一个回归模型的随机误差项之间相关,即相关系数不为零,则称随机误差项之间存在着序列相关现象。这种相关现象不是指两个和两个以上的变量之间的关系而是指一个变量前后期数值之间存在的相关关系。二 简答 10*(包括对输出结果的解释,代表什么意义)1、怎样判定样本数据是否适合进行因子分析在进行因子分析之前,首先考察收集到的原有变量之间是否存在一定的线性关系,是否适合采用因子分析提取因子。可以借助变量的相关系数矩阵和 KMO检验方法进行
3、分析。如果大多数变量之间的相关系数都比较高,能够从中提取公共因子,则适合进行因子分析;根据 KMO 度量标准,KMO 值越接近于 1,变量间的相关性越强,越适合进行因子分析;越接近于 0,变量间的相关性越弱,越不适合做因子分析。(例子:本分析中的 KMO 值为 0.713,说明变量间的相关性比较强,比较适合做因子分析。)2、回归分析中,什么是多重共线性?有两个指标来反映多重共线性,这两个指标如何反映多重共线性多重共线性是指解释变量之间存在线性相关关系的现象,解释变量间高度的多重共线性会给评价自变量的贡献率带来困难,因而要进行共线性诊断,并且确定它们对参数估计的影响。采用容忍度(Toleranc
4、e)和方差膨胀因子(VIF)两个统计量来检测多重共线性问题。若容忍度(Tolerance)和方差膨胀因子(VIF)均为 1,说明各解释变量之间不存在多重共线性 1问题。容忍度的取值范围在 01 之间,越接近于 0 表示多重共线性越强,越接近于 1,表示多重共线性越弱;方差膨胀因子是容忍度的倒数,其值大于等于 1,其值越接近于 1,解释变量间的多重共线性越弱,若其值远远大于 1,则共线性越强。3、异方差性中,观察一个表中哪个值取什么时异方差性显著,取什么时异方差性不显著(应该是观察表的题)?理解下吧。 。残差的异方差检验通过各解释变量与残差的Spearman 等级相关分析,可以得到表4.27:表
5、 4.27 Spearman 相关分析Correlations1.000 -.333 -.077. .067 .68231 31 31-.333 1.000 -.176.067 . .34431 31 31-.077 -.176 1.000.682 .344 .31 31 31Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NFAC1_1FAC2_1Standardized ResidualSpearmans r
6、ho FAC1_1 FAC2_1StandardizedResidual表 4.27 中,FAC1_1 与标准化残差(standardized residual) 的相关系数为-0.077,sig=0.6820.05;FAC2_1 与标准化残差的相关系数为-0.176,sig=0.3440.05。可见,检验并不显著,因而认为异方差现象并不明显。4、做出雷达图的步骤是什么?其最大的优点是什么?作图步骤是: 作一圆,并把圆周分为 p 等分。 连接圆心和各分点,把这 p 条半径依次定义为各变量的坐标轴,并标以适当的刻度。 对给定的一次观测值,把它的 p 个分量值分别点在相应的坐标轴上,然后连接成一个
7、 p 边形,这个 p 边形就是 p 元观测值的图示,n 次观测值可画出 n 个 p 边形。最大的优点是:这种图形既象雷达荧光屏上看到的图象,也象蜘蛛网,因此称为雷达图或蛛网图。利用雷达图有助于观测多元数据的某些特点,便于进行深入比较分析。5、在指数平滑法里,一次指数平滑法模型的适用范围及其局限性( 一次指数平滑又称单指数平滑(Single Exponential Smoothing) ,其模型为: 1ttt yy其中,y t是实际值序列, 是平滑值序列(Smoothed Series) , 是上 1ty期平滑值, 是平滑系数(Smoothing Parameter) ,也叫衰减因子(Dampi
8、ng Factor) ,其取值范围为 。 )- 可以不答10一次指数平滑的预测值是实际值序列的加权平均,适用于比较平稳的序列,能够追踪数据的变化,预测值总是反映最新的数据结构。但是该预测法有较大的局限性,首先,预测值不能反映趋势变动、季节波动等有规律的变动,仅适用于平稳序列;其次,短期预测较灵敏但不适合中长期预测;最后,由于预测值是历史数据的均值,因此与实际序列的变化相比较有一定程度的滞后现象。6、时间序列的基本特点是什么?离散型时间序列与连续性时间序列的异同处时间序列的基本特点:(1) 序列中的数据或数据点的位置依赖于时间,即数据的取值依赖于时间的变化,但不一定是时间 t 的严格函数。(2)
9、 每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值预测。(3) 前后时刻(不一定是相邻时刻)的数值或数据点的位置有一定的相关性,这种相关性就是系统的动态规律性。(4) 从整体上看,时间序列往往呈现某种趋势性或出现周期性变化的现象。按时间的连续性可将时间序列分为离散时间序列和连续时间序列。不同点:离散时间序列中的每一个序列值所对应的时间参数为间断点;连续时间序列中的每个序列值所对应的时间参数为连续函数相同点:我们主要研究离散时间序列,并用 Xt 表示,对于连续时间序列,可通过等间隔采样使之转化为离散时间序列后加以研究。 7、回归方程显著性检验是什么?在表的输出结果中,F
10、值是什么意思,Sig 的值表示什么。 。 。 (AVOVA 表)?理解下吧。 。 。回归方程的显著性检验是检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当。回归系数的显著性检验的主要目的是,研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究每个解释变量能否有效的解释被解释变量的线性变化,它们能否保留在线性回归方程中。表 4.25 方差检验表ANOVAc16.725 1 16.725 36.538 .000a13.275 29 .45830.000 3024.567 2 12.283 63.303 .000b5.433 28
11、.19430.000 30RegressionResidualTotalRegressionResidualTotalModel12Sum ofSquares df Mean Square F Sig.Predictors: (Constant), REGR factor score 2 for analysis 1a. Predictors: (Constant), REGR factor score 2 for analysis 1, REGR factor score 1for analysis 1b. Dependent Variable: c. 表 4.25 的信息说明,采用了 FA
12、C2_1,FAC1_1 作为解释变量的模型 2 中,F 统计量的观测值为 63.303,对应的概率 P 值近似为 0。若显著性水平 sig 为 0.05时,概率 P 值小于显著性水平应拒绝回归方程显著性检验的原假设,认为各回归系数不同时为 0,被解释变量与解释变量全体的线性关系是显著的,可以建立线性模型 2,也同时说明回归方程通过了显著性检验。表 4.26 回归方程系数表表 4.26 给出了关于模型的诸多信息:首先,B 为偏回归系数,只有当所有自变量单位统一时,它们的大小才有可比性。Beta 是标准化回归系数,具有可比性。上面的方差分析的显著性检验是针对整个方程的,与表 4.26 中单独进行的
13、每一个偏回归系数的显著性检验不一定等效。即由方差分析得出的回归方程有统计意义,而回归方程中的每一个偏回归系数不一定都有显著性,但至少要有一个是显著的。最终的回归模型 2 中,FAC2_1 的偏回归系数是 0.747 ,t=9.284,sig0.001;FAC1_1 的偏回归系数是0.511,t=6.357 ,sig0.001,所有解释变量回归系数的显著性 t 检验的概率 P 值都小于显著性水平,通过了回归系数的显著性检验 3,它们与被解释变量的线性关系是显著的,应该保留在回归方程中。前几个是所谓的重中之重8、时间序列分析的分类、基本思想、前提假设是什么,简要回答分类:时间序列分析分为确定型时间
14、序列分析(包括长期趋势分析、季节变动分析和循环波动测定等)和随机时间序列分析基本思想:根据系统有限长度的运行记录(观察数据),建立能够比较精确地反映时间序列中所包含的动态依存关系的数学模型,并借以对系统的未来行为进行预测。前提假设:现象的未来行为与现在的行为有关,于是,人们便用现象的现在值作为其下一时刻的预测值。9、在因子分析中有个检验是 KMO 检验,这个检验,表说明什么问题,什么信息表 4.14 巴特利特球度检验和 KMO 检验KMO and Bartletts Test.713250.14921.000Kaiser-Meyer-Olkin Measure of SamplingAdequ
15、acy.Approx. Chi-SquaredfSig.Bartletts Test ofSphericity从表4.14可知,巴特利特球度检验统计量的观测值为250.149,相应的概率P值接近于0,认为相关系数矩阵与单位阵有显著差异,通过检验。根据KMO度量标准,KMO值越接近于1,变量间的相关性越强,越适合进行因子分析;越接近于0,变量间的相关性越弱,越不适合做因子分析 4。本分析中的KMO值为0.713,说明变量间的相关性比较强,比较适合做因子分析。10、 简要分析 ARMA 模型(傅克斯一詹金斯法)的基本思想和基本前提假设基本思想:将预测对象随时间推移而形成的数据序列视为一个随机序列,
16、即除去个别的因偶然原因引起的观测值外,时间序列是一组依赖于时间 t 的随机变量。这组随机变量所具有的依存关系或自相关性表征了预测对象发展的延续性,而这种自相关性一旦被相应的数学模型描述出来,就可以通过时间序列的过去值及现在值预测其未来的值。 (以上是课件上的,还可以回答为:某些时间序列是依赖于时间 t 的一组随机变量,构成该时序的单个序列值虽然具有不确定性,但整个序列的变化却有一定的规律性,可以用相应的数学模型近似描述。通过对该数学模型的分析研究,能够更本质地认识时间序列的结构与特征,达到最小方差意义下的最先预测。-这是 word 上 ARMA 的基本思想)前提条件:作为预测对象的时间序列是零
17、均值的平稳随机序列。平稳随机序列的统计特性不随时间的推移而变化。直观地说,平稳随机序列的折线图无明显的上升或下降趋势。但是,大量的社会经济现象随着时间的推移,总表现出某种上升或下降趋构成非零均值的非平稳时间序列。对此的解决方法是在应用 ARMA 模型前,对时间序列进行零均值化和差分平稳化处理。11、 简要回答逐步筛选策略有什么优势该策略在引入变量的每一个阶段都提供了再剔除不显著变量的机会,摒弃了向前筛选策略方法中变量一旦进入回归方程就不会被剔除的弊端。在一定程度上解决了变量之间存在的多重共线问题。12、 指数平滑法平滑系数 的取值策略一般来说,当时间序列呈现较稳定的水平趋势时,应选较小的 值,
18、一般可在 0.050.20 之间取值;当时间序列有波动,但长期趋势变化不大时,可选稍大的 值,常在 0.10.4 之间取值;当时间序列是上升或下降的发展趋势类型, 应取较大的值,在 0.61 之间;当时间序列波动很大,长期趋势变化幅度较大,呈现明显且迅速的上升或下降趋势时,宜选择较大的 值,则可在0.60.8 之间选值,以使预测模型灵敏度更高,能迅速跟上数据的变化。三 论述 20*2(包括对分析结果的解释)1、聚类分析中系统聚类法的基本思想是什么先将每个研究对象(样品或指标)各自看成一类、按某种顺序分别称作第 1,第 2, 第 h 类( 如果对象是样品,则 h=n;如果对象是指标,则 h=p)
19、;然后根据对象间的相似度量,将 h 类中最相似的两类合并,组成一个新类,这样得到 h-1 类,再在这 h-1 类中找出最相似的两类合并,得到 h-2 类,如此下去,直至将所有的对象并成一个大类为止。当然,真的合并成一个类就失去了聚类的意义,所以上面的聚类过程应该在某个类水平数(即未合并的类数)停下来,最终的类就取这些未合并的类。决定聚类个数是一个较复杂的问题。2、因子分析中的基本思想,两种类型(R 型、Q 型)的区别是什么,根据什么来提取公因子基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量( 或样
20、品 )之间的相关 (相似) 关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品) 之间相关性(或相似性) 较高,但不同组的变量相关性(或相似性 )较低。区别:从全部计算过程来看作 R 型因子分析与作 Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,对变量因子作因子分析;Q 型从相似系数阵出发,对样品作因子分析。依据: 表 4.15 总方差解释表从表4.15的结果可以看出,提取2个因子一共可以解释原有变量总方差的86.275%,原有变量的信息丢失较少,因子分析效果比较理想,因此提取2个因子。即通过总方差分析来确定提取几个因子使原有变量的信息丢失较少。碎石图的结果也可以印证上述判断,即前2个因子对解释原有变量贡献最大,其余因子的特征根值都较小,对解释原有变量的贡献很小,可以忽略。因此,提取2个因子比较合适。即利用碎石图来判断所选因子对解释原有变量的贡献大小,大的话,提取的因子是比较合适的。总体来说,通过因子对原有变量的累积结实率来判断所提取的因子是否满足研究要求,如提取一个因子对原有变量的累积解释率达到 95.608%,提取一个因子便能够满足研究要求。(直接答红色部分就行)