1、 变量很多,怎样筛选变量?针对此类问题,我的几点思考:1. 从数值分析的角度上来考虑,因为条件数能够很好反应变量的变态问题。将很多变量用矩阵表示出来(用 X 表示)求出变量矩阵XX 的各特征根, 条件指数定 义为: 最大特征根与每个特征根比值的平根,其中最大条件指数称为矩阵 XX 的条件数。条件数大,说明设计矩阵有较强的共线性,使结果不稳定,甚至使离开试验点的各估计值或预测值毫无意义。直观上,条件数度量了变量矩阵XX 的特征根散布程度,可用来判断多重共线性是否存在以及多重共线性严重程度。一般情况下,若10,则认为没有多重共线性;1030,则认为存在中等程度或较强的多重共线性;30,则认为存在严
2、重的多重共线性。2. 从统计回归的角度问题来分析:例如检验所选模型中的各变量之间共线性(即某些自变量之间有线性关系) 情况;根据模型推算出与自变量取各样本值时对应的因变量的估计值 y,反过来检验所测得的 Y 是否可靠。用方差膨胀因子来进行共 线性诊断(1)容许 度对 一个入选变量而言,该统计量等于 1- R2, 这里 R2 是把该自变量当作因变量对模型中所有其余回归变量的决定系数, R2 大 (趋于 1),则 1-R2=TOL 小(趋于 ),容许度差,该变量不由其他变量说明的部分相对很小。(2)方差膨胀因子,对于不好的试验设计,VIF 的取值可能趋于无限大。VIF 达到什么数值就可认为自变量间存在共线性?一般情况下VIF 或 10 时,就有严重的多重共线性存在。3.比较原始的方法:用 matlab 画出散点图,进 行拟合,偏离曲线较远的变量可以剔除,可以进行反复变更函数进行拟合,提高准确度。