1、高级统计方法,周影辉 博士中山大学管理学院市场学系,1,结构方程建模和分析步骤,验证模型与产生模型 纯粹验证(Strictly Confirmatory,SC) 心目中只有一个模型 这类分析不多,无论接受还是拒绝,仍希望有更佳的选择 选择模型(Alternative Models,AM) 从拟合的优劣,决定那个模型最为可取 但我们仍常做一些轻微修改,成为产生模型类的分析,2,产生模型(Model Generating,MG) 先提出一个或多个基本模型 基于理论或数据,找出模型中拟合欠佳的部分 修改模型,通过同一或其他样本,检查修正模型的拟合程度,目的在于产生一个最佳模型,3,结构方程分析步骤
2、模型建构(Model Specification),指定 观测变量与潜变量(因子)的关系 各潜变量间的相互关系(指定哪些因子间有相关或直接效应) 在复杂的模型中,可以限制因子负荷或因子相关系数等参数的数值或关系(例如,2个因子间相关系数等于0.3;2个因子负荷必须相等) 模型拟合(Model Fitting,通常 MLE) 主要的是模型参数的估计(e.g.,回归分析,通常用最小二乘方法拟合模型,相应的参数估计称为最小二乘估计 ),4,模型评价(Model Assessment) 结构方程的解是否适当( Proper),估计是否收敛,各参数估计值是否在合理范围内(例如,相关系数在 -1与+1之间
3、) 参数与预设模型的关系是否合理。当然数据分析可能出现一些预期以外的结果,但各参数绝不应出现一些互相矛盾,与先验假设有严重冲突的现象 检视多个不同类型的整体拟合指数,如 NNFI、CFI、RMSEA 和卡方值等 含较多因子的复杂模型中,无论是否删去某一两个路径(固定它们为0),对整个模型拟合影响不大 应当先检查每一个测量模型,5,模型修正(Model Modification) 依据理论或有关假设,提出一个或数个合理的先验模型 检查潜变量(因子)与指标(题目)间的关系,建立测量模型 可能增删或重组题目 若用同一样本数据去修正重组测量模型,再检查新模型的拟合指数,这十分接近探索性因素分析(exp
4、loratory factor analysis,EFA),所得拟合指数,不足以说明数据支持或验证模型 可以循序渐进地,每次只检查含2个因子的模型,确立测量模型部分合理后,最后才将所有因子合并成预设的先验模型,作一个总体检查 对每一模型,检查标准误、t 值、标准化残差、修正指数、参数期望改变值、及各种拟合指数,据此修改模型并重复这一步骤 这最后的模型是依据某一个样本数据修改而成,最好用另一个独立样本,交叉验证(cross-validate),6,参数估计和拟合函数,目标:求未知参数使得隐含协方差矩阵 与样本协方差矩阵 “差距”最小 拟合函数(Fit Function) 有多种拟合函数,所得参数
5、估计值可能不同 工具变量 (IV, Instrumental Variable); 两阶段最小二乘 ( TSLS, Two-Stage Least Squares); 无加权最小二乘 (ULS, Unweighted Least Squares); 最大似然 (ML, Maximum Likelihood); 广义最小二乘 (GLS, Generalized Least Squares); 一般加权最小二乘 (WLS, Generally Weighted LS) 对角加权最小二乘 (DWLS, Diagonally Weighted LS),7,拟合检查,修正指数(Modification
6、Index, MI) 模型中某个受限制的参数(通常是固定为 0 的参数),若容许自由估计,模型会因此而改良,整个模型的卡方减少的数值,称为此参数的修正指数 实际应用中要考虑让该参数自由估计是否有理论依据 原则上每次只修改一个参数(通常 MI 最大或较大者) 可以取 MI3.84 或 6.63 的参数,作为该路径可改为自由的准则 但 MI 受样本容量 N 等的影响,不能只看 MI 的数值作为修改的唯一根据,还要考虑修改在理论上的合理性 同时修改或不修改一组相关(对称)的路径,是模型修正时常用的策略,8,检查关系是否实质合理 看各路径等参数估计值,在理论上是否合理、有实质意义残差分析 残差矩阵是样
7、本协方差矩阵减去再生矩阵的结果 正规化残差,9,模型修正和交互效度,当模型修正后,必须评价修正后的模型解是否恰当,是否通用? 需要交叉验证!如何进行交叉验证? 若原本的样本很大,可用一半的数据建立模型和修正模型,再用另一半对模型进行交叉验证 更严谨的做法是不考虑修正指数,只比较数个可能模型的拟合指数,10,模型比较的原理,卡方统计量 若拟合的模型为真,c 渐近服从于 分布,自由度 df=p(p+1)/2-t,其中 p 为指标数目,t 为要独立估计的参数数目c 受样本容量 N 的影响,当样本容量 N 很大时,与数据拟合很好的模型都会被拒绝,所以一般不能单靠 检验来决定模型去留。关于卡方检验的 p 值的说明,11,设有另一个含较少参数的模型,参数 是 的子集, 的维数 u 小于 t (嵌套模型) 将此模型作为原假设 H0,而含 的模型作为被择假设 H1 设 和 分别为 H0 和 H1 对应的 c 值,似然比检验统计量 渐近服从 分布,自由度为 t-u(或自由度之差) 两个模型的比较是根据他们的卡方变化量 及自由度变化量 而决定的,怎样决定?,12,几点注意:理论上,要比较的模型应当是嵌套的卡方变化量也受样本容量的影响模型比较不应以拟合指数为主要依据,而应当考虑模型所描述的各变量间关系的合理性,13,