1、因子分析在市场调研中的应用报告出处:昆明田野市场调查与咨询有限公司 发布日期:2003-02-19市场调研过程中,研究人员经常需要面对大批量的数据,这些数据不但数据量大,涉及的变量众多,而且变量间往往存在一定的相关性,为分析问题带来了一定的难度。因此,如何正确有效的处理这些多变量大样本的数据,既是研究人员感兴趣的一个问题,也是研究人员需要具备的一种能力。在这方面,因子分析有着较为广泛的应用。 因子分析是一种主要用于数据化简和降维的多元统计分析方法。在面对诸多具有内在相关性的变量时,因子分析试图使用少数几个随机变量来描述这许多变量所体现的一种基本结构,从而将数据降至一个可以掌握的水平(a man
2、ageable level)。这既便于问题的分析,易于抓住问题的本质所在,同时也为后续的统计分析奠定了基础。 一、因子分析的数理统计背景 从数理统计的角度来看,因子分析的基本目的是,用少数几个随机变量去描述许多变量之间的协方差关系。与多元回归不同的是,这里的少数几个随机变量是不可观测的,通常称之为因子。本质上,因子分析基于这样的思想:根据相关性的大小将变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。由此,可以认为,每组变量代表一个基本结构(因子),它们可以反映问题的一个方面,或者说一个维度。 因子模型假定观测到的每一个随机变量 Xi 线性的依赖于少数几个不可观测的随机变量F
3、1,F2,,Fm (通常称为公共因子, common factor)和一个附加的方差源 ei(通常称为特殊因子或误差,unique factor),即: (1)其中,lij 为第 i 个变量在第 j 个因子上的载荷,称为因子负载(factor load)。 通常对随机变量 Fj 和 ei 进行如下假定: (1.1)(1.2)(1.3)即:(1)各公共因子的均值为 0,方差为 1,且因子之间不相关; (2)各误差的均值为 0,具有不等方差,且误差之间不相关; (3)公共因子和误差间相互独立。 满足(1)式及假设(1.1)(1.3)的因子模型通常称之为正交因子模型。这也是因子模型中应用最为广泛的一
4、类模型。除此之外,还有斜交因子模型,即各因子间存在相关,这种模型在寻求因子解释方面存在一定优势,但由于相关性的存在降低了其应用价值,在实际应用并不多见。统计中,常常将变量间的一种相关关系看作为一种“信息” 。因子分析正是基于变量间的方差-协方差矩阵(相关-协相关矩阵,对标准化的随机变量而言二者是一致的)的一种分析方法,它希望利用公共因子来尽可能的解释变量间的这种关系。在正交因子模型中,我们具有如下的协方差结构: (2.1)(2.2)(2.3)即:(1)可测变量 Xi 的方差可由该变量在 m 个公共因子上的负载平方和(第 i 个共同度,communality)和特殊因子的方差(特殊度,speci
5、ality )表出; (2)可测变量 Xi、Xj 间的协方差可由可测变量在所有公共因子上的负载的对应乘积之和给出; (3)可测变量和公共因子之间的协方差即为因子负载。 上述的协方差结构(2.1)(2.3)为我们分析因子模型的适合度、选择和评价公共因子等方面提供了依据。 二、如何进行因子分析 统计软件,如 SPSS 等的广泛应用使因子分析的实际计算过程相当简易,但是对研究人员而言,明白一种分析方法的意义往往比知晓其计算过程更为重要。一个完整的因子分析过程应当包含如下方面: 1、问题的定义(problem of formulation) 这包括定义一个因子分析的问题并确定实施因子分析的变量。应用统
6、计分析方法的关键往往并不在于方法本身,而在于对合适的问题选择合适的方法。因子分析适用的场合往往是一些多变量大样本的情形,研究者的目的则在于寻求这些具有内在相关性的变量背后的一种基本结构。包含在因子分析中的变量应当依据过去的经验、理论或者研究者自己的判断而被选择。但非常重要的一点是,这些变量必须具备区间或者比率测度等级。在样本大小方面,粗略而言,进行因子分析的样本容量至少应是因子分析所涉及变量数目的倍。 、计算并检验协方差(相关)矩阵(construction&test of correlation matrix) 如前所述,因子分析基于变量间的协方差矩阵。换言之,包含在因子分析中的变量必须具有
7、一定的相关性,如果变量间不存在相关,或者相关性很小,那么因子分析将不是一种合适的分析方法。实际中,变量间的相关性往往是存在的,但是否达到适合进行因子分析的程度呢?除了直观的判定外,所幸的是还存在一些客观的检验方法。 巴特利特球体检验(Bartletts test of sphericity)可以用来检验变量间是否存在相关。它是一种建立在协方差阵是单位阵(即变量间不相关)的假设基础之上的检验。一个大的检验值通常意味着检验结果的显著性,因此可以拒绝原假设,可以进行因子分析,否则应该慎重考虑。 另一个有用的方法是 KMO 测度(Kaiser-Meyer-Olkin measure of sampli
8、ng adequacy) ,它比较了观测到的变量间的相关系数和偏相关系数的大小。一个大的 KMO 测度值同样支持我们进行因子分析。一般而言,KMO 测度0.5 意味着因子分析可以进行,而在 0.7 以上则是令人满意的值。 3、选择因子分析的方法(method of factor analysis) 主成分分析法(principal component analysis)和公因子分析法(common factor analysis)是两种主要的寻找公因子的方法。前者主要考虑变量的全部方差,而后者则着重考虑共同方法。因此,主成分分析法使用直接由数据计算出的协方差阵,而公因子分析法则先将计算出的协方
9、差阵的对角线元素替换为一个估计的共同度,再进行后续分析。如果研究者关注的问题是寻求可以解释数据中的最大方差的尽可能少的因子时,主成分分析法是一种值的推荐的方法,同时这也是应用比较广泛的一类方法。 4、确定因子数目(number of factors) 主成分法所获取的因子解的数目是同原来变量的个数一样多的,而因子分析的主要目的则是用少数几个公因子来阐释数据的基本结构。这既要求因子的数目应该远比远来的变量个数要少,同时又要求保留的因子能够尽可能多的保留原来变量的信息。因此因子数目的选取也就比较讲究。除了经验判断外,特征值法是选用较多的判断方法。因子对应的特征值就是因子所能解释的方差大小,而由于标
10、准化变量的方差为 1,因此特征值法要求保留因子特征值大于 1 的那些因子。这意味着要求所保留的因子至少能够解释一个变量的方差。需要注意的是,如果变量的数目少于20,该方法通常会给出一个比较保守的因子数目。 此外,基于所保留的因子能够解释的方差比例的方法也常常使用。一般而言,所保留的公因子至少应该能够解释所有变量 60%的方差。 因子碎石图(scree plot)提供了因子数目和特征值大小的图形表示。可以用于直观的判定因子数目。半分法及统计检验法也是确定因子数目的方法,但并不常用。 5、因子旋转(rotation of factors) 因子负载给出了观测变量和提取的因子之间的相关程度的大小,这
11、意味着在某一因子上的负载大的变量对该因子的影响较大,因子的实际意义较大地取决于这些变量。这可以帮助我们来解释因子的实际意义。但是,基于公因子本身的意义,实际中往往会出现所有变量在一个因子上的负载都比较大的情形,这为因子的解释带来了困难。 因子旋转(rotation of factors)为因子解释提供了便利。因子旋转的目的是使某些变量在某个因子上的负载较高,而在其它因子上的负载则显著的低,这事实上是依据因子对变量进行更好的“聚类”。同时,一个合理的要求是这种旋转应并不影响共同度和全部所能解释的方差比例。因子模型本身的协方差结构在正交阵下的“不可识别性”决定了因子旋转的可行性。 正交旋转(ort
12、hogonal rotation)和斜交旋转(oblique rotation )是因子旋转的两类方法。前者由于保持了坐标轴的正交性(成直角),即因子之间的不相关性,因此使用最多,也是正交因子模型的旋转方法。正交旋转的方法很多,其中以方差最大化法(varimax procedure )最为常用。斜交旋转可以更好的简化因子模式矩阵,提高因子的可解释性,但是因为因子间的相关性而不受欢迎。但是如果总体中各因子间存在明显的相关关系则应该考虑斜交旋转。 6、因子解释(interpretation of factors) 因子分析的重要一步应该是对所提取的公因子给出合理的解释。因子解释可以通过考虑在因子上
13、具有较高负载的变量的意义进行。经过因子旋转后的因子负载阵可以大为提高因子的可解释性。 需要注意的是,即是经过旋转后,仍有可能存在一个因子的所有因子负载均较高的情形,这种因子通常可以称之为一般或者基础性因子,一个合理的解释是它是由于所研究的问题的共性所决定的,而并不单一的取决于问题的某一个方面。此外,对于某些负载较小、难以解释或者实际意义不合理的因子,如果其解释的方差较小,则通常予以舍弃。 7、因子得分(factor scores) 如果后续分析需要,如进行回归分析等等,通常需要进一步计算各公因子的因子得分。即给出各因子在每一个案例(case)上的值。事实上,既然各观测变量可以表为各公因子的线性
14、组合,那么反之,各公因子也可以表为各观测变量的线性组合: (2)其中:Wij 为第 i 个因子在第 j 个变量处的因子得分系数。注意,它并不等于(1)中的因子负载 Lij。 因子得分正是通过这样的方法利用各观测变量的值而估计得到的。主成分分析法可以给出各因子得分的精确值,并且这些值之间是不相关的。因子得分值可以用来代替原来的变量用于后续的分析。由于消除了相关性,为后续的统计分析方法的应用提供了较大便利。 8、模型的适合度(model fitness) 因子分析的最后,应该对构建的模型是否适合问题本身有一个认识,这就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。 由因子模型的协方差结
15、构(2.1)和(2.2)可知,一旦因子模型建立,有了因子负载后,我们就可以计算的观测变量的方差-协方差阵,这种由公因子再生的方差 -协方差阵(reproduce correlation matrix)与实际观测到的方差 -协方差阵(observed correlation matrix)之间的偏差,即残差矩阵(residuals matrix)是我们判断模型适合度的重要依据。如果残差矩阵中的值都比较大,那么我们有理由认为模型并不是很适合;反之如果残差矩阵接近于零矩阵,那么显然公因子可以很好的解释变量的方差-协方差关系,模型是合适的。 再次指出,由于因子分析的实际过程在 SPSS 等统计分析软件
16、中易于实现,因此在这里不再以实例赘述其操作过程,而是着重指出正确实施因子分析所应遵循的步骤及其意义。我们认为,这种素养对于研究者而言更为重要。 三、因子分析的实际应用 由于因子分析的这种处理多个具有一定相关性的变量的能力,因此在市场调研的各个领域中有着广泛的应用。 1消费者使用习惯和态度研究(U&A) 在 U&A 研究中,对消费者对产品的态度探查往往需要使用因子分析,探查影响消费者产品态度的基本因子,并在此基础上,利用各因子进行聚类分析对消费群进行细分,从而达到市场细分的目的。在这里,基本因子在消费群的细分中具有基础性的作用。 例如,选取有关啤酒饮用的 20 个态度语句,采用 5 级量表法(1
17、-非常不满意,5- 非常满意)对消费者进行了产品态度调查,因子分析的结果给出了影响产品态度的 6 个态度因子:1)男子气概;2)品牌转换;3)有吸引的额外利益的啤酒;4)独自在家饮;5)社会认可;6)品牌试验者/社交饮用者。 再如,因子分析的结果表明,新车的购买者主要关注购车因子包括经济性、方便性、性能、舒适度和豪华性五个方面,由此可以产生五个细分市场。 2、生活形态研究(life-style) 对生活方式(life-style)的研究中不可避免的要用到因子分析技术。目前生活方式的研究主要使用功能句子测量技术,这些句子数量众多而且具有较强的相关性,无论从数据本身还是从实际意义出发都适合于因子分析。 3、品牌形象和特性研究(brand-imagine&attributes) 产品调研中,经常需要品牌形象和产品属性。在这一方面,因子分析同样可以发挥重要的作用。例如。顾客是如何评价银行的呢?对 15 个有关银行特性的变量的因子分析结果表面,传统服务(包括贷款利率、社会声望等)、方便性(包括服务速度、ATM 机的位置等)、可见度(包括亲友推荐、社会活动的参与度等)以及能力(包括雇员能力、辅助服务可得性等)是评价银行时所使用的四个评价因子。 4、满意度研究(CSR) 满意度研究中同样可能需要使用因子分析对顾客态度进行探查,以寻求影响顾客满意度评价的基础因子。