1、多元统计分析在地下水质分析中的应用,马 雷 Email:L 合肥工业大学 资源与环境工程学院,在我们对某现象进行研究时,常常需要同时观测多个指标。 如,分析一个地下水水化学特征时,要考虑Ca2+、Mg2+、K+、Na+、HCO3-、SO42-、Cl-等多个指标; 上述指标,在统计中通常称为变量。,什么是多元统计分析,如何同时对多个变量进行有效的分析和研究? 一种做法是把多个变量分开分析,一次仅分析一个变量,最多也就是研究两个变量之间的关系,这就是我们已经在统计学中学过的一元统计分析; 另一种做法是对这些所要研究的变量同时进行分析研究,即多元统计分析。,什么是多元统计分析,多元统计分析是研究多个
2、变量之间关系以及内在的统计规律的一门统计学科。 利用多元统计分析的方法不仅可以对多个变量之间的相互依赖关系以及内在的统计规律进行分析,而且还可以对研究对象进行分类和简化。,什么是多元统计分析,一元正态分布,多元正态分布,一元问题,灰岩水位观测与降雨量是否有关系?,降雨量,水位曲线,地温与埋深是否有关系?,多元问题,含水层水化学是否具有特征?,矿井涌水量与这些因素是否有关?,方差分析; 相关分析; 主成分分析; 因子分析; 分类主成分分析; 聚类分析; 判别分析,等。,一、方差分析,方差分析的原理,产生的差异可以用两个方差来计量: 一个称为水平之间(组间)方差(组间平方和除以自由度(r-1),r
3、为组数), 一个称为水平内部(组内)方差(组内平方和除以自由度(n-1),n为样本容量总数)。 水平之间的方差既包括系统性因素,也包括随机性因素; 水平内部方差仅包括随机性因素。,方差分析的原理,如果不同的水平对结果没有影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,两个方差的比值就会接近于1。,反之,水平之间的方差就会大于水平内的方差,当这个比值达到某个程度,或者说达到某临界点,就可做出判断,既不同的水平之间存在着显著差异。 因此,方差分析就是通过不同方差的比价,做出拒绝原假设或不能拒绝原假设的判断。,方差分析的原理,水平间的方差合水平内方
4、差之比是一个统计量,这个统计量服从F分布:,自由度为(3,20)和(50,20)的F-分布密度曲线图。,二、相关分析,如何标准化?,三、主成分分析,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。,主成分分析,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信
5、息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。,主成分分析,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。,主成分分析的一般模型,这个方程且满足:,主成分分析,其中 有以
6、下原则来确定:,这时称:Y1是第一主成分Y2是第二主成分,四、因子分析,因子分析,因子分析是主成分分析的推广和发展。 为什么要进行因子分析? 由主成分分析的模型可知:,因子分析,我们如果想知道每个变量与公共因子的关系,则就要进行因子分析了。因子分析模型为:,因子载荷,称为因子载荷(实际上是权数)。 因子载荷的统计意义:就是第i个变量与第j个公共因子的相关系数,即表示变量xi依赖于Fj的份量(比重),心理学家将它称为载荷。,因子旋转,为了对公因子F能够更好的解释,可通过因子旋转的方法得到一个好解释的公因子。 所谓对公因子更好解释,就是使每个变量仅在一个公因子上有较大的载荷,而在其余的公因子上的载
7、荷比较小。 这种变换因子载荷的方法称为因子轴的旋转。因子旋转的方法很多,常用的为方差最大正交旋转。,因子得分,在分析中,人们往往更愿意用公共因子反映原始变量,这样更有利于描述研究对象的特征。因而往往将公共因子表示为变量(或样品)的线性组合,即:,称上式为因子得分函数,用它可计算每个样品的公因子得分。,主成分和因子分析的一些注意事项,可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。 另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。,因子分析的判断,KMO测度和巴特利
8、特球体检验: KMO值:0.9以上非常好;0.8以上好;0.7一般;0.6差;0.5很差;0.5以下不能接受。 巴特利特球体检验的 H0:相关矩阵为单位阵,五、分类主成分分析,传统主成分分析(PCA)用线性变换方法将原空间映射到一个线性子空间,从而用于数据压缩和特征提取等,其存在两个不足之处: 一是每一个主成分承载的信息量就少,为满足累计方差贡献率达到一定水平,可能需选取较多的主成分,此时主成分分析的降维作用就不明显。 二是主成分分析只是一种“线性”降维技术,只能处理线性问题。然而,现实中很多事物之间并非线性关系。,非线性主成分分析(NLPCA,nonlinear principal comp
9、onents analysis)是一种可用于处理非线性问题的降维方法,该方法通过揭示变异信息的主要维度,在尽可能多的保留原始数据变异性信息的同时将原始数据转换为新的、更少的数据。 该方法可以揭示变量之间,样本之间以及样本和变量之间的三种关系,与其他多元统计分析相比,本方法能够从原始数据中提取更多的信息。在SPSS软件中,使用分类主成分分析(CATPCA,Categorical Principal Components Analysis)实现非线性主成分分析。,六、聚类分析,聚类分析,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。 所
10、以需要进行多元分类,即聚类分析。 最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。,聚类分析,对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。 对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。,聚类中选择变量的要求,和聚类分析的目标密切相关 反映了要分类对象的特征 变量之间不应该高度相关。,如何聚类?,聚类分析就是要找出具有相近程度的点或类聚为一类; 如何衡量这个“相近程度”? 一种方法是
11、用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。 另一种方法是将一个样品看作p维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。,距离,什么是距离? 首先我们 看样本数 据: 一般满足以下四个条件时,就称为距离:,常用距离明氏距离,Minkowski距离:当q=1时:当q=2时:当q=时:,马氏距离,明氏距离的缺点:它没有考虑到指标之间的相关性。 改进的方法是:采用马氏距离 马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离
12、。,相似系数,研究样品之间的关系,除了用距离表示外,还有相似系数,顾名思义,相似系数是描写样品之间相似程度的一个量,常用的相似系数有: 夹角余弦 相关系数,相似系数,夹角余弦cosine 尽管图中AB和CD 长度不一样,但形 状相似。当长度不 是主要矛盾时,就 可利用夹角余弦这 样的相似系数。,夹角余弦cosine,相似矩阵,相关系数,相关系数矩阵,把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。,系统聚类法的步骤,可选择适当的距离,计算距离,把每个样品看成一类,构造n个类,合并最近的两类为一新类,计算新类与当前各类的距离,判断,画聚类图,根据实际情况,确定类和类的个数,仅有一个类,不
13、是仅有一个类,采用系统聚类法,七、判别分析,判别分析 (discriminant analysis),判别分析和前面的聚类分析有什么不同呢? 主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。 而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。,判别分析的基本思路,设有G1、G2、GK个总体 从不同的总体中抽出不同的样本 根据样本 建立判别法则 判别新的样品属于哪一个总体 当然,根据不同的方法,建立的判别法则也是不同的。 常用的判别方法有:距离判别、Fisher判别、Bayes判别,Y1=0.14*Ca-0.014*KNA+0.009*CO3 +0.008*HCO3+0.15*Cl-0.004*SO42-5.662,