1、EOF 分析 By lqouc 1. 什么是 EOF,它的作用是什么。 1.1 什么是 EOF 关于 EOF 要先从主成分分析说起,主成分分析是多元统计分析中重要的一部分,是一种从多个变量 化 为少数变量的统计方法,利用多个变量之间相互关系构造一些新的变量,这些新的变量不仅能综合反映原来多个变量的信息,而且彼此之间是相互独立的, 同时是按方差贡献大小排列的 ,这种统计处理方法称为主成分分析 。 主成分分析在气象应用中称为经验正交函数 ( EOF)分解。 1.2 EOF 的用途 对于一个气象要素,我们通常有 m 个空间点或者台站,有 n 次观测 ,这样组成的矩阵中的任意元素就表示了某一空间某一时
2、刻的 函数 ,我们希望能将这样的 时空函数分解成空间函数与时间函数两部分的线性组合。根据主成分的性质,主成分是按其方差贡献大小排列的,而且是相互独立的,那么可以用前几个时间函数与对应的空间函数的线性组合,对原始场做出估计和解释 ,这就是经验正交函数分解的主要目的。 2. EOF 的数据预处理 EOF 只是个统计学的方法,本身不带有任何物理意义,更不会揣摩作者的意图,所以在数据导入之前需要对数据进行分析和预处理。以免得到错误的或者 不理想的结果。在此处所说的预处理不是指一般 EOF程序中自带的距平或者标准化的处理,虽然这确实有一定的区别。 总之, 在做 EOF 之前,对数据需要有基本的了解,也要
3、对自己的研究目的十分明确。 2.1 数据预处理的必要性 例如 : 想利用 EOF 研究极地海平面气压场的年际变化, 数据是 六十年的 月平均的海平面气压格点资料。首先对手中的资料有基本的判断,月分辨率的资料包含的时间信号的尺度可能有季节内变化、季节变化、年变化、 年际 变化、年代际变化 以及线性趋势。而我们需要的只是其中的年际变化的信号 ,所以为了排除干扰必须对数据进行滤波。这一步是非常有必要的,因为一般来讲 ,气温、气压、 SST 这种 受 太阳辐射影响巨大的要素都具有很强的季节变化,这样的信号远远强于年际变化。 2.2 滤波的方法 对于滤波的方法,我们熟悉的有很多,最简单的是做年平均,还有
4、滑动平均、带通滤波、谐波滤波、线性去趋势。关于这些方法在此一一介 绍。 1.年平均只能去掉年以下的信号,更低频的信号无法去除, 优点是 对年以内的信号去除的十分干净, 缺点是会缩短可用的时间序列,只适用较长时间的研究。 2.滑动平均有很多种,去除年以下的信号可以选用 13 点滑动平均,对于年分辨率的数据采用五点滑动平均可以去除年际变化 ,其优点是较好的保存了时间序列的长度,缺点是对过于强的年以内信号不能彻底去除,影响结果的分析。 但是此处需要注意的是,滑动平均不得已的情况下尽量不要多次使用,这样会大大减小时间序列的自由度。 3.带通滤波也是常用的方法 (本人没用过) ,其优点是可以选定一定的频
5、率范围,缺点是边界处处理不是很清晰。4.谐波滤波,以傅里叶函数为基函数对时间序 列进行逼近,其优点是可以较准确的得到选取的频段信号,缺点是选的 基函数有局限性,而且结果和时间序列的长度有关。 5.线性去趋势可以去除时间序列的线性趋势信号,但是需要这一线性趋势通过显著性检验。 2.3 如何合理选定分析对象 上面谈到的是滤波的方法,但是如果我们的数据是一些大家不熟悉的数据,我们并不知道它都 主要 包含何种尺度的信号,也不知道各个 主要 尺度信号的强弱,那就需要先对时间序列进行分析。对于 时间序列的分析 ,我们可以采用 1.谐波滤波,看各个频率的数值大小。 2.功率谱分析,得到显著周期。 3.小波分
6、析,同样可以得到时间序列的多尺度变化特征。 在此,我推荐的方法是结合空间利用方差分析,因为以上的分析我们都是忽略了空间的影响,一种要素的时间变化特征是会随着 空间变化的。例如,对中国地区做某一要素的 EOF 分析,得到的结果不能通过检验(检验的方法,后面再说) ,这个时候我们就需要考虑是否一些地区的目标信号不强,而另外一些地区目标信号很强,这样的话就只需要分析目标信号很强的地区,即只对特定区域进行 EOF 分析。 结合空间的方差分析,首先需要对要素每一个空间点的时间序列进行滤波,得到各个不同频率的信号(从季节内到线性趋势) 。对每个平率的信号求方差,得到了各个频率的方差的空间分布。在分析的过程
7、中我们主要关注空间的大值区,和大值区的数值大小。空间大值区告诉我们该区域 某种 特定频率的信号很强,为我们选择研究区域。 比较各个频率 大值区的数值 ,可以得到各个频率的信号对原始信号的贡献大小,这类似于 EOF 分析中的方差贡献百分率,虽然得到的结果比较粗糙,但是对于信号的选取目的性更强。 千辛万苦,我们通过滤波得到了想要分析的频率范围的数据 ,又通过方差的空间分布选定了典型的研究区域。 可以放心大胆的进行 EOF分解了。 基于本文的目的在于实用,在此处就不详细说明 EOF 的数学过程了。 *但是有一点需要在这里说明 * 很多 EOF 的程序中都包括了数据的简单处理, 包括了距平和标准化。这
8、两种方法得到的结论与原始数据得到的结论肯定是不同的。在此做简要说明。一般原始数据的 EOF 得到的结论中第一模态方差贡献很大,代表了要素的平均状态, 取距平后则将平均状态去除;标准化的方法多用于多变量 EOF, 统一不同变量的量级,但是标准化也会存在一定问题,会使局部区域的显著性丧失。 3. EOF 的检验 EOF 的检验方法大致有三种, 其检验的角度各不相同。 North 检验、Monte Carlo 检验、合成分析检验。 3.1 North 检验 North 检验是最简单也是必须要做的检验,其检验的目的是考察各个模态之间是否相互独立,也就是能否称为一个有着独立特征的模态。North 检验,
9、是计算特征值误差范围来进行显著性检验。特征值 的误差范围 , n 为样本量,当相邻特征值 满足 时,认为这两个特征值对应的经验正交函数是有价值的信号 。 3.2 合成分析检验 合成分析 ,其目的是检查主模态对原始场的拟合度 , 选取前几个模态的时间系数大于一倍标准差 的时刻做合成分析。 3.3 Monte Carlo 检验 Monte Carlo 检验是利用大量重复的随机试验 来排除虚假的结果。其原理是选取一组与实验数据特征相似(正态分布或者均匀分布、变化范围一致)的随机数,对其进行 EOF 分解,得到前 p 个模态的方差贡献。将这样的实验变化随机数组进行 1000 次,对于得到的每一个模态的
10、 方差贡献进行从大到小的排序,取排在第 5 的数值作为 0.005显著性的临界值。假如我们得到的该模态的方差贡献大于这一临界值,那么就说明该模态通过了 0.005 的显著性检验。 三种检验的侧重点不同,检验的结果也可能不同,在实际应用中,应尽量全部使用,然后对检测结果取交集,已达到最严格的检验效果。 4. 时间系数的分析 时间系数可以进行的分析包括 敏感性分析, 突变分析,周期分析,相关因子分析 和回归分析 。 还是以年际和年代际为例,假设预处理时已经去除了线性趋势和年以内的变化。 4.1 敏感性分析 21)2(e njj 1jjjj e -1对于 EOF 进行敏感性试验可以分析影响要素变化的
11、敏感因子。常规的 EOF 可以进行空间的敏感性分析,即改变空间范围,分析结果的变化。对于多变量的 EOF 可以去除个别变量从而能考察该变量的影响对哪一个模态影响最大。季节 EOF 可以改变开始季节来判断年循环的影响。 4.2 突变分析 突变分析用来分析时间序列是否存在突变或转型。常用的方法有滑动t 检验和 MK 检验。但是以上两种方法并不能对所有种类的突变做出很恰当的检验 ,其能够检验的主要是均值突变,而趋势突变、振幅突变和周期突变是无法检验的。以上类型的检验可以自己设计方法进行检验,例如周期突变可以使用小波分析,振幅突变可以尝试滑动方差分析,趋势 突变可以尝试滑动线性回归分析 或者累积方差分
12、析 。 4.3 周期分析 周期分析,我们得到的某一模态的时间系数可能反映了年际变化,但是这个年际变化可能是多种 周期不同的年际变化的组合。对此,我们需要对 时间系数进行分析,采用的方法主要有功率谱分析,小波分析 。利用以上两种方法可以得到时间系数的主要周期,小波分析 还 可以进一步得到这种周期的极值年份。 4.4 相关因子分析 通过以上两项的分析,我们掌握了时间系数的一些基本特征,可以根据这些周期特征寻找有相同特征的气象因子(尤其是环流因子)作为相关分析的对象,也可以根据影响要素变化的物理过程找出可能的影响因子,进行简单相关、复相关和偏相关 分析,确定可能的影响因子。确定了影响因子之后可以尝试
13、用多元回归分析,探讨这些因子与研究要素之间的可预报性。 除了以上提到的分析,还可以根据自己的目的增加分析的内容。 5. 不同类型的 EOF 5.1 EOF 本身的变化 对于 EOF 的介绍很多的参考书籍都将其用于时空分离,也就是用在了空间和时间构成的三维场。但是实际上,我们回归最前面的 EOF的出处,可以看出最原本的主成分分析并没有限定要素是 时空 的函数。这种方法只是通过引入新变量来达到数组降维的效果。所以我们可以在应用中进行多种尝试,只要能在物理上找到合理的解释就没问题。因为,这终究只是一种数学工具。 举个例子,我们将一个 30 年长度 月分辨率的时间序列 ,写成一个30*12 的数组,第
14、一维 30 年,第二维是 12 个月,这样以 30 年为我们通常认为的时间, 12 个月为空间,进行 EOF 分析, 得到的结果可以揭示 不同模态下 12 个月 分别 在这 30 年中的变化。 除此之外还有很多种用法,在此不再赘述,仅作抛砖引玉。 5.2 多变量 EOF( MV-EOF) EOF 分析时,不仅会研究某一要素的时空特征,有时也会研究某现象的时空特征,而这些现象往往不能用单一的要素来表征,这时候就需要用到了多变量的 EOF。 例如,研究海洋大陆的季风系统时空变化特征,很可能要考虑到850hPa 风场、 SST、和降水,此时只需要在 EOF 导入数据的时候将数组空间的维数扩大三倍就可
15、以了, 将数据按要素分别存入,运算完之后按照存入的顺序提取三个场,这三 个场共用一个时间系数。当然这样做的时候一般也就只分析时间系数的特征了。很多人提到的 风场的矢量 EOF 和王斌先生提出的季节 EOF 都是多变量 EOF 的特殊应用。 5.3 其他类型的 EOF 许多研究人员根据不同的目的对 EOF 做出了很多改进。 EEOF 称为扩展正交经验函数分解, 可以研究两组或者多组变量之间的线性关系,或同一组变量间的滞后关系 ,这也是多变量 EOF 的一种应用 。 REOF称为旋转正交经验函数分解 ,可旋转后的特征向量空间型的中心强度比非旋转特征向量空间型的 中心要强,可以有更明确地物理解释 , 揭示小尺度现象 。 CEOF 称为复经验正交函数分解,能够从要素 场 的时间 变化中,识别空间尺度的波动特征。 SVD 称为奇异值分解,可以分析两个场之间的 相关模态, EOF 从本质上讲也是它的一个特例。Coveriance EOF:每个点减去该点序列的平均,去掉地理位置不同造成的差异, 该 方法适用于研究非地理因素。 Gradient EOF: 某时刻的点减去该时刻全区域的平均,空间差异得以完全保留,利于研究封面、涡旋等梯度大的现象。 感谢徐华对本文的帮助与建议 LIU Qian 2013/4/16