1、基于 GEP 算法和马尔科夫链的地震等级预测模型 王亚娟 宋广红 山东管理学院 摘 要: 介绍了一种利用基因表达式编程算法进行多元非线性函数建模的方法, 并应用于地震等级预测中, 实验表明, GEP 模型的预测精度远高于神经网络模型。最后, 利用地震等级数据无后效性和平稳性的特征, 通过马尔科夫链求得状态转移矩阵, 并得到了 GEP 模型预测的状态区间以及相应概率, 增加了预测结果的可信度。关键词: 基因表达式编程; 函数挖掘; 地震等级预测; 收稿日期:2017-11-07Earthquake Rank Forecasting Modeling based on GEP Algorithm
2、and Markov ChainWANG Ya-juan SONG Guang-hong Abstract: The paper introduces a method of multivariate nonlinear function modeling using gene expression programming algorithm, and applies this method into predicting the rank of earthquake, the test results show that predictive precision of GEP model i
3、s much higher than neural network model.Finally, based on the non-aftereffect and stable property of the data of the earthquake rank, the transition matrix, the interval of GEP model and the corresponding probability can be obtained by Markov chain, and it increases the reliability of prediction res
4、ult.Keyword: Gene Expression Programming; Function mining; Markov chain; Earthquake Rank Forecasting; Received: 2017-11-071 概述地震是人类面临的最严重的自然灾害之一。虽然准确预报地震难度很大, 但地震的发生具有明显的地理区域特征, 通过现代仪器收集某地区的部分地质参数, 并通过科学分析的手段, 寻找这些参数与该地区地震等级的关系, 对于地震预测、防震减灾都具有重要意义。可见, 从地质参数与地震等级关系的角度, 地震等级预测是复杂非线性函数建模问题。针对传统方法的不足, 进
5、化计算提供了一种自动建模的方法。基因表达式编程是近年来兴起的进化算法家族的新成员, 它结合了遗传算法 GA 和遗传编程 GP 的优点, 同时其进化效率又高于 GA 和 GP1。GEP 在复杂函数建模方面已引起研究者的关注2-3。本文将应用 GEP 算法来挖掘地震等级与频度、能量等因素的函数关系, 并与神经网络预测模型的结果进行对比。2 GEP 算法原理GEP 算法的组成可以表述为一个五元组 GEP=S, E, C, F, T, S 为运算符的集合, E 为终结符的集合, C 为遗传算子, F 为适应度函数, T 为结束条件。GEP的个体称为染色体, 染色体由一个或多个基因组成。每个基因都是定长
6、的线性字符串, 分为头部和尾部两部分。假设 E=a, b, S=+, , *, /, Q, 则n=2。设 h=7, 则 t=8, 于是式 (2) 是一个合法的基因:式 (2) 中下划线部分表示基因的头部。将 (2) 式转换成表达式树, 有深度优先和宽度优先两种策略。对于同一个染色体, 深度优先和宽度优先策略得到的表达式是不同的。本文为了提高染色体解码的效率, 采用深度优先的策略形成表达式。基本 GEP 中一般采用随机法确定常数和系数, 具有很大的偶然性。文献3-4提出了常数处理的方法改进, 这些方法都需要事先指定数值常量的集合。本文用Matlab 的多元线性回归方法产生各个系数和常数, 并作为
7、数值常量的集合参与表达式的形成和进化过程。3 基于改进 GEP 算法的地震等级预测本文的实验数据来自文献5, 表示了东经 117 至 120 度, 北纬 22 至 26 度范围内地震在时间、空间、强度三方面具有代表性的 6 个指标:频度、蠕变、能量、B 值、缺震、n 值等指标, 以及该地区第二年发生的地震的等级。本文取编号为 1-20 的样本作为训练样本, 编号为 21-27 的样本作为检验样本, 如表所示。用 GEP 算法挖掘表 1 中 y 和 a1、b1、c1、d1、e1、f1 的非线性关系。=*tan () 2*a f ey b-+=+表 1 地震等级相关数据 下载原表 3.1 确定运算
8、参数终结符集为a1、b1、c1、d1、e1、f1, 函数集为+, -, *, /, Q, T, C, S (S 表示正弦函数, C 表示余弦函数, T 表示正切函数, Q 表示开方) 。基因头长度取 7。染色体由 4 个基因组成, 种群规模为 300, 采用轮盘赌法和精英保留策略选择个体。适应度函数选择的是基于均方差的适应度函数:常数和候选系数集合为0.1575, 0.3195, 0.4489, 1.8500, 2.6966, -0.9488, 1.2384。3.2 GEP 运算结果经过多次运行 GEP 程序, 得到较好的染色体为:将其转化成函数表达式为:3.3 GEP 模型与神经网络模型的对
9、比文献5中用 Elman 神经网络对本文的数据进行了预测, 表 2 显示了 GEP 模型与神经网络模型在检验样本上的预测对比情况。可见, GEP 算法的误差比 Elman神经网络小的多。表 2 GEP 模型与神经网络模型的对比 下载原表 4 GEP 预测结果的马尔科夫链分析地震等级的变动范围可以看作是随机变量, 具备无后效性和平稳性的特征。因此本文根据马尔科夫链理论6, 将 GEP 模型得到的地震等级数据转换成变化区间, 并给出相应的概率, 从而使 GEP 模型的预测结果更有价值。4.1 划分地震等级的预测区间计算 20 个训练样本的相对误差的均方差 S=2.03, 根据均方差 S 以及训练样
10、本的最大相对误差 (5.7%) , 将地震等级的预测值偏差状态作如下划分:E 1为-5.7, 2.03) , 属于预测值偏低状态;E 2为-2.03, 2.03, 属于预测值正常状态;E3为 (2.03, 5.7, 属于预测值偏高状态。训练样本和检验样本预测偏差及所属状态如表 3 所示。表 3 训练样本和检验样本预测偏差及所属状态 下载原表 4.2 统计状态转移情况, 得到状态转移概率矩阵分析表 3, 不难得出前 20 次预测拟合状态汇总 (表 4) 及一步状态转移概率矩阵。表 4 前 20 次预测拟合状态汇总 下载原表 由表 4 得到一步状态转移概率矩阵编号为 20 的训练样本, 预测结果对
11、应的状态为 E2, 初始状态向量为 S0= (0, 1, 0) , 因此编号为 21 的检验样本, 其预测结果的状态向量为:(3) 计算检验样本各次预测结果的预测区间及概率以此类推, 我们得到检验样本的预测值区间以及落入该区间的概率, 结果见表5。表 5 检验样本的预测值区间以及落入该区间的概率 下载原表 5 结语本文将 GEP 算法应用与地震等级预测建模, 与神经网络模型相比, 预测的精度更高且误差的波动较小, 说明 GEP 模型具有较好的泛化能力。最后, 利用马尔科夫链原理, 得到了检验样本上的预测区间, 及落入该区间的概率, 进一步增加了预测的可信度。本文的结果表明, GEP 算法应用于
12、地震等级预测建模问题是可行的。参考文献1Ferreira Candida.Gene Expression Programming:mathematical rnodeling by an artificial intelligence.Springer-Verlag, 2006. 2莫海芳, 康立山.用 GEP 实现复杂函数的自动建模J.系统仿真学报, 2008, 20 (11) :2828-2831. 3龚文引, 蔡之华, 刘亚东.基因表达式程序设计在复杂函数自动建模中的应用J.系统仿真学报, 2006, 18 (6) :1450-1454 4Zuo Jie, Tang Chang jie.
13、Time Series Prediction based on Gene Expression ProgrammingC/Processing of the 5th international Conference of Web Information Age 2004 (Wai M04) .LNCS 3129.Berlin:Springer-verlag, 2004:55-64 5朱凯, 王正林.精通 Matlab 神经网络M.北京:电子工业出版社, 2010 6刘志杰, 季令.基于径向基神经网络的集装箱吞吐量组合预测J.同济大学学报 (自然科学版) , 2007, 35 (5) :739-744