1、1文章编号:007011717肺结核病与气象因素关系的 BP 神经网络模型研究邓斌 周志刚 马泽粦 易来龙 张锡萍 郭晃潮 梅月志东莞市慢性病防治院 广东东莞 523008摘要 目的 应用 BP 人工神经网络模型探讨气象因素对肺结核病发病影响,同时建立肺结核病与气象因素关系的 BP 神经网络模型。 方法 利用Matlab 6.5 的 Statistics Neural Network 软件对气象因素与肺结核病关系的 BP 人工神经网络模型进行构建、训练与模拟。结果 经过数据训练得出理想网络模型,肺结核病发病回代误差均方、平均误差率和 R2 分别为 0.00713、0.82 和0.9081,说明
2、所得人工神经网络模型效果理想。通过对自变量对输出量贡献量分析表明,平均蒸发量对肺结核发病影响最大,平均气压亦有一定影响。结论 肺结核与气象因素关系的 BP 人工神经网络模型效果良好,有助于进一步研究的价值。关键词 肺结核;气象因素;BP 神经网络The Model of Back-propagation Neural Network about the Relationship between Meterological Factors and Pulmonary Tuberculosis.DANG Bing ZHOU Zhi Gang Ma Ze Lin, et al Department
3、of Internal Medicine, Chronic Disease Prevention and Treatment Hospital of Dongguan, Guangdong, 523008, China.Abstract Object In order to study the relationship between meterological factors and pulmonary tuberculosis. Methods Back-propagation artifical neural model was used by Matlab 6.5 statistics
4、 neural network to built the model of the relationship between meterological factors and pulmonary tuberculosis. Results The Mean Squared Errors was 0.00713, The Mean Error Rate and R2 was 0.82 and 0.9081, it shown that the BP-neural network was effect. At the same time it shown that the mean evapor
5、ation and mean pressure was correlation to the incidence of pulmonary 2tuberculosis as well. Conclusion Bp-Neural Network model has effect of fiting on the relationship between meterological factors and pulmonary tuberculosis.Key Words pulmonary tuberculosis; meterological factors; Back-propagation
6、neural network肺结核病是一种由结核分枝杆菌引起的严重危害人们身体健康的慢性传染病,其基本传播途径是通过由肺结核病人排出的结核杆菌而形成的飞沫核而传播。已有研究资料表明 2,肺结核病在一年的发病中有季节集中趋势,并由此推测可能是气象因素造成。为进一步研究气象因素与肺结核病的关系,探讨肺结核的基本发病规律,本研究利用 Matlab 6.5 的 Statistics Neural Network 软件建立气象因素与肺结核病关系的 BP 人工神经网络模型,并对所建立的模型进行效果评价,此将对于肺结核病控制有重要意义。资料来源与方法一、资料来源:本研究资料来源于 19912003 年广东省
7、东莞市肺结核发病资料,用 Foxbase 软件建立数据库,同期气象因素数据资料为东莞市气象局资料,其中所研究的气象因素包括:X 1平均气压(百帕)、X 2平均气温(摄氏度) 、 X3平均降水量(mm)、X 4平均蒸发量( mm),资料来源可靠。二、研究方法:利用 Matlab 6.5 的 Statistics Neural Network 软件对气象因素与肺结核病关系的 BP 人工神经网络进行构建、训练与模拟,建立预测模型,并对所建模型进行拟合效果评价。基本原理与方法一、基本原理:人工神经网络是在现代神经科研成果基本上提出的一种数学模型,它模拟人脑的结构和信息传导方式,反映了大脑功能的若干特征
8、,BP人工神经网络(Back propagation)又称前向网络 FF(front forward)是无反馈前向误差传播网络,即同层神经之间不相互连接、BP 网络的学习过程就是一个3网络权系数的自适应、自调整过程。已有证明显示,采用 log-Sigmoid 函数的三层前后 BP 人工神经网络在隐层节点数任意变动的条件下,可以任意精度逼近任一 N 维到 M 维的连续函数。本研究采用的 BP 人工神经网络模型结核为 4-2-1,其中 4 为输入节点数(X1,X4) ,2 为隐层节点数,1 为输出节点数(见下图) 。输入层 隐层 输出层X1 X2X3X4图 BP 神经网络模型三、BP 算法学习过程
9、:信息在正向传播过程中,在隐层和输出层节点都经过 Sigmoid 激活函数作用后输出结果,激活函数一般设计为:f(x)=1/(1+e-x) 网络参数初始化,首先赋予网络初始状态的各层节点之间的连接权值Wji、V kj和阈值 j、 k为(一 1,1)之间的随机小数。 从网络输入层输入第 1 个样本信号。 隐层各节点输出计算式为:Hj= f(W jiIi+ j) 输出层各节点输出计算式为:Ok= f( V kjHj+ k)Mi=1Wj=1WH4在误差反向传播过程中计算步骤如下。 计算出层节点的输出误差。用样本的期望输出 Tk和样本经网络学习后的实际输出 Ok之间的差值建立输出层节点的输出误差 k为
10、: k=(T k-Ok)O k(1-O k) 计算隐层节点的误差。用 k、V kj及隐层输出 Hj建立隐层节点 Hj的误差 j: j= kVkjHj(1-H j) 输出层节点的阈值 k和连接权值 Vkj的修正。用误差 k和隐层节点输出 Hj及学习参数 之积来修正 Vkj,用误差 k和学习参数 之积修正 k。Vkj=Vkj+ k j k= k+ k 隐层节点的阈值 j和 Wji的修正。用误差 j和输入层节点的输出I3及学习参数 的积来修正 Wji,并用 j和学习参数 之积来修正 j。Wji=Wji+ j I3 j= j+ j以上的学习参数 和 一般取 0.20.5。 取下一个样本为输入信号,重复
11、上述步骤,当全部样本学全一遍后,计算 N 个样本的均方误差。E=(O lk-Tlk)2如果 E指定精度 ,则学习结束;否则更新学习次数,返回步骤,如此往复进行,直到达到指定精度要求为止。三、效果评价方法:本研究采用误差均方、平均误差率,以及决定系数三个指标检验模型拟合程度。kNi=1WN151、误差均为(mean squared error,MSE ):采用经旧一化处理后的误差平方。2、平均误差率(mean squared rate,MER )=平均误差绝对值 /实际值的均值:表明误差的相对大小。3、决定系数 R2=(Correoef(a,t)) 2 :实际值与预测值相关系数的平方,说明实际值
12、中由预测值解释的部分。结 果以 19912003 年数据为训练样本,对 BP 人工神经网络模型进行训练,模型的拟合值和实际值比较结果(见下表) 。MES=0.00713,MER=0.82,决定系数 R2=0.90810。肺结核发病人工 BP 神经网络模型的拟合值与实际值比较表年度 实际值 预测值 绝对误差(%) 1991 15.2 15.2 0(0)1992 15.8 15.8 0(0)1993 25.3 25.3 0(0)1994 26.4 26.4 0(0)1995 28.3 28.3 0(0)1996 29.8 29.8 0(0)1997 32.5 32.1 0.05(4)1998 38
13、.4 38.2 0.02(63)1999 39.8 39.3 0.11(73.0)2000 45.9 45.6 0.02(5.0)2001 56.7 46.6 0.01(4.66)2002 58.8 58.0 0.06(32.4)2003 60.9 61.0 0.01(8.44) (发病率单位为:1/10 万)单独研究某一气象因素,控制其它 3 个因素时,平均气压、平均气温、平均降水量、平均蒸发量的网络输出值分别为 0.2011、0.0013、0.0018、0.9876。在同时控制 4 个输入变量时的神经网络阈值为 0.0018。讨 论6肺结核病是一种经空气传播的慢性传染病,其基本传播介质是含
14、结核分枝杆菌的飞沫核。而飞沫核在空气中的播散范围及停留时间除受颗粒直径大小影响外,还受气象因素影响。梁月香 2应用圆形分布法证实肺结核病在一年中存在季节性现象,并推测是气象因素(空气湿度)造成,但有待于进一步证实。然而气象因素对肺结核病的影响并不是简单的线性关系。本研究应用 BP 人工神经网络方法,从平均气压、平均气温、平均降水量及平均蒸发量 4 个因素出发建立神经网络,探讨气象因素对肺结核病的发病影响。人工神经网络 1,3,4,5,6具有非线性影响能力,不要求变量满足正态性、独立性等条件,它具有良好的容错性和自适应能力,所采用的 Statistics Neural Network 是一个功能
15、强大的神经网络模拟软件包。为避免训练过度问题,所采用的隐节点数为 2,避免了中间节点过多时网络过于臃肿问题。本次建立的网络平均误差率 0.821、决定系统 R2 为 0.9081,说明训练效果良好,不存在过拟合现象。本研究通过对变量进行控制后的网络输出值可以看出,平均蒸发量(网络输出值为 0.9876)对肺结核病的发病影响最大,其次是平均气压(网络输出值为 0.2011) 。从理论推测平均蒸发量越大,空气湿度越大,含结核分枝杆菌直径在一定大小范围的飞沫核在空气中停留时间愈长,传播机会愈大,至于空气压力与肺结核病的关系,本文认为气压愈大,分子的布朗运动愈剧烈,同样飞沫核在空气中的停留时间也愈长。
16、本文提示平均蒸发量是平均气压是影响肺结核发病的关键因素,将有助于进一步探讨气象因素与肺结核的发病关系,同时提示在平均蒸发量高的季节更应加强肺结核病防治,此为制定防治措施和控制计划提供了一定的科学依据。参考文献1、方积乾,陆盈.现代医学统计学M.北京:人民卫生出版社,2002:708-7172、梁月香,邓斌.用圆形分布法分析肺结核发病的发病季节J.中国病案,2004,5(1):34-353、刘曙光,郑崇勋,刘明远.交馈神经网络中的反向传播算法及改进:进展与展7望J. 计算机科学,1996,23(1):76794、Zhang L M.Artificial Neural Network Model and Its ApplicationM. Shanghai,China:Fuda University Press,1995,1-925、 吴今培,孙德山.现代数据分析M ,北京:机械工作出版社,2006:119-1596、 钟珞,饶文碧,邹承明.人工神经网络及其融合应用技术M,北京:科学出版社,2007:12-19