1、传染病预测的主要方法,基本概念,监测、预测和预警 疾病监测 是指长期、连续、系统地收集疾病的动态分布及其影响因素的资料经过分析将信息上报和反馈传达给所有应当知道的人以便及时采取干预措施并评价其效果。 基础性工作和基本职能 决策依据和评判的依据,开展预测、预警工作是疾病监测资料的进一步利用, 是变被动为主动的重要途径, 预测 是对未来不确定事件的一种推测和描述是人们对客观世界的未来发展变化趋向以及对人类实践活动的后果事先所作的分析与估计。 预测是一种用于估计将来可能发生情况的方法,它主要依靠对现行趋势的外推以达到指导行动取得良好结局的目的。 传染病预测 根据传染病的发生、发展规律及有关因素用分析
2、判断和数学模型等方法对传染病可能的发生、发展趋势以及变化水平进行分析和预判是制定预防和控制传染病的长远或近期应对策略的重要依据。,预警 是指在已经发现可能引发突发事件的某些征兆但突发事件仍未发生前所采取的管理措施即对监测到的事件信息进行分析对发现到的征兆或异常现象依据有关法律法规、应急预案中的相关规定及时发布警报并提出相关应急措施建议。 预警更强调对将要开始的或已开始、并且正在发生的事情做出描述是在特定事件发生前或发生的早期发出信号以警示该事件可能发生或其发生的范围、程度等可能扩大。 在公共卫生领域中,目前应用较为普遍的定义为: 在缺乏确定的因果关系和缺乏充分的剂量反应关系证据的情况下, 促进
3、调整预防行为或环境威胁发生之前即采取措施的一种方法。通过收集、整理、分析目标传染病的相关信息资料, 评估事件发展趋势与危害程度, 在事件发生之前或早期发出警报, 使相关责任部门及事件影响目标人群及时做出反应, 预防或减少目标传染病的危害。,传染病预警是预测技术在实践中的重要应用。,传染病预测与预警主要区别,1. 目标事件可能的状态 预测强调对尚未发生的事件做出描述 预警强调对可能发生或正在发生的事件进行探测据此发出警示信息 2. 目标事件的针对性 预测是针对疫情而不是事件它更关心对疫情短期、中期或长期趋势的估计和测算 预警是针对特定的事件作出判断,3. 结果的利用 预测的结果主要用于指导传染病
4、防治规划或计划的制订 预警的结果主要用于指导响应行动预警信息一旦发出预示着传染病流行或暴发事件可能发生或正在发生需要立即采取相应的行动去进行应对 4. 方法学 预测可使用更加广泛的信息来建立复杂的预测模型时序模型、传染病动力模型、判别模型、回归模型等 结果可能表述为定性结果但更多为定量结果 预警多基于容易获取的有限信息比如传染病监测资料使用简单、快速的方法进行分析结果为定性结果,基于疫情监测系统的传染病预警过程,传染病预测过程示意图,预测的历史,20 世纪40 年代, 德国人费莱泰姆首先提出了预测技术的理论, 60 年代以后, 随着计算机的应用和逐步推广, 预测理论及其应用得到了迅速发展, 并
5、日臻完善, 逐渐成为一门自成体系的学科。在我国, 传染病预测方法研究起步较晚, 80 年代以后才得到较快的发展, 逐渐成为疾病监测工作中的热点。各级疾病预防控制中心的工作人员和医学院校的科研人员从不同疾病、不同层次、不同方法对传染病的预测进行了大量研究, 所用预测方法多种多样, 研究病种也各不相同, 主要涉及肾综合症出血热、血吸虫病、肺结核病、流行性脑脊髓膜炎、麻疹、乙型脑炎、甲肝、乙肝、痢疾、麻风等多种重点传染病。,传染病预测的基础,传染病流行病学的一些既定特征使得传染病预测成为可能。 传染病流行特征是决定传染病发生发展的重要基础。 患某一传染病的危险性同人群的总危险性有关。 传染性、传染期
6、、免疫屏障等。 传染病传播和流行受多种因素的影响。 传染病监测工作的开展和丰富的监测资料是开展传染病预测工作的基础。,传染病预测方法种类繁多。 预测时限长短短期预测( 月、季、半年、1 年) 中期预测( 1 3 年) 长期预测( 3年) 按预测方法定性预测定量预测综合预测,短期预测为控制流行或暴发服务; 长期预测则为制订长期的预防控制策略服务 预测时期越短,预测精度越高。 定量预测则比定性预测的预测精度高。可按照不同的预测目的使用不同的预测方法,制订不同的预测计划。,常用预测方法,定性预测是通过对当地传染病的流行过程、流行特征及其有关因素的具体分析,判断该病即将流行的趋势和强度。 定性预测主要
7、包括流行控制图法、比数图法、“Z-D”现象、Delphi 法等。 我国传染病预测中应用较多的是流行控制 图法、比数图法和“Z-D”现象。,流行控制图法是由美国W A Shewhart于1924 年首创,最早用于检验和判断重复实验的准确度和精密度。 控制图法适用于各种分布的传染病,对于具有季节性流行或周期性流行规律的传染病效果较好,而且方法简单,指标容易得到,因此是疾病监测中较好、较常用的预测预警方法。 一些学者利用流行控制图法预测细菌性痢疾、麻疹等多种传染病的发病趋势,均取得较好的效果。,比数图法通过比数( R) 与其可信区间来判断某传染病是否有流行征兆,适用于发病数呈正态分布的传染病。一般是
8、利用某地近5 年传染病的月( 或4 周) 发病数据来计算比数,若比数超出可信区间上限范围,表示有流行的征兆 比数( R) 的计算公式为: R 的95% 可信区间:A 为分析当月某病的发病数,x 为该病近5 年的同月及其前后1 个月( 即15 个月) 的发病数的月平均数,s 为标准差。美国在80 年代将比数图法应用于国家传染病监测系统后,该方法在疾病监测中得到了一定程度上的应用。,利用“Z- D”现象预测 1997 年,曾光和丁雁鹏等通过对全国29 省17 种法定报告传染病的历史资料进行分析,发现某病流行年发病曲线波峰向右偏移时,则下一流行年发病率将可能上升,且向右偏移程度越大,上升的概率越大,
9、反之则下降,他们将传染病的这种现象称为“Zeng- Ding”即“Z- D”现象 传染病季节发病曲线波峰的偏度在一定程度上综合反映了众多因素对流行过程的影响,利用“Z- D”现象分析传染病疫情资料进行预测研究,对指导制定传染病控制措施有积极意义。,时间序列模型假设预测对象的变化仅与时间有关,根据它的变化特征,以惯性原理推测其未来状态。 通常可以分为“确定型”和“随机型”两类。 “确定型”假定序列变化可用一条趋势线来刻画,序列的趋势是时间t 的确定函数。 适用于具有典型趋势特征变化数据的预测。 常用的确定型时间序列模型有指数曲线模型、二次曲线模型等。,时间序列模型,许多传染病资料并不总具有某种典
10、型趋势特征,使得“确定型”法产生的误差不一定有随机性,从而影响预测效果。此时随机型时间序列模型则显示明显优势。 常用的随机型时间序列模型有自回归移动平均模型( ARIMA 模型) 、指数平滑模型等,时间序列与时序分析,所谓时间序列,是指观察或记录到的一组按时间顺序排列的数据,经常用X1, X2, , Xt, Xn表示。不论是经济领域中某一产品的年产量、月销售量、工厂的月库存量、某一商品在某一市场上的价格变动等,或是社会领域中某一地区的人口数、某医院每日就诊的患者人数、铁路客流量等,还是自然领域中某一地区的温度、月降雨量,等等,都形成了时间序列。所有这些序列的基本特点就是每一个序列包含了产生该序
11、列的系统的历史行为的全部信息。,时序分析具有以下3个特点,(1) 时序分析是根据预测目标过去至现在的变化趋势预测未来的发展,它的前提是假设预测目标的发展过程规律性会继续延续到未来,即以惯性原理为依据。 (2) 时间序列数据的变化存在着规律性与不规律性。时间序列中每一时期的数据,都是由许多不同的因素同时发生作用的综合结果。通常根据各种因素的特点或影响效果可将这些因素分为四类。, 长期趋势(T)。长期趋势是指由于某种关键因素的影响,时间序列在较长时间内连续不断地向一定的方向持续发展(上升或下降),或相对停留在某一水平上的倾向,反映了事物的主要变化趋势,是事物本质在数量上的体现。它是分析预测目标时间
12、序列的重点。 季节变动(S)。季节变动是指由于自然条件和社会条件的影响,时间序列在某一时期依一定周期规则性地变化。它一般归因于一年内的特殊季节、节假日,典型的如农产品的季节加工,化肥、空调、服装、某些食品的销售等。, 循环变动(C)。循环变动是指变动以数年为周期,而变动规律是波动式的变动。它与长期趋势不同,不是朝单一方向持续发展,而是涨落相间的波浪式起伏变动。它与季节变动也不同,它的波动时间较长,变动周期长短不一。, 不规则变动(I)。不规则变动是指各种偶然性因素引起的变动。不规则变动又可分为突变和随机变动。所谓突变,是指诸如战争、自然灾害、意外事故、方针政策等的改变所引起的变动;随机变动是指
13、由于各种随机因素所产生的影响。上述各类影响因素的共同作用,使时间序列数据发生变化,有的具有规律性,如长期趋势变动和季节性变动;有些就不具有规律性,如不规则变动以及循环变动(从较长的时期观察也有一定的规律性,但短时间的变动又是不规律的)。所谓时间序列分析法,就是要运用统计方法和数学方法,把时间序列数据分解为T、S、C、I四类因素或其中的一部分,据此预测时间序列的发展规律。,(3) 时间序列是一种简化。在采用时间序列预测方法时,假设预测对象的变化仅仅与时间有关,根据它的变化特征,以惯性原理推测其未来状态。事实上,预测对象与外部因素有着密切而复杂的联系。时间序列中的每一个数据都是许多因素综合作用的结
14、果,整个时间序列则反映了外部因素综合作用下预测对象的变化过程。因此,预测对象仅与时间有关的假设,是对外部因素复杂作用的简化,这种简化使预测更为直接和简便。,指数曲线模型的数学公式为指数曲线模型按年度缩减值( X) =预测年( Xn ) 起始年( X0 ) ,然后对实际发病率( Y) 取自然对数,计算出发病率的转化值( Y0 ) ,最后以X 为自变量,Y0 为因变量,计算出回归系数 b 和截距a。指数曲线模型适用于影响因素稳定且年发病率的变化速度与当时发病率呈正相关的传染病的预测。 发病率随时间呈单调上升或下降且影响发病的主要因素保持稳定的传染病,指数平滑模型的基本思想是预测值是以前观察值的加权
15、和,通过对序列中最新观察值和早期观察值赋予不同的权重,对最邻近的观察值给予较大的权重,远期值给予较小的权重,对序列进行预测的一种方法指数平滑模型的基本公式为: 为平滑指数, 为下一年预测值, 为当年真实值,为当年预测值。到时期t 时,只需要知道实际数值和本期预测值2 个数据就可以预测下一个时期的数值。指数平滑模型计算方法简便,在序列较短,不具备使用ARIMA 模型条件时,该方法是一种较好的选择,但是一旦序列条件满足ARIMA 模型时,则应用预测精度更高的ARIMA模型进行预测。,ARIMA 模型,自回归移动平均模型( ARIMA 模型) 自回归移动平均模型( Autoregressive in
16、tegrated moving average,ARIMA) 是由美国统计学家Box 和英国统计学家Jenkins 提出的时间序列预测方法。它将预测对象随时间推移而形成的数据序列看作是一个随机序列。 就是说,除去纯属偶然原因引起的个别序列值外,时间序列是依赖于时间t 的一组随机变量。以这组随机变量所具有的依存关系或自相关性预测对象发展的延续性并从时间序列的过去值和现在值预测其未来值。ARIMA 模型适用于各种复杂的时间序列模式,是目前较通用的预测方法之一,已广泛应用于传染病发病率的预测,特别是具有季节性趋势的传染病预测。,ARIMA 模型基本形式是ARIMA (p, d, q) 模型。 该模型
17、中p, d, q 分别表示自回归阶数、差分阶数和移动平均阶数。 此统计模型最大的特点在于模式仅以过去观测值进行分析与预测, 不需考虑其他外部数据, 以时间t 综合替代各种影响因素。其分析过程简便、经济、适用, 短期预测精度较高。 缺点在于, 若数据较复杂, 则此模型的参数挑选不易, 且若数据在某些时间有特定事件发生(如SARS), 此模型无法考虑此特定时间的数据, 因此需要对模型参数进行修正。对小样本预测时的预测精度较差, 对于小规模暴发的早期预警的难度较大。对于长期的历史数据, 其预测的精度也较其他模型差。,自回归(AR)模型 自回归模型(Autoregressive Model)的形式为
18、Xn=1Xn-1+2Xn-2+pXn-p+n式中, 1, , p为模型参数;Xn为因变量; Xn-1, Xn-2, , Xn-p为“自”变量。这里“自”变量是同一(因此称为“自”)变量,但属于以前各个时期的数值,所谓自回归即是此含义。 P是自回归阶数,移动平均(MA)模型 在平稳的AR (p)模型中,Xn可由过去各期误差的线性组合表示,而当AR(p)模型非平稳时,线性表示就难以成立了。移动平均模型就是当Xn可由过去有限期的误差线性表示的情形。其公式为Xn =n-1n-1-2n-2-qn-q Q是滑动平均模型的阶数,运用ARIMA的前提条件:预测对象的时间序列是一零均值的平稳随机序列。 需要对时
19、间序列进行零均值话和差分平稳化处理 对于ARIMA (p, d, q)序列,它可以通过d阶差分化成平稳的ARMA (p, q)序列,定义差分Xn= Xn - Xn-1 引入差分算子=1-B。n阶差分可定义=(1-B) n,如二阶差分Xn= (Xn)= Xn - Xn-1 = Xn 2 Xn-1 +Xn-2 ,(1) d=1,此时 Xn= Xn -Xn-1+ Xn-1-Xn-2+X2-X1+X1=X1+=Xk+ nk1(2) d=2, 此时由上式知,该模型综合考虑了序列的趋势变化、周期变化及随机干扰,并借助模型参数进行量化表达,对时间序列的发展模式作先验假设,且可通过反复识别修改,获得满意模型,
20、其过程借助软件,是一种实用性强、精确度高的短期预测方法。 但是,ARIMA模型对数据的要求较高,要求时间序列符合平稳性且有30个以上的数据; 而且当实际问题比较复杂时,ARIMA 模型的建立相对比较困难。先前一些学者应用ARIMA 模型的预测效果也体现了这一特点。,自回归AR(p)模型 移动平均MA(q)模型 自回归移动平均ARMA(p,q)模型 自回归综合移动平均ARIMA(p,d,q)模型,灰色动态模型 (grey dynamics model),简称灰色模型(GM),由我国学者邓聚龙教授于1982 年创立,目前该模型在各个领域得到了广泛的应用,也普遍用于多种传染病的预测,已证实其适用性较
21、强、建模的精度较高和预测性能好的优点,灰色模型适用于对部分信息已知、部分信息未知的事件进行预测。 传染病发病率的变化受多种因素的影响,如有无暴发、患者就医情况、医疗机构诊断水平和报告情况、各种防制措施的实施、自然灾害等,这些信息我们不可能在工作中完全获得,因此,可以将其看作一个处于动态变化之中的灰色系统。 这也是灰色模型普遍适用于多种传染病预测的理论基础。,GM( 1,1) 模型是灰色模型中最基本、使用最广泛的预测模型,具有要求样本数据少( 4 个以上的原始数据就可以建模) 、不考虑分布规律和变化趋势、计算简单、预测精度高、预测结果可检验性强等特点,因而其预测效果好,适用性强。 GM( 1,1
22、) 灰色模型在肺结核、流行性脑脊髓膜炎、伤寒、淋病、禽流感、麻风病、血吸虫病和疟疾等的流行趋势预测中均显示了良好的效果。 但是GM( 1,1) 灰色模型也存在一定的局限性。 数据离散程度越大,波动性越强( 如传染病暴发、传染病周期性变化) ,则预测精度越差。 由于GM ( 1,1) 预测模型主要反映数据的规律性,不能完全反映各种非规律性的社会因素和环境因素对预测数据的影响,而影响疾病流行的因素较多,包括自然、社会、环境因素等。因此不能完全依赖其预测结果进行决策。 该模型适用于短期、中期预测,如果要进行长期预测,就要用来年数据进行模型修正,生成新的灰色模型才能达到理想的效果。,对GM灰色模型及理
23、论的质疑?,灰色模型之所以能流行,得益于其外部因素和本身因素。 所谓外部因素是因为简单的线性函数模型由于存在各种弊病无法成为主流,而非线性函数模型求解的难度,进展缓慢所致。 所谓内部因素,是因为灰色模型不仅具有多项式的那种简单,又似乎有微分方程支撑。,小波模型,小波模型是多因素模型中的一种,是近年来应用数学领域新发展起来的一个分支,已成为国际上公认的时间频率分析的有效工具,它把小波分析方法引入了预测领域,在对离散的传染病时间序列资料,尤其是季节性的传染病时间序列资料的分析和应用方面取得了较大突破。,MARKOV 模型,MARKOV 模型是近年来在传染病预测研究中应用较多的数学模型,它相对其他模
24、型有如下几个特点: 未来时刻的情况只与现在状态及其转移概率有关,而与之前状态无直接关系。 MARKOV 模型进行的是区间预测,所以在验证时,不能计算其与实际发病率的相对误差和标准误等,只能计算其预测结果与实际的符合率,验证方法比较单一。 主要用于有波动性改变的随机资料,尤其适用于在流行环节和防控措施没有发生根本变化的慢性传染病的短期预测。当疾病的流行环节和预防控制措施发生根本性的变化时,MARKOV 模型则会失去其价值。,线性回归模型,线性回归模型: 可以采用一般线性回归模型(General Linear Model, GLM) 采用量化相关误差项的线性回归(LinearRegression
25、With Autoregressive Error, LRAR) 模型, 用于长时间收集的数据分析上,机器学习方法,Boosting(WEKA软件) 针对事先产生的“弱分类器”不断学习,将其逐步提升为“强分类器) 有关因素:与所选的基础分类器有关;与处理数据的结构特点有关;与迭代的次数密切相关 缺陷:过分依赖训练样本集,循环次数过多时,易出现过度拟合计算机统计学,LogBoost 算法在判别分析中的应用,支持向量机,支持向量机(support vector machine,SVM)通过求解一个线性约束的二次规划问题得到全局最优解,因而避免了局部极小值问题,较好地解决了小样本、非线性和局部极小值
26、等问题,在模式识别、函数逼近和概率密度估计等方面取得了良好效果对于二分类问题,SVM通使两类的最近点间的空白最大化来寻找最优的分割超平面(图1 边界上的点称为支持向量,而空白处的中部即为最后分割平面。当存在类重叠时,将判别空白错误一侧的数据点加权从而减小它们的影响(软空白)。 对于非线性判别问题,当无法找到一个线性分割点时,就通过核函数将数据点映射到一个高维的空间,这时候的数据点就是线性可分的了,常用的核函数有以下几种:(1)线性核函数K(z,Y)=zy; (2)多项式核函数 (3)径向基核函数 (4)Sigmoid核函数上面的模型进一步可以扩展成包括分类和回归的几个模型。,在解决小样本、非线
27、性及高维模式识别问题中具有较高的预测精度和较强的泛化能力。,人工神经网络模型,人工神经网络( artificial neural network)是用物理可实现系统去模仿人脑,完成类似人脑的工作,在传染病预测中应用越来越广泛。 BP ( Back-Propagation)神经网络模型是一种单向传播的多层向前网络模型,其结构简单,仿真能力强,易于实现,因此应用较多。 BP 神经网络模型与传统的线形模型相比,神经网络对变量间的非线性关系具有较高的建模和回代能力,能够很好地把握变量间的非线性关系,因此模型的回代和预测能力较好。,传染病流行病学主要研究传染病在人群中发生、流行过程及影响流行过程的因素,
28、并制定、控制和消灭传染病的对策与措施。 研究传染病影响因素的流行病学方法之一就是建立模型,传统的病因探索模型有其局限性,当变量间存在非线性或变量间关系未知时,很难拟合出良好的判断结果。 人工神经网络内部的物理机制是非线性的,而且可以不受限制地自动去学习识别变量间的关系,该特性适合于探索性研究,即从理论上提出假设,然后用人工神经网络进行模拟,如果人工神经网络可以很好地模拟出这种关系,支持假设,反之则推翻。,缺陷 1、只能给出自变量在预测中的重要程度,难以刻画自变量/应变量间的直接关系 2、训练过度:对训练样本判别准确率极高,但对外部样本判别效果非常差 3、对硬件要求高,复杂大样本的计算受到限制。
29、,组合预测模型,1969年,Bates.J.M.和Granger.C.w.J.提出了组合预测模型这一理论,引起较大反响。组合预测模型也称为综合预测模型,它是将两种或多种预测模型通过一定方法加以组合,避免了简单地将预测误差较大的方法舍弃而丢失一些有用的信息,通过合理的组合方法可以提取各种模型的有用信息,有效发挥每一个模型的优点,取长补短,充分利用已有信息资源,提高预测精度。,组合权重,(1)影响疾病发生的因素众多,任何一种预测方法都有其应用的条件和优缺点; (2)任何一种预测模型都是对实际情况的抽象,不免存在局限性和不完备性; (3)受到数据源和数据量的限制,很可能造成原有的拟合模型不再适用或分
30、析预测性能降低。,对于一些基于微分方程的预测模型, (1)增加模型所涉及的因素; (2)增高模型维数; (3)结合某些具体的传染病进行更为深入的 对于一些智能的网络模型,主要的研究方向 (1)对于模型自身的改进; (2)引入新的智能方法用于传染病预测; (3)不同模型相互组合,互补短缺。,预测的步骤,确定预测范围 确定预测的传染病。 确定预测的时限, 即预测时间的长短。 确定预测的目的、如何应用预测结果及为谁所用。 确定需要预测的准确度。,找出有意义的变量 了解可以获得的资料的来源及其时限。 找出可能影响疾病过去的变化或可能有助于解释疾病模式的因素。 找出与所预测疾病有关的流行病学因素, 包括
31、将来可能影响所研究的传染病模发生变化的内在和外在因素。 在进行传染病预测之前有几个方面需要认真考虑。其中, 最重要的是决定需预测疾病流行病学的基本因素以及过去人群中该病的流行情况。 为了揭示明显的时间变化趋势如长期趋势、季节性和周期性波动, 需要有足够的历史资料。时间趋势在预测中有非常重要的价值。,检查资料的可信度 收集资料通常有不同的来源 疾病监测的资料是最全面的, 但并不一定是最可靠的。 其它的资料来源包括历史记录、专题调查和纵向研究, 这些资料可能有所帮助, 但并不能取代常规监测的基础地位。 检查资料来源的可信度。 检查资料的完整性资料的完整性和准确性是成功预测的重要前提。 对资料中的不
32、一致情况进行校正。,分析资料 确定资料的性质, 即要明确资料的趋势, 是上升还是下降, 是线性的还是非线性的, 及是否有季节性和周期性变化等。确定影响传染病模式的各因素之间的相互关系。 正确理解过去发生变化的原因,发现传染病的时间趋势、季节性、周期性或不规则变化, 应该通过查找流行病学因素进行解释, 这些因素可能就是引起变化的原因。其中包括确定相关的病原、宿主或环境因素, 这些都与传染病过去的时间模式有关。所有的外部因素, 如疾病的重新分类、新诊断方法的引进或者是在某一时点采取了特别的干预方法, 都应有明确的说明。 对将来传染病的模式变化可能起作用的因素, 包括环境因素如气候变化,人的因素如生
33、产方式和行为变化,病原相关因素如遗传学变异。此外, 外部因素, 尤其是与特别的干预措施的引进及其对人群免疫的影响有关的因素应有明确的说明, 它们在改变未来传染病的模式方面起到重要作用。,选择一种或多种合适的预测方法 选择最优模型是准确预测疾病发病水平、持续有效地开展传染病防制工作的重要前提。 定性方法一般用于没有计量资料或计量资料很少时, 它主要依赖于判断、直觉思考及积累的知识。其中之一种是采用一系列的调查问卷咨询专家小组获得某一专题的资料。 当有历史计量资料, 而且过去的疾病模式将延续至将来的情况下,可以采用定量方法。 定量预测法也称为定量预测技术, 其复杂程度差异很大, 可以是主要依赖于判
34、断和经验的较粗浅和直观的方法,也可以是基于完善的统计原理的较正规的方法。,使用所选的预测方法进行试验性预测。 这一步骤包括预测模型的建立以及用其对所研究的传染病进行预测。 比较不同预测方法的结果 不同预测方法所得到的结果可能会有很大差异, 在这种情况下, 预测者可得益于每一种预测方法所提供的独特的资料。有时候各种预测方法所得到的结果十分相近, 这种情况下, 不同方法可以相互印证。 确定最终的预测结果 在确定最终的预测结果时, 应结合疾病过去的变化和将来的假设考虑预测结果的合理性。如果有一种以上的预测结果是合理的话,综合各种预测作为最终预测结果常比采用一种预测方法得到的结果更准确。 对预测结果进
35、行追踪观察和调整 通常采用追踪信号来调查实际观察值与预测值之间的明显偏差。应该对预测进行修正和更新以期适用。,空间预警模型,空间预警模型利用病例的空间地理信息,如行政区域名称、家庭住址、工作单位等发现病例的地理聚集程度,及早识别传染病的异常情况。 目前广泛使用的一种空间预警模型有广义线性混合模型、小区域回归分析检验法空间扫描统计等模型。,广义线性混合模型,广义线性混合模型由Kleinman等人提出,该模型是一种基于Logistic回归估算各区域内监测对象的日发病率的统计方法。 由于各区域观察人数不断变化,简单Logistic回归模型引入了收缩估计来计算各区域的人群密度。 该模型可以用来量化同一
36、对象在不同空间点上观察值之间的相关性。,小区域回归分析检验法,小区域回归分析检验法是基于广义线性混合模型的改良模型。考虑了季节效应、周末效应、社会趋势、以及假期等因素。 此模型中,广义线性模型用于计算各邮政区域内的日期望发病数。,空间扫描及其相关的统计方法,空间扫描统计由Kulldorff于1997年提出,其主要原理是将一个地区划分为一些较小的子区域,也即扫描窗口,不断调整窗口的大小和位置,通过似然比检验判别疾病病例的聚集程度,以此来判别该病发病数是否存在异常情况。此方法优点在于其事先对聚集性的规模和位置没有规定,能有效避免选择偏倚,且易于根据人口密度或年龄等协变量进行调整,消除因构成不一致而
37、引起的偏差。,研究 区域,扫描窗口,病例,寻找病例最多的窗口: 扫描统计量S,对每一个扫描窗口,均根据Poison分布计算出理论发病数,然后依据实际发病数和理论发病数构造检验统计量对数似然比(Log Likelihood Ratio,LLR),用LLR 来评价扫描窗口内发病数的异常程度 由于扫描统计量的概率分布极为复杂,即使对于一维的时间扫描统计量,要得到其确切的概率分布也是极为困难的概率理论问题,Kundorf等提出蒙特卡罗法(MonteCarloMethod)模拟其概率分布并对概率P值进行估计,成功解决了这一问题 检验该窗口内的发病数跟基线相比是否异常,若存在异常,那么需进一步了解该异常到
38、底是由于自然变异造成的还是确实存在聚集性或爆发,时空集成预测模型,时空预测技术从单独的空间预测或时间预测发展而来,由于它在处理既要考虑空间特征又要考虑时间特征的复杂数据时的良好性能,而在许多领域起到越来越重要的作用。时空预测研究大多是基于时间序列分析、空间统计分析等成熟的分析工具,然后将这些成熟工具分别扩展到空间方面或时间方面。,时空集成预警模型通过综合利用病例的发病时间、持续时间长短以及发病的地理信息等因素对流行病进行预测。目前使用较为普遍的有:WSARE、PANDA、时空扫描统计、基于遥感与地理信息系统的时空预测模型等。,WSARE(Whats Strange About Recent E
39、vents),WSARE采用历史数据选定天数作为基线或贝叶斯网络推导出基线数据的分布情况,分析数据的时间趋势。WSARE的变量为多维,包括病例的时间、空间、地理等信息。采用基于关联规则的技术,将近期的病例数与基线数据进行比较,通过检验,从近期数据中识别出有显著性差异的亚组。一旦“异常”讯号发生时便会通过警示系统,自动通知公共卫生与医疗相关人员。,False Discovery Rate,FDR,时空扫描统计,时空扫描统计是空间扫描统计的扩展。其基本思想同空间扫描统计,考虑了时间和空间两个因素,其扫描窗口相应地变为圆柱形,圆柱形的底对应一定地理区域,而高对应一定的时间长度。圆柱形扫描窗口的大小和
40、位置也是不断变化的,因此时空扫描能够对疾病发病的时间、地点及其规模进行深入的分析,有利于早期识别暴发。时空扫描统计可以利用历史数据进行回顾性分析,也可以每天、每周或每月重复进行时间周期的前瞻性研究。时空扫描统计比单纯时间或空间扫描统计的优势在于其不依赖人口数据。,基于遥感与地理信息系统的时空预测模型,基于遥感与地理信息系统的时空预测模型利用遥感与地理信息系统技术,分层次、分类型建立流行病地区的监测体系,在不同的空间尺度和连续的时间序列上进行监测和制图,建立基于遥感、地理信息系统、全球定位系统和时间空间统计学为一体的探测活跃传播点的框架模型。,时空扫描统计量,一定的时间长度,一定的地理区域,在实际运用中更多地采用定性预测与定量预测相结合的方法。这种方法常常是将专家们评议的意见集中起来综合评价、建模和分析,考虑时间、空间等各种因素采用两种以上的预测模型对传染病进行综合预测,克服了过去预测方法的单一性、笼统性,提高了预测结果的准确性。 综合预测是现代统计预测方法本身发展的必然结果。,谢谢,