1、无创型健康评估模型的通用建立方法惠恒集团深圳市天信生物科技有限公司 赵 红 谢国梁【摘要】健康管理过程中,根据健康信息提供个体化亚健康干预手段是健康评估不可缺少的重要环节。本文介绍了基于系统生物信息学,宏观检测人体整体系统变量,以流行病学前瞻性模型为示教标准,研发周期短,经济适用的无创型健康评估模型的方法。并以缺血性心血管病发病危险因素为例,研发出无创型人体经络检测值评估模型,其外推预报结果初步显示了此方法的应用可行性。【关键词】危险性评估;模型;机器学习;经络信息检测及处理1 引言1.1 亚健康检测和评估现状亚健康的检测和评估是健康管理最终提供个体化的干预手段,是必不可少的先决条件。由于绝大
2、多数被市场“炒”作起来的亚健康检测与评估“产品”均没有经过科学系统的应用研究和实施数据支持,因而只呈昙花一现便无影无踪 1。1.2 现存的一些商业化亚健康检测评估手段分类1.2.1 以既存疾病验后诊断案例为基础的无创型评估模型尽管此类亚健康检测评估手段的机理各异,但就其所获取的信息、所建立的评估模型而言,并非疾病预警意义上的严格的前瞻性健康风险评估。因为其模型建立机制实质上是通过检测数据,归纳现存已产生疾病属性的回顾性提示(尽管此类检测评估系统的商业宣传称其对疾病具有早期提示作用) 。检测信息从既存疾病的非亚健康人群中获取,然后采用数据处理进行归纳,得出的结论实为既存疾病属性的标示。因此,此类
3、评估模型的方法论逻辑的建立比较含混,不同于亚健康状态下,具有疾病预警意义的前瞻性健康风险评估。为解决以上弊端,有必要采用基于亚健康-疾病时间序列趋势统计分析,具有较严格的前瞻预报意义的有创型流行病学评估模型。1.2.2 以亚健康-疾病时间序列趋势统计分析为基础的有创型流行病学评估模型任何一种慢性疾病都有其特有的生理病理变化,尽管这些变化是复杂的,但是很小的变化都会在生物标记上有所体现。这里的生物标记群不只是考虑单一指标的测量值,而是包括全面观察到的众多有意义的生物医学指标及其它指标,是对人身体健康状况的整体评估。因此,如果在疾病发生前测得其生物标记模式,并连续观察疾病发展过程中时间序列趋势下生
4、物标记的变化情况,采用流行病学统计分析方法,如 Cox 比例风险模型 2等,建立评估模型,就可发现导致疾病发生及发展的关键因素,也就是在亚健康人群检测评估中真正有意义的前瞻性健康风险评估的检测信息判据。将某个体的生物标记群录入计算机,基于评估模型的预测软件系统就会自动将录入信息与软件的预测模式进行比较分析,确定该个体发生疾病的趋势及可能性,此过程为采取有效的预防措施创造了条件。这种检测评估手段的遗憾之处是必须包括有创性血生化指标,因而增加了诸多不便。2 交叉综合评估方法通过综合评估的手段使以上两类机制不同的检测评估模型“杂交” ,扬弃各自的优缺点是必要的。由于所构造的新模型来源于两类产生机制全
5、然不同的源模型的“杂交” ,因此新模型不可能通过两类模型算法的合成来获取,也不可能借助原来产生两类模型的临床案例的汇合重新构建,只能通过原创的交叉试验设计积累足够的临床案例来获取。这里笔者提供一个采用系统生物信息学 3的计算机学习获取无创型评估模型的交叉综合对照试验的方案(如图 1) ,通过有创型基于时间序列的流行病学疾病预报模型作标准,开发出无创型健康评估(疾病预警)模型。此模型可不断地伴随临床案例的积累而优化。下面以缺血性心血管评估模型 4为对照,简述基于人体经络检测值无创型评估模型的开发过程,并对初步应用结果进行分析。图1获取无创性评估模型的交叉综合对照方案健康评估个体有创检测属性 无创
6、检测属性有创流行病学评估模型评估结果机器学习训练案例机器学习无创评估模型再学习3 以人体经络检测为基础,建立缺血性心血管病发病危险无创型评估模型3.1 经络检测原理采用经络测量信息作为亚健康状态主要连续量生物标记之一。根据国内外电生理学实验发现,如经穴处存在 Ca,Fe 元素和 Ca 离子的富聚,以及经络循经传导线上与经穴点有关線粒三磷(ATP)较多的细胞集聚等实证结果 5-12,Ca 离子作为细胞间质中第一、第二信使,参与细胞生长发育重要过程,在人体生命过程中扮演着重要的角色,因此经络测量可能成为采集生命科学信息的重要手段。在血生化数值等诊断指标变化前,经络信息 13与其他“生物-心理-社会
7、”的综合标记群的合参综合可能会更准确地揭示一些生命现象的量化本质,如亚健康状态。本研究正是通过宏观电子检测多处经络穴位点的皮肤表面电阻值,经系统生物信息学的计算机学习(supervisor based learning) ,获取模式发现(pattern discovery),综合挖掘提取机体功能状况特征信息,深刻揭示经络信息表达的微观生命科学本质。与其他商业化的无创型检测手段相比,经络皮肤表面电阻检测具有较为经济简便的优越性。3.2 示教标准源模型 缺血性心血管病发病危险的评估模型中国医学科学院阜外心血管病医院流行病学研究室武阳丰教授研究认为,缺血性心血管病发病危险的评估模型能较好地反映发生心
8、血管病的综合危险,预测个体未来十年内罹患缺血性心血管病(ischemic cardiovascular diseases, ICVD)的危险等级 4。此评估模型由年龄、血压、体重指数、是否吸烟、血糖与血脂含量六大因素共同决定。其中年龄、是否吸烟通过填写问卷获得,血压通过血压计测量获得,体重指数通过测量身高和体重获得,只有血糖和血脂含量必须通过有创抽血化验才能获得。3.3 利用神经元网络算法,建立有示教的计算机机器学习,获取无创型评估模型由图1所示,计算机机器学习获取无创型评估模型的交叉综合对照试验方案,通过以上有创型ICVD流行病学疾病预报模型作为示教标准,选取神经元网络算法实现计算机机器学习
9、,开发出无创性健康评估(疾病预警)模型,因为神经元网络算法非常适合处理含复杂噪声的传感器数据,如经络皮肤表面电阻检测值。在此实现过程中,我们以 297 个例行体检中获取的经络受检者的数据作为神经元网络机器学习的训练集,而以另外 227 个数据作为测试集用于测试所建模型的预报精度。由于训练集和测试集来自于取样时间和地点完全不同的群体,因此在统计上是完全独立的。这些检测者的数据包括年龄、性别、血压、身高、体重、血糖血脂含量、吸烟与否以及人体皮肤表面 24 个主要穴位的经络电阻等详细信息。根据心血管疾病评估模型中的计算方法 4(参见图 2 和图 3),我们可以计算出每个检测者未来十年 ICVD 发病
10、危险(%)。通过与同性别、同年龄段人群未来十年 ICVD 发病平均危险(%)进行对比,我们把未来十年 ICVD 发病危险(%)超过同性别、同年龄段的人群定义为心血管疾病高危倾向者。为此,我们在模型中引进了一个目标变量“是否高危”,对未来十年 ICVD 发病危险(%)超过同性别、同年龄段的人群,目标变量取值 1(高危),否则为 0(非高危)。如在缺血性心血管病发病危险的有创评估模型(示教标准源模型)中代入 297 个数据训练集例行体检获取的相应信息,可得出 197 个数据取值 0,100 个数据取值 1 为示教标准,运用神经网络算法14训练得到模型,再把模型结果运用到测试集上进行预报,以检验模型
11、的预测精度。神经网络模型可以大致表述为如下函数:某个体心血管疾病预报风险“是否高危”=f(年龄、性别、收缩压、体重指数、吸烟与否、及人体皮肤表面 24 个主要穴位的经络电阻值)由此可知,此模型为不包含血糖及血脂的无创型模型。227 数据测试集的预测结果如下: 1.用原来 297 个数据做训练集得到模型,再用该模型对 227 个数据进行预测;实际 预测 | 0 | 1 | 总计 -+-+-+ 0 | 153 | 14 | 167 -+-+-+ 1 | 12 | 48 | 60 -+-+-+ 总计 165 62 227 从以上混淆矩阵看出, 227 个数据中,实际取值为“0”的 167 个数据通过
12、模型预报后 153 个仍为“0” , 14 个误报为“1” ,实际取值为“1” 的 60 个数据通过模型预报后 48个仍为“1” ,12 个误报为“0” 。其中有 201 个数据模型预报值与实际值吻合,26 个数据不吻合,模型的预测准确率为 88.55%。2.因训练数据集和测试数据集的统计分布差异会导致模型外推预报精度降低,为了克服这一点,基于集群表决理论 15,对原来的 297 个数据的训练集重新训练得到新模型,再用该新模型对 227 个数据做出预测。实际 预测| 0 | 1 | 总计 -+-+-+ 0 | 152 | 15 | 167 -+-+-+ 1 | 8 | 52 | 60 -+-+
13、-+ 总计 160 67 227 从以上混淆矩阵我们知道, 227 个数据中,实际取值为“0”的 167 个数据通过模型预报后 152 个仍为“0” , 15 个误报为“1” ;实际取值为 “1”的 60 个数据通过模型预报后 52 个仍为“1” ,8 个误报为“0” 。其中有 204 个数据模型预报值与实际值吻合,23 个数据不吻合,模型预测准确率为 89.87%。通过比较上述两种预测结果我们发现,这两种情况下预测结果的准确率都比较高,第二种情况下的预测准确率比第一种情况有较微小的提高。3.序贯递加累积例行体检的临床数据,持续不断地进行再学习,即把原来的524(297+227)个训练及测试数
14、据合起来做训练集得到学习模型,再用该模型对最新获取的另外 878 个数据做出预测。实际 预测 | 0 | 1 | 总计 -+-+-+ 0 | 636 | 31 | 667 -+-+-+ 1 | 27 | 184 | 211 -+-+-+ 总计 663 215 878 从以上混淆矩阵我们知道, 878 个数据中,实际取值为“0”的 667 个数据通过模型预报后 636 个仍为“0” , 31 个误报为“1” ;实际取值为 “1”的 211 个数据通过模型预报后 184 个仍为“1” ,27 个误报为“0” 。其中模型预报值与实际值吻合的有 820 个数据,不吻合的有 58 个数据,模型预测准确率
15、为 93.39%。对比上述预测结果可知,训练数据持续增加的再学习过程可以使模型精度不断提高。见图 2 缺血性心血管病十年发病危险度评估表(男) 4 ,图 3 缺血性心血管病十年发病危险度评估表(女) 4 。图2 图34 结论4.1 经人体经络检测缺血性心血管病发病危险无创型评估模型的研发及相应结果分析,初步显示了无创型健康评估模型建立方法的可行性。作为生物信息学通用数据处理方案,此模型的建立方法与无创属性的类别和示教标准源模型的内容无关,因而该方法具有通用性。4.2 由于开发了有效的机器学习算法,克服了因训练数据集和测试数据集的统计分布差异所致的模型外推预报精度降低,因而可以通过训练数据集的积
16、累、增大和持续再学习,使模型精度得以保持稳定甚至有所提高。4.3 本可行性模型的建立机制初步揭示了源于传统中医的宏观系统参数的经络信息与常规西医的血生化数值的关联,可能为基于系统生物学“宏微并举”的中西医药汇聚带来机遇。致谢谨此对参加与此工作相关的测试数据收集及整理的刘津、王学员、张京会、曹立欣、簡小强、梁凯林等诸位同仁及提供了有益的讨论的武阳丰教授及王珏教授表示衷心的感谢。此项工作并得到深圳市科技和信息局20060107012科技项目资助。参考文献1 武留信等. 亚健康的检测与评估,亚健康学,北京:中国中医出版社,2007.791262 Cox DR. Regression models a
17、nd life tables. J. R Stat Soc B, 1972,34:226-2303 赵红. 以系统生物信息学促进中国特色的健康管理发展,东莞:第四届中国健康产业论坛论文集 4 武阳丰等.国人缺血性心血管病发病危险的评估方法及简易评估工具的开发研究,中华心血管病杂志,2003,31,12:893-901 5 Guo Y, Xu T,Chen J, Zhang C, Jiang P.The study on calcium ion concentration specificity in meridian and acupuncture point in rabbit.Chines
18、e Chen Tzu Yen Chiu 1991;16:66-86 Miao W ,Guo Y, Zhang Y, Xu T, Zhang C.The influence of changing the Ca2+ concentrantion of the point quze(PC3)on the curative effect of puncturing neiguan (PC6) in experimental arrhythmic rabbits.Chinese Chen Tzu Yen Chiu1993;18:2437 Cooper MS,Schliwa M.Transmembran
19、e. Ca2+ fluxes in the forward and reversed galvanotaxis of fish epidermal cells .Prog Clin Biol Res 1986;210;311-3188 Becker RO,Marino AA. Electromagnetism and life. Albany:State Univ.of New York ,19829 Berridge MJ. Inositol triphosphate-induced membrane potential oscillations in Xenopus oocytes .J
20、Physiol1988;403:589-59910 Parker I, Miledi R. Changes in intracellular calcium and in membrane currents evoked by injections of inositol trisphosphate into Xenopus oocytes. Proc Roy Soc London B 1986;228:307-31511 Cornell-Bell AH, Finkeiner SM, Cooper MS,Smith SJ. Glutamate induces calcium waves in
21、cultured astrocytes:long-range glial signaling.Science 1990;247:470-47312 Nedergaard M. Direct signaling from astrocytes to neurons in cultures of mammalian brain cells.Science 1994;263:1786-7113 谭支绍等. 实用经络穴位诊断. 广州:广东科技出版社, 200414 Bishop,C.M. Neural networks for pattern recognition. Oxford, England: Oxford University Press, 1996.15 Schapire, R.E. The boosting approach to machine learning an overview, in the proceedings of MSRI Workshop on Nonlinear Estimation and Classification, 2002.