1、湘雅大数据调研报告-湘雅二医院调研项目 : 艾滋病临床大数据系统指导老师 : 二级学院 : 软件学院 专业名称 : 软件工程 班 级 : 调研报告人 : 中南大学2014 年 4 月 30 日1摘 要本文在下面章节描述了湘雅大数据调研的详细过程,并对大数据及艾滋病背景做了简要的叙述,结合湘雅二医院的实际,对湘雅二医院的已有的医疗信息系统及平台,大数据项目需求以及大数据方法与技术进行了详细的阐述。在调研之际我们还对医院感染科已有的信息平台中的信息与数据的格式,规范与要求进行了介绍。感染病是一项传播疾病,在大数据时代到来之际我们应该充分利用大数据分析平台来处理沉积在医院数据库系统中的数据,这有利于
2、临床医生的工作效率和他们的科学研究。在此之中我们也应该清楚的认识到大数据平台除了在商业应用成功之外在其余的方面这样的成功的案例很少,这给我们带来新的挑战,故本文仅提供了解决湘雅大数据建设的初步的设想和相关技术方面的描述。关键字:湘雅大数据,艾滋病,疾病传播,医疗信息系统,数据库系统2目 录第一章 绪论 31.1 项目背景 .31.1.1 艾滋病背景介绍 31.1.2 医疗大数据背景介绍 31.2 临床工作和临床数据积累的基础 5第二章 目前信息系统概况 72.1 湘雅二医院信息系统 72.1.1 解决人财物的管理问题 .72.1.2 涉及临床信息的处理系统 82.2 湘雅二医院目前使用的电子病
3、历系统 8第三章 艾滋病规范化诊疗随访系统建设需求与分析 93.1 临床病例随访系统需求分析 93.2 临床大数据系统建设的内容、方案和技术路线 93.3 临床数据资料的收集 .103.3.1 确诊前的相关信息 103.3.2 确诊后的资料收集 103.3.3 治疗过程资料的收集 103.4 随访管理系统的需求 .11第四章 艾滋病临床病例随访系统所需用到相关技术与方法 124.1 临床病例追踪系统所需用到相关技术 124.2 临床病例追踪系统所需用到的方法 13第五章 艾滋病临床病例随访系统解决问题的可行性方案 14第六章 结论 15参考文献(References): 163第一章 绪论 1
4、.1 项目背景1.1.1 艾滋病背景介绍艾滋病(AIDS)是一种严重威胁人类生命健康的传染病。我国艾滋病流行呈地区性聚集,湖南省的艾滋病新发感染和发病率逐年增加,已经成为国家重点防控地区之一。艾滋病毒(HIV)感染和发病有其特殊性,感染人群多样化,大大增加了防控和治疗难度。HIV 感染主要侵犯机体的免疫系统,逐渐致 CD4+T 淋巴细胞耗竭,最终使机体免疫功能破坏直至崩溃,导致各种机会性感染和/ 或肿瘤。艾滋病从感染到出现临床症状有较长的潜伏期,平均 8-10 年。但是不同的感染途径、不同的人群、不同的免疫状况以及是否有其他合并症等均影响患者的发病时间,因此患者一旦确诊 HIV 感染需定期随访
5、检查相关指标以便及时治疗。另外确定HAART 治疗后仍然需定期随访,因为治疗方案为多药联合治疗,药物可能有一定的毒副作用需要定期观察处理,长期治疗可能出现药物耐药需要及时更换治疗方案等。艾滋病的治疗主要以抗病毒(highly active anti-retroviral therapy,HAART)为主,到目前为止尚无特效治愈方法,因此一旦启动治疗需要终生用药。有研究报道,只要及时采用 HAART 治疗,艾滋病的预期寿命可与普通人相差无几。41.1.2 医疗大数据背景介绍随着大数据时代的到来,医疗行业的信息化也迎来自己的“大数据时代” ,而如何将患者的被动性参与转向主动健康管理,从单一案例效果
6、评估转向过程性、全程性的整体评估和体验;从病种数据管理扩展到健康数据管理,从关注争端和治疗技术跨到预防、护理和康复环节是未来医疗行业需要关注和解决的问题,而大数据,正是一条重要的道路。所谓大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。具体来说,大数据具有 4 个基本特征:一是数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1P
7、B=1024TB),这些数据如果打印出来将超过 5 千亿张 A4 纸。有资料证实,到目前为止,人类生产的所有印刷材料的数据量仅为 200PB。二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是处理速度快。数据处理遵循“1 秒定律”,可从各种类型的数据中快速获得高价值的信息。四是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。而在医疗数字化的过程中,医院成了大数据产生的重要来源,病历、影像、远程医疗等都会产生大量的数据。医疗行业相比其他行业更加严谨,因为更多的是“人命关天”的业
8、务,因此在 IT 创新的脚步上是相对较慢的。而引入更多的数据源,包括内部与外部数据,医疗机构是否已经准备好迎接大数据的挑战?有专家认为,医疗行业的大数据应用还处在起步阶段,但大部分医疗机构已经开始意识到大数据对于他们的重要性。因为要真正在医疗健康领域创造价值,仅仅掌握医院内部数据是远远不够的。而艾滋病(AIDS)作为一种严重威胁人类生命健康的传染病。我国艾滋病流行呈地区性聚集。艾滋病毒(HIV)感染和发病有其特殊性,感染人群多5样化,大大增加了防控和治疗难度。根据传染病疫情报告以及艾滋病随访的特殊要求,每个治疗的患者必须定期随访检查并网络上报相关资料,因此随访患者均有网络信息随时可以调取。目前
9、在各医院的信息系统中积累了大量的、宝贵的临床信息,尤其是结构化的电子病历系统更是产生了大量的、临床科研所必须的临床病例信息,这些数据又是分散的存储于这些信息储存在电子病历、收费、医嘱、药品、检验、PACS、手术等业务系统中。绝大多数的医疗数据是处于归档状态,如果要检索是十分复杂的。同时缺乏数据标准,导致无法统一。所以未来的数据利用前景是十分广阔的,不仅用于临床诊断,临床科研,而且为政府公共卫生决策及个人管理健康都会发挥积极的作用。1.2 临床工作和临床数据积累的基础湘雅二医院艾滋病研究室是湖南省最早成立的艾滋病临床科研研究室,是湖南省艾滋病学组组长单位。自 2001 年成立以来,承担了大量的艾
10、滋病临床科研工作,在国内较早开展艾滋病的临床诊疗工作;先后启动了湖南省第一例成人和儿童艾滋病的抗病毒治疗,成功进行艾滋病母婴阻断 20 多例,每年接诊HIV/AIDS 患者 200 多例,长期在本研究室治疗随访的患者 400 多例,根据传染病疫情报告以及艾滋病随访的特殊要求,每个治疗的患者必须定期随访检查并网络上报相关资料,因此随访患者均有网络信息随时可以调取,病源覆盖全省和周围省份,与兄弟单位有良好的合作基础;同时本研究室还保存了 800 多份 HIV/AIDS 患者的原始资料和血清标本。在此基础上本研究室还开展了大量的科研工作,主要在以下几个方面开展:抗 HIV/AIDS 的 HAART
11、疗法的临床科研,长期系统研究其抗病毒效果、毒副作用、免疫重建效果和病毒耐药机制;在发现 HIV vpr 基因多态性现象的基础上开展了 HIV 致病机理的研究; 艾滋病的中西医结合治疗方法和效果的研究;与美国和国内同行密切合作,开展了阻断 HIV 母婴传播新方法的探索;HIV 与 HCV 混合感染的抗病毒治疗策略研究。这些课题均密切结合临床并已形成了稳定的研究方向。本研究团队近年共获 11 项艾滋病相关的研究课题,包括国家“十五”“十一五”“十二五”6重大科技专项分课题、国家自然科学基金、全球基金-中盖艾滋病项目、卫生部重点课题、教育部博士点基金课题和中国中医研究院等单位委托进行的“艾宁颗粒”新
12、药 II 期临床研究等,总资助经费 260 多万元人民币。获省科技厅和省卫生厅科技进步奖各一项,在国内外学术杂志上发表防治艾滋病的文章 50 多篇(其中 SCI 检索 10 篇)。先后招收培养硕士博士研究生 30 名,其中包括塞内加尔留学生 1 名。参加国际和全国的艾滋病学术会议十多次,全省传染病学术研讨会 8 次,并多次在全国和全省学术研讨会上做学术报告。牵头主持了湖南省4 届艾滋病学术研讨会和培训班。目前我们已在国内 HIV/AIDS 科研和临床方面占有一席之地,在省内处于领先地位。7第二章 目前信息系统概况随着计算机技术的提高,医院信息系统已成为现代化医院的必要基础设施,为了提高工作效率
13、,改进医疗质量,提高医院的社会效益、经济效益和管理水平,给医院领导管理和决策提供准可靠的数据,必须进行医院信息系统建设,以迎接医疗保障制度改革、药事管理制度改革、现代企业制度改革、社区医疗体系重建及医院现代化所带来的严峻挑战1。2.1 湘雅二医院信息系统就湘雅二医院信息系统的发展来看,主要分为以下两个阶段:2.1.1 解决人财物的管理问题这主要包括以下几个系统的建立:(1)门急诊挂号管理系统;(2)急诊划价收费处理系统;(3)住院病人入、出、转和费用管理系统;(4)病房医嘱处理系统;(5)药库、药房管理系统;(6)病案管理系统;(7)医疗统计和报表处理系统;8(8)人事管理系统;(9)后勤物资
14、管理系统;(10)院长信息查询和辅助决策系统;2.1.2 涉及临床信息的处理系统目前主要以电子病历系统结合 HIS 系统,在电子病历系统中实现 CPOE(计算机辅助医嘱输入系统)。提高工作效率,实现临床系统质量的闭环控制,凸显电子病历系统的效应2.2 湘雅二医院目前使用的电子病历系统湘雅二院的信息化建设是建立在以电子病历为核的基础上的2 。病历是医院宝贵的财富,按照病历书写规范中的规定,住院病历至少保存15年以上,而作为电子化的病历,它的实际保存年限将能达到百年以上,随着医疗技术的发展,病历中将保存更加大量的数字化医疗数据供科研使用。目前主要以电子病历系统结合 HIS 系统,在电子病历系统中实
15、现 CPOE(计算机辅助医嘱输入系统)。提高工作效率,实现临床系统质量的闭环控制,凸显电子病历系统的效应。电子病历系统的大致流程图如下图1所示:9图 1 电子病历系统第三章 艾滋病规范化诊疗随访系统建设需求与分析3.1 临床病例随访系统需求分析治疗患者出院后没有一个方便随访追踪系统,不能对患者的长期疗效进行随访,也不能反馈给临床医生,吸取经验教训,以改正和改良诊断模式。为此,在临床电子病历的基础上建立门诊病例和出院病例的随访系统,实现住院、门诊病例和回归社区的无缝连接。1. 在湘雅医疗系统之间实现资源整合、共享和传递。2. 加强医疗质控检测同时积累科研原始数据,为研究艾滋病的病因和病理生理机制
16、提供可靠的临床样本。 3. 为临床医生提供患者的完整信息,为临床决策做参考,为临床教学提供鲜活的教学材料。103.2 临床大数据系统建设的内容、方案和技术路线利用我院住院部和门诊电子病历系统,采用国际先进的 J2EE 技术,支持Windows、Linux 等多种操作系统,支持 Web 系统访问和中英文。所有的数据都保存在数据库服务器,所有对数据库的操作都通过应用服务器进行,从而有利于系统的安装、维护、更新和数据的集中管理,增加了数据的安全性。各个数据平台实现数据互联,信息共享。建库前对艾滋病各期特点进行认真分析,统一标准;精心设计每个字段,使其能充分反映和全面涵盖艾滋病的临床特点。对每份资料进
17、行详尽研读,以保证录入数据的准确性和真实性。以住院或门诊 ID 号为关键字,可防止资料的重复输入。充分利用字段设计的说明及自动更正功能,保证了输入资料的快速、准确,也方便了数据的统计工作。根据艾滋病诊疗指南将艾滋病分为三期:急性期、无症状期(潜伏期)、艾滋病期。由于患者急性期和无症状期常常比较隐匿,而且诊断必须要有定点实验室的病原学确定诊断依据,因而收集数据时分为 2 个阶段:即确诊前和确诊后,确诊后是否需要治疗需根据患者的临床症状和相关生化、免疫细胞数等资料来确定,因此确诊后有将其分为 2 个阶段即治疗前和治疗后。因此在收集资料时将艾滋病分期的说明项标明: 确诊前和确诊后,输入时只需输入数字
18、 1,2,输入 2 后再分别弹出 2 个模块分别代表治疗前和治疗后,然后设计不同的菜单分别进行查找或替换等功能将其恢复文字资料,极大地方便了输入和提高了速度。在设计字段时定制格式,输入错误时系统给予自动提示。录入资料要求准确、全面、快速。3.3 临床数据资料的收集3.3.1 确诊前的相关信息临床病历资料:针对医学临床研究的复杂的病历资料, 主要包括基本信息(住院号/门诊病历号、姓名、性别、出生日期、文化程度、职业、联系地址、电话、邮编等)、首次就诊日期、重点录入可能的传播途径(包括是否静脉吸11毒、是否输血或长期静脉透析史、是否男男同性恋或多个异性性伴等),从第一次危险因素暴露到确诊 HIV
19、阳性的时间,吸烟史、饮酒史、饮食习惯等。3.3.2 确诊后的资料收集除基本信息外,重点收集患者的临床症状和生化免疫学指标资料,患者是否继续有高危暴露行为、暴露的频率、是否有机会性感染、机会性感染的病原、机会性感染的治疗与否、用药的名称、剂量、疗程、病情恢复情况,是否有其他合并症和其他用药史等,定期检测 CD4+T 细胞计数,以判断患者是否应该启动抗病毒治疗以及分析病情进展的相关因素。3.3.3 治疗过程资料的收集患者一旦需要治疗即启动治疗程序,记录治疗用药的种类、剂量、患者服药的依从性、每周/每月是否有漏服现象及漏服次数,服药后的反应包括皮疹、发热、消化道症状、睡眠状况、血常规、肝功能等是否发
20、生改变,重点观察免疫细胞 CD4+T 细胞数的改变和 HIVRNA 病毒计数以判断药物的疗效和毒副作用。治疗期间患者是否继续有高危暴露行为、暴露的频率,是否发生机会性感染以及机会性感染的治疗情况等。若患者出现病情反复可能发生耐药现象,即进行病毒耐药基因检测并记录以及调整治疗方案,继续进行随访,继续前述的资料收集直至患者死亡。3.4 随访管理系统的需求(1)管理随访病人的复诊基本信息,随访间隔的时间,相应的疾病信息,以及每次疾病随访检验检查信息。(2)超声放射影像管理:管理临床病历影像资料的统一录入和网上共享。(3)血清标本随访管理:每次随访均留取临床血清标本,血清标本统一标准化管理,包括标本处
21、理、标本保存、标本运输、标本使用等均实现标准化管理。12(4)治疗后的机会性感染管理:机会性感染的病原、治疗药物、疗程和转归实行规范化管理。(5)免疫病毒管理:管理 HIV-RNA 相关序列的测序和突变位点的检测分析信息。(6) 艾滋病医学信息网站:配合科室信息化管理,建立专业网站,面向全国重点艾滋病研究单位,支持资源共享,对有关 HIV/AIDS 研究进展的文献资料进行精选收录,并实时更新,供在线阅读。第四章 艾滋病临床病例随访系统所需用到相关技术与方法4.1 临床病例追踪系统所需用到相关技术(1)根据湘雅二医院临床大数据项目的整体需求,不仅需要完善和开发 PC 端的系统,还需要开发在平板电
22、脑或手机登移动终端上使用的应用程序,并且还要开发固定系统的数据采集系统,因此需要 IOS 和 Android 开发技术等。(2)通过调研了解到临床病例追踪系统可以使用 jsp + struts + spring+ hibernate 技术来进行开发,或者也可以用 visual basic 或者 visual studio开发工具以及使用 MFC 基础类库。13(3)Hadoop3是 Apache 软件基金会旗下的一个开源分布式计算平台。以Hadoop 分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce 的
23、开源实现)为核心的 Hadoop 为用户提供了系统底层细节透明的分布式基础架构。HDFS 的高容错性、高伸缩性等优点允许用户将 Hadoop 部署在低廉的硬件上,形成分布式系统;MapReduce 分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用 Hadoop 轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。其中海量数据的存储采用 hadoop 数据分析平台的 Hbase 来进行存储,使用 Hbase 的好处是它的高可靠性,高扩展性,在 hadoop 平台上还有相应的数据仓库 Hive 和相
24、应的分析工具 pig,impala 等,若要再深入挖掘数据可以使用 mahout 数据挖掘工具去实现海量数据的挖掘。最后不得不说明的一点是 hadoop 现在还缺乏相应的安全机制,但是 hadoop 是开源系统,相信不久的将来这一问题能够得到解决。4.2 临床病例追踪系统所需用到的方法首先,需要为临床病例随访系统建立一个数据库,用来存放出院病例和门诊病例人群的相关信息。这个数据库必须提供相关接口,供工作人员录入信息,以及临床数据库平台的相关人员调用,即共享给其他医院。其次,必须有专门的随访人员对相关病历定期进行随访工作,追踪了解患者的疗效、转归,录入数据库中。再次,可建立一个数据分析的系统,通
25、过了解相关数据能得出一系列的结论,供医护人员参考。如:医疗效果、随访工作是否到位、临床评估以及相关流程合理性等。14第五章 艾滋病临床病例随访系统解决问题的可行性方案针对前面章节提出的需求分析以及基本功能设计,临床病例追踪系统的具体实施方法如下:(1)将出院病例和门诊病例导入到临床病例随访系统。对入库患者进行系统的随访观察,了解患者的转归。定期与患者进行联系,督促门诊就诊,患者每次前来复诊,都将记录有关治疗情况和药物反应,并采用临床研究电子病历系统中的病情评估体系和神经认知功能测试和治疗评估系统对患者进行全方位的评估。(2) 对追踪随访过程中的结果连接入临床研究电子病历系统,供临床医生查看参考
26、,如其中出现有明显病情变化、治疗不良反应,能主动向临床主管医护人员进行报告。 15(3)对于追踪随访病例中疗效好、转归好的病例和疗效不好、或出现有特殊情况的病例。或对于相同药物治疗的患者,定期进行归纳出总结报告,给相关临床医护人员参考。(4)对于出现有其他科情况的患者,在治疗其他科疾病的治疗情况和预后情况进行记录,供以后有类似病例时参考。第 6 章 结论 这次调研给我的收获也挺大,首先初步了解到更多大数据相关知识,以及在临床医学领域进行大数据系统建设的探索和应用中是非常有发展前景的,这对我们今后的工作以及生活都有意义重大。同时,在对湘雅二医院精神卫生研究所的调研中,了解到建立完整和智能化的临床
27、大数据系统是解决临床问题的关键。了解了艾滋病临床大数据项目的应用前景,对相关需求进行了分析,以及专门针对其子系统临床病例随访系统进行了构思与初步的方案设计,这对今后实施此项目具有一定参考价值,以及对整个工作的展开具有很大意义。由于前期调研时间有限,后期还有一些需求信息需要完善和修改,不过大致需求已经调研完毕。这对下一步的工作展开也是有一定帮助的。摆在我们面前的困难还很多,需要我们一步一步去克服,相信坚持总会成功。16参考文献(References):1 朱洪涛中南大学湘雅二医院信息系统建设J国际医药卫生导报, 2002,(5 ) :36-382 庞涛从电子病历发展到临床数据平台访中南大学湘雅二医院信息中心主任黄刊迪 J中国信息界:e 医疗,2012,(6) :42-433 Anil Madan, Hadoop-The power of the Elephant,http:/ hadoop-the-power-of-the-elephant/