收藏 分享(赏)

大医疗数据背景下基于云架构的家庭诊断服务毕业论文.docx

上传人:无敌 文档编号:639241 上传时间:2018-04-16 格式:DOCX 页数:33 大小:1.81MB
下载 相关 举报
大医疗数据背景下基于云架构的家庭诊断服务毕业论文.docx_第1页
第1页 / 共33页
大医疗数据背景下基于云架构的家庭诊断服务毕业论文.docx_第2页
第2页 / 共33页
大医疗数据背景下基于云架构的家庭诊断服务毕业论文.docx_第3页
第3页 / 共33页
大医疗数据背景下基于云架构的家庭诊断服务毕业论文.docx_第4页
第4页 / 共33页
大医疗数据背景下基于云架构的家庭诊断服务毕业论文.docx_第5页
第5页 / 共33页
点击查看更多>>
资源描述

1、大医疗数据背景下基于云架构的家庭诊断服务 1大医疗数据背景下基于云架构的家庭诊断服务摘要:自我护理服务在我们的日常生活中正变得越来越重要,特别是在面临全球老龄化这样紧迫的情况下。大量的历史医疗记录这样的大数据使得用户进行自我护理服务成为可能,例如他们自己就可以通过类似的病人的病例来获得诊断。发展这样一种自我护理的服务就会面临很多挑战包括高并发和可扩展的的医疗记录的检索,数据分析,以及隐私的保护。在本文中,我们提出了一个基于云计算的架构来实现自我护理服务称为家庭诊断以解决上述挑战。具体而言,一个基于 Lucene 的分布式搜索集群被设计出来旨在支持高并发和可扩展的病历检索,数据分析和隐私保护。此

2、外,为了加快医疗记录检索,Hadoop 集群被采用以存储离线数据以及构建索引。当谈及家庭诊断服务的实现,我们可以从中获得相似的历史医疗记录和疾病症状点阵,以帮助用户查明他们可能感染了哪一种疾病。最后,一个原型系统会被设计出来以及一个运行实例会被呈现以证明我们的提案的扩展性以及效率。关键词:基于云计算的架构,家庭诊断服务,医疗大数据1 介绍1.1 背景根据世界卫生组织的报告,人们在亚健康状态(SHS),也被称为“第三状态”(处于健康和生病之间),在世界人口中占 75 ( He et al., 201 3)。在中国,处于这个状态的人群数量已经达到了 9 亿人 ( Ding et al., 2009

3、) 。有相当一部分人会密切关注他们的健康希望能获得预防性健康检查或以有类似病历的病人来指导自己。而且,随着人口老龄化的成长,有些为老年人的慢性疾病监测也应在日常生活中进行。因此,为了满足“SHS”群体和人口老龄化的需求,按需自助服务应该被发展以帮助人们可以在家方便地获得疾病预防知识。 (Rashidi and Cook, 2009; Cook et al., 2003; Doctor et al., 200 5).另一方面,不断增加的在日常临床活动所产生的医疗和诊断数据量,使得开展医疗自助服务来满足 SHS 人群和老年人的要求成为可能。然而,大量的医疗数据,以及它的各种格式,造成大规模数据管理

4、和高效的知识挖掘技术的挑战,这也被称为“大数据”的问题。 (Chaudhuri, 201 2). 由于云计算的显着特征,如弹性计算能力,和普遍的面向服务的性质 (Shang et al., 2013; Xu et al., 201 2), 云计算技术已被广泛研究,并在大数据领域使用 (Canny and Zhao, 2013; Cheng et al., 2012), 许多医疗保健服务已经迁移到云环境。更具体来说,本文提出的研究报告是为连云港卫生局建立一个基于大型研究项目大医疗数据背景下基于云架构的家庭诊断服务 2的医疗信息云平台。连云港是中国江苏省的一个城市,靠近上海。卫生局是要搭建一个平台

5、,以收集所有的医疗信息,如每个来自当地保健医师的医疗记录。(例如,医院,诊所)。通过这样做,各种医疗服务可以被制定以符合实际的医疗保健需求。例如,每个病人可具有他/她的个人健康简况,由所有他 /她的临床与每个临床访问相关联的记录组成。1.2 一个生动的例子我们讨论这个生动的例子是为了突出我们将要提出的问题。假设有一个名叫李某的患者,有一天生病了。并且他知道他的症状包括“高烧”和“呼吸困难”。他去医院进行诊断之前,希望通过互联网初步诊断,这样就能知道他可能患有哪种疾病。因此,他可以在事先通过医院的主页作出合适的预约。在上面的例子中,如果有一个医疗自助服务,根据李某的疾病症状提供相似的历史医疗记录

6、这样的诊断协助,这将有助于李某做出合适的预约。此外,有相似的历史病历,李某会对他的病情更详细的了解。因此,当李某去医院进行诊断时,将花费李和医生双方更少的时间做出正确的处理,从而提高诊断效率。然而问题出现了,就是如何去提供这样一种自我保健服务。具体来说,这个问题主要包含以下三点。第一点是如何根据李某的疾病症状在大规模和不断增加的医疗记录中提供实时在线医疗记录检索。另一个是如何提取有用的诊断知识来帮助李从大量检索出来的医疗记录中弄清楚可能感染了什么疾病。最后一个是如何避免在病历隐私信息曝光,因为医疗记录是隐私的、敏感的。1.3 我们的工作和贡献通过这些观察,在本文中,我们将通过以下工作来面对这些

7、挑战。(1)在本文中我们提出了一个基于云的框架来实现一个名为家庭诊断的自我保健服务。具体来说,一个分布式基于 Lucene 搜索集群被设计出来旨在提供高并发和可扩展的在线医疗记录检索,数据分析和隐私保护功能。为了加快病历检索,Hadoop 集群被采用已进行线下数据存储和检索库。(2)更具体来说,家庭诊断服务的实现由四个步骤组成。首先,用户提交查询有关他/她的疾病信息。然后医疗记录匹配用户的疾病症状,性别和年龄在步骤 2 中检索。通过检索医疗记录,数据分析在步骤 3 进行,来计算疾病症状的点阵,揭示疾病常见症状之间的关系。最后,隐私敏感信息根据访问控制策略在医疗记录中被过滤。因此,疾病的症状点阵

8、,以及进行过隐私处理的医疗记录被返回到用户,这为用户自己做一个初步的诊断提供了一个详细的诊断依据。大医疗数据背景下基于云架构的家庭诊断服务 31.4 本文的组织结构本文的其余部分安排如下。第 2 节讨论的病历初步知识,以及一些关键技术,如基于云计算框架中被采用的 Hadoop 的计算框架和 Lucene 库。基于云计算架构的家庭诊断服务将在第 3 节介绍。第 4 节介绍了家庭诊断服务是如何为用户提供了诊断援助的细节。基于云计算框架的家庭诊断服务的评价将在第 5部分被讨论。其中一个原型系统设计讨论和一个运行示例会被提出以证明我们的建议的可扩展性和高效率。第 6 节讨论了大医疗数据在工业和学术领域

9、应用的相关工作。第 7 节总结全文,并讨论了今后的工作。2 初步知识在本节中,预备知识将被讨论,来介绍医疗记录和在基于云的架构中应用的一些技术。2.1 医疗记录定义 1(医疗记录)从形式上看,电子病历是去网络由三元组定义:EMR=(病人数据,病人简况,临床资料)( Zhang et al., 2013; Li et al., 2010)。每个元素的内容如下:(1)病人数据:患者数据包括患者的基本信息,如患者的姓名,性别,出生年月日等;(2)患者简况:患者简况通常包括病人的病史,包括疾病史,手术史,输血史,以及过敏史等等。(3)临床资料:临床数据存储详细的临床信息,包括症状集,病人投诉,现病史,

10、诊断结果,治疗方法等,与患者的每次访问一个保健医生相关。通常情况下,在临床活动中,电子病历要么是一个 XML 文件由存储在网络文件系统的标签值对组成,或者存储在关系数据库中的关系记录。图 1 给出了 XML 病历的一个例子。一般来说,在日常的诊断中,患者的疾病通常是由他/她的疾病的症状,以及他/ 她的年龄和性别确定的。另外,症状相同,同样的性别和年龄相仿的患者倾向于感染类似疾病。基于此观察,使用者在在类似的医疗记录检索需要提供疾病症状,性别和年龄,如图 1 三个红色圆圈所示。2.2 Hadoop: HDFS 和 MapReduce 框架Hadoop (Ekanayake et al., 201

11、1; Bahga and Madisetti, 2012)是一个云计算框架,用来运行内置商用硬件大型集群应用程序。Hadoop 由两个主要组件组成。大医疗数据背景下基于云架构的家庭诊断服务 4(1)HDFS:HDFS(Hadoop 分布式文件系统) 在集群中的节点的集合中存储文件。大文件分割成块(默认 64 MB)和每一个块可以写入多个节点 (默认值是 3)容错。图 1 一个 XML 医疗记录的例子(2)MapReduce:MapReduce 是并行数据处理模型 ,该模型由两个阶段组成:Map 和 Reduce。在映射阶段,从分布式系统(如 HDFS)读取数据,在一组集群中的计算节点之间分区,

12、并将节点作为一组键值对。映射任务过程的输入,你记录相互独立的和中间结果作为键-值对。中间结果存储在本地磁盘上运行的节点映射任务。当所有的映射任务完成,减少阶段开始的中间数据具有相同关键是聚合。映射任务处理输入的相互独立的记录并产生中间结果作为键值对。中间结果存储在本地磁盘上运行的节点映射任务。当所有的映射任务完成,筛检阶段开始并把具有相同关键值得中间数据聚合起来。在我们的提案中,HDFS 被采用到分布式存储 Lucene 文件和索引文件。同时,MapReduce 计算框架用于离线批处理索引构建工作。2.3 Lucene:信息检索库Lucene 是一个高性能,可扩展的信息检索( IR)库,并通过

13、 Apache 软件基金会授权的开源项目(Ochoa and Duval, 2008; Hatcher et al., 2004). 它被广泛应用于许多搜索应用,如 NetFlix, Digg, MySpace, LinkedIn 等等(Apache Lucene, 2014).Lucene 的核心部件是索引和搜索。索引是负责建立索引文件从最初的文件转化 Lucene 的文件,以方便快速上网查询。实际上,Lucene 的允许应用程序大医疗数据背景下基于云架构的家庭诊断服务 5在几乎所有的数据源添加搜索能力,包括远程 Web 服务器上的网页,存储在本地的文件系统,文本文件,MS Word 文档,

14、XML 网络 LES,或任何其他形式,从中我们可以提取文本文件信息。另一方面,搜索是这样一个过程,根据在索引阶段建立的索引文件,在索引文件中查找单词以找到数据源。在本文中,我们采用 Lucene 和 Hadoop 实现病历家庭诊断服务的搜索。首先,医疗记录通过标准 Lucene APIs 转换为多个 Lucene 文档。然后 Lucene 文档被存储为块文件在 Hadoop 的 HDFS 集群。此外,为支持快速在线医疗记录搜索、MapReduce 任务在每个 Lucene 文档创建索引时被初始化。索引阶段后,索引文件也存储在 Hadoop 的 HDFS 集群。3 云计算框架下的家庭诊断服务3.

15、1 应用场景在本文中,我们提出了一个基于云计算的框架来实现家庭诊断服务,从历史医疗记录中提取一些诊断的帮助提供给用户。更具体来说,家庭诊断服务,根据目标用户的查询,允许基于症状的病历检索。此外,为帮助用户区分检索到的病历疾病,会进行数据分析以构建疾病症状点阵。这个疾病症状点阵在用户查询的过程中会揭示具有相同症状的疾病的关系。因此,在疾病症状点阵的帮助下,目标用户很容易排除不可能的疾病而选择感兴趣的。同时,医疗记录返回给目标用户以获得更详细的参考。此外,返医疗记录返回到目标用户之前,隐私信息在医疗记录会被过滤,以避免暴露医疗记录中的敏感隐私数据。我们的家庭诊断服务旨在通过相似的历史医疗记录为用户

16、提供自我护理服务。从大规模和不断增长的医疗记录中搜索类似病历需要按需数据存储模型和弹性可扩展性以管理高峰期进入家庭诊断服务的权限。由于云计算的显着特征,如按需存储,弹性计算能力,本文提出了基于云计算框架实施家庭诊断服务。基于云计算架构概述的讨论如下。3.2 基于云计算架构的概述为了简化讨论,我们把一些术语罗列在下面的表 1 中。表 1 基于云计算架构的关键术语大医疗数据背景下基于云架构的家庭诊断服务 6图 2 基于云计算架构的家庭诊断服务如图 2 所示,云计算框架由两个主要的集群组成,一个线下的 Hadoop 集群和一个在线的分布式搜索集群,它由一组四个集群和负载平衡器组成:(1)大规模数据存

17、储和并行索引建立采用离线的 Hadoop 集群。简而言之,HDFS 是用于存储索引文件和大量医疗记录中转换过来的 Lucene 文档; 而MapReduce 计算模型用于平行索引构建;(2)网上分布式搜索簇设计用于处理高并发和可扩展方式的用户查询。此外,四个簇以及一个负载平衡器包括在在线分布式搜索群集。相应地,(a)一种搜索由 NM 个搜索节点组成的节点集群被设计出来以进行病历检索。(b)由 P 个数据分析节点组成的数据分析集群被设计用于数据分析以建立一个疾病症状点阵。(c )由 Q 个访问控制节点组成的访问控制集群被采用以过滤隐私信息。(d)一个负载平衡器和一个由 K 个调度器所组成的调度集

18、群被用于平衡用户查询的负载。在我们的提案中,基于云计算框架的可扩展性可以通大医疗数据背景下基于云架构的家庭诊断服务 7过动态添加或删除在每个集群中的节点来获得。两个集群之间的关系的分析如下。一旦完成索引构建,一个完整的索引文件就变分成 N 个片,此外,第 i 个(1 i N)的索引片被分配给在分布式搜索群集的每一行的第 i 个(1 i N)的搜索节点。换句话说,存储在一排搜索节点集群中的每个节点中的索引文件组成了一个完整的索引文件。此外,在搜索节点的集群的第 i 个(1 i N)的列中的每个节点中包含的第 i 个(1 i N )的索引碎片的相同副本。3.3 离线 Hadoop 集群在离线存储模

19、块中,有两个任务会进行,包括文档存储和索引建立。正如2.2 节中所讨论的,首先,医疗记录被翻译成几个 Lucene 文档。然后,我们为每个Lucene 文档建立索引支持快速在线病历检索。具体地说,我们使用 Hadoop 集群进行 Lucene 文档存储、并行索引构建 ,以及相关索引文件存储。3.3.1 分布式数据存储模型正如初步知识那一节讨论的,医疗记录是作为 XML 文件存储在文件系统或是 RDMBs 的关系记录。图 3 家庭诊断服务的文档存储模型根据 Lucene 的性质,所有医疗记录在索引阶段之前都应该转移到由字段值对组成的 Lucene 文档。对 XML 的医疗记录,我们解析他们以建立

20、相应的 Lucene文档。对于存储在 RDBMs 的医疗记录,我们使用 HBase 作为中间件,使在多个关系数据库中的“加入”操作更高效。特别的,把相关的医疗数据转换为存储在大医疗数据背景下基于云架构的家庭诊断服务 8HBase 中的数据之后,我们可以应用“加入”和“删除”操作把结构化的医疗记录转换为 Lucene 文档。所有的 Lucene 文档被存储在 Hadoop 集群的 HDFS 中,如图 3 所示。图 4 MapReduce 框架下构建索引文件的流程图3.3.2 离线索引构建为了实现快速在线用户查询处理,索引文件建立时与每个 Lucene 文档相关联。我们采用 MapReduce 计

21、算框架进行批量索引构建。图 4 描述了 MapReduce框架来构建索引文件的流程图。首先,每个文档块被分为若干个分区,映射节点为给定文档分区建立索引。根据分布式搜索集群中搜索节点的列的数量(i.e., N),每个映射节点会将索引文件分为 N 个部分。一旦完成映射工作,在每个映射节点上的 N 个碎片会重组到 reduce 节点,并完成合并操作。在完成合并操作后,可以获得索引文件的 N 个碎片,它们存储在 HDFS 中,如图 3 所示。另外,为了能够进行在线医疗数据检索,索引文件的 N 个碎片被分布到分布式搜索集群的搜索节点中。而且,我们建立了三种类型的索引文件来进行在线医疗数据检索,包括反向检

22、索,概要检索和细节检索。这里,我们还是用 2.1 节的例子来解释每个索引文件的内容。反向索引文件。反向索引文件记录症状集和相应的医疗记录 ID 之间的映射关系。如图 1 所示,症状的描述是一个字符串,由特定的分离器分离出来。在基于症状的医学检索中,这种朴实的方法是为了使每个查询中的症状集合与索引文件中的每个症状集相匹配。然而,大规模的字符串匹配在实际应用中并不是容易实现的。与(Li et al. 2010)相似,布隆过滤器的签名(Bloom,1970)和布隆过大医疗数据背景下基于云架构的家庭诊断服务 9滤器索引结构被用来加快基于症状的医疗记录查询。算法 1 BF 签名计算算法算法 1 描述了如

23、何为一组症状在医疗记录中构建一个布隆过滤器签名(BF签名) 。对于图 1 中所示的医疗记录示例,假设 m 的值设置为 10,并且分别有两个离散函数 h1 和 h2。则布隆过滤器签名计算如下: (1)症状组中的症状= 发热、咳嗽、呼吸困难,其散列值被计算出来。 h1(热 )= 5,h1(咳嗽)= 6,h1(呼吸困难)= 7。此外 ,h2(热)= 6,h2(咳嗽)= 2,h2(呼吸困难)= 9。(2)因此,对于 h1,第一个 10 位向量的值是 0001110000,5 日,6 日和 7 日根据散列值设置为 1。类似的,第二个 10位向量的值等于 0100100010。(3)由于000111000

24、00100100010=0101110010,在医疗记录中这个症状集设置的布隆滤波器签名是 0101110010。当一个用户输入一组症状,它的签名首先会由算法 1 生成,并且与每个医疗记录 的 BF 签名相比较,如果 = ,那么 可能满足用户的需求。dSdSqdS否则 将被安全的删除。受益于位操作,所有的在关于签名的计算都是非常有效的。BF 索引文件是由键值对组成的,并以序列文件存储于 HDFS 中。每个值都包括一组 CR ids(临床数据的 cIDs )和将被检索的原始的症状集合的 ID;然而关键是这些原始症状集合的 BF 签名。通过 BF 签名查询测试签名,大量不合格的数据将被删除。然而,

25、在布隆过滤中被保留下来的 CR id 仍然不是准确的。大医疗数据背景下基于云架构的家庭诊断服务 10因此我们也会存储原始的症状集以确保匹配。概要检索文件。概要文件检索记录了医疗记录的一些关键部分,用于过滤掉不相关的医疗记录。在我们的例子中,病人的性别、年龄将被记录以过滤一些记录。这些记录中患者的性别和年龄是与目标用户的查询条件所不符的。细节检索文件。细节检索文件是由每个 Lucene 文档中的字段值对所组成的,用于数据分析并返还给目标用户。在我们的设计中,在 Lucene 文档中的所有字段将被添加到细节索引文件。为了进行数据分析过程,诊断结果和疾病症状字段被用于建立疾病症状点阵,以显示具有相同

26、症状的疾病之间的关系。同时,为帮助目标用户做出更准确的判断,Lucene 文档中的字段 ,如患者的年龄和性别,症状,诊断结果,以及所提供的治疗医师应该返回供用户参考使用。图 5 中罗列了Lucene 文档的一些字段,它是从图 1 的医疗记录转换过来的。由于空间限制,我们不详细列出所有字段索引。请注意,根据 Lucene 索引构建的可配置特性,所有字段在 Lucene 可以很容易地从细节索引文件中添加或删除。图 5 三种索引文件的数据结构3.4 在线分布式搜索集群3.4.1 分布式搜索集群的关键组件如图 2 所示,基于 Lucene 的在线分布式搜索集群由五个主要组件组成,分布式搜索集群= 负载平衡器,调度集群,搜索节点集群,集群数据分析,访问控制集群。在下面的讨论中, 每个基本组件的责任将被展示。(1)负载平衡器负载均衡器是家庭诊断服务的一种硬件接口。在接受用户查询时,负载平衡器根据其选择规则将查询转发到一个调度程序。选择规则通常是依赖于硬件,这里不做讨论。(2)分配调度集群为了支持高并发的用户查询,一个分配调度集群是由 K 个调度程序组成的。每个调度程序负责搜索节点集群、数据分析集群和访问控制集群之间的协调。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报