1、第42卷第lo期2008年10月浙 江 大 学 学 报(工学版)Journal of Zheiiang University(Engineering Science)V0142 No10Oct2008IN)h 103785jissn1008973X200810007结构化电子病历数据录入方法李昊更,段会龙,吕旭东,黄正行(浙江大学生物医学工程与仪器科学学院,浙江杭州310027)摘要:以HL7 CDA R2标准作为临床信息的结构化表达方式,提出了一种兼容标准术语的结构化录入(SDE)方法,用来解决由于标准术语的概念划分较粗,不足以通过标准术语编码的结构化内容重建自然语言满足临床日常信息交换需求
2、的问题该方法抛弃传统的通过标准化结构化结果重建叙述性内容的模式,采用同步生成叙述性内容和标准化结构化内容的模式因而叙述性内容的生成不受限于结构化内容标准术语的概念划分,从而实现了在结构化数据录入中应用标准术语满足计算机可处理的同时满足临床日常工作对于自然语言信息的人工阅读需要该方法为标准化结构化电子病历信息模型的数据获取兼容叙述性病历提供了一种新的解决思路关键词:结构化录入;电子病历;临床文档体系结构;标准术语系统中图分类号: 文献标识码:A 文章编号:1008973X(2008)101693一04Method of structured electronic health record da
3、ta entryLI Haomin,DUAN Huilong,LV Xudong,HUANG Zhengxing(College of Biomedical Engineering and Instrument Science,Zhejiang University,Hangzhou 310027,China)Abstract:A structured data entry(SDE)method supporting standard terminology systems was proposedusing Heahh Level 7(H L7)clinical document archi
4、tecture(CDA)release two(R2)as the structuredmedical record representationThe method solved the problem that larger-granularities standard terminological encoded structured clinical data can not be used to rebuild clinical required narrative informationThe narrative medical records reconstructed from
5、 structured data in other structured data entry were gen-erated at the same time as the structured data,SO the narrative content was not limited by the granularityof structured dataAs the SDE can create highly structured CDA entries and narrative blocks meanwhile,human readable and computer processi
6、ng abilities are both satisfiedThe method provides a novel solutionto improve the compatibility of SDE to narrative medicsl recordsKey words:structured data entry(SDE);electronic health record(EHR);clinical document architecture(CDA);standard terminology传统的病历数据是以叙述的形式记录的,虽然有一定的医疗规范对病历结构进行限制,但是不同临床领域
7、叙述的内容不尽相同,即使是同样内容所叙述的详尽程度也不同,所以生成结构化病历面临许多困难通过自然语言处理(natural languageprocessing)来从叙述内容中提取结构化内容是一种途径,但是目前的自然语言处理技术忽略语句和段落间的叙述结构,所以有丢失本来意思的可能n,而且目前多数基于自然语言处理的结构化研究都局限在一个很小的样本范围内,其结果也只是在小范围内进行试验性质的检查2,还不成熟另外一个解决途径是通过录入方式来实现病历信息的结构化,结收稿日期:2007一0530 浙江大学学报l工学版)网址:WWWjournalsziuedueneng基金项目:国家。863”高技术研究发展
8、计划资助项目(2006AA022348)作者简介:李昊曼(1979一),男河南安阳人。博士生,从事医学信息学的研究E-mail,Ihmvico-laboom通讯联系人:吕旭东,男。副教授E-mailllxdvieo-labcom万方数据浙 江 大 学 学 报(工学版) 第42卷构化数据录入目前已经有一些相当不错的研究成果,如SDE3、openSDE引一些专家质疑完全结构化的病历内容是否可以真实地表达临床人员的本来意思5同时有研究显示,对于叙述体进行完全结构化之后会降低lI缶床人员信息获取的效率63因此现有的结构化录入研究为了满足临床实践的需要,都选择通过结构化内容重建叙述性内容的方式来展现给用
9、户,同时研究显示,这种方式相对从自由文本生成结构化可靠得多【7但是这样的方式面临标准化难题,结构化内容要用来重建叙述性内容,标准术语编码系统中的概念划分一般不会精细到这个程度,且标准的严格性和实际应用的丰富变化间存在固有的矛盾,这些因素都限制了将标准的编码系统应用到结构化录入中,这在一定程度上也限制了病历数据可被利用的程度本文首先分析标准化病历信息模型中标准结构化表达与叙述性内容的关系,并基于标准表示方法提出了一种兼容标准术语的结构化病历数据录入方法病历的标准数据表达自由文本描述是临床人员进行信息传递的一种重要形式,也是长久以来临床病历的主要记录形式虽然电子病历要求越来越高的结构化,但许多研究
10、者认为在结构化、标准化的病历中把自由叙述的信息作为结构化成分的不可或缺的补充更能适应临床需求,所以一种半结构化的病历表达也许最合适同时考虑病历信息本质上的复杂性,比如症状众多的属性描述和症状之间多样的关系以及信息的详尽不一,Dolin【8提出需要使用嵌套多层的结构化内容才能表达如此复杂的叙述可扩展标记语言(extensible markup lan-guage,XML)标准为文档多层嵌套的半结构化数据表达提供了实现的基础,但它不是病历数据表达的标准可以从图l所示的技术层次关系上来理解其意义,XML只是为电子信息提供了一种句法的规范,但是其本身并不解决任何实际的问题,而理想的病历数据表达标准需要
11、的不仅仅是句法的一致性,理想的病历数据表达标准?=二二二二二二二二二二二二二二二二三技r一。现有的病历表达标“tHL7 CDA等I查L-_J,i:磊赢面磊忑忑耐次更多的是要求结构和语义的一致性,能够满足对于所有临床信息的精确结构化表达同时方便人工阅读,可以支持医疗系统间以及人与系统间信息的充分利用目前国际上存在若干种发展中的病历数据表达标准,如Health Level 7(HL7)组织发布的临床文档体系结构(clinical document architecture,CDA)9、欧洲标准化委员会的欧洲标准草案(法文缩写CEN ENV)1360610,网络社区的电子病历技术规范openEHRE
12、ll。,数字成像和医疗通信的结构化报告DICOM SR12等其中以交换为目的的规范临床文档结构和语法的标记标准CDA应用最为广泛CDA Release 2(R2)于2005年5月成为美国国家标准局承认的国家标准CDA R2是一种基于XML技术的半结构化的病历表达标准,其中的结构化部分一般是叙述性信息中某一部分内容的结构化实现,而叙述体可以不依赖于结构化内容独立存在该特性使得它既可以表达划分不够精细的结构化标准术语,也可以表达叙述性内容CDA结构化部分中使用的HL7 V3数据类型对于标准术语编码的支持来源于其中的概念描述符(concept descriptor,CD)数据类型CD数据类型定义如下
13、的一系列属性:code(标准编码系统中该概念的编码符号)、cod-eSystem(标准编码系统本身的标识符)、codeSystemName(标准编码系统的通用名)、codeSystem-Version(标准编码系统的版本号)、displayName(标准编码系统中代码对应的概念名),这些属性完整地描述了标准编码系统的某个概念CD数据类型并没有限制使用哪种编码系统或者编码系统的哪个版本,所以理论上支持使用任何编码系统来描述概念目前CDA R2中支持使用的术语编码标准包括:关于人和兽类医疗的命名法的l临床术语标准(systematized nomenclature of human and vet
14、eri-nary medicine clinical terms,SNOMED CT)L13J,观测值标识符逻辑命名法与编码(109ical observationidentifiers names and codes,LOINC)D4,疾病的国际分类法(international classification of diseases,ICD)版本10 DS3等LOINC主要用于CDA本身构架的标准化,如文档类型、文档部分类型的编码和检验值编码等;IC肛10可用于编码特定的诊断信息;应用最多最广泛的是SNOMED CT,该编码系统涵盖了疾病、临床发现和处置2支持标准化的结构化数据录人方法圈1病
15、历数据表达技术层次图Fig1 Medicalrec。rd representati。n technicalleVeI 由于l临床实践需要叙述性内容支撑,结构化数万方数据第lO期 李昊曼,等:结构化电子痛历数据录入方法 1695据录入通常使用的概念划分非常精细以满足重建叙述性文本的要求而标准术语系统的目的是为数据聚合、交换和推理而对概念进行语义的规范,它的概念划分水平以可以聚合数据为标准,通常无法满足重建叙述性所需的精细程度在现有结构化数据录入模式下,这成了限制结构化数据录入中标准术语编码系统使用的主要原因CDA R2作为一种标准的病历数据表达,能很好地满足临床实践对叙述性内容表达的需求,同时也
16、支持标准术语的结构化表达,结构化与叙述性内容之间相互关联又不完全受限如果叙述性内容的产生不完全依赖于结构化之后的数据,而是在生成结构化数据的同时生成叙述性内容,这样结构化部分的概念划分就不必限制在需要满足重建叙述性内容的水平上,从而可针对特定的研究目的而采用概念划分较粗的标准术语编码基于上述思路,本文提出了一种可以支持标准化的结构化录入方法,如图2所示标准编码的临床术晤概念库基于研究XML表单文件病历编辑器中结构化窗体CDA标准表达的临床文档叙述中的结构化11人机共读图2支持标准化的结构化录入模式Fig2 Standardsupported SDE mode首先,建立支持标准编码的临床术语概念
17、库该库并不限制使用某一种术语编码标准,而是依据CDA对于此类数据的推荐使用编码系统来分别处理,比如对于“体格检查”术语使用LOINC编码“113845”,而对于“体温”术语则使用SN()MEDCT编码“386725007”术语之间以层次从属的关系表达给用户其次,建立一种兼容各种标准术语编码的表单机制利用XML文件的机器可解析特性,用户将研究领域所需获取的内容通过标准术语的形式在一系列XML表单文件中实现,表单中包含其上下文关系信息以及用来自动生成相应叙述性内容的机制最后,在临床实际工作环境中,允许随时调用表单进行结构化数据录入,录入完毕后表单中具有标准术语编码的部分可用于生成标准结构化数据,同
18、时依靠表单的上下文信息可生成叙述性内容,这两种数据可以同时保存到CDA文档中其中标准化结构化数据服务于计算机自动处理,而叙述性内容服务于日常临床工作该方法的核心挑战在于具有叙述性内容自动生成机制的表单该表单生成的内容不仅仅是结构化内容,还包括了叙述性内容,其中结构化内容采用标准术语编码系统使其病历数据获得了更广泛的用途,而同时产生的叙述性内容除了更符合临床习惯之外,也减轻了日常录入的工作量本文依据该方法,在电子病历系统中实现了CDA文档的结构化数据录入3 方法实现由于当前临床习惯以及病历管理制度的制约,目前的病历书写依然保留传统的文档形式,本文基于CDA的文档编辑器支持和其他文档编辑器相似的叙
19、述性内容录入模式,同时它允许动态解析一个结构化录入表单文件,如图3所示:A)医生要书写体格检查,通过选择“眼部”选项,眼部检查相关的结构化录入表单就显示在本文档段的顶部;B)完成表单的录入点击“确定”,界面上生成了一段受保护的叙述文本(图中棕色文本),同时在CDA文档中也生成如图3中C部分所示结构化成分实现这样的功能依赖于结构化录入表单XML文件的设计,它主要包含3部分:1)Form是表单的主要部分其name属性的取值依照CDA对文档部分编码的要求,同样取值于LOINC编码,通过这个标准编码可以建立表单和文档部分的关联表单中的各类表单项目,如标签、编辑框、单选框、复选框和候选列表等定义在For
20、m中,除图3结构化录入示例Fig3 Demonstration oSDE万方数据1696 浙 江 大 学 学 报(工学版) 第42卷具有表单的样式信息外,对于研究需要的标准术语项目还可添加兼容HL7 V3 CD数据类型的属性2)Script用来保存自动生成叙述体的脚本,该脚本利用表单项目以及设计时明确的上下文关系并配合额外的逻辑可以生成临床用户所习惯的叙述型内容3)RuntimeSeript是可选的脚本,用来在表单运行的过程中动态地处理各个表单项目间的关系表单的生成依靠如图4所示表单设计工具该表单设计工具为结构化表单提供了标准术语编码支持(如图4左边栏树状控件所示),术语库以树状体系组织具有层
21、级关系的临床医疗概念,上层概念包含了其下层概念的信息,用户选择上层概念后表单设计界面将显示其所有的下层概念对应项目用户在设计表单的过程中可以根据研究需求,选择不同分类和级别的概念其中的概念具有了初步样式信息和术语编码信息,表单设计用户可以直接利用这些概念来生成表单项目,也可以根据需要在表单元素属性框中修改样式以及编码信息4讨论图4结构化表单设计工具Fig4 SDE form designer本文所提到标准术语库和openSDE中的域模型在性质上的区别是,将整体概念库隐藏在结构化表单的设计阶段,这样在数据采集阶段可以控制数据的一致性和提高录入的效率本文研究过程中面l临的另外一个问题是中文标准术语
22、的不成熟,虽然有些标准,如LOINC具有所谓中文版本,但是只是停留于字面翻译的水平,在实际应用中需要调整而有些标准根本没有中文版本,如SNOMED CT,为了提高获取中文术语编码的效率,本文设计了一个辅助查询的工具图5说明了其工作原理:用户输人需要查询的中文术语,利用中英词典来把尽可能长的中文词汇分解出来,然后再查出每个中文词汇对应的英文词汇,将同一个中文词汇对应的英文词汇分在一个组里,再把这几组英文词汇作为检索条件建立逻辑关系,最后从通用统一医学语言系统(unified medical language system,UM【5)u副的数据库检索出相关的英文术语与编码由于中文术语编码标准的缺乏
23、,给中文电子病历的标准化带来许多困难,但是随着国内对此研究的重视,其中一些标准已经在制定中中文术语如:瞳孔光反应中文分词英文术语和编码列表如:Pupil afferent reaction145832002J:Rate of pupil reaction tO light【15126000l:Pupil motor reactionnormal【3fl 1 94008J:PupiIlary reaction tO light testfll31471)2J;中文词r=列表如:瞳4L:光;反应英文处理英文词汇列表如:pupil of eyelf light;ray;brightf reactio
24、n;response;relay设置各条件关系(同义词山J查询逻辑:单词匹配;组曲J单词关系),查询uML数据表图5中文术语编码查询工具工作原理Fig5 Work principle of Chinese term coded tool5 结语HL7 CDA R2为电子病历提供了一种标准的叙述体和结构化共存的信息模型,本文充分利用这种优势,设计了一种具有自动生成叙述性内容的结构化录入表单机制,提出并实现了同是获取叙述性内容的结构化数据录入方法,解决了困扰电子病历结构化录入的标准编码问题本文所述的病历数据结构化录入系统已经实际应用于某内分泌科,通过在病历录入过程中结构化采集症状、以往用药情况以及
25、检验数据等信息,为代谢综合症的计算机辅助诊断研究提供支持参考文献References):I-1-1 HAHN U,ROMACKER M,SCHULZ SWhy discourse structures in medical reports matter for the validity of automatically generated text knowledge basesCProceedings of the 9th World Congress OB MedicalInformatiesSeoul,Korea:Is几,1998:633638(下转第1750页l万方数据1750 浙 江
26、 大 学 学 报(_Y-学版) 第42卷Gaussian multiple-access channels EJ3IEEE Transactionson Information Theory,1986,32(1):85962VERDU SMultiuser detectionMCambridge:Cambridge University Press,1 99833 LUPAS R,VERDU SLinear muhiuser detectors forsynchronous code-division multiple-access channels口IEEE Transactions on
27、Information Theory,1 989,35(1):12313643 HONIG M。MADHOW U,VERDU SBlind adaptivemultiuser detectionJIEEE Transactions on Information Theory,1995,41(4):94496053 ULUKUS S,YATES R DA blind adaptive decorrelatingdetector for CDMA systemsJIEEE Journal啪SelectedA脚in Communications,1998,16(8):153015416HYVARIN
28、EN A,KARHUNEN J0JA E1ndependent component analysisMNew York:Wiley,20017FRIEDMAN J HExploratory projection pursuitJJournaI of the American Statistical Association。1987,8Z(1):2492668JONES M C,SIBSON RWhat is projection pursuitJJournal of the Royal Statistical Society。1987,150(1):13693 HUBER P JProject
29、ion pursuitJThe Annals of Sta-tistics,1985,13(2):43547510COVER T MTHOMAS J AElements of informationtheoryMNew York:Wiley,19911 13 COMON PIndependent component analysisA new conceptJsignal PI俄e翳i呜,1994,36(3):2873141 2KENDALL M G,STUART AThe advanced theory ofstatisticsMLondon:Charles Griffin197313HYV
30、ARINEN ANew approximations of differentialentropy for independent component analysis and projection pursuit口Adavances In Neural Information Pro-eessing Systems,1997,10(1):273279。一H_。_。H-H-H。_H一_-_-H。1HH一-_HH。HkHH。-_。H“-l一I_-O-a啊-H-_H一HH一_。m一H-“mH“(上接第1696页)2FRIEDMAN C,HRIPCSAK GEvaluating natural la
31、nguage processors in the clinical domainJMethods ofInformation in Medicine,1998,37(45):3344433 VAN MULLIGEN E M,STAM H。VAN GINNEKENA MClinical data entryCProceedingsAMIA An-nual SymposiumSI:sm,1998:818543 LOS R KVAN GINNEKEN A M,VAN DER LEI JOpenSDE:a strategy for expressive and flexible struttured
32、data entry口International Journal of MedicalInformatics,2005,74:4814905BERG M,LANGENBERG C,BERG 1,et a1Considerations for sociotechnical design:experiences with an e-lectronic patient record in a clinical contextJInternational Journal of Medical lnformatics,1998,52(1-3):24325163 TANGE H J,SCHOUTEN H
33、C,KESTERAD,et al,The granularity of medical narratives and its effect onthe speed and completeness of information retrievalJlThe Journal of the American MedicaI lnformatics Association,1998,5(6):57158273 TANGE H J,HASMAN ADE VRIES ROBBE P F,et a1Medical narratives in electronic medical recordsJInter
34、national Journal of Medical Informatics,1997,46(1):7298DOLIN R HModeling the relational complexities ofsymptomsJMethods of Information in Medicine,1994,33(5):4484539DOLIN R H,ALSCHULER L,BOYER S L,et a1HL7 clinical document architecture。release 2JTheJournal of the Amerlcan Medical lnformaties Associ
35、ation。2006,13:303910Technical Committee for Health InformaticsFour-partEHCR message standard ISBrussels,Belgium:European Committee for Standardization1999113 The openEHR foundationThe openEHR Archetypeobject modelEBOL200706133http:wwwopenehrorg123 National Electrical Manufacturers AssociationDigital
36、imaging and communication in medicine(DICOM)。supplement 23:structured reportingsRosslyn,VA:NEMA,19991 3College of American PathologistsSNOMED clinicalterms(SNOMED CT)IsNorthfield,IL:College ofAmerican Pathologists,2003 114The Regenstrief Institute,IncLogical observationidentifiers names and codes(LO
37、INC)sIs1:The Regenstrief Institute,Inc,2006153 World HealtK OrganizationInternational classificationof diseases(ICD)10SGeneva:World Health Or-ganization,1 992163 National Library of MedicineUnified medical languagesystem(UMLS)IsBethesda,MD:NationalLibrary of Medicine,2008万方数据结构化电子病历数据录入方法作者: 李昊曼, 段会
38、龙, 吕旭东, 黄正行, LI Hao-min, DUAN Hui-long, LV Xud-ong,HUANG Zheng-xing作者单位: 浙江大学,生物医学工程与仪器科学学院,浙江,杭州,310027刊名: 浙江大学学报(工学版)英文刊名: JOURNAL OF ZHEJIANG UNIVERSITY(ENGINEERING SCIENCE)年,卷(期): 2008,42(10)被引用次数: 1次参考文献(16条)1.HAHN U;ROMACKER M;SCHULZ S Why discourse structures in medical reports matter for the
39、 validity ofautomatically generated text knowledge bases 19982.DOLIN R H;ALSCHULER L;BOYER S L HL7 clinical document architecture,release 2 20063.DOLIN R H Modeling the relational complexities of symptoms 1994(05)4.TANGE H J;HASMAN A;DE VRIES ROBBE P F Medical narratives in electronic medical record
40、s 1997(01)5.National Library of Medicine Unified medical language system (UMLS) 20086.World Health.Organization International classification of diseases (ICD) 10 19927.The Regenstrief Institute,Inc Logical observation identifiers names and codes (LOINC) 20068.College of American Pathologists SNOMED
41、clinical terms (SNOMED CT) 20039.National Electrical Manufacturers Association Digital imaging and communication in medicine(DICOM),supplement 23:structured reporting 199910.The openEHR foundation The openEHR Archetype object model 200711.Technical Committee for Health Informatics Four-part EHCR mes
42、sage standard 199912.TANGE H J;SCHOUTEN H C;KESTER A D The granularity of medical narratives and its effect on thespeed and completeness of information retrieval 1998(06)13.BERG M;LANGENBERG C;BERG l Considerations for sociotechnical design:experiences with anelectronic patient record in a clinical
43、context 1998(1-3)14.LOS R K;VAN GINNEKEN A M;VAN DER LEI J OpenSDEa strategy for expressive and flexible structureddata entry 200515.VAN MULLIGEN E M;STAM H;VAN GINNEKEN A M Clinical data entry 199816.FRIEDMAN C;HRIPCSAK G Evaluating natural language processors in the clinical domain外文期刊1998(4-5)引证文献(1条)1.干峰.李超峰.胡珊 XML数据库技术及其在医院信息系统中的应用期刊论文-医学信息 2009(4)本文链接:http:/