收藏 分享(赏)

基于crf与规则相结合的中文电子病历命名实体识别研究.doc

上传人:无敌 文档编号:150534 上传时间:2018-03-22 格式:DOC 页数:5 大小:82.50KB
下载 相关 举报
基于crf与规则相结合的中文电子病历命名实体识别研究.doc_第1页
第1页 / 共5页
基于crf与规则相结合的中文电子病历命名实体识别研究.doc_第2页
第2页 / 共5页
基于crf与规则相结合的中文电子病历命名实体识别研究.doc_第3页
第3页 / 共5页
基于crf与规则相结合的中文电子病历命名实体识别研究.doc_第4页
第4页 / 共5页
基于crf与规则相结合的中文电子病历命名实体识别研究.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、基于 CRF 与规则相结合的中文电子病历命名实体识别研究 翟菊叶 陈春燕 张钰 陈玉娥 刘玉文 蚌埠医学院 摘 要: 目的:探讨基于条件随机场 (conditional random field, CRF) 与规则相结合的中文电子病历命名实体识别。方法:基于条件随机场和规则相结合的方法来识别实体, 将语言、关键词、词典等作为特征, 识别出的结果再利用规则进行优化。结果:与条件随机场的方法相比, 条件随机场和规则相结合的方法识别准确率提高到 78.98%, 召回率和 F 值也提高到 88.37%和 83.41%。结论:基于条件随机场和规则相结合的方法来识别实体, 准确率和召回率满足应用需求, 为

2、电子病历后续研究奠定了基础。关键词: 命名实体识别; 条件随机场; 规则; 收稿日期:2017-05-08基金:安徽省高校自然科学一般项目 (KJ2015B076by) A study on the named entity recognition of Chinese electronic medical record based on combination of CRF and rulesZHAI Juye CHEN Chunyan ZHANG Yu CHEN Yu LIU Yuwen Bengbu Medical College; Abstract: Objective: To exp

3、lore the named entity recognition of Chinese electronic medical record based on the combination of conditional random field (CRF) and rules. Methods: Entities are recognized based on the combination of conditional random field and rules. Language, keywords, dictionaries are used as recognition featu

4、res, and the recognition results are optimized by the rules. Results: Compared with the method of conditional random field, the accuracy of the method combining the conditional random field with the rules is improved to 78. 98%, and the recall rate and F value are also increased to 88. 37% and 83. 4

5、1%. Conclusion: The accuracy and recall rate based on the method combining the conditional random field with the rule to identify entities can meet the application requirements, which will lay the foundation for the follow-up study of electronic medical record.Keyword: Named entity recognition; Cond

6、itional random field; Rules; Received: 2017-05-08随着我国医疗体制改革的深入, 医院已经实现了医疗信息化。据调查, 普通的市级三甲医院日门诊量达到近万人次, 这就形成了海量的病历资料。电子病历是记录患者的整个临床治疗过程。患者的电子病历贯穿医疗活动的始终, 是医疗信息系统的核心数据, 其中包含大量潜在医疗信息, 如何利用电子病历挖掘有用信息成为目前热门的研究方向之一。电子病历是非结构化文本且缺乏统一的表述标准, 要想将病历数据转化成计算机能够识别的结构化形式, 首先要识别出病历文本中的实体, 即命名实体的识别。电子病历中命名实体识别主要指识别出病

7、历中如疾病名称、治疗方法、药物等实体。中文分词较英语难度大, 由于没有明显的词语边界, 所以已有分词方法效果不理想。目前常用的分词方法有:基于词典的方法、基于规则的方法和基于机器学习的方法1-2。目前机器学习的方法较为流行。近年来, 中文电子病历实体识别的研究工作有很大进展。杨锦锋等3结合中文电子病历的特点, 提出中文电子病历的命名实体标注体系和详细标注规范。张祥伟等4基于条件随机场 (conditional random field, CRF) , 融合语言符号、词性、关键词、词典、词聚类等多种特征, 识别出疾病、症状、检查、治疗 4 类实体。目前实体识别主要问题有:病历实体种类繁多, 且不

8、断有未登录词出现;实体长度没有限制, 表达不统一, 存在大量的别名、缩略词;不同情况下, 病历实体窗口长度不定, 如感冒、流行性感冒等。针对电子病历文本的特点, 本文采用 CRF 与规则相结合的方法提取实体名称。1 方法由于病历文本结构复杂, 无规范性, 本文主要考察疾病、症状、药物、治疗方法、医学检查等命名实体的识别。首先对语料库进行预处理, 预处理主要是对英文大小写、标点符号、实体缩写规范化等处理。CRF 进行识别后, 再利用规则进行优化。1.1 CRF 识别CRF 模型可以有效解决序列标注和文本切分问题, 能将字、词、句等作为上下文特征5, 克服隐马尔科夫模型的限制6, 是理想的实体识别

9、方法。假设 X表示病历文本序列, Y 为实体类别, P (y|x) 表示给定 x 的条件下输出 y 的条件概率分布。在本文中, CRF 可以简化为线性链条件随机场模型, 公式如下:在公式 1 和 2 中, t k和 sl是特征函数, k和 i是对应权值, Z (x) 是归一化因子。特征选取在 CRF 算法中非常重要7, 通过分析中文病历, 选取以下特征集: (1) 语言符号特征。由于中文没有英文明显的空格分割, 在实体识别前, 先通过中科院 ICTCLAS 分词系统对语料库进行分词, 将分词结果作为语言符号特征。 (2) 后缀特征。例如疾病名称常以“病”等结尾, 如糖尿病, 药物常以“丸”、“

10、素”、“溶片”等结尾, 如青霉素、阿司匹林肠溶片;治疗方式常以“术”结尾, 如肿块切除术, 将这类特殊后缀作为其中一个特征。 (3) 关键词特征。通过分析病历, 某些关键词后紧跟着疾病名或者症状, 如“患”、“出现”、“伴”、“发现”等, 如患癫痫、出现胸痛、伴胸闷、发现血糖升高。将这类关键词作为实体识别边界的划分。 (4) 词典特征。电子病历中实体由大量专业名词构成, 引入词典非常重要。本文引入搜狗拼音输入法词库、国际疾病分类 (ICD) -10 等进行扩充, 构建电子病历词典。 (5) 长度特征。窗口长度先设置成 2, 在实验过程中逐步增加窗口长度, 比较实验结果, 找到最适合的窗口长度。

11、1.2 基于规则进行优化病历文本中实体常由两个或两个以上的实体组合而成, 造成病历实体窗口长度不定, 例如“甲型病毒性肝炎重型肝炎”根据 ICD-10 词库中的定义是一个疾病实体, 但是也可以看做是“甲型病毒性肝炎”和“重型肝炎”两个实体。虽然这种复合实体识别成两个或多个实体原则上并不算错误, 但是可能会影响病历文本准确的信息。为此, 需要根据复合实体的构造特点, 定义合适的先验规则。表 1 部分复合实体构建规则 下载原表 其中否定词如无、未、未见、不、不能等, 临床表现如水肿、疼痛、发热等, 解剖如头部、淋巴结等, 修饰如困难、剧烈等, 疾病如冠心病、脑血栓等, 体格检查如血压、血糖等, 数

12、据即数字, 量词如次、天、粒等。本文结合病历内容, 总结了 8 种实体类别用于规则的构建。见表 1。1.3 工具采用中科院 ICTCLAS 作为分词工具, ICD-10 国际通用的疾病编码中术语及多个输入法 (包括搜狗、百度、腾讯 QQ) 中医学术语作为扩展。采用开源软件CRF+作为实体识别工具。1.4 病例选择、分组及准确率和召回率的计算方法本文从万方、医脉通、PCI 网络学院病历等途径获取 1 000 份病历数据, 构建了 437 813 个字符的语料库。以不同份数的病例分为 3 个组, 分别为 100 份、300 份、500 份。对 3 个组语料利用 CRF 方法和 CRF 与规则结合的

13、方法分别进行测试, 测试结果采用机器学习领域常用的准确率 (P) 、召回率 (R) 和 F 值 (F-measure) 进行统计。P= (正确识别出的实体数/识别出的实体总数) 100%, R= (正确识别出的实体数/准确的实体总数) 100%, F= (2PR) / (P+R) 100%。其中识别出的实体总数是指总共识别出的实体数, 不考虑识别结果是否准确;准确的实体总数是指语料库中实际包含的实体个数。2 结果首先利用 CRF+与人工相结合标注语料库, 为了验证规则对结果的影响, 首先使用 CRF 对 3 组数据进行测试, 再将规则加入, 作对比实验。见表 2。表 2 识别结果 下载原表 利

14、用 CRF 方法测试准确率和召回率较低, 例如“泌尿系结石”识别后的结果为“泌尿”、“系”、“结石”, “慢性阻塞性肺气肿”识别结果为“慢性”、“阻塞性”、“肺气肿”等。导致识别出的实体总数较多, 但正确识别出的实体数较少, 所以准确率较低。CRF 与规则结合的识别方法准确率、召回率和 F值均提升。未识别出的实体主要存在以下几个原因: (1) 由于规则完整性和准确性不足, 导致有些复合实体未能识别; (2) 病历中存在部分未登录词, 本文无法识别; (3) 缩略词较多, 不同病历书写习惯、规范差别较大, 导致预处理后仍然存在各种问题, 亟需构建标准语料库。3 结语本文选取 1 000 份电子病

15、历作为语料库, 采用的 CRF 与规则相结合的实体识别方法, 先用 CRF 进行初识别, 再利用规则的方法进行优化, 准确性提高。下一步工作将构建标准的大规模语料库, 通过完善特征提高实体识别效果。参考文献1郑强, 刘齐军, 王正华, 等.生物医学命名实体识别的研究与进展J.计算机应用研究, 2010, 27 (3) :811-815. 2Leaman R, Miller C, Gonzalez G.Enabling recognition of diseases in biomedical text with machine learning:corpus and benchmarkC.Pr

16、oceedings of the 3rd international symposium on languages in biology and medicine, Seogwipo-si:LBM, 2009:82-89. 3杨锦锋, 关毅, 何彬, 等.中文电子病历命名实体和实体关系语料库构建J.软件学报, 2016, 27 (11) :2725-2746. 4张祥伟, 李智.基于多特征融合的中文电子病历命名实体识别J.软件导刊, 2017, 16 (2) :128-131. 5Luhn H P.The automatic creation of literature abstractsJ.

17、IBM Journal of Research and Development, 1958, 2 (2) :159-165. 6Zweig G, Nguyen P, Van Compernolle D, et al.Speech recognition with segmental conditional random fields:a summary of the JHU CLSP 2010 summer workshopC.IEEE international conference on acoustics, speech and signal processing, IEEE Press, 2011:5044-5047. 7苏娅, 刘杰, 黄亚楼.在线医疗文本中的实体识别研究J.北京大学学报 (自然科学版) , 2016, 52 (1) :1-9.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报