1、中医药学语言系统,前 言,从20世纪80年代起,由于生物医学信息量不断增加,且分散于各个数据库系统,因此要检索完整而新颖的信息很不容易,于是统一的医学语言系统应运而生。 1986年美国国立医学图书馆(National Library of Medicine, NLM)主持了一项长期研究和开发计划,即统一的医学语言系统(Unified Medical Language System,UMLS)。其目的是在于提升系统之能力,使系统能了解读者在生物医学方面的问题,并进而帮助读者检索及整合相关信息。 近年来,由于中医药学信息量的不断增多,且各种概念不规范不统一,因而给中医药信息查询带来了多重的困难。在
2、此形势下,中国中医研究院主持开发了中医药学语言系统。,2. 背景:统一的医学语言系统,2.1.统一的医学语言系统研制的目的和意义2.2.统一的医学语言系统的发展阶段2.3.统一的医学语言系统的组成2.4.统一的医学语言系统的发展策略与开发原则2.5.统一的医学语言系统的应用,2.1.统一的医学语言系统研制的目的和意义,美国国立医学图书馆自1986年开始研制统一的医学语言系统,其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式、有用的信息分散在不同的数据库系统中所造成的查询困难。统一的医学语言系统是计算机化的情报检索语言集成系统,它不仅是语言翻译、自然语言处理及语言规范化的工具,
3、而且是实现跨数据库检索的词汇转换系统,它可以帮助用户在联接情报源,包括数字化的病案记录、书目数据库、事实数据库以及专家系统的过程中,对其中的电子式生物医学情报作统一的检索。,2.2.统一的医学语言系统的发展阶段,19861988年 统一的医学语言系统的初始阶段 19891991年 统一的医学语言系统的发展阶段1992年至今 统一的医学语言系统的应用阶段,19861988年为统一的医学语言系统的初始阶段,,其研究和开发的重点是调查用户需求、开发研究工具、确定统一的医学语言系统的性能及其实施方案、界定系统组成等。在此阶段主要界定了统一的医学语言系统的三个组成部分即超级叙词表、语义网络、情报源图谱,
4、并且进行了包括MeSH(Medical Subject Headings)、SNOMED(Systematized Nomenclature of Medicine)、CMIT(Current Medical Information and Terminology)和PDQ(Physicians Data Query)词表在内的联接试验。,19891991年为统一的医学语言系统的发展阶段,其开发的重点是迅速研制和发行三个统一的医学语言系统产品的试验版,同时继续开展用户调查和统一的医学语言系统功能开发。1990年秋,美国国立医学图书馆发行了超级叙词表和语义网络第一版的CDROM;一年后,发行了试
5、验版的情报源图谱和更新版的超级叙词表和语义网络,同时获得了大量的反馈信息,促进了统一的医学语言系统的研究与开发。,1992年至今为统一的医学语言系统的应用阶段,其研究的重点是围绕统一的医学语言系统所进行应用开发,不断扩展和修订统一的医学语言系统的三个组成部分,发行修订统一的医学语言系统三个组成部分的年度版,建立健全产品体系。 1996年统一的医学语言系统新增了一个组成部分,即“专家词典”(Specialist Lexicon)。,在此阶段,许多研究机构利用统一的医学语言系统进行了基于Internet的应用开发,如决策支持系统(DXplain)、文献检索系统(WebMedline)、临床Web搜
6、索系统(Clinweb)、医学世界检索(medical world search)以及集成化的 Medweave等。除了以CDROM方式发行其产品外,1995年美国国立医学图书馆在Internet上建立了统一的医学语言系统知识源服务器,通过Internet,加强国际交流与合作。从此,统一的医学语言系统由试验阶段进入到产品发行、维护和应用的阶段。,2.3.统一的医学语言系统的组成,超级叙词表(Metathesaurus) 语义网络(Semantic Network) 专家词典(Specialist Lexicon),情报源图谱 (Information Sources Map,ISM) 多元系统
7、(MetamorphoSys),超级叙词表,超级叙词表可视为一个概念名词的知识库,是由生物医学领域中许多不同索引典或分类表中所抽取出来的词目所组成。 超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的、能表达33万多个概念的739439个词汇;到目前超级叙词表收录了100多万个生物医学概念、共500多万个词。这些概念和词来自100多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等,如医学主题词词表(Medical Subject Headings,MeSH)及其葡萄牙语、西班牙语、法语、德语
8、、俄语等各种译本、医学系统术语表(Systematized Nomenclature of Medicine,SNOMED)、国际疾病分类修订第10版(International Classification of Diseases , 10th Revision , ICD-10)及其他各版、LOINC(Logical Observation Identifiers Names and Codes)、临床药物标准术语(RxNorm)等。,超级叙词表是依据概念(concept)或涵义(meaning)组织起来的,其根本目的是将相同概念的交替名称和不同形式联系在一起,并识别不同概念之间的联系。因
9、此,可以说概念是超级叙词表组织系统的中心。 对于同一概念的不同术语以及不同的变异形式,超级叙词表采用三级结构模式,即概念(I级)术语( II级)词串(III级),将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念,超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。,语义网络,语义网络是为建立概念、术语间错综复杂的关系而设计的,它为超级叙词表中所有概念提供了语义类型、语义关系和语义结构。语义网络包括了135种语义类型和54种语义关系。 语义网络是通过135种语义类型,为出现在超级叙词表中的所有概念提供一种目录组织结构。语义类型之间的54
10、种连接关系为这种组织结构提供构架,并代表生物医学领域中的重要相互关系。,语义网络为超级叙词表提供了指定给每一个概念至少一种语义类型的信息,同时语义类型也指定给情报源图谱中特定的数据库,以表达情报资源之间的内在联系。也就是说,语义网络是试图建立一种语义类型及其相互关系的权威规则,用以标引每一个超级叙词概念,或表达概念之间可能存在的相互关系。语义网络的这种权威规则,既在文字上,也从等级关系或非等级关系上界定语义类型及其相互间可能存在的关系与内在涵义。,语义类型是通过计算机程序指定的或在人工复审过程中增加的,它既是超级叙词表与语义网络之间的连接,也是超级叙词表与情报源图谱的连接之一。目前语义类型主要
11、分为生物体、解剖结构、生物功能、化学、事件、客观物体、概念和观念等。各类范畴深度不一。在实际应用中,语义类型不断完善和扩展。 UI: T048 STY : Mental or Behavioral Dysfunction (心理或行为功能失调) Definition:A clinically significant dysfunction whose major manifestation is behavioral or psychological. These dysfunctions may have identified or presumed biological etiologie
12、s or manifestations. 表现为行为性或精神性的具有临床意义的功能失调,这些功能失调可能曾被认为或被假定为生物学病因或生物学表现。 Examples:Memory Disorders; Agoraphobia; Hallucinations; Cyclothymic Disorder,语义类型是语义网络的节点,节点与节点之间的关系即为语义关系。最基本的语义关系是“is a”关系,通过它建立了节点与节点之间的一种等级关系,这种等级关系的最大特性是它的继承性,即下一级节点对上一级节点的继承关系。除了is a”关系外,还有 53种语义关系,它们均是非等级关系,这些关系可以出现在任何一
13、级节点上,表示一种可能、允许的关系。 等级关系链 is a 相关关系链 associated _with 物理上相关(physically related to) 功能上相关(functionally related to) 概念上相关(conceptually related to) 空间上相关(Spatially related to) 时间上相关(temporally related to),语义类型和语义关系构成网状的语义结构,它起着统领超级叙词表概念的作用。因为超级叙词表的概念来自许多不同的词表,它们有各自的结构体系,语义网络将全部概念划分成许多组,每一组共享几种特定的语义类型,语义
14、类型又共享几种语义关系,这样概念不仅高度结构化而且广泛联系。,语义关系的等级继承规则和继承阻断,在语义类型等级结构的高层节点之间的语义关系,在任何可能的情况下都是固定的,正如语义关系“影响”链接的这些高层语义类型节点。而且高层语义类型之间的语义关系,一般地可通过等级结构(isa链)继承给这些节点的所有子类。 在有些情况下,如果按照语义类型的等级结构及链的继承规则,会使语义类型与语义关系的连接产生歧义。例如,语义关系“的进程”存在于语义类型“生物体功能”和“生物体”之间,“生物体功能”有一个子类是“心理功能”,而植物也是一种“生物体”,按照继承规则,心理过程也是一种“植物的活动、功能或状态”,显
15、然,植物不可能有“心理过程”。不能继承的链称为阻断 。,语义网络使概念之间语义关系的准确细致表达,MeSH树状范围表所表达的MeSH上位词与下位词之间的关系,只是简单的较泛指与较专指关系。例如,MeSH“羊水”(Amnioticfluid)是MeSH“胚胎”(Embryo)的一个下位词: EmbryoA16.254 AmnioticfluidA16.254.72 在UMLS语义网络中,Embryo标引的语义类型是“胚胎结构”(Embryonicstructure),Amnioticfluid标引的语义类型是“机体物质”(BodySubstance),语义关系标引的是“周围”(Surround)
16、。所以“羊水”与“胚胎”之间的关系就被确切地表达为“胚胎结构周围的机体物质”。,专家词典,专家词典是一个包含众多生物医学词汇的英语词典。它是在美国国立医学图书馆自然语言处理专家系统项目基础上开发出来的。专家词典约有183000条词汇记录,共292000多个词。 每条词汇记录均记录了它的句法、词法和字法信息。词条由词或词组组成。所有词条均共享它们的基本形式和拼写变异。词的基本形式包括词的不变形式、名词的单数形式、动词的原形以及形容词和副词的原级形式。 词汇信息包括句法分类、词形变异以及词的补充成份。词形变异有名词的单复形式、动词的规则与不规则变化形式、形容词和副词的原级、比较级、最高级形式等。专
17、家词典能识别11种句法分类和引语部分:动词、名词、形容词、副词、助词、语气词、代词、介词、连词、补语、定语。,专家词典包括一组词典程序,它们可以确定英语词汇的范围以及识别生物医学术语和文本词的词形变异。还包括三个索引:超级叙词表中所有词串的单个词索引;标准词索引;标准词串索引。 专家词典包括四个词汇数据库:已知词源变异文档,如“aphasic”与“aphasia”;密切相关词文档。密切相关词是意义相同但句法分类不同的词,如“hepatocellular”与“liver cells”;拼写变异文档,如“foetal”与“fetal”;意义相近但构词形式不同的词文档,如“heart”与“cardi
18、(o)”。,情报源图谱,情报源图谱是一个关于生物医学机读情报资源的数据库,其目的是利用超级叙词表和语义网络实现以下功能:测度情报源与特定提问的相关性,以便选取最合适的情报源;为用户提供特定情报源的范围、功能和检索条件等人工可读的信息;自动连接相关情报源;在一个或多个情报源中自动检索并自动组织检索的结果。在情报源图谱中,从4个方面对情报源进行标引:超级叙词表中的MeSH词表;超级叙词表中的主题词和副主题词组配;统一的医学语言系统语义网络的语义类型;统一的医学语言系统语义网络的语义关系。,多元系统(MetamorphoSys),多元系统是统一的医学语言系统新建立的一个可以为用户提供个性化服务的系统
19、。它包含统一的医学语言系统的所有版本。可以安装一个或多个统一的医学语言系统的知识资源。如果用户选择统一的医学语言系统的超级叙词表,用户可以指定一个用户化的超级叙词表的子集。系统可以排除不必要的或者是本地用户不许可的词汇,还可以从大量的数据中进行选择和过滤。,2.4.统一的医学语言系统的发展策略与开发原则,多学科、多研究小组协同开发原则集中开发与分散开发相结合的原则资金保障原则,2.5.统一的医学语言系统的应用,电子数据处理系统管理信息系统决策支持系统,统一的医学语言系统可将分散的情报源集成为统一的机读生物医学信息资源,大大提高了信息检索系统的效率。目前已被广泛应用于信息系统的智能化检索、自然语
20、言系统研究、专业词表的编制、自动标引、医学专业搜索引擎的开发、医学图像的描述及获取、课程分析等方面。 统一的医学语言系统在电子数据处理系统的应用主要表现在电子病案系统。荷兰Erasmus大学 ( Rotterdam ) Erik M van Mulligen计划开发一个通过统一的医学语言系统获取CPR(The Center For Public Resources)数据的系统。16 美国护理学会 ( The American Nurses Association , ANA ) 开发了一个基于统一的医学语言系统的CPR数据系统。,统一的医学语言系统在决策系统中的应用主要表现在医学专业搜索引擎的
21、开发。美国国立医学图书馆利用统一的医学语言系统开发了两个网上Medline文献数据库智能检索软件PubMed与IGM(Internet Grateful Med)。统一的医学语言系统目前支持的医学搜索引擎包括医学世界搜索( Medial World search , http:/,提供网上临床医学信息指引);国际临床网(CliniWeb International, http:/www.ohsu.edu/cliniweb,是Internet上医学网站全文搜索引擎)与Med Weaver (提供医学鉴别诊断、医学文献及其相关医学网站指引)。,UMLS 地址:,http:/www.nlm.nih.
22、gov/research/umls/,3. 中医药学语言系统简介,3.1. 背景3.2. 设计思想及原则3.3. 组成,语言系统的建立是自然语言处理的基础研究,国外从20世纪90年代起进入高峰研究期,并取得了重大的进展。美国国家图书馆建立的语言支持系统,为医学信息数字化及其利用创造了条件。中医药学的发展同样需要语言系统的支持,因此建立中医药语言系统是中医药信息学需要研究的主要问题之一。,3.1.中医药语言系统背景,中医药 语言 现状 (现代文献收词 已超过60万条),多样性(同名异物)(异物同名),无标准化(缺少国标),无统一机读词库,缺少系统结构,中医药学科历经千年,产生了大量的概念与术语,
23、多种语义词汇差异,阻碍了中医药数字化的发展。,数据DATA,知识KNOWLEDGE,挖掘 MINING,百科全书及中英词典等术语、名词。 中医药学科收词:中医药学教材、辞典、专家词典。,临床病例与临床用语收词。 相关学科:名词委与医学、生物、化学等相关收词。 古文献收词:中医药学科古文献中收词。,中医药及中医药相关的可控词表。 国家标准中的中医与中药相关名词与术语。 国际医学相关标准及国际专业与中医药相关的可控词表。,痛苦:太多同物异名、同名异物,无法作出正确判断!,为什么要建立TCMLS?,国际医学词典等。,3.2设计思想,中医药学语言系统是依照中医药语言特点及学科体系、按照本体论原理设计而
24、研制的语言系统,其目的是为中医药学科的数字化与标准化提供必要的工具,解决相同的概念具有不同的表达方式,同样的表达形式表示不同的概念;同时利用本系统,进一步提示中医药学概念间的相互关联。中医药学一体化语言系统是个繁杂庞大的系统,其基本设计思路是借鉴美国统一的医学语言系统的原理与构架,将中医药学概念中隐含的各种语义关系全部提取出来,形成关系表,并以此为中心,建立学科术语概念与概念、概念与名词、概念与含义、名词与名词之间的内在联系,形成一个网状的信息表示结构。,方法:从四方面入手研究,中医药,一体化,语言,中医药一体化语言系统,系统 中医药为核心,以中医药为核心,其他学科叠加:中医药信息化 过程中使
25、用与利用的所有相关的学科与概念、术语,中医药语言结构体系一体化:建立、融入 中医药术语表达方式一体化:词条属性 中医药概念定义与释义形式一体化:回答是 什么、 关联关系是什么、学科中的位置是什么 相同概念词一体化:无论文字、图表、正名与 异名、正确与误用,海量语言术语集成为基础:制定收词范围、顺序 规范化网状结构解释概念的语义归类与关联: 多水平控制:词汇、形态、语义、语用; 本体论与诠释论相结合,设计分层结构与网状立体结构; 符合语言体系,限定与约定复杂度; 采用归纳定性,将同类事物合并; 参照UMLS的整体结构,保持兼容性与包容性; 系统保持灵活性与可扩展性 ;,Protg 程序,3.2设
26、计原则,系统设计以中医药学科为核心,保持中医药学科的特性系统设计体现学科相关性与包容性系统设计符合语言体系系统设计采用语义归纳方法,将同类事物合并定性系统设计参照统一的医学语言系统的结构,保持系统的兼容性 系统保持灵活性与可扩展性,研究内容:,设计词条 属性结构,总体系统 设计,概念词 属性定义,四种可控 词表的 结构比较,中医药概念的 语义类型设计 (127种),建立中医药 一级分类体系 (16),中医药语义的 关联关系 (58种),事件与物质 二大类的结构 展开,以中医五、六版 教材的学科分类 为依据,立体表达关系 等级关系 相关关系(时 间、空间、概 念、功能、物 理),完成概念词 属性
27、设计,语料库 (收词40万),语义关联关系 (127万),中医学科结构,标准,词典,教材,临床术语,其他,定义实现,语义表达,语言集成与规范 建立数据 库基础语言平台 共享平台检索查询应用工具 数据挖掘与知识再现支撑条件,数据分发(十三家),数据加工,合并整理,学科分类 语义提取,数据查询,TCMLS平台,选取数据 标准、教材、辞典、工具书、临床术语,设计结构,TCMLS的建立流程图,中医药一体化语言系统一级学科分类(16),3.3.组成,基础词库系统语义系统,基础词库系统,这个系统是整个中医药学语言系统的核心及最基本的素材,是在对现存各种主题词表、分类表、数据库、工具书中有关词汇进行分析、选
28、择和组织的基础上产生的一个大型词库。本系统基础词库涵盖可控词表与中医药学科系统及与中医药学科相关联的生物、植物、化工等自然与人文科学专业词汇。基础词库建立在全面、广泛、准确、严谨的基础上,最终形成超级基础词库。词条属性符合中医药学科自然语言与可控词的双重属性。用准确、完整的方式揭示与表达中医药学科及相关术语。这个系统可以相当于统一的医学语言系统的超级叙词表和专家词典。,其中超级叙词表部分的收词范围是中医药及相关的可控词表:包括“中国中医药学主题词表”、“医学主题词表(MeSH词表)”、“中国图书馆图书分类法医学专业分类表(第四版)”、“中医药学主题词表”等。 词典部分的收词范围包括:中医药学教
29、材、辞典、标准、专家词典;相关学科(包括医学、生物、化学等)收词;中医药学古代文献收词;临床病例与临床用语收词;国家标准中的中医与中药相关名词与术语;百科全书及中英词典中的相关术语、名词;国际医学相关标准及国际专业可控词表中相关词语;国际医学词典等。,词语属性:概念为词条基本单位,形成概念(正名)、字符串(术语词)二级结构,分成两个不同的域值。不同术语表达同一概念的词语要能连结在一起,形成二者的关联。例如,“肺” 与“华盖”;“心肾不交”与“水火不济”等同一概念的两种表达方法。另外,当同一个术语表示不同的概念时,采取的是用定义区别,根据定义分类的原则。如,“太阳”一词,在中医药学里既可指太阳穴
30、,又可指太阳经。这类词在中医药学的基础词库里就根据定义区别并进行分类。,语义系统,中医药学语言系统综合各类可控表的结构特征,以中医药学科及相关学科知识为主干,同时对照统一的医学语言系统的结构特点,设计中医药学语言系统词表的结构。整体结构设计原则必须符合中医药学结构特点,同时能满足现有中医药数字化需求。以中医药学为基础,涉及与其相关联的学科,如医学、生物学、制药工艺等等 语义类型:以统一的医学语言系统(135种语义类型)为基础原型,重新设计,并重点增加中医药语义类型。中医药语义类型标准以中医药教材体系为主,共形成108种语义类型。语义分为二大类:事与物,并由此展开其树形结构。 语义关系:语义关系
31、共58种。(见文档),将中医药学概念词语进行规范的语义类型设定与语义关联后,不仅为中医药数据库建设、古代文献加工、中医药信息广域收集与加工、文本挖掘、数据挖掘提供了一个强有力的工具,同时也为中医药学科发展提供了新的思路,为科研人员进行研究提供了新的方法。如:统一的医学语言系统在实施语义关联后,发现与人体心脏相关联的概念多达3700余种,也就是这3700余种概念都会对心脏的结构或者功能改变产生直接或间接的影响。从语义上规范中医药概念的关联关系,不仅会严格区别一些微小的差异,同时也会提供中医药语义概念的规范关联,解决中医药语言的系统化与层次化问题,发掘中医药语言特点,建立中医药语言系统合理的结构体系。,网络语义关联浏览 示意图,下一步工作,我们现在已经建立了很多的数据库,如疾病诊疗数据库,中国方剂数据库,方剂现代应用数据库,中国中药新药品种数据库,中国中药非处方药数据库,中国中医药期刊文献数据库,中国中药数据库,中国中药化学成分数据库等等。有这些数据库做基础,我们也可以建立中医药的情报源图谱。在几年的中医药学语言系统的研制中,我们也在逐渐发展中,今年已打算进行中医药学语言系统的专家词典的研制。这样我们的中医药学语言系统就更加完善了。,应用与推广:,语言集成与规范,建立数据 库基础语言平台,检索查询应用工具,数据挖掘与知识再现支撑条件,加工界面地址: http:/