1、,生物医学文本挖掘及其应用,中国医科大学 医学信息学系 崔雷,目的,介绍生物信息学文本挖掘工具 文本挖掘不再是信息专业的领域,2020/1/19,例子:二者关系 进行性多灶性白质脑病(progressive multifocal leukoencephalopathy,PML) 抗体antibodies Monoclonal antibodies,efalizumab(依法珠单克隆抗体),自然语言处理,让计算机替我们看文献吧! 比较难: 计算机需要专门的知识才能读懂文本。 自然语言处理(Natural Language Processing ,NLP):专门训练计算机掌握这种知识的学科。 生物
2、医学文本挖掘(Biomedical text mining )是一个专门处理生物学、医学和化学文本的分支学科。也叫BioNLP 有些人把NLP当做text mining的同义词。,5,Biomedical text,生物医学文本的格式多种多样: 病历 科研论文 序列注释 公共健康指南 文本的内容多样化,如习惯用语 临床有临床上的行话 实验室有自己对蛋白的命名方式 这种差异造成了文本挖掘应用往往面向特定类型的文本。 尤其是对Medline文摘记录的分析。 易获取 免费,基本概念(1),术语(Term):专门领域里的名称。 术语集(terminology):术语的集合。 生物医学文本中到处是术语,
3、是医学知识的基本构件。 如各种细胞的名称,蛋白质、医学设备、疾病、基因突变、化学物质名、蛋白质域的名称。 名称如此重要, 需要在文本中识别之,这个工作称为生物医学文献中的命名体识别(NER,Named Entity Recognition )。,基本概念(2),尽管术语的定义似乎很明确,但是很难精确定义。 early progressive multifocal leukoencephalopathy Refer to early progressive multifocal leukoencephalopathy progressive multifocal leukoencephalopa
4、thy multifocal leukoencephalopathy Leukoencephalopathy,基本概念(3),Terminology:手工构建的,因此是受控的。 HUGO:基因术语集 ICD:国际疾病分类法。 Gene Ontology:基因本体。 不仅仅是术语列表,还包括: 术语表+同义词=thesaurus 术语表+术语之间的关系=taxonomies, ontology 一旦一段文本与其中一个词表对应上,就和其他资源建立起联系了。,9,人工标引,手工匹配,Medline abstracts,Medical Subject Headings (MeSH),Leukoence
5、phalopathy,progressive multifocal,10,11,gene normalization,自动匹配:,2020/1/19,HGNC database of human gene names HUGO Gene Nomenclature Committee http:/www.genenames.org/,2020/1/19,网上在线检索的基因名称信息,14,2020/1/19,下载的基因名称信息,2020/1/19,NER的原理,文本(PubMed Abstracts),软件,名称(基因名,蛋白质名),词表,词表之间的联系,词表太多,又创建了词表,把术语集匹配起来,
6、词表之词表,超级词表。meta BioThesaurus:多个词表中蛋白质的同义词Unified Medical Language System(UMLS):一体化医学语言系统,120多个词表,4百万个术语。,18,http:/pir.georgetown.edu/pirwww/iprolink/biothesaurus.shtml,2020/1/19,2020/1/19,2020/1/19,术语识别工具,Whatizit:识别多种术语,通过网页。 Abner:单机版,识别5种术语:蛋白、DNA、RNA、细胞株、细胞类型。 更专指的术语识别工具: PepBank :用于肽类 LSAT:用于al
7、ternative transcripts 提高 PubMed检索效果:semedico , novo|seek GoPubMed/GoGene,24,http:/www.ebi.ac.uk/webservices/whatizit/info.jsf,25,http:/pages.cs.wisc.edu/bsettles/abner/,A(Whatizit):蛋白-蓝色,疾病-深红,基因本体-浅红,化学物质-深红,物种-红色 B(ABNER):蛋白和细胞株 C(BIOCreAtIvE metaserver ),27,发现关系,识别术语之后,下一步自然是寻找术语之间的关系。 发现关系的最简单途径
8、就是共现: 在同一段文字中同时出现的两个术语可能有关联。 例如,某种蛋白质与一种疾病总是在同一文摘中出现,有理由假设该蛋白与疾病的某个方面有关。 共现的次数越多,越有意义。可以定量排序,通过统计处理排除偶然的关联。,2020/1/19,关联度,假设有t1和t2两个词共现,最简单的信度指标就是含有这两个词的文章数c(t1t2),但是要标准化,去掉两个词各自出现频次对共现次数的影响。点间互信息p为文章数除以文章总数。,2020/1/19,关系抽取:共现,GoDisease:http:/godisease.org/ 输入leukoencephalopathy, progressive multifo
9、calmh,2020/1/19,返回结果:,所有提及PML的文摘中的基因。 出现次数越多的基因,越可能与PML有关联。如果某基因在PML中不成比例地高于其他疾病,则该基因可能与PML有特殊关系。,2020/1/19,关系抽取:确切关系,明确描述的关系:比共现更好的证据。 例如: We describe a PML in a 67-year-old woman with a destructive polyarthritis(多关节炎) associated with anti-JO1 antibodies treated with corticosteroids PML与抗-JO1抗体有明确关
10、系。将这种关系简化为三元体:两个名词+一个动词。 PML is associated with anti-JO1 antibodies 识别动词: 词性标注:part-of-speech (POS) tagger三元体表述因其简单而功能强大,但是忽略了文章中的重要的细节。比如有些证据是来自于临床病例报告。,2020/1/19,Semantic Knowledge Representation,SKR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。,2020/1/19,http:/mmtx.nlm.nih.gov/,其中MetaMap是SKR系统的核心组件。MMTx是完成Meta
11、Map功能的Java工具包,它进行的分析是语义层次上的分析。,2020/1/19,MetaMap工作原理,http:/ complication of myasthenia gravis” (重症肌无力的眼部并发症) “ocular complication”和“of myasthenia gravis” “ocular complication”分为“mod(ocular),head(complication),2020/1/19,MetaMap工作原理:产生变形体,Ocularadj,0=” Eyenoun,2=”s”同义词 Eyesnoun,3=”si”同义词的复数 Opticadj,4
12、=”ss”同义词的同义词 Ophthalmicadj,4=”ss”同义词的同义词 Ophthalmianoun,7=”ssd”同义词的同义词的变形 Oculusnoun,3=”d”变形 Oculinoun,4=”di”同义词的复数,2020/1/19,2020/1/19,检索候选词及候选词的评价,检索超级词表,检索到包含有至少一个变形体的候选字串集合。 计算出与输入的短语词相匹配的候选词,然后用4种指标的加权平均组成的语言学评价函数,计算输入短语与候选词之间的匹配程度: 中心度:即包含中心词; 变形情况:距离倒数的平均值; 覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段 按照匹配程度
13、排列这些候选词。,2020/1/19,2020/1/19,关系抽取:PPI,protein-protein interactions (PPI):文本挖掘的重头戏 利用三元体表达,构建PPI网络,节点是蛋白质,动词为边。 分析文本挖掘出来的PPI网络时,应当注意阅读和理解支撑信息。 例如,蛋白质间相互作用可以是直接的,也可以是间接的,取决于动词 直接动词有to bind, to stabilize, to phosphorylate 间接的动词有to induce, to trigger, to block。 文献中描述的蛋白质相互作用的不同性质部分地反映了所采用的实验方法和相互作用本身的性质
14、。 常用的捕获文本变异的方法就是把各种表达方式辨认出来,并写下捕获这些变异的规则。 捕获磷酸化的模式,应当依次含有: 一种酶的名字 磷酸化的动词 一种基质的名字,2020/1/19,发现关系的工具,FACTA:Medline文本中概念共现情况。 MedGene 和BioGene:利用共现发现基因优先级别。 Endeavour 和G2D 利用文本和其他数据源分析基因优先级别。 PolySearch利用启发式加权技术,给不同的共现不同的权重。 Anni使用文本轮廓测量术语之间的关系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用语言模式发现磷酸化过程中的激酶、基质和磷酸。 E3Mine
15、r发现泛素化,包括上下文信息。,2020/1/19,http:/text0.mib.man.ac.uk/software/facta/main.html,2020/1/19,GoDisease+iHOP+Cytoscape,2020/1/19,发现:Discovery,Besides finding relationships, text miners are also interested in discovering relationships Swanson:undiscovered public knowledge 【见例子1】,2020/1/19,文本挖掘的应用实例,Swanson关
16、联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR,2020/1/19,背景与意义,发表文献,研究深入,知识分裂 fragmentation of scientific knowledge,文献量,穷经皓首并老死不相往来,2020/1/19,Don R. Swanson的研究,跨学科间一定存在着潜在的未被发现的关联 文献间隐性的关联 如何发现隐性关联? 寻找非相关互补性文献 text-based informatics literature-based discovery,2020/1/19,Do
17、n R. Swanson的研究,两种互补的文献: 一类文献(AB):摄入A可能导致某种生理改变B 另一类文献(BC):B作用于某种疾病C 即A作用于C。 两种非相关的文献: 两种文献从没有或很少被共同引用并且也不相互引用。 互补性和非相关性描述了在公开信息中存在着未被发现的有价值信息的模型结构。,2020/1/19,Medline文献集合,Don R. Swanson的研究,潜在的联系,雷诺氏病 文献,食用鱼油 文献,血液粘稠度 红细胞脆性,血液粘稠度 红细胞脆性,2020/1/19,闭合式的知识发现,2020/1/19,2020/1/19,ARROWSMITH 3.0,http:/arrow
18、smith.psych.uic.edu,2020/1/19,4822,2020/1/19,2020/1/19,2020/1/19,2020/1/19,Asthma famous?,2020/1/19,哮喘名人,2020/1/19,SYK:脾酪氨酸激酶,2020/1/19,SYK:脾酪氨酸激酶,过敏性鼻炎,Syk inhibitors as treatment for allergic rhinitis. 2008 【SYK抑制剂治疗过敏性鼻炎】 An intranasal Syk-kinase inhibitor (R112) improves the symptoms of seasonal
19、 allergic rhinitis in a park environment. 2005 【鼻内SYK抑制剂(R112)改善公园里过敏性鼻炎症状】,痛风,Crystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase. 2007 【晶体诱发的中性粒细胞活化:Ia类磷脂酰肌醇3激酶的SYK依赖性活化】 Crystal-induced neutrophil activation. VII. Involvement of Syk in the
20、 responses to monosodium urate crystals. 2001 【晶体诱发的中性粒细胞活化:SYK参与对尿酸钠晶体反应的程度】,2020/1/19,过敏性鼻炎SYK痛风,过敏性鼻炎,痛风,抑制剂,治疗,中性粒细胞活化,晶体,诱发,PI3K,SYK,2020/1/19,2020/1/19,B:基因和分子序列等语义类型,2020/1/19,TOLL receptor,2020/1/19,可作为生物武器的潜在病毒,能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力 病
21、毒的昆虫媒介传播(insect vectors) 空气传播(air) 在空气中的稳定性(stability of viruses in air) 通过与A和C有共同联系B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B),2020/1/19,发现科研机构间潜在的合作方向,潜在合作方向 美国斯坦福大学 哥伦比亚大学 医学信息学研究领域 发现科研机构合作与交流的题目 结果: 更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处) 内容详细、明确:能
22、体现出研究所使用的具体方法和侧重点,2020/1/19,开放式的知识发现,2020/1/19,BITOLA http:/www.mf.uni-lj.si/bitola/,输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。,2020/1/19,BITOLA,2020/1/19,2020/1/19,2020/1/19,syk,2020/1/19,20
23、20/1/19,2020/1/19,2020/1/19,2020/1/19,内容,Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR,2020/1/19,运用文献轮廓 挖掘微阵列表达数据,Mining microarray expression data by literature profiling Damien Chaussabel MedlineR,2020/1/19,Damien Chaussabel Alan Sher,Immunobiology Section, Lab
24、oratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USA Genome Biology 2002, 3(10):RESEARCH0055.,2020/1/19,目标,建立一种挖掘技术 该技术以对文献轮廓literature profiling的分析为基础 文献轮廓: 对于某一个主题(如某基因)而言,有相关文献集合 对于该基因的文献集合,分析某些单词在文摘中出现的频次。,20
25、20/1/19,文献轮廓,基因B,基因C,基因A,相关文献,主题词1 频次 主题词2 频次 主题词3 频次 主题词n 频次,2020/1/19,研究步骤,检索文献 分析文本 过滤数据 聚类分析,2020/1/19,1.检索文献,从基因开始,分别找到与各种基因相关的论文 标题中含有基因名字的论文。 人类基因命名委员会(Human Gene Nomenclature Committee, HGNC):官方名称、缩写、别名 http:/www.genenames.org/,2020/1/19,2020/1/19,1.检索文献,建立数据库 包括HGNC定义的10,500多种已知的人类基因 用PubMe
26、d查询格式的URL,例如: protein kinase C eta http:/www3.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=0&form=1&term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5D PRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti) 上述纪录按照GenBank和Locus Link的ID排列 该数据库可以作为Excel表格
27、下载,2020/1/19,1.检索文献,选70种基因,每一种基因的相关文献以XML格式下载 用Excel的宏命令抽取文摘,另存作为文本分析样本,Papers on Gene 70,Papers on Gene 3,Papers on Gene 2,Papers on Gene 1,2020/1/19,2.分析文本,对于每一个基因的相关纪录的内容,分析文摘中单词出现的情况。【TF】 统计文摘中含有特定单词的文献数。【DF】 例如:对于GADD45B基因的相关文献,有18.7%的文摘中含有单词“Proliferation”。,Abstracts on Gene 1,2020/1/19,3.过滤数据
28、,每一种基因有几万条记录。对文献中发现的每一个单词,标上其出现的频次数。 这些单词大多数对发现基因信息没有用途: 没有特异性:if, because, cell, identified 很少使用:在很少的文献中出现。 第三类单词: 在某一种基因的文摘中出现频率高【TF】。 在所有文献中出现频率(基准率)低【DF】。 可以提供基因的相关信息。,2020/1/19,RANTES,Y轴上的点为与RANTES基因相关的单词,在25%以上的论文中出现过。 随机选取基因,计算这些词的出现率,计算这些词在不同基因文献中出现的平均值。 如果基因足够的话,单词的平均出现率趋于稳定。 出现率低于5%的单词传递有关
29、该基因的重要信息。如infection, secreted, chemokine 等。,2020/1/19,3.过滤数据,基准率: 在所有已知的人类基因中随机抽取基因(250种) 统计单词出现频率的平均值,2020/1/19,3.数据过滤,单词过滤的标准: 通过设定基准率(5%),去掉在全部科技文献中经常出现的单词 每一个单词在每一种基因上的出现率与基准率的差值25% 通过两个基因过滤的单词:一个单词只有在至少2个以上的基因中共现才在确定基因关系方面有用。 70个基因,25,000种单词,只保留下来101种。 可以调整单词过滤的阈值:下调阈值,增加了噪音,检索到更多的单词。,2020/1/19
30、,3.数据过滤,2020/1/19,4.聚类分析,通过单词出现情况,给具有同样的文献分布特征的基因进行分组。 经过几轮过滤之后,确定了单词表,将该表用于建立一个单词-基因矩阵。矩阵中对应的是每一种基因和单词出现值。 采用基因聚类分析的软件:Cluster/TreeView,2020/1/19,聚类分析,2020/1/19,4.聚类分析,蓝色:nuclear factors 橙色:receptor-ligand pair 绿色:interferon-related,红色:chemokines 紫色:MHC class I antigen-presentation pathway,黄色阴影:单词在
31、文摘中出现的水平,2020/1/19,4.聚类分析,基因的功能分组明显与免疫反应有关。 蓝色:控制炎症反应和细胞凋亡的转录因子,这些基因和TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同时出现较多。 绿色:最大的一组基因,与interferon 有关(也叫 IFN和IFN-alpha,)。STATs基因是干扰素信号传导专门需要的因子。 红色:专门面向趋化因子(chemokines)。 紫色:基因全部是I类MHC抗体表达通路基因。这些基因专门编码把蛋白降解为肽的蛋白。 根据抽取词所表示的概念可以发
32、现有价值的信息,用于快速探索和评估复杂数据集中的生物学意义。,2020/1/19,4.聚类分析,2020/1/19,聚类分析,2020/1/19,单词出现模式的分析,2020/1/19,不同关联程度的基因组,通过文献分布特征发现的关联 一组基因在功能上的关联程度,2020/1/19,用文献轮廓挖掘鼻咽癌微阵列表达数据,黄仲曦,姚开泰(第一军医大学病理教研室肿瘤研究所) 目的:探索鼻咽癌异常信号通路。 方法:根据鼻咽癌微阵列表达谱,采用基于文献轮廓的数据挖掘方法。从Medline文献数据库中提取与基因相关的文献并分析词的频率,再根据重复发生和共发生的过滤标准提取功能相关的词。最后根据词的发生频率
33、对基因进行功能聚类。 结果:基因表达谱的112个差异表达基因聚成16组功能类别:4组暗示EBV感染、6组显示鼻咽癌变过程、2组参与能量代谢、1组提示蛋白的异常磷酸化、2组与其它疾病相关、1组与肌肉组织活性相关。肿瘤发生发展过程中常见的P53和Rb信号通路的异常在本研究中则未发现。 结论:鼻咽癌的发生发展可能由特殊的信号通路引起。,2020/1/19,用文献轮廓挖掘大肠癌转移芯片表达谱,黄仲曦,孙青,丁彦青,姚开泰(第一军医大学病理教研室肿瘤研究所) 目的:寻找新的大肠癌转移相关基因。 方法:根据大肠癌转移芯片的表达谱,采用基于文献轮廓的数据挖掘方法,从Medline文献数据库中提取基因的相关文
34、献并分析词的频率,再基于重复发生和共发生的过滤标准提取功能相关的词,最后基于词的发生频率对基因进行功能聚类,进一步结合文献及已有的分子生物学检测结果进行分析。 结果:发现两个新的可能与大肠癌转移相关的基因TlAM1和NM23H1。,2020/1/19,GenCLIP,2020/1/19,2020/1/19,文本挖掘的过程,命名体识别 关系抽取 发现知识掌握原理,会用软件,你就可以探索了! 欢迎你的加入!,2020/1/19,R统计分析软件,SPSS简单易用,而SAS功能强大,更是被统计专业人员乐于采用,尤其是在国外广泛应用。 既定的模块,不能满足需要。 需要人们自己用编程来实现新的方法,R就提
35、供了这样一个很好的平台。 R是由Ross Ihaka和Robert Gentleman所编写的一个专门用于统计分析的软件。 完全免费,可以从网络上任意下载,不存在版权问题。 R的源代码公开,使得很多统计爱好者可以不断增强R的功能。 在一般统计分析功能上,R并不逊于其它商业统计软件,例如SPSS、SAS等,并且提供一个强大灵活的编程平台。,2020/1/19,2020/1/19,MedlineR,用于Medline文献数据挖掘的开放式的R资源库 用于医学文献数据挖掘的手写开放性R语言资源库-MedlineR。 MedlineR库包括: 在NCBI Pubmed数据库查找医学文献的程序 构建共现矩
36、阵的程序 检索词的网络拓扑结构的可视化程序。 这个库的开放特性使得读者在R统计程序语言中免费扩展。只用10行代码来分析主题词的相关性。对于生物信息学家和统计学家来说,MedlineR是建立更加复杂的文献数据挖掘应用的基础。,2020/1/19,MedlineR,为生物医学家和统计学家建立的文献数据挖掘工具的免费资源库MedlineR的源代码可以从http:/dbsr.duke.edu/pub/medlineR中获得,还提供了个性需求,漏洞追踪和版本控制工具等,以便同行进一步扩展其功能。,2020/1/19,MedlineR,2020/1/19,MedlineR,结果是可视化的网状结构:每个节点
37、代表一个基因,每条边代表一个文献中的联系。图1B是在R中用“image”命令产生的静态图。图1c是Pajek中的交互显示。,2020/1/19,MedlineR,下载R统计软件(包括XML程序包) 下载Pajek软件 复制粘贴MedlineR的命令 填入需要分析的基因名称 运行R 运行pajek,2020/1/19,2020/1/19,MedPost,PMID 1847596 #9: Surprisingly, NO3- inhibited the rate of K+ swelling by 82%. Surprisingly_RR ,_, NO3-_NN inhibited_VVD the_DD rate_NN of_II K+_NN swelling_VVGN by_II 82_MC %_SYM ._.,