1、基于共现的文本挖掘应用,崔雷中国医科大学医学信息学系,内容,数据挖掘的定义知识发现的过程数据挖掘的种类数据挖掘的算法关联规则挖掘PageRank,文本挖掘的流程自然语言处理命名实体的识别关系抽取Swanson的早期探索文本分类和聚类,内容,共现分析 同被引和书目对词共现作者共现共现的泛化,聚类分析 基本原理和种类 工具及参数选择 聚类结果基于共现的文本挖掘分析 高被引论文的同被引共现分析高频主题词的共现分析,数据挖掘的定义,数据挖掘=data mining挖掘(mine)就是抽取(extract),通常是指从地下抽取隐藏的贵重资源的挖掘操作。Data+mining:对数据进行深入的研究,目的在
2、于从大量的数据中去发现事先没有注意到的额外信息。 在数据集中正规地发现有效的、新颖的、潜在有用的、并且最终可以被读懂的模式的过程。,数据挖掘的定义,正规:正式的、正儿八经的,不是不经意的、偶然的;也不是手工完成的新颖性:发现的模式必须是新的。潜在有用性:发现的知识将来有实际效用。模式:对于集合F的数据,可以用语言L来描述其中数据的特性。嗜烟者冠心病的发病率是不吸烟者的26倍。,数据挖掘的定义,太阳系行星运动周期数据开普勒第三定律:d3/P2=25数据 知识=挖掘,知识发现的过程,知识发现的过程,选择:根据某种标准选择或者切分数据。例如,将所有患有肺结核的病人的记录套录下来,形成该疾病患者的数据
3、子集。处理:包括清除和充实两个方面,由于数据是来自于日常工作中的记录,有许多冗余的和重复的内容,如病人的姓名可能在药局和实验室的数据库中都出现,有时还要从其他数据库中补充新的数据等等。转换:删除那些丢失重要内容的记录,将数据分类(如按病人年龄分组),改变记录的格式(如将生日转换为实际年龄)等等。数据挖掘:运用工具和算法,在数据中发现模式和规律。解释与评价:将发现的模式解释成为可以用于决策的知识,如预测、分类任务、总结数据库的内容或者解释观察到的现象。,数据挖掘的种类,按照目标,分为预测和描述两类:预测利用数据库中已有的变量来预测未知或将来的数值。例如,可以利用预测型建模技术来对患某一种疾病的病
4、人预测其预后情况。描述注重发现能够描述数据的模式,然后提供给用户进行解释和表述。对数据中的模式或关系进行辨别,可以用于探索已有数据的性质,而不是预测新的性质。,数据挖掘的种类,按照挖掘对象,分为:数据库文本Web信息空间数据图像和视频数据,数据挖掘的算法,如同木匠手中的凿子,刨子,锯等,在不同的挖掘目标、要求和任务中使用之。十大经典算法,可以到网络上查。,关联规则挖掘,关联规则挖掘: 从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 应用: 购物篮分析、分类设计、捆绑销售和亏本销售分析。,“尿布与啤酒”,沃尔玛通过建立的数据仓库,定期统计产
5、品的销售信息。结果发现,每逢周末,位于某地区的沃尔玛连锁超市啤酒和尿布的销量很大一些年轻的父亲下班后经常要到超市去买婴儿尿布,在购买婴儿尿布的年轻父亲们中, 有30%40%的人同时要买一些啤酒 之后该店打破常规,把啤酒和尿布的 货架放在了一起。,Apriori算法,基于两阶段频集思想的递推算法找出频繁1-项集找出频繁2-项集用最小支持度、可信度等来衡量。,应用实例:Amazon,治疗痛经方药的关联规则分析,应用计算机检索中医方剂数据库(源于中医方剂大辞典)有关治疗痛经的217首方剂,以EXCEL 2000软件建立数据库,收录每首方剂中的单味药进行统计分析。应用关联规则方法中Apriori算法分
6、析方剂中药对的应用规律。结果在治疗痛经的217首方剂中共使用427种药物2450频次。其中,使用频次在10次以上的依次为当归、川芎、延胡索、赤芍、香附等56味中药,使用总频次为1622次;关联规则方法分析出使用频次在10次以上的药对当归-川芎、当归-白芍、当归-香附等389对。结论运用用药频率统计与关联规则等数据挖掘方法,能较好地发现中医临床治疗痛经方药的用药规律,为临床遣方用药提供理论指导。,主题词关联规则的医学文本数据库数据挖掘的尝试,利用关联规则算法,对PubMed数据库中有关两种消化系统疾病和两个相应的检查方法的主题词和副主题词组配模式进行分析,抽取出与之有关的、有效的语义关系搭配模式
7、,并以文献和教科书为标准对结果进行检验,从而为文献检索和建立知识库提供依据。,PageRank,PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一Larry Page。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引的频度即被别人引用的次数越多,一般判断这篇论文的权威性就越高。,内容,数
8、据挖掘的定义知识发现的过程数据挖掘的种类数据挖掘的算法关联规则挖掘PageRank,文本挖掘的流程自然语言处理命名实体的识别关系抽取Swanson的早期探索文本分类和聚类,文本挖掘的流程,围绕Medline的文本挖掘,Medline,检索,胃癌文献,主题词,抽取,转换,C04.,挖掘,模式12,知识,解释,自然语言处理,Natural Language Processing, NLP无结构的自然语言结构化的数据自然语言处理的系统MedLEE系统:用于抽取、构建和编码来自于病人报告文本中的临床信息,所得到的数据可以用于进一步的自动化处理。MetaMap:,http:/lucid.cpmc.col
9、umbia.edu/medlee/,Semantic Knowledge Representation,SKR:是基于UMLS进行自然语言处理、提取文献中概念的系列在线工具。,http:/mmtx.nlm.nih.gov/,其中MetaMap是SKR系统的核心组件。MMTx是完成MetaMap功能的Java工具包,它进行的分析是语义层次上的分析。,MetaMap工作原理,http:/ complication of myasthenia gravis” (重症肌无力的眼部并发症)“ocular complication”和“of myasthenia gravis”“ocular compli
10、cation”分为“mod(ocular),head(complication),MetaMap工作原理:产生变形体,Ocularadj,0=”Eyenoun,2=”s”同义词Eyesnoun,3=”si”同义词的复数Opticadj,4=”ss”同义词的同义词Ophthalmicadj,4=”ss”同义词的同义词Ophthalmianoun,7=”ssd”同义词的同义词的变形Oculusnoun,3=”d”变形Oculinoun,4=”di”同义词的复数,检索候选词及候选词的评价,检索超级词表,检索到包含有至少一个变形体的候选字串集合。计算出与输入的短语词相匹配的候选词,然后用4种指标的加权
11、平均组成的语言学评价函数计算输入短语与候选词之间的匹配程度:中心度:即包含中心词;变形情况:距离倒数的平均值;覆盖面和内敛度:测量候选词与文本的匹配程度和有多少个片段按照匹配程度排列这些候选词。,中文自然语言处理工具,中国科学院-计算技术研究所数字化室软件室-中文自然语言处理开放平台http:/ Entity Recognition , NER)就是将其从文本数据中识别出来。它的主要任务包括从文本中识别命名实体,确定该实体的类型,以及出现多个实体表示同一事物时,选择一个代表该组。,命名实体的识别:意义,生物医学命名实体识别比传统意义上的NER更具挑战性:生物医学领域新名词的不断涌现;首字母缩写
12、构成的基因名称被广泛认可,造成不同的基因具有相同的名称。,命名实体的识别:方法,方法可分为以下三类:基于字典的方法,与字典词条进行比对匹配,但是不存在一部完整的包含了所有生物医学领域命名实体名称的词典。基于规则的方法,按照定义的规则将实体与其他文本数据区分开来。基于统计的方法,从样例数据集合中统计出相关特征和参数,以此建立识别模型,最终识别出测验文本的命名实体,也称基于机器学习的方法。,命名实体的识别:系统,SciMinerhttp:/jdrf.neurology.med.umich.edu/SciMiner/,关系抽取:定义,Relationship Extraction,RE目标:检测一对
13、特定类型的实体之间有没有预先假设的关系。生物医学文本挖掘抽取的就是基因、蛋白质、药物、疾病、治疗之间的关系。,关系抽取:方法,基于模版的方式:从已知的实体周围的文本中归纳出模式,再利用这个模式对测试语料集的文本进行模式匹配。基于统计的方法:通过寻找经常一起出现(多于随机出现)的实体而识别出关系。基于自然语言的方法:把自然语言分解为可从中提取出关系的结构。,SemRep,ablation of pituitary gland(垂体腺切除)head(ablation)-prep(of), head(pituitary gland)ablation -Excision, NOS (Therapeut
14、ic or Preventive Procedure, Research Activity)pituitary gland-Pituitary Gland (Body Part, Organ, or Organ Component),SemRep,句法分析:查询规则,认为介词“of”表示的是语义网络中的“LOCATION_OF”关系,注明该谓词的语义网络关系是: Semantic Type 1: Body Part, Organ, or Organ ComponentRelation: LOCATIO N_OFSemantic Type 2: Therapeutic or Preventive
15、 ProcedurePituitary Gland-LOCATION_OF-Excision, NOS,SemRep,We used hemofiltration to treat a patient with digoxin overdose that was complicated by refractory hyperkalemia,Hemofiltration-TREATS-PatientsDigoxin overdose (disorder)-OCCURS_IN-PatientsHyperkalemia-COMPLICATES-Digoxin overdose (disorder)H
16、emofiltration-TREATS(INFER)-Digoxin overdose (disorder),EDGAR,Extraction of Drugs, Genes and Relations用于在MEDLINE中确定药物、基因关系的程序。它以前面几项工具为基础,以癌症治疗有关的药物和基因作为研究的主要领域,从文本中确认药物、基因和细胞株的名称。,ARBITER,Assess and Retrieve Binding Terminology从生物医学文本中抽取大分子键联关系,Swanson的早期探索,Don RSwanson目前是美国芝加哥大学的信息科学荣誉教授,他于1986年首次
17、在医学文献研究中发现了非相关互补文献。,闭合式,开放式,http:/arrowsmith.psych.uic.edu,Arrowsmith,可作为生物武器的潜在病毒,能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。A:病毒毒力遗传方面(virulence- genetic)C:病毒疾病传播力病毒的昆虫媒介传播(insect vectors)空气传播(air)在空气中的稳定性(stability of viruses in air)通过与A和C有共同联系B找出更多符合条件的病毒。将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集
18、合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B),发现科研机构间潜在的合作方向,利用Arrowsmith程序,发现美国斯坦福大学和哥伦比亚大学在医学信息学研究领域的潜在合作方向尝试将这种方法运用到寻求发现科研机构合作与交流的领域中。结果表明,利用Arrowsmith所挖掘的科研合作与交流的内容详细、明确,能体现出研究所使用的具体方法和侧重点,能更好地体现出两个机构研究内容的相似点(可以合作之处)和不同点(可以相互交流、学习之处)。,BITOLA http:/www.mf.uni-lj.si/bitola/,开放式与闭合式,输入单个的概念(疾病A),找到该概念的第一层相关概
19、念并加以归类(药物B)。从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。,本分类和聚类,文本分类(Text classification)就是将文本自动归入预先定义好的主题类别中,是有监督的机器学习方法。Web文档分类,电子邮件过滤等。,文本分类和聚类,文本分类步骤:获取训练文本集,选择分类方法并训练分类模型,用分类模型对其他文本进行分类,根据分类结果评估分类模型,文本分类和聚类,文本聚类(Text Clustering)
20、是根据文本数据特征的不同将一组对象集合按照相似性归纳为不同类的过程。与文本分类的区别就是聚类的对象没有类别标记,是根据聚类算法自动确定的。称为无监督的机器学习方法。,文本分类和聚类,文本聚类的步骤有:获取结构化的文本集,执行聚类算法,获取聚类谱系图,选取合适的聚类阈值。,共现分析,同被引和书目对词共现作者共现共现的泛化,同被引和书目对,同被引强度幅度书目对(引文耦合)强度幅度,co-citation graph of 394 articles“the DNA/RNA and proteins of research papers”,词共现,词:关键词、主题词、自由词共现:同一篇文章、同文摘、同
21、句子(标题)直接反映了概念(知识单元),拆散了文章。,词共现,作者共现,共现的泛化,作者同被引,共现的泛化,期刊同被引,共现的泛化,共现的泛化(篇内与篇间),作者1,2,3作者单位1,2,3标题期刊摘要:词1,2,3主题词1,2,3分类号1,2,3引文作者、期刊、年代,作者作者单位标题期刊摘要主题词分类号引文作者、期刊、年代,基于共现的聚类分析,聚类分析基本原理和种类工具及参数选择聚类结果基于共现的文本挖掘分析高被引论文的同被引共现分析高频主题词的共现分析,聚类分析cluster analysis,是将数据集划分为若干组或类的过程,使得同一个组内的数据对象具有较高的相似度;而不同组中的数据对象
22、是不相似的。聚类和分类分类,知道训练样本的分类属性,将数据对象分到不同的已知类。聚类问题中,划分的类未知,将数据对象分组成不同类,需在训练样本中找到该类别属性。,数据矩阵,引文-被引文矩阵与共词矩阵,相似度的计算,区间标度度量:粗略线性标度的连续度量,比如重量、高度、温度等。欧几里德距离:Euclidean,相似度的计算,二元变量:只有两个状态,其中0 代表(变量所表示的)状态不存在;而1则代表相应的状态存在。,相似矩阵,聚类分析方法,基于划分的方法(partitioning)k-平均算法K-中心点算法基于层次的方法(hierarchical)分解凝聚基于密度的方法(density-based
23、)基于网格的方法(grid-based)基于模型的聚类方法( model-based ),类间距离的测量,最小距离最大距离平均距离,SPSS中的聚类分析方法,聚类树图,聚类结果的解释,牢记聚类的原理:最相近的成为一个类别。用什么表示它们相近呢?是用聚类的指标:聚类的对象因为什么被聚类到一起的?是因为共现和同被引的次数。为什么共现或者同被引呢?因此,要用原始的属性数据来解释。牢记聚类步骤:系统聚类方法,所以最先聚类的是最相似的,因此也是最可靠的。而在聚类的最后阶段,某一个词或者文章分配到某一个类的偶然性就很大了。因此在结果分析上,把握从中心向外逐步推进的原则,,聚类结果的解释,词共现:词与词之间
24、的组合代表了什么语义关系?通过到相应的数据库检索含有共现词对的文献,分析文献中共现词对的关系。关联规则。同被引:是因为它们同时被后来发表的论文引用才聚集到一起的。可以:人工:阅读同类论文的标题、文摘甚至全文,分析这些文献的共同之处;同时,还要站在全局的角度,分析这一类的论文在主题上与其他类别的不同之处。辅助的方法:有条件的话,分析同类别论文的词频,高频词表示该类的主要内容。甚至采用向量空间模型来区分各个类别在主题内容上的特色。,展望:共现矩阵的应用,高频词的共现战略坐标高被引论文的同被引共现新颖度和关注度研究历史的表达高被引作者的同被引学科结构社会网络分析面向生物信息学的应用可视化的研究:多维标度、主成分分析等等。,