1、Proceeding of 9th Chinese Lexical Semantics Workshop (CLSW2008)基于 Citation-KNN的语义隐含主题词自动抽取方法 1章成志 1,2 刘耀 1 王惠临 11. 中国科学技术信息研究所, 北京, 1000382. 南京理工大学信息管理系, 南京, 210094zhangchz, liuy, 摘 要:现有的关键词抽取技术仅仅是抽取出现在正文中的词汇,不能够抽取语义上隐含的主题。语义隐含主题的抽取是文本挖掘技术的难点。众所周知,KNN 方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文以 KNN算法为基础,提出基
2、于 Citation-KNN的语义隐含主题词自动抽取方法。实验结果表明该方法在进行语义隐含主题词抽取任务上的有效性。关键词: 关键词抽取;隐含语义主题词; Citation-KNN;文本挖掘1 引 言关键词是最能反映文章主题或内容的词汇,是为了满足文献标引或检索工作的需要而从文章中萃取出的、表示全文主题内容信息条目的单词、词组或术语。在文献情报领域,关键词抽取是一项困难的任务。首先,关键词抽取是一项需要高度概括、分析和创造的活动,需要标引人员具有较高的专业知识和标引经验。其次,为了准确描述文本内容,标引人员通常会创造一些由多个词按照一定规则连接起来的组合词组。这些组合词在文本中可能很少出现,甚
3、至不出现。另外,由于经验和知识背景不同,在标引同一篇文本时,不同的标引人员会给出不同的关键词集合。这突出反映在作者给出的关键词与专业标引人员给出的关键词通常存在很大差异。1 本研究受“十一五”国家科技支撑计划重点项目(2006BAH03B02)、教育部人文社科项目(06JC870001)、南京理工大学青年科研扶持基金项目(JGQN0701)、南京理工大学科研启动基金项目(AB41123)资助。章成志 刘耀 王惠临 关键词自动抽取能够解决上面的第三个问题,但对于前面两个问题所起的作用很小。这是因为目前用于自然语言处理的各种机器学习方法,还不能真正理解文本内容,只能通过大量的词或词组出现的频度、句
4、法规则等信息进行统计和学习。但是,在许多应用领域,基于大规模数据集上的机器学习方法,特别是基于统计的机器学习,通常比完全采用人工方法效果更好、更稳定,例如文本分类、OCR 识别、词义排歧、信息检索等。H. P. Luhn 在 20 世纪 50 年代末首先开展自动标引试验 (Luhn 1957, Luhn 1958) ,而在 1963 年,美国 Chemical Abstracts 从第 58 卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。纯粹的统计方法最早也最常被应用于关键词自动抽取 (Edmundson Implicit Semantic Subject; Citation-KNN; Text Mining