ImageVerifierCode 换一换
格式:DOC , 页数:9 ,大小:106.50KB ,
资源ID:5513411      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-5513411.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于Citation-KNN的语义隐含主题词自动抽取方法.doc)为本站会员(涵涵文库)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

基于Citation-KNN的语义隐含主题词自动抽取方法.doc

1、Proceeding of 9th Chinese Lexical Semantics Workshop (CLSW2008)基于 Citation-KNN的语义隐含主题词自动抽取方法 1章成志 1,2 刘耀 1 王惠临 11. 中国科学技术信息研究所, 北京, 1000382. 南京理工大学信息管理系, 南京, 210094zhangchz, liuy, 摘 要:现有的关键词抽取技术仅仅是抽取出现在正文中的词汇,不能够抽取语义上隐含的主题。语义隐含主题的抽取是文本挖掘技术的难点。众所周知,KNN 方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现。本文以 KNN算法为基础,提出基

2、于 Citation-KNN的语义隐含主题词自动抽取方法。实验结果表明该方法在进行语义隐含主题词抽取任务上的有效性。关键词: 关键词抽取;隐含语义主题词; Citation-KNN;文本挖掘1 引 言关键词是最能反映文章主题或内容的词汇,是为了满足文献标引或检索工作的需要而从文章中萃取出的、表示全文主题内容信息条目的单词、词组或术语。在文献情报领域,关键词抽取是一项困难的任务。首先,关键词抽取是一项需要高度概括、分析和创造的活动,需要标引人员具有较高的专业知识和标引经验。其次,为了准确描述文本内容,标引人员通常会创造一些由多个词按照一定规则连接起来的组合词组。这些组合词在文本中可能很少出现,甚

3、至不出现。另外,由于经验和知识背景不同,在标引同一篇文本时,不同的标引人员会给出不同的关键词集合。这突出反映在作者给出的关键词与专业标引人员给出的关键词通常存在很大差异。1 本研究受“十一五”国家科技支撑计划重点项目(2006BAH03B02)、教育部人文社科项目(06JC870001)、南京理工大学青年科研扶持基金项目(JGQN0701)、南京理工大学科研启动基金项目(AB41123)资助。章成志 刘耀 王惠临 关键词自动抽取能够解决上面的第三个问题,但对于前面两个问题所起的作用很小。这是因为目前用于自然语言处理的各种机器学习方法,还不能真正理解文本内容,只能通过大量的词或词组出现的频度、句

4、法规则等信息进行统计和学习。但是,在许多应用领域,基于大规模数据集上的机器学习方法,特别是基于统计的机器学习,通常比完全采用人工方法效果更好、更稳定,例如文本分类、OCR 识别、词义排歧、信息检索等。H. P. Luhn 在 20 世纪 50 年代末首先开展自动标引试验 (Luhn 1957, Luhn 1958) ,而在 1963 年,美国 Chemical Abstracts 从第 58 卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。纯粹的统计方法最早也最常被应用于关键词自动抽取 (Edmundson Implicit Semantic Subject; Citation-KNN; Text Mining

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报