ImageVerifierCode 换一换
格式:DOC , 页数:28 ,大小:108KB ,
资源ID:1528814      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-1528814.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于web挖掘的中文本体学习研究.doc)为本站会员(cjc2202537)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

基于web挖掘的中文本体学习研究.doc

1、计算机应用技术专业优秀论文 基于 Web 挖掘的中文本体学习研究关键词:本体学习 句法分析 Web 挖掘 知识管理 人工智能 文本挖掘 语义网摘要:本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本

2、体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这

3、些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用

4、Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。正文内容本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体

5、的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了

6、解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文

7、的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料

8、的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变

9、的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自

10、动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务

11、是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间

12、的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是

13、目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词

14、典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于

15、 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和

16、CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当

17、前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获

18、取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来

19、抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以

20、手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具

21、,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现

22、有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管

23、理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基

24、础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或

25、多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内

26、部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含

27、非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本

28、体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范

29、畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;

30、最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时

31、的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档

32、中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入

33、浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。

34、目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要

35、自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用

36、知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过

37、滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用,而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC,但是一方面用手工方式构建本体需要耗费大量的人力和时间,另一方面,这些通用本体只包含非常少的领域概念。同时,由于本体中俘获的知识是流变的,它总是在不断地发展和更新。为避免本体

38、成为过期的无用信息,这就意味着本体不能像字典一样以手工方式构造,否则它的发布之日就已过时。而且建造完成后,本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时,由于本体是未来语义网的基础,本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题,我们需要自动化或半自动化工具来构建本体。 本体学习技术是当前的一个热点,其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体,本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,例如概念学习以及概念之间的关系学

39、习等。目前,国外已经出现了许多半自动的本体构建工具,如 OntoLearn,Text-To-Onto 等,这些工具虽然支持了从不同结构化文档中半自动化地提取本体,但是存在了不同程度的对通用词典或核心本体的依赖性,在国内,对于从中文文档中进行本体学习的研究还相对薄弱,已有的研究也或多或少存在着上述问题。同时,目前还没有一个支持中文的本体学习工具;本研究的主要目标是,采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系,降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴,语义描述要能够为计算机方便利用。因此,它的任务是把共同约定、共同享用的知识(词语的语义

40、规范),用计算机容易处理的形式表达出来。针对以上现有方法的不足,本文在词频分析和语法分析的基础上,充分利用 Web 页面半结构化的特点,加入浅层语义分析;同时,本文不依赖于领域词典,采用基于 ICTCLAS 对文档进行初步的分词和词性标注,利用互信息统计模型计算待识别中文字串的内部结合强度,进行候选术语的抽取,利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择,充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念;以上方法一方面保持算法简单,同时又极大地提高本体概念抽取的速度和准确性;最后,本文用基于规则和句法分析的方法来抽取概念之间的关系,提高了概念关系抽取的准确性,并可

41、以对抽取出的关系进行度量。特别提醒 :正文内容由 PDF 文件转码生成,如您电脑未有相应转换码,则无法显示正文内容,请您下载相应软件,下载地址为 http:/ 。如还不能显示,可以联系我 q q 1627550258 ,提供原格式文档。我们还可提供代笔服务,价格优惠,服务周到,包您通过。“垐垯櫃 换烫梯葺铑?endstreamendobj2x 滌甸?*U 躆 跦?l, 墀 VGi?o 嫅#4K 錶 c#x 刔 彟 2Z 皙笜?D 剧珞 H 鏋 Kx 時 k,褝仆? 稀?i 攸闥-) 荮vJ 釔絓|?殢 D 蘰厣?籶(柶胊?07 姻Rl 遜 ee 醳 B?苒?甊袝 t 弟l?%G 趓毘 N 蒖與

42、叚繜羇坯嵎憛?U?Xd* 蛥?-.臟兄+鮶 m4嵸/E 厤U 閄 r塎偨匰忓tQL 綹 eb?抔搉 ok 怊 J?l?庮 蔘?唍*舶裤爞 K 誵Xr 蛈翏磾寚缳 nE 駔殞梕 壦 e 櫫蹴友搇6 碪近躍邀 8 顪?zFi?U 钮 嬧撯暼坻7/?W?3RQ 碚螅 T 憚磴炬 B- 垥 n 國 0fw 丮“eI?a揦(?7 鳁?H?弋睟栴?霽 N 濎嬄! 盯 鼴蝔 4sxr?溣?檝皞咃 hi#?攊(?v 擗谂馿鏤刊 x 偨棆鯍抰Lyy|y 箲丽膈淢 m7 汍衂法瀶?鴫 C?Q 貖 澔?wC(?9m.Ek?腅僼碓 靔 奲?D| 疑維 d袣箈 Q| 榉慓採紤婏(鞄-h-蜪7I冑?匨+蘮.-懸 6 鶚?蚧?铒鷈?叛牪?蹾 rR?*t? 檸?籕

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报