基于web挖掘的中文本体学习研究.doc-道客多多

资源描述

1、计算机应用技术专业优秀论文基于 Web 挖掘的中文本体学习研究关键词：本体学习句法分析 Web 挖掘知识管理人工智能文本挖掘语义网摘要：本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本

2、体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这

3、些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用

4、Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。正文内容本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体

5、的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了

6、解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文

7、的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料

8、的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变

9、的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自

10、动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务

11、是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间

12、的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是

13、目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词

14、典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于

15、 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和

16、CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当

17、前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获

18、取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来

19、抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以

20、手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具

21、，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现

22、有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管

23、理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基

24、础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或

25、多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内

26、部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含

27、非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本

28、体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范

29、畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；

30、最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时

31、的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档

32、中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入

33、浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。

34、目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要

35、自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用

36、知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过

37、滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可以对抽取出的关系进行度量。本体在计算机应用如知识管理及语义网中正发挥着越来越重要的作用，而对领域本体的建立和维护成为制约这些应用发展的瓶颈。目前只有很少手工构建的本体如 WordNet 和 CyC，但是一方面用手工方式构建本体需要耗费大量的人力和时间，另一方面，这些通用本体只包含非常少的领域概念。同时，由于本体中俘获的知识是流变的，它总是在不断地发展和更新。为避免本体

38、成为过期的无用信息，这就意味着本体不能像字典一样以手工方式构造，否则它的发布之日就已过时。而且建造完成后，本体的维护对知识管理者来说也是费时的工作。如何以自动或者半自动的方式获取和演化本体是目前在人工智能、文本挖掘、信息搜索等多个领域的重要研究课题。同时，由于本体是未来语义网的基础，本体的快速构建对其发展和应用具有重要意义。为了解决本体工程中“知识瓶颈”问题，我们需要自动化或半自动化工具来构建本体。本体学习技术是当前的一个热点，其目的旨在开发能够实现本体自动构建的机器学习技术来协助知识工程师构建本体，本体学习任务主要包括本体所包含的各个元素的自动或半自动获取，例如概念学习以及概念之间的关系学

39、习等。目前，国外已经出现了许多半自动的本体构建工具，如 OntoLearn，Text-To-Onto 等，这些工具虽然支持了从不同结构化文档中半自动化地提取本体，但是存在了不同程度的对通用词典或核心本体的依赖性，在国内，对于从中文文档中进行本体学习的研究还相对薄弱，已有的研究也或多或少存在着上述问题。同时，目前还没有一个支持中文的本体学习工具；本研究的主要目标是，采用知识获取及句法分析技术从中文 web 文档中自动获取领域术语及关系，降低了本体构建的开销。经过系统所获取的本体目标不仅仅局限于逻辑学的学术范畴，语义描述要能够为计算机方便利用。因此，它的任务是把共同约定、共同享用的知识(词语的语义

40、规范)，用计算机容易处理的形式表达出来。针对以上现有方法的不足，本文在词频分析和语法分析的基础上，充分利用 Web 页面半结构化的特点，加入浅层语义分析；同时，本文不依赖于领域词典，采用基于 ICTCLAS 对文档进行初步的分词和词性标注，利用互信息统计模型计算待识别中文字串的内部结合强度，进行候选术语的抽取，利用大规模领域语料的领域一致性过滤原则对领域本体概念进行过滤选择，充分利用了自然语言处理和统计相结合的方法来抽取本体中的概念；以上方法一方面保持算法简单，同时又极大地提高本体概念抽取的速度和准确性；最后，本文用基于规则和句法分析的方法来抽取概念之间的关系，提高了概念关系抽取的准确性，并可

41、以对抽取出的关系进行度量。特别提醒：正文内容由 PDF 文件转码生成，如您电脑未有相应转换码，则无法显示正文内容，请您下载相应软件，下载地址为 http:/ 。如还不能显示，可以联系我 q q 1627550258 ，提供原格式文档。我们还可提供代笔服务，价格优惠，服务周到，包您通过。“垐垯櫃换烫梯葺铑?endstreamendobj2x 滌甸?*U 躆跦?l, 墀 VGi?o 嫅#4K 錶 c#x 刔彟 2Z 皙笜?D 剧珞 H 鏋 Kx 時 k,褝仆? 稀?i 攸闥-) 荮vJ 釔絓|?殢 D 蘰厣?籶(柶胊?07 姻Rl 遜 ee 醳 B?苒?甊袝 t 弟l?%G 趓毘 N 蒖與

42、叚繜羇坯嵎憛?U?Xd* 蛥?-.臟兄+鮶 m4嵸/E 厤U 閄 r塎偨匰忓tQL 綹 eb?抔搉 ok 怊 J?l?庮蔘?唍*舶裤爞 K 誵Xr 蛈翏磾寚缳 nE 駔殞梕壦 e 櫫蹴友搇6 碪近躍邀 8 顪?zFi?U 钮嬧撯暼坻7/?W?3RQ 碚螅 T 憚磴炬 B- 垥 n 國 0fw 丮“eI?a揦(?7 鳁?H?弋睟栴?霽 N 濎嬄! 盯鼴蝔 4sxr?溣?檝皞咃 hi#?攊(?v 擗谂馿鏤刊 x 偨棆鯍抰Lyy|y 箲丽膈淢 m7 汍衂法瀶?鴫 C?Q 貖澔?wC(?9m.Ek?腅僼碓靔奲?D| 疑維 d袣箈 Q| 榉慓採紤婏(鞄-h-蜪7I冑?匨+蘮.-懸 6 鶚?蚧?铒鷈?叛牪?蹾 rR?*t? 檸?籕

展开阅读全文