中英文新闻网页关键词抽取技术研究.doc-道客多多

资源描述

1、计算机应用技术专业毕业论文精品论文中英文新闻网页关键词抽取技术研究关键词：新闻网页关键词抽取中英文新闻词汇链歧义消解摘要：信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种

2、不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法 KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法 KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于

3、每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问

4、题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。正文内容信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关

5、键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词

6、的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的

7、语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从

8、这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基

9、于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相

10、关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关

11、键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法

12、KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特

13、征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效

14、率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分

15、析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大

16、限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息

17、变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下

18、： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来

19、消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的

20、飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本

21、文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各

22、个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相

23、关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键

24、词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判

25、别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链

26、与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了

27、一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于

28、每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问

29、题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动

30、抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中

31、实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似

32、度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。信息技术的飞速发展和互联网的普及使得网上信息呈现出几何级数的增长。检索和利用网络信息变得越来越困难。如何有效的对海量信息进行组织、压缩和检索，提高信息访问的效率成了一个越来越重要的课题。作为网络信息传播的重要载体，众多新闻网页没有关键词。对这些网页进行关键词抽取，将提高用户浏览的速度和信息的访问效率。从这点出发

33、，本文研究了自然语言处理和信息检索技术的一个重要领域-新闻网页的关键词自动抽取。在追踪了国内外研究现状，分析比较了各类关键词抽取算法的基础上，提出了一种不依赖语种、不依赖训练语料库的单文档的基于词汇链和词共现的新闻网页关键词抽取算法KEUD 和算法 KELCC。大量的随机新闻网页实验结果表明，本文提出的算法是有效的新闻网页关键词抽取算法。综上所述，本文的主要工作如下： (1)对新闻网页关键词抽取展开研究，从理论和实验两方面证明了基于语义分析的关键词抽取方法有着良好的应用前景。在对提出的基于词汇链的关键词抽取算法KEUD 实验验证的基础上，将词语相关性引入词语语义相似度分析中，提出了基于词汇链

34、与词共现的新闻网页关键词抽取算法 KELCC； (2)在抽取关键词的过程中实现了词语的歧义消解。在自然语言处理和信息检索技术中，语义结构的构造依赖于每个词语的词义。利用构建的词汇链表示文本语义结构就要求实现对多义词的词义判别。本文借助知识库和语境上下文提供的有效信息，在构建词汇链过程中将词语的各个词义纳入到整个语境下考查，通过判断多义词的词义与其周围上下文环境的关系来消除多义词的歧义； (3)每一种特征选择方法都要与具体的应用相结合才能最大限度发挥其性能。通过对比实验，本文从文章、词汇链和知识库中提出了大量有效特征，借助选取的特征从候选词集中选择出最终抽取的关键词； (4)引入词语的相关性以解

35、决未包含词语的抽取问题。提出的 KEUD 算法由于需要判断词语间的语义相似度，而语义相似度的计算需要知识库的支持。因此不能很好的处理未包含词的抽取问题。为了解决该问题，本文在该算法的基础上加入了词共现模型，提出了基于词汇链与词共现的新闻网页关键词抽取算法 KELCC。该算法从词语的语义相似性与相关性两个角度考虑文中词语的重要度，提高了对未包含词语的抽取能力。特别提醒：正文内容由 PDF 文件转码生成，如您电脑未有相应转换码，则无法显示正文内容，请您下载相应软件，下载地址为 http:/ 。如还不能显示，可以联系我 q q 1627550258 ，提供原格式文档。“垐垯櫃换烫梯葺铑?ends

36、treamendobj2x 滌?U 閩 AZ箾 FTP 鈦X 飼?狛P? 燚?琯嫼 b?袍*甒?颙嫯?4)=r 宵?i?j 彺帖 B3 锝檡骹笪 yLrQ#?0 鯖 l 壛枒l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛渓?擗#?“?# 綫 G 刿#K 芿$?7. 耟?Wa 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 皗 E|?pDb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$F?責鯻 0 橔 C,f 薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵秾腵薍秾腵%?秾腵薍秾腵薍秾腵薍

展开阅读全文