收藏 分享(赏)

基于模糊关联规则的中文文本分类.doc

上传人:weiwoduzun 文档编号:1886021 上传时间:2018-08-28 格式:DOC 页数:54 大小:1.20MB
下载 相关 举报
基于模糊关联规则的中文文本分类.doc_第1页
第1页 / 共54页
基于模糊关联规则的中文文本分类.doc_第2页
第2页 / 共54页
基于模糊关联规则的中文文本分类.doc_第3页
第3页 / 共54页
基于模糊关联规则的中文文本分类.doc_第4页
第4页 / 共54页
基于模糊关联规则的中文文本分类.doc_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、河北大学硕士学位论文基于模糊关联规则的中文文本分类姓名:郭玉琴申请学位级别:硕士专业:计算机应用技术指导教师:袁方20070601摘要摘要随着的迅猛发展和同益普及,电子文本的数量急 剧增加,如何有效地组织和管理海量电子文本,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较 大程度上解决信息杂乱的问题,方便用户准确地定位所需要的信息。同时,作为信息 过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分 类有着广泛的应用前景。本文给出一种基于模糊关联规则的自动文本分类方法。该方法汲取了传

2、统的关联规则分类算法的优点,并引入了模糊集理论。与一般分类规则相比,模糊关联规则中不仅包含词条,而且包含了词条在文本中出现的频率。通过词频末区别词条对文本分类的不同作用,可以更为精确地限定与文本相匹配的规则的范围。实验结果表明该方法是可行的,与传统分类方法相比,分 类的准确率有了明显提高。由于模糊关联规则比一般规则复杂,致使构建模糊文本分类器和应用其分类新文本的效率都有所降低,同时也增加了存储开销,为此我们又从以下几个方面对模糊文本分类器进行了深入研究和优化。首先,在挖掘模糊关联规则时,对于不同类别的文本集,不再采用统一的最小支持度阈值,而是根据文本集的特性,将给定的支持度阈值通过模糊函数转化

3、为适合该文本集的阂值,使用转化后的阈值对规则的生成过程加以限制,在一定程度上解决了阈值设置不当所带来的问题。其次,给出一种快速挖掘模糊关联规则的算法。 该算法对频繁项集和频繁项集()的生成采用了不同的处理方法, 规则的生成过程中只需要遍历数据库两次,大大提高了挖掘效率,且不需要保存候选项集, 节省了存储开销。最后, 针对通过遍历分类器分类新文本的方法效率低的问题,给出一种基于模糊分类规则树的文本分类方法。分类器中的规则以树的形式存储,由于 树型结构可以共享相同结点,节省了存储空间;在分类新文本时,由于不需要遍历没在新文本中出现的词条所引导的子树,大大减少了需要匹配的规则的数量,提高了分类效率。

4、实验表明,优化后的基于模糊关联规则的文本分类方法的整体性能得到了明显改善。关键词文本分类:关联规则;模糊集理论;:(),(),;河北大学学位论文独创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了致谢。作者签名:聋垒翌日期:年生月且同学位论文使用授权声明本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关

5、部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。学校可以公命论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。本学位论文属于、保密口,在年月同解密后适用本授权声明。、不保密日。(请在以上相应方格内打“)作者签名:导师签名:日期:翌!年月上日期:早年月生同第章绪论研究背景及意义第章绪论随着的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的文本集不断涌现,如何有效地 组织和管理这些资源,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学与技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱的问题,方便

6、用户准确地定位所需信息。因此,自动文本分类作为一项具有实用价值的关键技术,已得到了广泛关注,取得了很大进展。文本分类作为信息过滤、信息检索、文本数据 库、数字化图书馆等领域的技术基础,有着广阔的应用前景。()信息过滤网络的发展与普及大大方便了信息的获取,但庞大的信息量又给人们带来了困扰,无法快速得到所需的信息,同时还会带来一些干扰信息。信息过滤技术可以用来解决这些问题。通过信息过滤,既可以将干 扰信息滤掉,又可以将用户感兴趣的信息过滤出来,主动推送给用户,方便了用 户快速准确地获取信息。()信息检索把大量的文本信息按主题归类组织可以简化信息的检索。按照类别对文本进行检索或者对检索结果进行文本分

7、类,都可以提高检索的准确率。()文本数据库随着研究的深入,文本数据库的功能已经不再局限于存储、组织和查询文本信息,而是要提供多层次的服务,如文本挖掘等。文本分类技术不仅对文本数据库如何存储、组织文本具有重要的意义,而且也是文本挖掘的重要内容。()数字化图书馆图书馆的数字化管理是大势所趋,图书期刊全文数字化的比重正日益增大。对图书归类时,图书 管理员不可能对各个学科都非常了解,使用自动文本分类技术,可以帮助管理员对图书资料进行正确归类。河北大学学硕十学位论文问题描述文本分类是一个有指导的学习过程。它根据一个已经被标注的训练文本集合,找到文本特征和文本类别之间的关系模型,然后利用学习得到的这个关系

8、模型对新文本进行类别判断。一般来讲,文本分类过程包含五个步骤:()获取训练文本集训练文本集选择是否得当对文本分类器的性能有很大影响。一般而言,训练文本集应能代表分类系统所要处理的客观存在的各个文本类中的文本,而且训练文本集应是公认的经人工分类的语料库。()建立文本表示模型选用什么样的语言要素(即文本特征)和用怎样的数学形式组织这些语言要素来表征文本是文本分类中重要的技术问题。目前的文本分类方法和分类系统大多以词或词组作为表征文本语义的语言要素:表示模型主要有布尔模型和向量空间模型。()文本的特征选取语言是一个开放的系统,作为语言的一种书面物或电子化的文本也是开放的,它的大小、结构、包含的语言元

9、素和信息都是开放的,因此它的特征也是无限制的。文本分类系统应该选择尽可能少而准确且与文本主题密切相关的文本特征用于文本分类。()选择分类方法用什么方法建立从文本特征到文本类别的映射关系是文本分类的核心问题。常用的分类方法有贝叶斯()方法【,】、近邻()方法】、支持向量机方法【】及关联规则 方法, 】等。()性能评估模型对分类方法或分类系统的性能或者说分类结果进行评估是改进和完善分类方法或分类系统的前提。在文本分类中,使用什么 评价参数取决于具体的分类问题。单标注分类问题(一个测试文本只属于一个类)和多标注分类问题(一个测试文本可以属于多个类)所使用的评估参数是不一样的。目前使用比较多的分类性能

10、评估指标为准确率和召回率。第章绪论本文研究内容近年来,文本分类技术取得了很大进展,已提出多种文本分类方法,但 这些方法的性能都未达到人们满意的程度,有待于进一步提高,而且中文文本的自动分类技术远未达到成熟阶段,故文本分类仍然是一个主要的研究领域。本文主要讨论一种基于模糊关联规则的中文文本分类方法。关联规则挖掘就是从大量数据中挖掘出有价值的、可以描述数据项之间相互联系的有关知识。年,首次提出将关联规则挖掘与分类规则挖掘相集成的思想,设计出基于关 联规则的分类算法)引,但该方法仅根据与新事务相匹配的所有规则中置信度最高的一条规则确定新事务的类别,而忽略了其它规则的影响,分类精度较低。此后,陆续有人

11、针对算法的不足,提出各种改进算法,()算法【就是其中的一种。算法考虑了对分类有影响的多条规则,利用加权计算规则前件与后件的相关度,以确定用于对新事务进行分类的规则,但该方法计算过程非常复杂,且算法和算法都没有被应用于文本的分类。文献【】在算法的基础上,加入了 对文本的预处理操作,首次将基于关联规则的分类算法应用到中文文本分类领域,同时还提出一种预测新文本类别的有效方法。但该文本分类方法由于是在算法的基础上进行的改进,算法的一些不足之处仍然被保留了下来,并且该方法构建分类器的过程过于复杂,分类器中每增加一条规则都需要计算一遍当前错误率,预设类别 也需要重新确定。文献【根据规则的优先级决定规则的选

12、取,构建分类器的过程简单,但其采用平均置信度为新文本预测类别的方法存在不足。以上提到的几种分类方法还存在一个共同的缺陷:忽略了词条对文本分类的不同作用。我们知道,在各 类别中普遍存在的词条对分类的作用小,在某一类中出现的频率高而在其他类中出现的频率低的词条对分类的作用大。而上述几种分类方法得到的分类规则中只包含词条,至于词条在文本中出现的频率则没有考虑,这样就扩大了与文本相匹配的规则的范围。我 们将模糊集的概念引入规则中在一定程度上解决了此问题。构成分类器的模糊关联规则中不仅包含词条,而且包含词条在文本中出现的频率,使用这样的分类器可以更为准确地对文本进行分类。分类器的构建是一个逐步完善的过程

13、,最初的构建思路肯定不是尽善尽美的。模糊分类器的分类准确度虽然较一般的关联规则分类方法有所提高,但由于模糊分类关联规则比一般规则复杂,致使构建分类器的时间开销和空问开销都有所增加。此外,洞北大学:学硕十学位论文较低的分类效率也是用户无法接受的。为此,我 们又从以下几方面对分类器进行了深入研究和优化:()最小支持度阈值的确定在挖掘模糊关联规则时,对于不同类别的文本集,不再采用统一的最小支持度阈值,而是根据文本集的特性,将用户给定的支持度阈值通过模糊函数进行转化,使用转化后的阈值对规则的生成过程加以限制,在一定程度上解决了因阈值设置不当所带来的问题。()给出一种快速挖掘模糊关联规则的算法该算法采用

14、邻接表结构存储项集,并在其基础上使用冒泡法生成频繁项集。在生成频繁项集() 时,文本被表示成向量的形式, 频繁多项集的挖掘工作在这些文本向量上进行,避免了重复遍历数据库。 规则的生成过程中只需要遍历数据库两次,大大提高了挖掘效率,且不需要保存候选项集,节省了存储开销。()给出了基于模糊分 类规则树 的文本分类算法针对通过遍历分类器分类新文本的方法分类效率低的问题,给出了基于模糊分类规则树的文本分类算法。分 类器中的规则以 树的形式存储,由于 树型结构避免了重复结点的存储,节省了存储空间;在搜索规则树时,如果结点中存储的词条没在新文本中出现,则不需要再搜索该结点引导的子树,大大减少了需要与新文本

15、进行匹配的规则的数量,提高了分类效率。本文结构全文共分八章,文章结构及各章主要内容组织如下:第一章介绍了文本分类的基本概念、研究背景及意义,介绍了本文主要的研究工作,最后给出了本文的整体组织结构。第二章介绍了文本分类中的相关技术,对文本分类过程中的某些环节所用到的方法和技术进行了描述和总结,为后面章节的讨论作了技术上的准备。第三章通过对关联规则的简单介绍,引出模糊集理论,并对模糊集理论与关联规则的结合过程进行了描述,为后面章节的讨论作了概念上的准备。第四章给出一种基于模糊关联规则的文本分类方法。主要介绍了模糊文本分类器的构建过程及其在新文本分类过程中的应用,并通过实验与传统的分类方法进行了比较

16、,验证了该方法的有效性。第章绪论第五章指出不同类别的文本集采用统一的最小支持度阂值存在的弊端,介绍了通过模糊函数将用户给出的支持度阈值转化为适合文本集特性的阈值的过程。第六章给出一种快速挖掘模糊关联规则的算法。详细介绍了该算法的流程,通过实验验证了其有效性,并从空间方面分析了其可行性。第七章介绍了基于模糊分类规则树的文本分类方法。主要介绍了的结构、构建过程及通 过遍历分类新文本的算法。第八章总结了本文的研究工作,并对今后的研究做出了展望。本章小节本章首先介绍了文本分类的研究背景和研究意义,指出了文本分类在信息科学与技术领域的重要作用及其广阔的应用前景。之后对文本分类的基本概念进行了描述,介绍了

17、文本分类过程包含的五个基本步骤。通过对已有的分类算法的优缺点进行分析,引出本文的主要研究工作。本章最后给出了全文的组织结构。河北人学工学硕十学位论文系统任务第章文本分类中的相关技术简单地说,文本分 类系统的任务就是:在给定的分类体系下,根据文本的内容自动确定文本的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一对一的映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联。用数学公式表示如下:,其中,为待分类的文本集合,为分类系统中的 类别集合。文本分类的映射过程是根据映射规则完成的。映射规则是系统根据已经掌握的每类样本的数据信息,

18、通过总结分类的规律性而建立的判别规则。在遇到新文本时,根据总结出的判别规则,确定新文本的类别。文本表示人类在阅读文章后,能够根据自身的理解能力和已经掌握的知识对文章内容产生总体的认识,但计算机并不具有人类这样的智能,因而它也就不能轻易地“读懂”文章。因此文本自动分类的基本问题是如何将文本按照计算机可以“理解”的方式进行有效的表示,从而在这个表示的基础上进行分类。向量空问模型 】是目前常用的文本表示模型。向量空间模型的基本思想是以文本的特征向量,来表示文本,其中为 第个特征项的权重。因此,基于向量空间模型的文本分类方法中,第一步就是如何从文本中提取出反映文本类别的有效特征。一般可以选择字、词或词

19、组作为文本的特征,但由于词是信息表示和处理的基本单位,故选取词作为特征项要优于字和词组。在向量空间模型中,文本集合是用词文本形成的矩阵表示的,矩阵中的每一项表示一个词在某个文本中出现的情况:()()这里廿表示词在文本中的权重,因为词不是均匀分布在各个文本中的,所以通常为稀疏矩阵。令厶表示词在文本中出现的频率,为文本集合中文本的数目,刀,为词在第章文本分类中的相关技术文本集合中出现的总次数,下面介绍几种计算权重的方法。()钿尔权重这是最简单的一种方法:如果词在文本中出现,其权重就为,否则为:拈羔三三 亿,()词频权重该方法直接使用词频作为权重:廿()()权重以上两种方法都没有考虑词在文本集合中出

20、现的频率。权重】对此进行了改进:口睹:厶毒。(型)()()权重权重没有考虑到集合中文本长度的问题 ,权重将长度归一化因子作为计算词权重的因素:口止厶木。(型)胛,()()权重权重【与权重方法稍有不同,它不是简单的采用词频,而是使用了词频的对数,减小了因词频的差异所造成的影响:。(厶)枣。(盟)玎 ()()熵权重熵权重基于信息理论,被认为是最经典的权重衡量方法,词在文本中的权重按如下公式计算:河北人学:学硕十学位论文特征抽取一,。(,击善和和亿,通常情况下,构成文本的词汇数量是相当大的, 这样表示文本的向量空间的维数也会非常大,因此需要进行维数压缩的工作。 这样做的目的主要有两个:第一,提高分类

21、效率;第二,提高分类精度。不同 词汇对文本分类的意义是不同的:通用的、在各个类别中都普遍存在的词汇对分类的贡献小;在某一类中出现的比重大而在其他类中出现的比重小的词汇对文本分类的贡献大。因此,我们应去除那些对分类贡献小的词汇,筛选出每一 类文本的特征项集合。下面 简单介绍几种提取特征词的方法。()文本频度阈值这是最简单的特征提取方法,包含某词条的文本的数目被定义为该词条的文本频度。给定一文本 频度阂值,去掉文本 频度小于该阈值的词条,剩余词条即为特征词。()互信息互信息【】衡量的是 词和 类别之间的统计独立关系,考虑词,和类别,互信息定义如下:一。嚣舞 ()式中(八)表示,和同时出现的概率:(

22、,)为,出现 的概率;()为出现的概率。()信息增益信息增益【需要已知某个 词在文本中是否出现及出现 的情况。假 设。为已知的个类别, 对每个词,通 过以下公式求出其佑值:()一()(,)尸()尸(,)(,)尸()尸(一)()()式中()表示类文本占文本 总数的比重;()表示包含词,的文本占文本总数的比重;第章文本分类中的相关技术(,)表示,类中包含词的文本占,类文本总数的比重;(,)表示,类中不包含词的文本占, 类文本总数的比重。通过计算得到每个词的,值,再选取适当的阂值,只保留佑值大于此阈值的词作为向量空间的特征项,即可达到降维的目的。文本分类的流程在文本分类过程中,首先将文本表示成以某种

23、形式的元素(通常用词)表示的向量,然后按照某种方法进行特征提取,并用 权值对提取的特征元素进行描述,这样就可以对元素一权值表示的文本向量进行训练,得到向量模型(即分类器)。在对新文本进行分类时,同样要将待分类的文本表示成元素一权值文本向量,然后将其与训练得到的向量模型进行比较,最终判断其类别。 图 给出了文本分类的流程。评价方法图文本分类流程如何评价文本分类系统的性能是文本分类中的一项重要内容。分类性能评估指标是指在测试过程中所使用的一些用来评价分类器分类准确度的量化标准。通常采用以下几个标准从不同的方面来评价一个分类器【。()第,类的准确率(尸)准确率()是指所有输入文本分类系统(即分类器)

24、进行分类处理的文本中与专家分类结果完全吻合的文本所占的比率。准确率越高表明分类器在该类上出错的概率越小。,(),为第,类分类正确的文本数;河北人学:学硕十学位论文,为分 类系统实际 分类为,的文本数。()第类的召回率(,)召回率()是指分类 器在一个类别中做出的正确分类与该类实际包含的文本数目的百分比。召回率越高表明分类器在该类上可能漏掉的分类越少。尺,上,()三,为第类 文本中分类正确的文本数;,为专家分类为,的文本的数目。()第,类的,值,也称为综合分 类率,它综合了准确率和召回率,将二者赋予同样的重要性来考虑。( ,)(,)()()宏平均准确率伽肛寺喜()宏平均召回率尬蒯去喜,()宏平均

25、值用于评价分类器的整体表现。刀为专家分类的总数()行为专家分类的总数()()()()本章小结这一章主要对文本分类中的一些相关技术进行了总结。从整体上介绍了文本分类系统的任务,简单描述了文本分类的流程,并 对文本表示、特征抽取和性能评价几个关键环节常用的技术进行了介绍,为后面的章节做了技术上的准备。第章关联规则,关联规则第章关联规则关联规则起源于发现事务数据库中不同商品(项)之问的联系限, 这些规则描述了顾客的购买行为模式,可以应用于商品陈列设计、营销计划、 货存安排以及根据购买模式对用户进行分类等领域。基本概念定义设,)为数据项集合,为与任务相关的数据集合,即事务数据库,中的每个事务是一个数据

26、项子集,即;每个事 务均包含一个识别编号。设为一个数据项集合,当且仅当 时,称事务包含。关联规则就是具有“”形式的蕴含式,其中,且西。规则的支持度定义为在事务数据库中和同时出现的概率, 规则的置信度定义为在出现的事务中出现的概率 【。满足最小支持度 阈值(简写为)和最小置信度 阈值(简写为)的关联规则 称为强关联规则。一个数据项的集合称为项集(),一个包含个数据项的项集称为项集。项集的支持度就是事务数据库中包含该项集的事务占事务总数的比重,支持度大于最小支持度阈值的项集称为频繁项集【】。挖掘任务关联规则挖掘的任务是:给定一事务数据库,找出中所有的强关联规则。关联规则的挖掘可以划分为以下两个子问

27、题【】:()根据最小支持度阈值找出数据库中的所有 频繁项集;()根据所获得的频繁项集和最小置信度阈值产生强关联规则。第一个子问题即如何迅速高效地找出数据库中的所有频繁项集是关联规则挖掘的中心问题,是衡量关 联规则挖掘算法的标准;第二个问题则比较容易。目前几乎所有的关联规则挖掘算法都是针对第一个子问题提出的。挖掘步骤等人提出关联规则的挖掘问题并给出最原始的解决算法之后,河北大学:学硕十学位论文该问题得到了国际人工智能和数据库等领域专家学者的密切关注,相继提出了多种关联规则挖掘算法。所有的挖掘算法不论采用什么数据结构,其复杂程度、效率如何,都可以分为如下几个步骤:()处理与挖掘任 务相关的数据。根

28、据具体问题对数据库进行相应的操作,从而构成规格化的数据库。()针对,求出所有 满足最小支持度 阈值的项集,即频繁项集。由于一般情况下面对的数据库都比较大,所以这一步骤是算法的核心。()生成满足最小置信度阈值的规则,形成 规则 集。()解释并输出。模糊关联规则客观世界的多样性、复杂性和人类认知规律的有限性,导致许多事情不能用精确的概念表示出来,例如人的高、矮、胖、瘦、年轻、年老等。这些不能用确定的概念描述出来的事物就是模糊()事物。人们不可避免的要处理大量的模糊现象,而传统的方法和已有的工具面对模糊事物又显得十分不足,以致精确性与模糊性的对立越发突出,。模糊集理论的提出集合论是德国数学家于年创立

29、的,它的重要思想之一就是概括原则。概括原则 是指任给一个性质,便能把所有满足性质的对象,也仅由具有性质的对象汇集在一起构成一个集合。要求 组成集合的 对象是确定的、彼此有区别的,实际 上是要求用于构成集合的性质必须界限分明,即任何对象要么具有性质,要么不具有性质,这样逻辑上可以用“是”与“非”表示事物是否属于某个特定的集合。如果把“是”记为, “非”记为,逻辑值只能为、 这两个值。但众所周知,客观世界到处存在模糊现象, 仅用这两个值是远远不够的,必 须在和之间采用其他中间状态的逻辑值来表示不同的属于程度。基于上述情况,年,首先提出了模糊集合【】的概念,用隶属函数来刻画对象对集合属于程度的连续的

30、过渡性,即元素从属于集合到不属于集合的渐变过程。将经典的集合二 值逻辑,)推广,】区间内的连续值逻辑,从而诞生了模糊集合论,提供了对模糊现象进行定量描述和分析运算的方法。第章关联规则模糊理论与关联规则的结合关联规则挖掘的一个典型应用就是市场购物分析,根据被放到一个购物篮中的商品可以发现不同商品之间所存在的关联知识,从而帮助商家分析顾客的购买习惯。但是数据库中的记录所包含的信息除了项目名称以外,往往还有与项目相关的数值信息,如一个顾 客的购买记录通常包含他所购买商品的名称、数量和单价等。目前的关联规则挖掘只考虑了记录中的类别信息,忽略了与这些信息相关的数值信息,而实际上,人们可以利用这些数值信息

31、对规则做进一步的挖掘。此外,现实中的数据集,有很大一部分不是布尔型或类别型数据,它们的属性也许是连续型的或数值更广泛的离散型的数据。对于挖掘数值型属性的关联规则,常用的方法是将连续数据离散化,从而把数值属性的关联规则问题转换成布尔型关联规则问题】。传统的转换方法有两种:一种是将属性的定义域划分成离散的、互不重叠的区间,属性中的元素分别映射到各自的区间上。但这种划分会将区间附近的一些潜在元素排斥在外,导致一些有意义的区间被忽略:另一种方法是将定义域划分为重叠的区域,边界附近的元素同时处于两个区间。但由于这些元素同时对两个区间起作用,就可能造成过分强调它们,以致某些区问的意义也被过分强调了。针对这

32、两种硬划分存在的问题,提出了一种软划分方法:模糊化方法引。属性的定义域被划分为多个模糊集,集合元素与非集合元素之间可平滑过渡。这种方法充分考虑了区间边界附近元素的潜在意义,同时由于这些元素的隶属度小于区间内元素的隶属度,也不会造成过分强调,很好地解决了传统方法存在的问题【】。对于模糊集中的元素,其隶属度通常用,】区的实数表示,以描述它隶属于模糊集的程度。但是用【,】之间的一个精确数来客观地描述对象的隶属度其实是很困难的。若采用统计的方法来确定隶属度,成本往往高得不能接受,或者根本不可能。于是在现实生活中常用一些语义较含糊的语言来描述隶属度,例如“可能性很小”、“有可能”、“很可能 ”等自然术语

33、。 这样,挖掘数 值型属性的关联规则问题就转换成模糊关联规则的挖掘问题。相关定义假定(瓦,)为事务数据库,其中一为的第条记录。设(“,)为属性集,属性的定义域被划分为多个模糊集爿,),“表示的第个模糊集,可将属性集表示为模糊集的形式,(,),。为某个属性对应的模糊集。第河北大学:学硕十学位论文条记录在。上的隶属度用(儿)表示。定义设彳(,蚱)、(,。)都是,的子集,。假定模糊关联规则的形式为“,则模糊属性集的支持度定义为()丢 ”() 刀模糊关联规则】,的支持度定义为:模糊关联规则的置信度定 义为:刀厂墅。 ()本章小结()()本章首先介绍了关联规则的基本概念,关联规则挖掘的基本任务,以及关联

34、规则挖掘算法的一般步骤。之后由关联规则过渡到模糊关联规则,介绍了模糊集合论的产生及模糊理论与关联规则的结合过程。本章最后还对模糊关联规则的一些相关定义进行了简单介绍。这一章主要为后面的章节做概念上的准备。丁蜮疗严第章模糊文本分类器的构建相关工作第章模糊文本分类器的构建在介绍了与文本分类相关的技术和概念之后,这一章开始本文的重点内容:模糊文本分类器的构建,即如何得到用于分类的模糊关联规则,以及如何将其应用于新文本的分类。我们给出的基于模糊关联规则的文本分类方法主要是在文献【 】提出的关联规则分类算法的基础上进行的改进。这一节主要对文献的分类算法进行介绍,下一节再介绍我们在其基础上所做的改进。文献

35、分类器的构建过 程可概括为以下四步:()数据预处理主要对训练集中的数据进行清洗,可根据无用词列表和值去掉对构建分类器无用的词条。基于规则的文本分类算法要求将文本转化为事务的形式,一个文本对应一个事务,事务出经过清沈后文本中剩余的词条和文本所属类的类别标识组成。()规则挖掘在挖掘规则之前,要求首先将文本按其所属的类别分类,一个类别对应一个文本子集,分别在每个文本子集上挖掘关联规则。待所有规则生成后,针对整个规则集计算出每条规则的置信度,再根据最小置信度阈值即可得到强关联规则,也就是我们所要得到的规则。挖掘过程中还规定,分 类规则中包含的词条数目不得小于。挖掘算法如下:算法:算法算法输入:文本集,

36、文本形式为:,其中 为文本类别,为特征词;最小支持度阈值:最小置信度阈值。算法输出:形式为的规则。算法步骤:()生成候选项集和 频 繁 项集;()(;毋;)()取中的两项进行连接操作,生成;()删除中()项了集不属于的项;()删除不包含中任何项的文本;减少需要遍历的文本的数量河北人学:学硕十学位论文()计算中每项的支持度,根据,得到频繁项集;)()()中的项只保留所含词条数目大于的 规则()生成规则;步骤()生成候 选项集的 连接操作可描述为【】:设 ,),、(,)是其中的两个元素;设,;【】),其中( )是项集;中的第 项。中的两个元素是可连接的当且仅当这两个元素的前一个元素相同,即当(;【

37、】耻】)()(:】)(:】)(【与【)时,:】, 【 】,】,),:!。 步骤()的删除操作可描述为【 】:设 ,即是一个候 选项集,是的一个()项子集。由性 质频繁项集的所有非空子集必定是频繁的可知,任何非频繁的()项集不可能是频繁项集的子集。即若叠,则仨,故候选项集应该从候选项集的集合中 删除。()规则修剪在规则生成阶段得到了大量的规则,规则数量庞大对分类的准确率和效率都会产生影响【】:规则中包含的噪声信息和冗余信息可能误导分类过程;此外,规则数量过多也会增加分类新文本的时间。为此需要对生成的规则进行修剪。规则修剪的标准是:删除包含词条多且置信度低的规则;删除不能正确分类任何训练文本的规则

38、。定义给定规则和,如果两条规则满足下列三个条件之一,则称比优先级高【】。)比的置信度高;)和的置信度相同,但比的支持度高;)、的置信度和支持度都相同,但包含的词条数小于。算法:规则修剪算法算法输入:训练文本集和在规则挖掘阶段得到的规则集算法输出:分类器算法步骤:()将规则集中的 规则按定 义排序;()排序后的中的规则()中优先级高于的规则()和类别相同中的词条数日大于的置信度小于第章模糊文本分类器的构建()()()()()()删除:经过删除操作后的规则集中的每条);!则中的每个文木能正确分类保留并删除;删除不能正确分类任何文本的);!则:表分类器的形式农业。农业生产农业计算机,输入计算机艺术,

39、主体,创造文化 艺术()文本分类经过修剪后剩下的规则构成了最终的分类器,分类器中规则的形式如表所示。给定一未知类别的文本,用分类器对新文本进行分类就是将待分类文本中的词条依次与分类器中的每条规则所包含的词条进行匹配。如果一条规则中的所有词条都在新文本中出现,则认为该规则与新文本相匹配。通常情况下,会有多条规则与新文本相匹配,如果这些规则的后件对应同一类别标识,毫无疑 问, 该文本就属于这个类别,但更多情况是这些规则的后件对应着不同的类别标识,这时就需要判断将文本归为哪个类别更为合适。这罩采用平均置信度进行判断。算法:文本分类算法算法输入:新文木;分类器(中的规则已按优先级排序);置信度阈值。算

40、法输出:新文本的类别。算法步骤:()规则集初始化 为西;()中的每条规则()满足()为满足的第一条 规则第条妣 则的置信度最高()将及其置信皮保存在中,同时将其置信度存入中;()一()将及其置信度保存在中:()将按规则的后件分类, 计算每个规则了集的平均置信度;河北大学丁学硕十学位论文()将甲均置信度最大的规则 予集对应的类别分配给:模糊分类器的构建文本预处理与文献】不同,我 们要构建的是中文文本分 类 器。 对于中文文本,首先要进行分词处理,将文本切分为词的集合。对于切分后的词条,同样要进行清洗,可根据无用词库去除对构建分类器无用的词条。然后对于每一类别的文本,我们采用了信息增益的方法提取其

41、特征词。对于每个特证词,再通 过熵权重法计算其权重,用以表示词条在文本中出现的频率, 这样就完成了将文本转化为事务的操作。权重模糊化文本经过预处理,转化后的事务记录中的词条由词,权重对表示, 权重是具体的实数,如果在这些具体实数上挖掘关联规则,得到的规则会过于特殊而没有意义【。第章介绍了数 值属性的几种 处理方法, 这里我们采用了第三种方法:用模糊集来定义权重,并使用自然语言进行描述。我 们将权重划分为三个模糊集,并定义了三个语言术语:(词条出现频繁)、(出现频率中等)和(出现不频繁),分别对这三个模糊集进行描述。权重划分方式如图所示, 这是根据实验中计算所得权重的分配比例定义的。根据 图可计算出每个词条对应三个模糊集的隶属度,这样就将原事务记录转化为了模糊事务记录。图权重的模糊划分模糊关联规则挖掘使用改进的(

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报