收藏 分享(赏)

文本分类算法毕业论文.doc

上传人:微传9988 文档编号:2496941 上传时间:2018-09-18 格式:DOC 页数:69 大小:2.32MB
下载 相关 举报
文本分类算法毕业论文.doc_第1页
第1页 / 共69页
文本分类算法毕业论文.doc_第2页
第2页 / 共69页
文本分类算法毕业论文.doc_第3页
第3页 / 共69页
文本分类算法毕业论文.doc_第4页
第4页 / 共69页
文本分类算法毕业论文.doc_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、 文 本 分 类 算 法 毕 业 论 文学 院: 计算机科学与技术学院 专 业: 电子信息科学与技术 论文题目: 基于半监督的文本分类算法 2摘 要随着 Internet 的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这些信息进行组织整理既费时费力且效果不理想。文本分类作为处理和组织大量文本数据的关键技术,可以利用机器来对文本进行分析整理,使用户从繁琐的文档处理工作中解放出来,并能极大地提高了信息的利用率。文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。而作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技

2、术有着广泛的应用前景。本文首先介绍了文本分类的背景,文本分类所用的半监督算法及文本分类的几个关键技术。然后鉴于高分类精度需要大规模己标记训练集而已标记文档缺乏,利用未标识文档进行学习的半监督学习算法己成为文本分类的研究重点这一情况,着重研究了半监督分类算法。最后本文设计了一个文本分类原型系统,为保证分类的准确性,采用了不同的标准数据集进行测试,并评价了其分类的性能。通过以上实验表明,当有足够的己标识文档时,本算法与其它算法性能相当,但当已标识文档很少时,本算法优于现有的其它算法。关键词:文本分类;半监督学习;聚类;EM;KNNABSTRACTWith the emergence of Inte

3、rnet, a large number of text messages began to exist in the form of computer-readable, to the traditional manual way for organizations to collate the information is time-consuming effort and the result is not satisfactory. As the key technology in organizing and processing large mount of document da

4、ta, Text classification can use the machine to collate the text analysis, allowing users from the tedious work of document processing liberated and can greatly improve the utilization of information. Text classification is a supervised leaning task of assigning natural language text documents to one

5、 or more predefined categories or classes according to their contents. Moreover, text classification has the broad applied future as the technical basis of information filtering, information retrieval, search engine, text database, and digital library and so onThis thesis firstly introduces the back

6、ground of the text classification, text classification using semi-supervised algorithm and a few key technologies about text classification. Secondly considering the contradiction of deadly need for large labeled train-set to obtain high classification accuracy and the scarcity of labeled documents,

7、this thesis emphasizes on improvement of Semi-supervised classification algorithms, Finally we design a document classification system. In order to ensure the accuracy of classification, using a data set different standards for texting and evaluation of the performance of their classification. The e

8、xperiments above showed the superior performance of our method over existing methods when labeled data size is extremely small. When there is sufficient labeled data,our method is comparable to other existing algorithms. Keywords: text classification; semi-supervised leaning; clustering; EM; KNN4目 录

9、1 引言 11.1 课题背景 11.2 本文的内容组织 22 半监督学习 32.1 半监督学习的概念及意义 32.2 半监督学习的研究进展 42.3 半监督学习的方法 52.3.1 协同训练(Co-training) 52.3.2 自训练 62.3.3 半监督支持向量机(S3VMs) 72.3.4 基于图的方法(Graph-Based Methods) 82.4 本章小结 93 文本分类 103.1 文本分类的概念及意义 103.2 文本分类的国内外研究情况 103.3 文本分类的关键技术 113.3.1 文本特征生成 123.3.2 特征选择与降维 143.3.3 权重计算 163.3.4

10、文本分类技术 173.3.5 文本分类技术性能评价 223.4 本章小结 254 基于 EM 和 KNN 的半监督文本分类 274.1 引言 274.2 相关工作 274.2.1 聚类分析 274.2.2 EM 算法 304.2.3 KNN 算法 314.3 基于 EM 和 KNN 的半监督文本分类算法 314.3.1 问题描述 324.3.2 算法思想 324.3.3 基于 EM 算法的聚类分析 334.3.4 基于 Knn 算法的分类 354.3.5 算法步骤 364.4 算法效率分析 374.5 本章小结 385 实验与分析 395.1 实现 EM-KNN 算法 395.1.1 实验平台

11、 395.1.2 算法实现及流程图 395.2 实验结果与分析 435.3 小结 43总结 44参考文献 45翻译部分 48英文原文 48中文译文 54致 谢 61中国矿业大学 2009 届本科毕业设计(论文) 第 1 页1 引言1.1 课题背景随着信息技术的发展,互联网数据及资源呈现海量特征,而且,越来越多的信息以电子文本的形式存在。统计表明,目前网页的数量呈指数型增长,平均每年增加一倍。截至 2006 年,全球每年制造、复制出的数字信息量共计 1610 亿 GB,这大约是有史以来出版的图书信息总量的 300 万倍。为了有效地管理和利用这些分布式的海量信息,基于内容的信息检索和数据挖掘逐渐成

12、为备受关注的领域。其中,文本分类(TextClassification)技术是信息检索和文本挖掘的重要基础。文本分类在自然语言处理、信息组织与管理、内容信息过滤等领域都有着广泛的应用。因为文本分类可以极大地增强人们对海量信息的处理能力,早在上世纪中叶,有关文本分类的研究就已经开展起来。早在 1957 年,美国 IBM 公司的 HP Luhn 在自动分类领域最先进行了开创性的研究,提出了词频统计思想用于自动分类。1960 年,MEMaron 在 Journal of ACM 上发表了有关自动分类的第一篇文章On Relevance Probabilistic Indexing and Infor

13、mation Retrieva1 ,提出了自动关键词分类技术 ,正式宣告了自动分类技术的诞生。 1从 20 世纪 60 年代起步至 80 年代末,文本分类主要是以专家人工构建的知识工程技术为支撑,具有代表性的是卡内基集团为路透社开发的新闻自动分类系统(Construe System)。基于知识工程的分类系统具有较好的分类效果,但无法移植,需要大量领域专家的参与。从 20 世纪 9O 年代开始,随着机器学习技术的不断进步和发展,为自动文本分类器的出现奠定了基础 3。基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本

14、分类模式有较大的提高与进步。从预先经人工正确分类的训练文本集合中学习类别的特征信息,根据算法生成分类器。这种分类方法适应性强,方便移植,不需要行业专家的介入。从此以后,文本分类器处理海量信息的能力逐步受到 IT 业和广大用户的赏识,开始发挥越来越大的社会与经济效益。例如,虽然各种搜索引擎部分地解决了 Web 上的资源发现问题,但由于搜索引擎存在着信息相关度差、精确度不高等原因,效果远不能使人满意;同时,搜索引擎的目的在于发现 Web 上的资源,就 Web 上的2知识发现而言,即使检索精确度再高也无法胜任。为此,我们需要开发比搜索引擎信息检索技术更高层次的新技术。Web 文本挖掘技术包括 Web

15、 网页文本内容的挖掘及结构挖掘。Web 文本挖掘技术可以同搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。 13不可否认,上世纪 90 年代以来,文本分类技术取得了很大的进步,取得了值得称道的喜人成绩。随着时代的进步,互联网中分布传播的海量电子化文本数量呈几何级数增长,文本之间的关系也越来越复杂;同时,人们对分类效果评估指标(如查全率和查准率)的要求也越来越高,传统的机器学习技术已经呈现“老态” 。在机器学习领域,分类属于监督学习。绝大数的有监督的机器学习方法依赖于标注的训练样本集,忽略了未标注样本的作用,利用大规模的标注过的训练数据固然可以提高学习算法结果的准确

16、度,但是标记必须由人手工完成,这是一项费时费力的工作,己经不能适应 Internet 网上信息的增长速度。同时,网上存在大量容易获得的未标识数据资源,半监督学习算法就是利用这些未标注样本,在传统的机器学习方法中结合未标注样本进行学习的算法。无疑它将在一定程度上提高学习算法的性能。1.2 本文的内容组织本文首先介绍半监督和文本分类的一些相关知识,然后提出了一种基于 EM 和 KNN 的半监督文本分类算法,给出了算法的思想和步骤,并对其性能进行了测试分析。最后,给出了系统的实验和分析结果。全文共分五章,具体安排如下:第一章是引言,介绍本文研究背景;第二章是半监督学习,介绍关于半监督的一些相关知识;

17、第三章是文本分类,介绍文本分类的一些基本知识及文本分类的关键技术;第四章是基于EM 和 KNN 的半监督文本分类算法,提出了一种基于 EM 和 Knn 的半监督文本分类算法,并分析了算法运行的效率;第五章是实验与分析,首先用C 语言实现本文算法的过程,然后通过标准数据集的实验验证和分析了本文算法的有效性。总结部分对本文的工作进行了总结,并指出了进一步需要开展的工作。中国矿业大学 2009 届本科毕业设计(论文) 第 3 页2 半监督学习2.1 半监督学习的概念及意义半监督学习是相对于监督学习和无监督学习提出来的,其介于监督学习和无监督学习之间。监督学习通过具有标记的训练示例进行学习,以尽可能正

18、确地对训练集之外的示例标记进行预测。无监督学习通过对没有标记的训练示例进行学习,以发现训练示例中隐藏的结构性知识。所谓的“标记”是指示例所对应的输出,在分类问题中标记就是示例的类别,通常想要获得有标记的训练示例是很困难的,或者是费时耗力的,因为要标记它们需要使用人类的经验进行人工的干预。然而,未标记的数据能够很容易就被收集到,但却没有方法使用它们。半监督学习通过使用大量的未标记的数据,用以辅助标记的数据,建立更好的分类器。半监督学习除了提供给学习算法未标记的数据,还要提供给学习算法一些监督信息。 211半监督学习的基本设置是给定一个来自某未知分布的有标记示例集以及一个未标记示例集 ,12,LL

19、xyxy 12,Ux期望学得函数 可以准确地对示例 预测其标记 。这里:fXYxy均为 维向量, 为示例 的标记,| |和| |分别为 和 的,ijdiiLL大小,即它们所包含的示例数。半监督学习是模式识别和机器学习中的重要研究领域。近几年随着机器学习理论在数据分析和数据挖掘的实际问题,例如网页检索和文本分类,基于生物特征的身份识别,图像检索和视频检索,医学数据处理等问题中的广泛应用,半监督学习在理论和实际应用研究中都获得了长足的发展。半监督学习研究主要关注当训练数据的部分信息缺失的情况下,如何获得具有良好性能和推广能力的学习机器,这里的信息缺失涵盖数据的类别标签缺失或者存在噪声,数据的部分特

20、征维缺失等多种情况。半监督学习的理论研究对于我们深入理解机器学习中的许多重要理论问题,例如数据的流形与数据的类别信息的关系,缺失数据的合理处理,标注数据的有效利用,监督学习和非监督学习之间的联系,主动学习算法的设计等都有非常重要的指导意义。 1142.2 半监督学习的研究进展半监督学习(Semi-supervised Learning)是模式识别和机器学习中的重要研究领域。近几年随着机器学习理论在数据分析和数据挖掘的实际问题,例如网页检索和文本分类,基于生物特征的身份识别,图像检索和视频检索,医学数据处理等问题中的广泛应用,半监督学习在理论和实际应用研究中都获得了长足的发展。自 20 世纪八九

21、十年代以来国际机器学习界研究者在半监督学习研究领域展开了广泛深入的探讨和研究。其涵盖的范围非常广泛,例如半监督回归问题;利用标签和特征维都缺失的数据集进行学习;标签有噪声时的数据处理;利用少量正样本和大量未标注数据进行学习以及对于大量未标注数据中已知只存在少量正样本的情况下对于正样本进行检测;对各种监督学习算法进行修改,探讨如何融入非监督数据信息或者对于非监督学习算法进行修改,探讨监督数据信息的引入;利用有限混合模型对于数据的概率分布进行建模或者利用其他模型对于数据标签关于特征维的条件概率进行建模,利用 EM 算法学习模型参数的半监督学习的研究;引入合适的数学方法进行半监督学习,例如基于核矩阵

22、的谱的分析,高斯随机场的利用,利用图论中的方法来对于样本集进行聚类分析;半监督数据的流形分析等。研究者同时开展了将半监督学习和传统模式识别和机器学习中的一些问题相结合的研究,例如基于半监督学习的特征提取,半监督学习和集分类器的设计等。国际研究者同时开展了与半监督学习有着密切关联的一些相关研究,具有代表性的是利用半监督数据和数据的不同特征维子集在数据的不同视图上同时训练具有良好性能的学习机器。 2半监督学习研究正在继续从广度和深度上不断进行扩展,但是依然存在很多问题。一方面半监督学习的前提:聚类假设的数学分析依然不是十分完善,另一方面不同的监督和非监督算法的半监督修改版本依然存在相当多的问题,有

23、的因计算量太大受到问题规模的限制,有的是因为缺乏理论依据只是技术上的设计,有的是因为模型参数过多非常容易陷入局部极值等等。另外半监督学习中如何更加有效利用标注数据的标签信息和未标注数据的分布或者流形信息依然没有得到很好的解决。半监督学习实际应用的研究随着许多实际领域需要分析和利用半监督数据集广泛开展起来。第一个问题涉及到聚类假设的合理性。主要探讨的问题是在欧氏空间聚集程度比较高的地方,也就是 比较大的地方, 变化一定很Px/Pyx中国矿业大学 2009 届本科毕业设计(论文) 第 5 页平缓的假设的合理性。数据的标签信息可以调整样本之间的相似性度量,那么在特定的核空间讨论 和 的关系或者说在核

24、空间讨论Px/yx聚类假设会更加合理。显然 是与问题相关的,在实验中,可以设计/均匀的地方 变化比较大或者存在梯度的人工仿真数据集合,Px/yx这时如果利用聚类假设进行半监督学习应当在特定的核空间才能进行。分析如何利用监督数据信息设计合适的核空间以进行半监督学习,讨论和 的关系对于半监督学习机理中的聚类假设的分析有着x/yx很重要的理论研究意义。第二个问题是如何将监督信息中的等约束和不等约束(Side-information) 8引入更多的半监督学习算法。半监督学习的本质是在给出半监督学习模型以及优化目标后,对模型参数求解,其中监督信息就是这些约束。目前,已经有一些基于这些约束的算法,例如相关

25、成分分析(Relevant ComponentAnalysis) 9,这些方法在实际的分类问题中,获得了很好的性能。那么,如果有效利用各种类型的监督信息设计不同类型的半监督学习模型依然是开放性的问题。2.3 半监督学习的方法根据半监督学习算法的工作方式,可以大致将现有的很多半监督学习算法分为三大类。第一类算法以生成式模型为分类器;第二类算法是基于图正则化框架的半监督学习算法;第三类算法是协同训练算法。而主要的半监督算法有:EM 算法、S3VMs、自训练、协同训练、基于图的方法等。由于在后文中会对 EM 算法有详细介绍,故在此将不作介绍。2.3.1 协同训练(Co-training)Co-Tra

26、ining 方法 3通过把特征集分为两个独立部分并分别在各个特征空间下用己标记数据训练分类器,再用分类器来分类未标记数据,挑出最确定的正例和反例加到标记例子中,两个分类器针对增大的标记例子集合重新训练,该过程重复执行。以网页为例,网页本身存在两种特征,一种特征是出现在网页上的单词,6另一种特征是指向网页链接上的单词。联合训练通过 NB(Naive Bayes)分类器训练两种不同特征生成的单词,由此建立两个内嵌的分类器 A 和 B,利用已标记文档,A 用网页特征的单词训练,B 用链接特征的单词训练。然后,对于未标记文档,A 和 B 分别以最大后验概率选出评分最高的文档,标记类别并一起加入己标记训

27、练集,再如此逐次标记所有未标记文档,由此得到扩大后的训练集。然后利用此训练集集合某种分类器再进行分类。重复执行。实验结果表明,利用联合训练得到的训练集进行文本分类,平均分类错误率比 EM-NB 方法要低,性能比较稳定。文献 5分析了联合训练算法优于EM-NB 的三个主要原因:原因之一是前者利用了网页文档的两种结构信息进行联合训练;原因之二是它将两个用 NB 分类算法建立的分类器作为内嵌的分类器训练数据,从而降低了 NB 假设条件的影响 ;另一原因则是前者采用了增量训练未标记文档的方法,即在训练分类器时,每次对未标记文档只选出分值最高的部分文档标记其类别,加入已标记文档训练集中。而 EM技术则是

28、在每次迭代中,对每篇未标记文档都标记一个临时类别,直到迭代收敛。但联合训练算法不适用于自身没有多重特征的文档(比如纯文本文件),而且很多类型的文档不易切分特征。多种资源数据也不易统一切分特征属性,在某些领域(如自然语言),联合训练算法也存在许多局限 67。2.3.2 自训练自训练是半监督学习的常用技术,在自训练中,分类器首先用少量有标记的数据训练。然后分类器用于对未标记的数据进行分类。典型地,最先确定的未标记数据点,连同其预测的标记,都被添加到训练集。然后分类器重新训练并且重复上述过程。分类器采用其自身的预测以训练自己,这个过程也称为自教,或自举。这种方法来源于人类在没有直接老师的情况下,对自

29、己以前的经历进行自学习,半监督学习中的自训练即是自动地对未标记的数据进行标记,自训练是一个迭代地对自身进行预测并且迭代地训练分类器的过程。在这个信息爆炸的时代,自训练技术具有天然的优势:训练过程的完全自动化,手工标记样本引入的人为误差可以避免,训练样本按需产生,训练过程简单高效。生成式模型以及 EM 方法可看成是“软”自训练的特例。可以想象一个分类错误可以加强其自身。如果预测的可信任度降低到某个门槛值,一些算法试图避免这一点通过“忘掉”未标记的中国矿业大学 2009 届本科毕业设计(论文) 第 7 页数据点。 11自训练已经被应用于几个自然语言处理的工作。Yarowsky使用自训练用于词义消歧

30、。Riloff等人使用自训练辨别主观名词。自训练还用于语法分析和机器翻译。自训练是一种封装算法,一般来说很难进行分析。2.3.3 半监督支持向量机(S3VMs)半监督支持向量机(Semi-Supervised SVMs)本来被称为直推式支持向量机(TSVM ) ,之所以现在称为半监督支持向量机是因为它们也适用于归纳,而不仅仅是直推。其思想很简单,即在低密度区找到一条决策边界。但是,其背后的优化问题是困难的。 11TSVM通过把边界置于低密度区域建立了 和判别式决策边界之间px的联系。TSVM 是一种使用未标记数据的标准的支持向量机的扩展。标准的支持向量机只使用有标记的数据,目标是在再生核希耳伯

31、特空(Reproducing Kernel Hilbert Space)找到最大边缘的线性边界。在TSVM中未标记的数据也被使用,目标是找到未标记数据的一个标记,以便一个线性边界在原始数据和未标记数据之间有最大边缘。由于判别式方法直接利用类条件概率 ,在参数估计迭代过程中/pyx可能会偏离 ,而直推式支持向量机通过引导决策边界远离稠密区的方px法建立决策边界与 间的联系,因而成为一种克服这一问题的较好选择。尽管找到精确的 TSVM 解是 NP 完全问题,但一些近似的方法已经提出并有积极的效果 23。由于成功地把无标记样本中所隐含的分布信息引入了支持向量机的学习过程中,TSVM 算法比单纯使用有

32、标记样本训练得到的分类器在性能上有了显著提高。但该算法在执行前必须人为指定待训练的无标记样本中的正标记样本数 ,而 值一般是很难准确地估计的,在NTSVM 算法中采用了一种简单的方法,即根据有标记样本中的正标记样本所占比例来估计无标记样本中的正标记样本比例,进而估计出 值。可以N看出,这种估计是有问题的,尤其是有标记样本较少的情况下,一旦估计不正确,将会导致较差的结果。对这个问题,陈毅松等提出了一种改进算法渐进直推式支持向量机(Progressive Transductive Support Vector Machine, PTSVM) 24,该算法通过成对标记和标记重置的办法改进了 TSVM

33、 的性能,但只适合于无标记样本较少的情况,样本较多时,这种频繁的标记与标记重置将导致算法的复杂性迅速增加,并且远超过一般的 TSVM 算法。现实应用的大多数情况是无标记样本远多于标记样本, 因而需要开发适应于这8种情况的相应算法。钟清流等提出了一种渐近式半监督学习算法 25, 它采用的特定取样规则和核参数可以确保减少误标记数量并控制决策面的动态调节进程,通过删除非支持向量来提高训练速度。实验表明, 这种算法能够适应不同的样本分布情况, 并取得较好的效果, 是一种值得关注的新尝试。2.3.4 基于图的方法(Graph-Based Methods)这曾经是半监督学习研究最活跃的领域。基于图的半监督方法定义了一个图,这个图的各个节点表示有标记的和未标记的数据,图的边则反映了数据间的相似度,这些方法通常假定标记在图上的平滑性。图方法是非参量的、判别的、直推式的。基于图的方法建立在流行假设上。图的正规化:许多基于图的方法可被视作估算一个在图上的函数 , 需要同时满f足两个条件:(1) 其应该接近于给定的在已标记的节点的标记;

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报