1、人工智能在自动文本分类系统中的应用研究摘要:人工智能与信息社会人工智能研究的就是怎样利用机器模仿人脑从事推理规划、设计、思考、学习等思维活动。文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。该文阐述了自动文本分类分类在利用人工智能技术设计时的必要性和重要性, 通过对当前具有代表性的分类算法原理进行分析、比较, 总结出每种算法的性能特征, 既便于使用者了解掌握各种分类算法、更好地选择合适的算法, 又便于研究者对算法进行研究改进, 提出性能更好的分类算法。关键词:人工智能;分类; 文本分类; 分类方法1 引言数据的丰富带来了对强有力的数据分析工具的需求, 大量的数据被描述
2、为“数据丰富, 但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中, 没有强有力的工具, 理解它们已经远远超出了人的能力。人工智能的一个重要支柱是数据挖掘技术。 数据挖掘一开始只是一种从大规模数据库或数据仓库中提取隐藏的预测性信息的科学方法。它让人们有能力最终认识数据的真正价值,即数据中潜在的可用信息和知识。 数据挖掘是数据库知识发现的核心步骤,它研究的主要目标是发展有关的方法论、理论工具,以支持从大量数据中提取有用的和让人们感兴趣的知识、模式和规则。 其主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、知识分类算法、半结构化和非结构化数据
3、中的知识发现以及网上数据挖掘等而分类作为数据挖掘的一种模式, 可以用于提取描述重要数据的模型, 通常是预测分类标号( 或离散值) 。例如, 可以建立一个分类模型, 对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交互和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择通过利用先进的计算机技
4、术、人工智能技术, 不仅可以实现方便快捷的分类效果, 节省大量的人力物力, 并且可以进一步进行更深层次的信息挖掘处理, 提高信息的利用效率。文本分类处理的研究是计算机、信息处理领域的重要内容, 特别是随着网络技术的快速发展, 这种应用也变得更加迫切。2 基本概念2.1 人工智能事实上,人工智能是个大科学的通称,它所覆盖的研究领域非常广,直接与其基础理论密切相关的学科至少包括控制论、信息论、系统论、计算机科学、电子学、生理学、心理学、数学、生物学、语言学和哲学等等。人工智能的主要分支研究领域有数十种,如模式识别、模糊逻辑、神经网络、机器学习、概率推理、物景分析、自然语言理解、博弈、自动定理证明、
5、自动程序设计、回答系统、问题求解系统、机器发明系统、遗传算法、专家系统等。任何工作离不开智能,因此任何领域都是人工智能的潜在应用领域。例如,应用人工智能的方法和技术,设计和研究各种计算机的“机器专家”系统,可以模仿各个行业的专家去从事医疗诊断、质谱分析、矿床探查、数学证明、家务管理、运筹决策等脑力工作,以完成某些需要人的智能、运用专门知识和经验技巧的任务等等。而本文则是侧重于描述人工智能在自动文本分类上的应用。2.2 自动文本分类传统的文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。20 世纪90 年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法, 即由
6、专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究, 相比于英文文本分类, 中文文本分类的一个重要的差别在于预处理阶段: 中文文本的读取需要分词, 不像英文文本的单词那样有空格来区分。从简单的查词典的方法, 到后来的基于统计语言模型的分词方法, 中文分词的技术已趋于成熟。并在信息检索、Web 文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。尽管机器学习理论对于文本分类方法的研究起了不可低估的作用, 在这之前文本分类方法的研究曾一度处于低潮, 但是文本分类的实际应用和它自身的固有的特性给机器学习方法提出了新的
7、挑战, 这使得自动文本分类方法的研究仍是信息处理领域一个开放的、重要的研究方向。而文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择通过利用先进的计算机技术、人工智能技术, 不仅可以实现方便快捷的分类效果, 节省大量的人力物力, 并且可以进一步进行更深层次的信息挖掘处理, 提高信息的利用效率。自动文本分类技术的研究最早可追溯到20世纪60年代
8、的Maron的研究工作, 从那时起, 该技术便逐渐应用到信息检索、文档组织、文档过滤等方面。1970年, Salon等人提出了VSM模型, 由于该模型在良好的统计学方法基础上简明地实现了对文本特性的抽象描述, 从而成为文本分类处理的一种经典模型;到80年代末, 在文本分类领域, 基于知识工程的方法一直占主导地位, 其中最著名的是CONSTRUE系统, 虽然该方法取得了较好的分类效果, 然而该方法具有分类规则制定困难、推广性差的缺点, 很难大规模推广应用;进入90年代以来, 随着互联网技术的快速发展, 文档自动分类的研究也进入了一个新的阶段, 各种分类方法相继得到了发展, 包括机器学习技术为主的
9、信息分类技术逐渐取代了基于知识工程的方法, 成为文本自动分类研究的主要形式, 如Nave Bayes、Decision Tree、Linear Classifiers、神经网络等等, 1998年Dortmund大学的T.Joachimes探讨了支持向量机方法进行文本分类, 取得了很好的效果。此外, 一些学者还采用Boosting方法来探讨提高分类处理的方法。国内, 许多研究院所也对中文信息分类技术进行了大量的研究在具体分类算法上与国外是相同的, 只是由于中文的词与词之间一没有明显的分割, 因此需要首先进行切词处理。根据目前对于文本分类技术的研究, 大多数研究者的精力主要放在各种不同分类的方法探
10、索与改进上。然而, 根据目前的结果表明, 虽然不同的分类方法在进行分类处理时性能上确实存在一些差异, 但并非是唯一因素, 而且, 单纯从算法上进一步提高文本分类的效果已经相当困难。事实表明, 分类系统作为一个复杂系统, 其它因素对分类性能的影响也是非常大的, 包括文档集的选择、特征词的处理等等对于具体文本分类技术的应用, 需要从文本分类处理的多个环节着手, 用综合的方法来改善和提高分类的性能。3 文本分类的特性文本分类的基本原理是将待处理文本集D=d1,d2,,dn按照一定的规则划分到预定义的类别C=c1,c2,ck中的过程, 其基本处理流程如图1。从具体处理上分为训练与分类两个阶段, 因此,
11、 文本分类是一种有监督的学习过程, 在训练阶段, 需要人工提供大量的进行了类别标记的事例文档进行学习, 在此之间, 需要首先进行文档的向量化, 即将文档用其特征组成的向量来表示。总体来讲, 文档分类处理具有以下特点:文本分类需要先训练再使用, 因此训练样本的质量对分类有较大影响。分类模型是根据训练样本而得到, 因此不可避免地具有局限性。面对实际使用中样本的多样性, 若系统不具有相关的自我反馈学习能力, 则性能将会逐渐下降。文本本身具有复杂性、特征的广泛性、稀疏性等特点, 使得仅仅依靠单一的分类处理模型, 很难使分类处理进一步提高, 必须采用多种策略加以解决。在分类处理上, 分类准则的模糊性是其
12、一个重要特征,因此, 在分类模型中引入模糊分类处理技术将有助于分类性能的提高。4 文本分类的几个经典方法到目前为止, 已经研究出的经典文本分类方法主要包括: Rocchio 方法、决策树方法、贝叶斯分类、K近邻算法和支持向量机等分类方法。近年来, 随着人工智能、机器学习、模式识别和数据挖掘等领域的不断发展, 促使文本分类方法得到了长足的发展。4.1 Rocchio 方法相似度计算方法Rocchio是情报检索领域最经典的算法。在算法中, 首先为每一个类C 建立一个原型向量(即训练集中C 类的所有样本的平均向量) , 然后通过计算文档向量D 与每一个原型向量的距离来给D分类。可以通过点积或者Jac
13、card 近似来计算这个距离。这种方法学习速度非常快。4.2 NaveBayes (NB) 贝叶斯方法贝叶斯分类是统计学分类在方法, 它可以预测一个给定样本属于某一类别的概率。贝叶斯分类是基于贝叶斯定理而构造出来的。朴素贝叶斯分类器是以贝叶斯定理为理论基础的一种在已知先验概率与条件概率的情况下得到后验概率的模式分类方法, 用这种方法可以确定一个给定样本属于一个特定类的概率。目前基于朴素贝叶斯方法的分类器被认为是一个简单、有效而且在实际应用中很成功的分类器。朴素贝叶斯分类方法是机器学习中常用的方法之一。4.3 K- NN 方法K- 近邻方法K- NN 方法是一种基于实例的文本分类方法。首先, 对
14、于一个待分类文本, 计算它与训练样本集中每个文本的文本相似度, 根据文本相似度找出可k 个最相似的训练文本。这最相似的k 个文本按其和待分类文本的相似度高低对类别予以加权平均,从而预测待分类文本的类别。其中最重要的是参数K的选择, k 过小, 不能充分体现待分类文本的特点; 而k 过大, 会造成噪声增加而导致分类效果降低。4.4 SVM支持向量机支持向量机(Support Vector Machines : SVM) 理论, 由Vapnik 在1995 年提出, 并用于解决二分类模式识别问题。它基于结构风险最小化原则, 在向量空间中找到一个决策面(decision surface) , 这个面
15、能“最好”地分割两个分类中的数据点。目前, 比较有效的SVM实现方法包括Joachims的SVMlight 系统和Platt 的序列最小优化算法。随着人们对文本分类的深入, 不断有许多新方法涌现, 如基于潜在语义结构的文本分类模型,基于模糊- 粗糙集的文本分类方法。但要从根本上解决文本分类中所固有的一些问题, 还需加强研究的力度, 找到更先进的理论和方法。4.5 DecisionTree 决策树方法决策树方法是从训练集中自动归纳出分类树。在应用于文本分类时, 决策树算法基于一种信息增益标准来选择具有信息的词, 然后根据文本中出现的词的组合判断类别归属。5 智能文本分类处理策略由于文本本身的复杂
16、性、不规律性的特征, 文本自动分类系统是一个涉及多方面综合的系统, 想获得良好的文本分类效果, 不仅仅是单纯的分类处理算法的问题, 必须运用多种手段加以解决, 特别是文档分类系统作为一个有指导的学习系统, 与其它控制系统具有类似的特性, 可以借鉴其它的智能控制技术加以解决。为此, 根据文本自动分类处理的特点, 我们给出一种文本分类系统的多策略智能解决方案(图2), 从影响分类处理的几个主要环节入手, 来优化处理分类系统的流程,从而从效果上大大提高分类处理效果, 为文本分类处理提供综合的解决方法。处理上主要从以下几方面对分类系统进行了改善: 训练文档的优化从整个系统的入口环节入手, 对系统进行学
17、习的样本进行控制, 提高学习样本的质量, 从而为分类模型的建立提供较好的保证。分类模型的运用策略从具体分类模式的运用上, 进一步增强系统的分类效果。 分类系统的反债学习实现系统在使用过程中不断的自我学习、自我完善, 从而达到其分类性能不断提高的目的。 模糊分类处理提高分类处理的智能化, 使分类处理结果更能反应文本类别的真实特征, 从而达到减小误分类、提高分类精度的目的。图2 智能文档分类处理6 结束语人工智能(AI)、信息检索(IR)、数据库(DB)和统计学(Stat)等技术的发展都导致整个数据挖掘技术的飞速发展。文本分类技术与日常生活的关系已经越来越密切了, 算法的可行性、效率、使用方便性都
18、将成为研究的热点。而文本本身的复杂性, 使得文本分类处理不是一个简单的过程, 需要通过综合的策略加以解决。虽然文本分类方法还存在着这样那样的问题,但随着人工智能、机器学习、数据挖掘、进化计算、模糊集和粗糙集等领域的发展, 分类方法将向着更加高级、更加综合化和更加多样化的方向发展。参考文献:1. 张海笑,徐小明.数据挖掘中分类方法的研究. 山西电子技术,2005.2. 钟代军. 浅析Bayesian 分类的应用.电脑知识与技术,2008.3. 李文静. 浅谈数据挖掘中的分类算法.甘肃科技纵横,2007.4. 杨晔. 网上教学资源挖掘与文本自动分类系统.广东工业大学学报,2005.5. 蒲筱哥. 自动文本分类方法研究述评. 情报科学,2008.6. 孙晋文,肖建国. 自动文本分类中的智能处理技术. 计算机科学,2003.7. 李斌. 基于贝叶斯网络的垃圾邮件自动识别. 研究与开发,2010.8. 陈静,穆志纯,孙筱倩. 计算机模拟汉字字形认知过程的研究. 智能系统学报,2008.9. 王卫东,郑宇杰,杨静宇. 智能分类器方法. 江苏科技大学学报(自然科学版),2007.10. 谷文祥, 李丽, 李丹丹. 规划识别的研究及其应用. 智能系统学报,2007.