收藏 分享(赏)

最大熵原理在垃圾邮件分类中的应用研究.doc

上传人:无敌 文档编号:164585 上传时间:2018-03-22 格式:DOC 页数:6 大小:101.50KB
下载 相关 举报
最大熵原理在垃圾邮件分类中的应用研究.doc_第1页
第1页 / 共6页
最大熵原理在垃圾邮件分类中的应用研究.doc_第2页
第2页 / 共6页
最大熵原理在垃圾邮件分类中的应用研究.doc_第3页
第3页 / 共6页
最大熵原理在垃圾邮件分类中的应用研究.doc_第4页
第4页 / 共6页
最大熵原理在垃圾邮件分类中的应用研究.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、最大熵原理在垃圾邮件分类中的应用研究 房爱东 凌军 李雪竹 宿州学院信息工程学院 摘 要: 垃圾邮件具有初始样本小和多变性的特点, 为了从大量的邮件中将其识别出来, 采用平滑技术处理特征词的稀疏特性, 进行概率统计分析, 引入最大熵原理, 并结合增量学习方法提高分类效果。通过对标准数据集的测试, 测试结果证明所提出算法具有良好的垃圾邮件识别能力, 能提高邮箱业务对垃圾邮件的识别能力。关键词: 最大熵原理; 增量学习; 机器学习; 作者简介:房爱东 (1966-) , 安徽宿州人, 副教授, 研究方向:模式识别、网络与信息安全。收稿日期:2017-08-24基金:安徽省高等学校教学研究重大项目

2、(2016jyxm1026) Received: 2017-08-241 相关研究与问题提出随着互联网的发展, 电子邮件已经逐步替代了传统的通信手段成为人们沟通的桥梁, 但垃圾邮件的泛滥严重影响了人们正常的工作和学习。据中国反垃圾邮件状况调查报告显示, 中国电子邮箱用户平均每周收到的垃圾邮件为 13.8封, 电子邮箱用户平均每周收到的邮件中垃圾邮件所占比例为 40.1%。目前, 反垃圾邮件的方法主要有以下几种:SMTP 层的反垃圾邮件技术、IP 层的反垃圾邮件技术、基于规则的垃圾邮件过滤方法以及结合机器学习的概率统计方法1。但是, 以上方法都有其特有的局限性, 如 IP 层的反垃圾邮件技术有延

3、迟, 速度慢;SMTP 层的反垃圾技术对网络资源要求过大;基于规则的过滤方法准确性和时间开销存在矛盾, 而基于机器学习的概率统计方法2过程较为复杂, 需要用户干预, 也不易于大规模应用。人们在实际应用中往往将几种方法相结合对邮件进行分类, 但效果依然不佳。由于垃圾邮件具有初始样本小、变化多样等特点, 而最大熵理论在小样本训练下分类效果好以及对初始样本依赖小, 故本文提出一种基于最大熵方法并通过增量学习的方法对邮件进行分类的反垃圾邮件方法。2 基于最大熵方法的反垃圾邮件系统的搭建2.1 最大熵理论模型最大熵的基本思想是, 选择一个模型使某个事物的分布尽可能均匀, 使得该系统的熵达到最大。而更加现

4、实的问题是, 如果对某个事物已经有所了解, 选择一个什么样的模型预测该事物可能发生的事件。最大熵模型拟合所有已知事实, 保持对未知事件的未知状态, 而要对未知事件尽可能使其分布均匀, 需要选择一种模型与现有事实一致。20 世纪 90 年代, 大规模真实文本的处理开始使用最大熵方法3, 通过实验和综合观察, 对许多问题的处理结果超过了使用其他方法的最好结果。最近几年, 最大熵模型被广泛应用于包括词义排歧、词性标注、机器翻译、短语识别、分词等4-6。具体处理是, 给定一个经验概率分布 (从己知训练样本获得) , 构造一个概率分布模型 p 尽可能与经验概率分布 相接近, 选择一种使得熵最大的概率分布

5、模型 p, 即所求概率分布模型 p 满足最大熵约束的最优解7。这里引入特征函数 f, 对于特征函数 fi, 相对于经验概率分布 的期望值为:其中, x 为文本类别, y 为文本特征词, 即待分类邮件特征分词结果, 表示特征词 y 在类别 x 中出现的概率。对于特征函数 fi, 待求概率分布 p (x, y) 的期望值为:若存在 k 个特征 fi (i=1, 2, , k) , 则有 k 组约束:满足上述约束条件的模型很多, 这里需要在约束条件下具有均匀分布的概率, 若用条件熵为条件概率 p (x|y) 均匀性的一种数学测量方法, 则熵的计算公式如下:其中, 0H (p) log|y|则一组约束

6、 p 被满足的最优解为:使用拉格朗日乘数法即可求得最优解:其中, 参数 i是对应特征函数 fi的权重, z (x) 是归一化因子。若通过训练样本进行学习, 就可以求得 i值, 得到所求的概率分布, 最大熵模型的构造得到满足。最大熵模型的参数求解就是带约束条件的非线性规划问题, 属于凸优化问题, 可获得最优解。2.2 基于最大嫡模型的邮件分类用 X 表示邮件的类别, 即正常邮件和垃圾邮件, 用 Y 表示邮件样本特征, 于是可利用公式 (7) 来求得任意一篇邮件 yiY 属于任意类别 xjX 的条件概率 p (xj|yi) 。考虑用各种不同的方法作为判定条件, 如对于 Y 不兼容分类集合的情况 (

7、垃圾邮件或正常邮件) , 可比较样本在不同集合出现的概率, 并把此样本划分到出现概率最大的集合中。还考虑到邮件分类误报问题, 若一封垃圾邮件被错分为正常邮件, 对用户造成的损失相对来说不是很大;而一旦一封重要的邮件被错误分类为垃圾邮件, 可能会给用户带来难以预料的损失。因此, 可考虑 Y 中存在兼容分类的情况, 根据当前邮件特征设定一个阈值 , 如果样本特征在正常邮件集中出现的概率 p (x|y) , 则该邮件就被认定为正常邮件。当出现稀疏事件的时候, 最大熵模型可以使未知事件的概率分布尽可能均匀, 即倾向于得到最大熵。对于文本分类, 文档中的特征词具有稀疏特征, 表现在相当多的特征词在训练样

8、本中出现, 而在待分类文档中没有出现, 同样也有相当多的特征词在待分类文档中出现, 却没有在训练样本中出现。可采用平滑技术 (smoothing) 来处理此种情况, 即对所有在待分类文档中出现而没有在训练文档出现的特征词赋予一个值。针对文本中的分类问题, 绝对折扣 (Absolute-Discounting) 技术8是目前使用最多的。绝对折扣平滑技术是指在减掉一个固定值的前提下对模型中观察到的事件进行折扣, 然后把折扣后的概率分摊到所有未现事件中。因为特征函数的值是词频, 对特征出现次数进行折扣时不涉及到保持概率和为 1 的问题, 所以只需直接给所有出现次数为 0 的特征一个值即可。2.3 增

9、量学习调整标记增量学习是改善机器学习和概率统计方法的一个重要而且十分有效的途径, 本文采用增量学习方法来提高垃圾邮件分类的性能。在增量学习之前, 通过一个初始模型对邮件进行分类判断, 之后对错检和漏检的邮件进行内部调整。本文采取对邮件的主体部分插入标签, 标签隐含了对应邮件的唯一标识信息。对于调整错误的邮件, 用户只要点击标签, 相应信息就会返还进行增量学习处理, 增量过程通过对该数据文件的分析来进行模型的改善。当训练模式启动时, 使用者可以根据所服务的用户的实际邮件情况重新训练一个或者多个新的模型来供分类使用。在增量效果不满意的情况下, 训练模式还可以把模型状态回滚, 重置到初始状态, 重新

10、进行增量训练。3 分类效果测试使用加入训练标记的最大熵方法, 对邮件样本进行测试。所有的邮件样本来源于国际上 Benchmark 标准数据集 Spam Assassin Corpus (RFC822) 和 ZH1 Chinese Corpus, 邮件分类效果根据错检率和漏检率判断。对标准数据集 Spam Assassin Corpus (RFC822) 的测试结果如表 1 和表 2 所示。表 1 Spam Assassin Corpus (RFC822) 的测试结果 1 下载原表 表 2 Spam Assassin Corpus (RFC822) 的测试结果 2 下载原表 对 ZH1 Chin

11、ese Corpus 的测试结果如表 3 和表 4 所示。表 3 ZH1 Chinese Corpus 的测试结果 1 下载原表 表 4 ZH1 Chinese Corpus 的测试结果 2 下载原表 4 数据分析通过邮件分类结果可以看出, 本文方法对 MIME 测试数据具有良好的分类效果, 在标准测试集上的漏检率和错检率随训练集的增大而减少;而不随训练集合增大的数据又说明有少数邮件在初始分类是始终不能被正确分类的, 这就体现了增量学习的必要性。特征选择数增加, 意味着邮件越来越全面地被邮件样本代表, 因此可以判断的依据也就更多, 特征数的增加会使计算结果准确性的提高, 使漏检率和错检率降低。

12、5 结束语本文研究了最大熵方法在垃圾邮件分类中的应用, 并通过引入增量学习的方法对其进行了加强, 实验表明, 在原有的最大熵理论基础上, 加入增量学习可以很好地提升垃圾邮件的分类效果。参考文献1徐松浦.反垃圾邮件中贝叶斯方法的应用研究D.成都:成都理工大学信息科学与技术学院, 2005:5-8 2靳小波.基于机器学习算法的文本分类系统D.西安:西北工业大学计算机学院, 2005:12-13 3张乐.机器学习方法在基于内容的垃圾邮件过滤中的研究D.沈阳:东北大学计算机科学与工程学院, 2004:10-14 4R Adwait.Maximum entropy models for natural

13、language ambiguity resolutionD.Pennsylvania:University of Pennsylvania Computer Science College, 1998:15-20 5R Adwait.A maximum entropy model for Part-of-Speech taggingC/Proceedings of the Empirical Methods in Natural Language Processing Conference.Philadelphia, USA, 1996:31-33 6Adam L Berger, Steph

14、en A Della Pietra, Vincent J Della Pietra.A maximum entropy approach to natural language processingJ.Computational Linguistics, 1996, 22 (1) :38-73 7陈文庆.基于最大熵模型邮件过滤系统的研究与实现D.广州:华南理工大学电子信息学院, 2004:35-42 8M Sven, N Hermann, Z Jrg.Smoothing methods in maximum entropy language modelingC/IEEE International Conference on Acoustics, Speech and Signal Processing.Phoenix, AR, 1999:60-71

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报