收藏 分享(赏)

一种考虑异常点的人工免疫分类模型自动更新算法.doc

上传人:cjc2202537 文档编号:1509898 上传时间:2018-07-24 格式:DOC 页数:14 大小:219KB
下载 相关 举报
一种考虑异常点的人工免疫分类模型自动更新算法.doc_第1页
第1页 / 共14页
一种考虑异常点的人工免疫分类模型自动更新算法.doc_第2页
第2页 / 共14页
一种考虑异常点的人工免疫分类模型自动更新算法.doc_第3页
第3页 / 共14页
一种考虑异常点的人工免疫分类模型自动更新算法.doc_第4页
第4页 / 共14页
一种考虑异常点的人工免疫分类模型自动更新算法.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、一种考虑异常点的人工免疫分类模型自动更新算法摘要:为了解决当前分类模型缺乏自动更新能力而导致的无法跟踪数据的动态变化问题,提出了分类模型自动更新的基本概念和基本操作,建立了一种考虑异常点检测的增量式分类模型自动更新框架。该框架的核心思想是当数据分布发生局部或者整体变化时,分类结果将出现大量异常点,通过识别异常点类型,可以判断数据变化的原因。然后分别对分类模型进行新类的插入、删除、类中心修订操作实现对模型的自动更新。然后通过重新定义人工免疫克隆算法的相关算子,设计了一种能够进行分类的人工免疫增量式分类模型,并引入了基于筛选干净集的异常点检测算法。最后根据上述的模型自动更新框架,提出了一个考虑异常

2、点的人工免疫分类模型自动更新算法。仿真结果显示,该模型具有较强的自适应、记忆能力,能够正确实现对新类数据以及模型数据中心漂移的识别。关键词:模型自动更新;分类模型;人工免疫;异常点检测 中图分类号:TP18 文献标识码:AAn Outlier Detection Considered Classification Model Autonomous Updating Algorithm Using Artificial ImmuneAbstract: To resolve the problem that current classification model can not fellow d

3、ynamic data, because of lacking automatically update capability, in this paper, firstly, the basic concepts and basic operations of classification model automatically updating is proposed, and an automatic updating framework for classification model is developed based on outlier detection considered

4、 incremental algorithm .The core idea is that when the distribution of data changed in partial or total ,there will be a large number of abnormal points, called outlier. The reason for models changing can be judged by identifying the type of outliers. Then the model automatically updating can be ach

5、ieved using inserting, deleting, updating operations. Then an artificial immune incremental classification model is established by redefined the related operator of artificial immune clone algorithm, and a screening clean set based outlier detection is introduced. Lastly, according to the above-ment

6、ioned framework, a outlier detection considered artificial immune classification model is proposed. Experimental results shows that the model has a strong self-adaptive, memory capacity, and has the ability to realize the new categories of data and model datas center drifting. Key words:Model autono

7、mous updating; classification model; artificial immune; outlier detection0 引言分类是在已有数据的基础上,通过学习,建立一个分类函数或构造一个分类模型(即分类器-Classifier) ,并利用这个函数或模型对未知类别样本赋予类别的技术 1,2。其本质就是通过分析数据,建立待分类数据和给定类别之间的映射关系。目前,随着人工智能技术的发展,分类模型和分类算法在社会生产中发挥了越来越重要的作用,并广泛应用于故障识别、模式分类、计算机入侵检测、医疗检测、图像识别、语音识别、网页分类等领域。作为上述领域的核心技术,国内外研究学者

8、都对其进行了大量研究,并建立了众多的模型算法。从采用的技术来看,主要可以分为以下几大类:基于信息论的分类方法、基于概率统计的分类方法、基于要求的分类方法、基于人工智能的分类方法、基于机器学习的分类方法,以及基于关联规则的分类方法等 3。通过对目前分类模型基本原理的分析研究可以发现,所有分类算法都遵循相同的模型构造方法,即模型训练和模型测试两个阶段。在训练阶段,首先根据一组已知目标类别的训练样本生成一个静态分类器,用以描述数据属性与目标类别的概念;在测试阶段,根据前面生成的分类器对其他未经分类的测试数据进行分类,评估分类器的精度 4。通过实验分析验证,可以发现依据这种方式构造的模型主要适合于对静

9、态数据进行分类,而一旦改变分类体系,或者增加新的训练材料,为了保持分类准确率,都需要对模型进行重新训练,从而极大地增加了系统运行的代价和时间,更不利于对时间序列数据的分类,降低了系统的适应性。因此,需要为常规的分类模型中引入一种模型更新机制,用于跟踪数据的变化。目前,随着对生物免疫系统的深入研究,其强大的自适应能力为解决上述问题提供了良好的启发作用。所谓的生物体的免疫系统是指由免疫器官、免疫细胞和免疫分子组成的一个复杂系统,是一种能够保护生物机体免受外部病原体危害的一种生理机制 5。当系统受到外界抗原入侵时,能够产生识别“自我/ 非我”的抗体,并利用抗体和抗原的特异性匹配进行特异检测和识别。且

10、具有分布式并行处理、模式识别、对噪声的耐受能力、多样性产生能力、自组织、自适应、免疫记忆和鲁棒性等优点。并广泛应用于计算机科学、计算智能、人工智能、模式识别、机器学习、数据分析、图形处理、自动控制、异常和故障诊断等领域中,并随之产生了一个新兴的研究领域人工免疫系统。鉴于人工免疫系统的以上优势,本文提出了一种新颖的考虑异常点的人工免疫分类模型,用于解决分类模型的自动更新问题。本文在第一部分中首先提出模型更新的基本概念,并建立了一个考虑异常点的增量式分类模型自动更新框架;然后在第二部分中,分别简单介绍人工免疫克隆算法和异常点检测的基本原理和算法流程;第三部分,提出了一种考虑异常点的人工免疫分类模型

11、自动更新算法,并详细介绍了该算法的结构和原理,第四部分给出仿真数据验证结果。最后将给出结论和未来的研究方向。1 分类模型自动更新的内涵和研究现状在这里我们首先提出分类模型自动更新的概念:定义 1: 所谓分类模型自动更新,是指分类模型具有根据待分类数据的改变,实时地调整模型结构和参数(包括新增类别、类别删除、整体分类数据漂移等)的功能,从而能够自动适应分类数据的变化趋势,而不需要人的干预。 1.1 分类模型更新的基本操作根据本文提出的分类模型自动更新的概念,模型更新的基本操作应该主要包括新类插入操作、删除操作、类中心修订操作。在本文中其内涵和定义如下:(1)新类插入操作在实际的分类模型使用过程中

12、,由于训练数据的有限性,即不能包含实际问题中的所有情况。例如在机器故障诊断中,作为训练用的数据常常是包含固定数目的故障模式,从而使得分类模型也就只能实现对固定模式的故障进行分类诊断。而实际生产中,由于机器故障的多元化,因此机器常常会出现新的故障类型,从而致使模型无法正常识别。这就要求分类模型能够在出现新的类别时,能够自动的实现对新类别的插入,我们称为新类插入操作。定义 2:所谓新类插入操作,是指在原有分类模型的基础上,只通过对新类数据的训练,就能调整分类模型的基本结构,使其能够实现对新类数据的分类。(2)删除操作在分类模型中,随着模型的运行,可能出现某一或若干已知类别数据在某一阶段以后,不再出

13、现。此时如果继续保持对这几类数据的的鉴别,将极大地占用系统资源,同时也将降低系统的分类精度。因此在分类模型更新中,我们提出了删除操作。定义 3: 所谓删除操作,是指在原有分类模型的基础上,自动修改模型的结构,使之失去对所删除类的鉴别能力,但却不降低对其他类的分类能力。(3)类中心修订操作类中心修订,是模型更新的另一个最基本的操作。主要针对动态分类模型中随着模型的运行,整体结构发生漂移,即模型中心点发生漂移的情况。系统能够自动的调整结构参数,适应数据漂移。1.2 分类模型更新操作的研究现状针对类中心修订和新类插入问题,虽然国内外学者尚未明确提出分类更新模型的概念,但是在分类模型产生的同时,就已经

14、开始研究各种各样的解决算法。目前研究最多的的主要是基于阈值分类精度降低的自动更新方法和增量式学习算法。1.2.1 通过监测分类精度的自动更新方法该方法是一种比较直观的分类模型更新方法,也是目前使用最多的一种方法。其基本思想是:实时监测分类系统,计算其分类精度,当其精度小于某个给定阈值时,说明系统发生了整体漂移或者是出现了新类,此时对系统的进行整体更新。这种方法虽然能够比较全面的解决分类模型的更新问题,不过当数据量比较大时,所需要占用的系统资源比较多,且不利于系统的实时更新,还不能解决未知新类的插入问题。同时对于如何测定分类系统的精度也是一个复杂且有待解决的问题。1.2.2 增量式学习方法增量式

15、学习方法是通过模拟大脑在学习处理某些问题能够保持对知识的可积累性、可重用性和可增长行的特点的一种方法,它能够当新的信息到来时,只对新的信息进行学习,然后用得到的新知识来修改原有的知识,它并不是把新的信息和原来的信息合并起来重新进行学习 6,7。由于增量式学习方法具有可积累性、可重用性和可增长性,因此特别适合于时间序列分类模型,以及动态数据模型,这也为分类模型的自动更新提供了基础。目前针对不同的分类模型研究学者提出了各种增量式学习算法,这主要包括基于决策树的增量式算法(主要包括 ID5,ID5R,Incremental Tree Induction,i +Learning) 、基于 SVM 的增

16、量式算法、基于贝叶斯的增量式算法、基于关联规则的增量式算法、fuzzy ARTMAP (FAM)、Nearest Generalized Exemplar (NGE)、 Generalized Fuzzy Min-Max Neural Networks (GFMMNN) 、Growing Neural Gas (GNG) 、以及 Incremental Learning based on Function Decomposition (ILFD)8-14 。简单的增量式算法在某种程度上能够很好的解决新增样本对模型的更新问题,不过这类新增样本常常是有条件的,即必须已知样本的类别。但这对于实时采集

17、的数据是不现实的,同时也不能够实现模型的自动更新。针对新增样本的类别问题,王卫东,郑宇杰 15等人,提出了一种新颖的智能分类器,该分类器由主辅两个分类器组成,首先利用已知数据进行训练建模。然后利用这两个分类器,对未知样本进行分类,并把结果分为两个集合,一个是分类结果类别相同的,一个为类别不同的。并假定结果相同的,为可能正确的类别,并将其作为训练样本,从而对主分类器进行优化更新。这种方法仅仅对于已知类的数据有一定的效果,却对于未知类,就无能为力了。因此,为了解决上述方法中存在的问题,本文提出了在增量式分类算法中引入异常点检测,用于实现分类模型的自动更新。1.3 分类模型自动更新算法基本框架如图

18、1 所示,该框架主要有以下几部分组成:(1)增量式分类器。具有增量式学习能力的分类算法,是模型自动更新的基础。(2)类感知器。该感知器能够记录每类的使用情况。当某一类在模型的运行过程中长期处于闲置状态时,能够自动的给出删除操作。(3)局外点检测。在动态分类模型中,异常点的产生主要包括以下三方面原因:一是整体分类模型的变化,这主要是当系统中出现新的数据类别时,由于分类模型无法正确识别该类数据,故将其理解为局外点;二是局部分类模型的变化,即当系统的分类中心点发生偏移时,导致模型无法正确识别数据;三是自然变异。当局外点出现多,且连续变化时,往往蕴含着模型的内部变化,新事物的出现,这是我们需要关注的。

19、另一方面,由于数据的采集,以及系统的运行过程中的波动,也可能产生一些局外点,这些局外点的产生是无规律的,杂乱的。它们的存在,将对系统的分类模型的精度产生较大的影响,因此在实际分类过程中,需要删除此类局外点。增量式分类器C1C2Cn局外点集1局外点集2局外点集n局外点合并局外点粒子浓度检测新类插入 满足模型更新类感知器删除类模型自移动是否否否局外点检测X1X2.Xn图 1 基于异常点的分类模型自动更新框架(4)局外点粒子浓度检测。为了判断局外点的类型,需要实时对局外点的粒子浓度进行监测。当某个粒子周围浓度达到指定阈值是,即表明了分类模型发生了内部变化。需要重新审视这一批局外点,并加入到训练器中,

20、对其进行训练。如果该粒子集合的中心离已存在的粒子中心较近,且具有连续变化性,则说明这一局外点集是由于模型中心偏移造成的,反之则是由于新类数据的产生,使模型无法正常识别,故造成大量的局外点。(5)基本操作命令,基本操作命令是模型更新的基本操作,包括新类的插入、删除、以及模型更新操作等。具体的实现方式,主要依靠所选用的增量式算法的类型。可以发现,本框架的核心部分为具有增量式能力的分类模型,其性能的好坏也直接影响模型自动更新的能力。因此,如何选择和设计一个良好的增量式分类模型是一个首要和关键的工作。在本文中将利用人工免疫克隆算法构建一个具有增量式功能的分类模型,用于实现上述框架的搭建。 2 人工免疫

21、分类模型和异常点检测算法2.1 人工免疫分类模型人工免疫分类模型的基本流程是:在训练阶段,利用人工免疫克隆算法完成对已知的每一类抗原的识别,产生一个具有免疫识别能力的抗体,并存储到抗体库中;在测试阶段,当一个新抗原进入免疫系统,通过和抗体进行亲和度匹配,完成对抗原的分类。其具体的实现方法见第三节,这里不加累述。为此仅对该模型的核心部分人工免疫克隆算法(AICA,artificial immune clone algorithm)进行介绍。为了利用人工免疫克隆算法建立具有模型更新能力的分类模型,本文首先对其进行了相关改进,下面简单给出该算法中的相关基本概念和定义:定义 4: 由训练样本提取特征向

22、量,经标准化而得到的 n 维特征向量表示为:ini21ii ,gaga, ),.21,0(jagij,称为抗原。定义 5: 在 n 维形态空间 S中,由 n 维标准化抗体向量: ini21ii,abab, ,),.21,0(njabij,所组成的集合记为: ,.AB21mab称为抗体集合,其中 m 为抗体数。在自然免疫系统中,对抗原的识别效果,由抗体和抗原的的匹配程度来描述,在免疫系统中,这种匹配程度称为亲和度 16。在本文中亲和度是根据改进的欧式距离来计算的,定义如下:定义 6: 在 n 维向量空间中,抗体 iab和抗原 jg的亲和度表示为:,由定义可知,抗体和抗原的欧式距离越小,亲和度越大

23、。在免疫系统nljlilgabfitvalue12ij )(中只有当该亲和度达到一定阈值时,该抗体才能对该抗原产生免疫反应。这个阈值我们定义为亲和力fitforce。其大小为 ,其中 fitrate 为亲和率, 为训练样本中抗体和抗max.fitvluerfitoce minfitvalue原的最小亲和度。定义 7: 在 n 维向量空间中,抗体 ib在抗体群中的抗体浓度(antidenvalue)表示为:,其中 为抗体群中第 j 个抗体的第 维值,mm1j12/)()( )( nljlili aabueatidvl jlabl为抗体群的抗体个数。抗体浓度用于表征抗体种群多样性的好坏,抗体浓度越

24、高表示抗体群中有非常类似的抗体同时存在,此时寻优过程将集中在一个相对集中的区域,而不利于全局寻优。因此在算法中需要对抗体的浓度过高的个体进行抑制。在实际应用中为了表征抗体质量的最终评价结果,常常需要考虑抗体亲和度和抗体浓度两方面因素,通常情况下抗体亲和度越大,浓度越低,抗体的质量越好,因此在这里引入抗体激励度计算算子 17,其定义为:定义 8: 在 n 维向量空间中,抗体 的抗体激励度计算算子表示为:iab)(.)(.)( iii abuentdvlftvlueabsimvlue,其中 a,b 为表征亲和度和抗体浓度的影响参数。定义 9:克隆算子,克隆算子是把免疫选择操作得到的的抗体进行复制。

25、可以描述为 ,式中 clonepop 为 m 个与 iab相同的克隆组成的集合。 ),clone(ab=lp i定义 10: 变异算子,变异算子对克隆操作得到的抗体克隆结果进行变异操作,以产生亲和度突变,实现局部搜索。变异算子是人工免疫算法中产生有潜力的新抗体,实现区域搜索的重要算子,对算法的性能有很大影响。在本文中采用的是二进制编码方式,其变异策略是从变异源抗体串中随机选取几位,改变位元的取值(取反) ,使其落在离散空间变异源的邻域,实现邻域搜索。二进制编码算法变异算子可以描述为:,其中 imab表示抗体 iab的第 m 维, iab! 为 im取反后的结imiabprnd(),)newpo

26、(abim!果,pm 为变异概率。定义 11: 克隆抑制算子是对经过变异后的克隆体进行再选择,抑制亲和度低的抗体,保留亲和度高的抗体进入新的抗体种群。定义 12: 种群更新算子对种群中激励度较低的抗体进行刷新,从抗体种群中删除这些抗体并以随机生成的新抗体替代,有利于保持抗体的多样性,探索新的可行解空间区域。可以描述为: N)updatero,pate(=newo,式中 pop 为原始抗体种群,updaterate 为种群更新率,N 为种群大小。newpop 是由 pop 中亲和度最高的 N*(1-updaterate)个抗体以及随机产生的 N*updaterate 个抗体组成。开始免疫系统初始

27、化满足终止条件抗体浓度计算免疫选择克隆、变异、克隆抑制种群更新输出最佳抗体i=i+1结束抗体亲和度计算免疫应答否是图 2 人工免疫克隆算法流程图由图 2 所示,人工免疫克隆算法的分为以下几个步骤:(1)算法首先进行初始化,这包括对数据进行预处理(即把原始数据转化为二进制格式) 、定义亲和度评价函数、随机产生一个初始抗体种群 iab,i=1,2,3 N,N 为种群规模;(2)对种群的每个抗体计算其亲和度;(3)判断是否满足算法终止条件,如果满足则算法停止寻优,输出结果,否则继续;(4)计算抗体浓度;(5)进行免疫操作,这包括免疫选择、免疫克隆、变异和克隆抑制:免疫选择:根据种群中抗体的激励度计算

28、算子选择优质抗体,使其活化;免疫克隆:对活化的抗体进行克隆复制,得到若干副本;变异:对克隆得到的副本进行变异操作,使其发生亲和度突变;克隆抑制:对变异结果进行再选择,抑制亲和度低的抗体,保留亲和度高的变异结果。(6)种群更新,以随机产生的新抗体替代亲和度较低的抗体,形成新一代抗体,转第(3)步。2.2 异常点检测异常点检测是为了从数据集中发现那些与其他数据有着显著不同的数据 18。传统的异常点检测算法有:基于统计学的方法(如 K-means,统计分布建模法) 、基于深度的算法、基于距离的算法(DB 算法、Dk(p)算法) 、基于密度的算法、基于筛选干净集的方法等 19。同样随着人工智能的发展也

29、提出了众多的基于智能算法的异常点检测算法,主要有基于 SVM 的异常点检测算法、基于聚类的异常点检测算法、基于人工免疫的异常点检测算法、基于神经网络的异常点检测算法等 20。本文主要采用的是基于筛选干净集异常点检测算法,其基本思想是首先人工选择一个干净集作为正常点集合,这个干净集也可以直接选用已知数据的训练样本数据集。计算新加入数据与集几何中心的距离,如果该距离大于给定阈值,则说明该点属于局外点,即不属于该集合。反之亦然。3 基于人工免疫和异常点检测的分类模型算法根据人工免疫系统的基本机理,本文结合异常点检测算法提出了分类模型自动更新算法。抗原抗体库初始抗体库训练(AICA)识别分类新抗体 A

30、ICA局外点集判断1异常点?否 是增量式单粒子浓度算法是更新抗体库抗体基因免疫应答判断2否注:判断1 :抗原浓度达到阈值否?;判断2 :抗体之间的距离达到阈值否?插入新抗体是图 3 基于人工免疫算法的分类模型由图 3 所示,本文提出的基于人工免疫的分类模型自动更新算法分为以下几个步骤:(1)初始抗体库的产生初始抗体库的产生是通过人工免疫克隆算法(AICA) ,针对已知的 i 类抗原数据集合,.21imiiag产生最佳抗体 iab,其中 m 为训练集属于第 i 类数据的个数。用于匹配抗原群体,即对每一个已知组别的数据,产生一个抗体。这些抗体所组成的集合,我们称为抗体库集合,表示为:,._anti

31、body21nabtase。抗体库集合在免疫系统也称为记忆细胞集合,是免疫系统在受到外界病毒入侵时,系统产生的用于识别抗原的,由淋巴 B 细胞分化产生的细胞集合。(2)免疫应答当外部抗原进入免疫系统时激活免疫细胞,诱发其发生反应的过程称为免疫应答。免疫应答包括初次应答和再次应答 21。初次应答是免疫系统首次遇到一种抗原,再次应答即是对已识别抗原产生的免疫应答。在免疫过程过程中首先需要确定免疫应答的类型,为此引入了异常点检测算法。其基本思路是:把所有的训练数据组成一个集合 traindata,然后把该抗原 iag加入到该集合中,判断其是否为异常点,如果属于异常点说明其为初次应答,需要产生新抗体用

32、于匹配该抗原。如果不属于异常点,说明其为再次应答,则可以直接进行免疫响应,进行识别分类。(3)识别分类识别分类就是对抗原进行的分类处理,首先计算抗原 iag和 antibody_database 中各抗体 jab之间的亲和度 jfitvalue,比较亲和度大小,选取具有最大亲和度的抗体 jb,并把该抗原分为第 j 类。(4)异常点处理当免疫应答为初次应答时,免疫系统需要产生新的抗体用于识别该抗原。在实际生物免疫系统中,假如某一病毒数量微小,一般不能对机体产生影响,这时免疫系统可以不予以处理。但当抗原浓度大于一定阈值k 时,表明病毒正在增殖,需要免疫系统及时做出响应。和生物免疫系统一样,人工免疫

33、系统也需要对异常点抗原的浓度进行实时监测,用于表征抗原的增殖情况。为此本文提出了增量式单粒子浓度算法。其基本思路是:具有 n 个元素的局外点集为, 。对于每一个新加入局外点集的,._21nagdatbseoutlier抗原 ag,计算其与集中其他抗原之间的亲和度 jfvlu,统计亲和度 fitvalue 小于阈值 threshold 的个数m。当个数 m 大于给定阈值 k 时,说明该抗原粒子周围浓度较高,且具有连续变化,根据局外点的产生的机理,可以认为分类模型发生了变化。此时把这 m 个抗原组成新的训练集, 1ntraid= ig|thresoldfitvalui,其中 n 为原训练集的类数。

34、并更新局外点集和训练集:,tnewraiddatbsutlieratbnw_1rietri。(5)新抗体的训练对于满足要求的局外点数据集 1ntraid,利用人工免疫克隆算法,产生新抗体 newab。判断新抗体和抗体库中的其他抗体库之间的亲和度,当所有亲和度值小于某一阈值 时,则把该抗体直接加入到抗体库中,形成新抗体: newnewabdtsatiboydtbsantioy _。否则,说明新抗体和某一类已知抗体 i具有极大地相似性,其表明抗体的产生是由于模型的中心发生偏移造成的。此时需要对这两个抗体进行融合处理。 2/)(newii,并用新产生的 iab替换原有的iab。4 仿真验证为了验证算

35、法的对新增类添加的有效性,本文构造了三类数据,每类样本个数为 50 个。第一类 data1 为以(1,2)为圆心,0.3 为半径伪正态分布的随机点集,第二类 data2 为以(2,1)为圆心,0.3 为半径伪正态分布的随机点集,第三类 data3 为以(3,2)为圆心,0.3 为半径伪正态分布的随机点集。其在产生公式如表 1 所示:表 1 样本点产生公式样本 产生公式 公式相关参数说明data1 1+0.3a.sin(2b),2+0.3a. cos(2b)data2 2+0.3a.sin(2b),1+0.3a. cos(2b)data3 3+0.3a.sin(2b),2+0.3a. cos(2

36、b),randn()产生1()0arnda符合(0,1)正态分布的随机数。b=rand(),为0,1之间的随机数。由以上三组数据组成实验数据集 data=data1;data2;data3,其分布如图 4 所示。并利用第一类的前 20 个点作为训练集。data 作为测试数据集 testdata。显然对于这种训练模式下,由于原始数据有限,且只有一类数据,常规的分类算法,是很难正确实现分类的。而此时采用本文提出的分类模型,当取fitrate=1.2,k=15 ,threshold=1.2 时,能够得到 99.33%的分类准确率。00.511.522.50 0.5 1 1.5 2 2.5 3 3.5

37、X轴Y轴图 4 测试数据分布图0246810121416180 25 50 75 100 125 150时 间 序 列局外点数图 5 局外点数随时间的变化曲线如图 5 所示为局外点数随时间的变化曲线,从图中可以看到,当测试数据从第 51 个点开始,由于新类的产生,导致模型无法正常识别该类抗原,故局外点数逐渐增大。但当到达第 66 点时,抗原浓度达到阈值k=15,因此模型通过新类的插入,完成了对新类的识别,并把初始满足要求的局外点纳入新类中,故局外点急剧减少到 0。同理,从第 100 点到 116 点,完成了对第三类抗体的模型插入。此时抗体库也有最开始的一个抗体(1.0032,2.0025)增加

38、到三个抗体(1.0032,2.0025),(2.0812,0.9856),(3.0586,2.0012) 。00.20.40.60.811.20 1 2 3 4 5fitrate分类精度图 6 fitrate 对分类精度的影响曲线在分类模型工作过程中,亲和率 fitrate 对模型的分类精度具有极大地影响力,这种影响力主要来源于抗体对抗原的容忍程度,当 k=15,threshold=1.2 时,其影响曲线如图 6 所示。从图可以看见,当 fitrate 较小或较大时,分类精度相对比较低,这主要是因为当 fitrate 取值过小,抗体对抗原的容忍度较低,特异性越强,造成抗体对于稍微有所变异的抗原

39、无法识别,从而出现错分;而 fitrate 过大时,则增强了抗体的应答范围,可能与其他非同类的抗原发生免疫反应。同时对不同数据进行分析计算,还发现 fitrate 取值还与数据有关。对于本实验数据而言,当 fitrate 取为 1.2,1.8,2.4 时,分类精度最大,达到 99.33%。同时,为了验证模型由于对于分类中心漂移的识别能力,构造了另外一类数据。样本个数同样为 50 个,其是以(1.3,2.3)为圆心,0.3 为半径伪正态分布的随机点集,其产生公式为:data4=1.3+0.3a.sin(2b),2.3+0.3a. cos(2b) ,其中 a,b 如表一所示。如图 7 所示,明显地

40、可以发现 data4 和 data1 有大量的重合区域,且分布连续而相对集中,且该区域和 data2,data3 之间距离区分较为明显。故该数据可以理解是由于抗原k=15threshold=1.2fitrate=1.2k=15threshold=1.2data1 发生变异后,导致类中心发生偏移后产生的数据。00.511.522.530 0.5 1 1.5 2 2.5 3 3.5X轴Y轴图 7 测试数据分布图024681012141618200 25 50 75 100 125 150 175 200时 间 序 列局外点数图 8 局外点数随着时间的变化曲线如图 8 所示为当模型参数 fitrat

41、e=1.2,k=15,threshold=1.2 时,模型对于新测试数据的局外点数随时间的变化曲线。在前 150 个点中,局外点瞬时增加的主要原因主要是由于新类的数据的介入,当完成对新类的插入后,免疫系统的抗体库为(1. 0059,2.0077) ,( 2.0849,1.0431),(2.9862,2.0242)。而当测试数据进入 151 时,模型中又出现了大量的异常点,且异常点浓度密度值达到了阈值,通过异常点判断,发现此类异常点的中心和已知的(1.0059,2.0077)具有较大亲和度,且大于阈值 。说明局外点是由于类 1 的中心发生了偏移导致的,通过抗体融合,得到了最后的抗体库为:(1.

42、1567,2.1533),( 2.0849,1.0431),(2.9862,2.0242),可以发现,第一个抗体已经更新为(1. 1567,2.1533),且通过抗体的更新,系统完成了对变异数据的识别,局外点数目减少到一个。从而验证了算法对于类中心修订的有效性。5 结束语随着分类模型的应用领域的扩大,原始分类数据也更多从原来的静态数据转化为动态数据,如果分类模型还保持在静态下,已经不能够满足实际工程的需求,为此,对于模型更新算法的研究必将是未来模式识别领域研究重点和基础。本文对此进行了初步的研究与尝试,其主要贡献包括:(1)分析了当前分类模型的基本结构,提出了分类模型自动更新的概念;(2)将增

43、量式分类算法和异常点检测技术结合起来,建立了具有自动更新功能的分类模型的基本框架;(3)设计了一种用于模式分类的人工免疫克隆算法,并建立了一种考fitrate=1.2k=15threshold=1.2虑异常点的人工免疫分类模型更新结构,为未来的分类的模型的建立提供了一种新的思路。实验结果显示了该框架的具有一定的有效性、自适应性,能够有效地跟踪数据的变化,自动的添加新类,以及实现模型中心点的移动。不过值得指出的是,该模型的精度和灵敏度很大程度受到人工免疫分类算法对于数据分类精度和异常点检测算法的检测精度的影响,因此,下一步的研究重点,应主要包括以下两方面:一是人工免疫分类算法以及异常点检测算法的

44、改进上;二是逐步把上一分类模型更新结构推广到其他分类算法中。参考文献1 CHEN Yuanyuan, PENG Xinguang. Analysis and comparison of classification algorithmsJ. Electronic Product Reliability and Environmental Testing. 2004,(6):72-75(in Chinese).陈媛媛,彭新光.分类算法的分析与比较 J.电子产品可靠性与环境试验.2004,(6):72-75 .2 FANG Jincheng. Review of classification al

45、gorithm for datamining J. Journal of Shenyang Institute of Engineering (Natural Science). 2006,2(1):73-76(in Chinese).方金城.分类挖掘算法综述J.沈阳工程学院学报(自然科学版).2006,2(1):73-76.3 ZHANG Wengang, GU Jun. The Survey and application of classification data miningJ. Journal of Taiyuan Normal University (Natural Scienc

46、e Edition). 2006,5(3):47-49(in Chinese).张文钢,谷军.分类数据挖掘综述及应用 J.太原师范学院学报(自然科学版).2006,5(3):47-49.4 WANG Tao, LI Zhoujun, YAN Yuejin,et al. A Survey of classification of data streamsJ. Journal of Computer Research and Development. 2007,44(11):1809-1815(in Chinese).王涛,李舟军,颜跃进,等.数据流挖掘分类技术综述 J.计算机研究与发展.2007

47、,44(11):1809-1815.5 SHEN J ianxian , SHEN Jong , L I Yiguo,etal。Principles of Artificial Immune System and Its ApplicationsJ. Turbine Technology. 2005,47(4):248-257(in Chinese).沈剑贤, 沈炯,李益国,等 .人工免疫系统原理及其应用J .汽轮机技术.2005,47(4):248-257.6 LI Peng, WANG Xiaolong, GUAN Yi. Question classification with incr

48、emental rule learning algorithm based on rough setJ. Journal of Electronics & Information Technology. 2008,30(5):1127-1130(in Chinese).李鹏,王晓龙,关毅.一种基于粗糙集增量式规则学习的问题分类方法研究J .电子与信息学报.2008,30(5):1127-1130.7 WANG Li, ZHANG Xiping, GUO Lin. Review of incremental learningJ. Journal of Chongqing University o

49、f Posts and Telecommunication(Nature Science). 2007, Supplement: 99-102(in Chinese).王利,张喜平,郭林.增量式知识获取算法综述 J.重庆邮电大学学报(自然科学版).2007,增刊(Supplement):99-102.8 CHAO S, WONG F, LI Y P. An incremental and interactive decision tree learning algorithm for a practical diagnostic supporting workbenchC. IEEE, Fourth International Conference on Networked Computing and Advanced Information Management. 2008: 202-207.9 W

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报