1、第8卷第4期 20 1 4年1 2月 广州城市职业学院学报 Journal of Guangzhou Ci ty Polytechnic V018 N04 Dec2 0 1 4 基于粒度计算的分类属性数据离群点检测算法 刘晓平 (衢州职业技术学院信息工程学院,浙江衢州324000) 摘要:针对基于距离的离群检测算法无法有效应用于分类属性数据集。本文提出一种基 于粒度计算理论的对象离群程度计算公式。基于该公式所计算的对象的离群因子值,对所有对 象进行排序将排序后的前k个对象声明为离群点。为了使用相对简单的方法从分类属性数据 集中查找离群点文中构造了一个算法ODAGrC(Outlier detec
2、tion algorithm based on granular con puting) 理论分析和应用实例证明了ODAGrC算法的有效性和可行性。 关键词:离群检测;粗糙集;粒度计算;分类信息系统;粒集 中图分类号:TP309 文献标识码:A 文章编号:16740408(2014)04-0075-04 Outlier Detection Algorithm for Categorical Data Based on Granular Computing LIUXiao-ping (College of Information Engineering,Quzhou College of Tec
3、hnology,Quzhou 324000,China) Abstract:Many distancebased outlier detection algorithms were proposed in the past,which can not effectively deal with categorical data setIn this paper,a novel formulation is proposed for the outlier degree of objects that is based on the granular computing theoryEach o
4、bject Oil the basis of its Outlier Factor is ranked and we declare the top k objects in this ranking to be outliersIn order to develop relatively straightforward solutions to finding outliers from categorical data set,an algorithm is constructed,named ODAGrC(Outlier detection algorithm based on gran
5、ular computing)Theory analysis and example calculation both manilest that the 0DAGrC iS efficient and feasible Key words:outlier detection;rough set;granular computing;categorical information system;granular set 在一些问题领域,对罕见事件、异常对象和异 常的检测非常重要。离群数据是数据集中偏离大 部分数据的数据,它们的表现与大多数常规对象 有着明显的差异,以至于让人怀疑它们可能是由 另
6、外一种完全不同的机制所产生的1 J。离群点检 测的目的是根据某些属性集找到与剩余大部分数 据相比较存在较大差异的少部分数据。对于许多 应用领域,如金融欺诈检测_2、计算机网络的入侵 识别_3、医学领域中发现病人对新的治疗方案异 常反映等 中的应用中从知识发现的角度来看, 我们更感兴趣的是发现罕见的事件。对这些特别 行为的研究有助于揭示隐藏在这些行为背后的有 价值的信息。 离群检测问题在统计界已得到广泛的研究 基于统计的离群检测算法5是假设所研究的数据 集符合某种统计规律。将那些严重偏离分布曲线 收稿日期:20140918 基金项目:衢州职业技术学院2013年度院级科研项目“基于覆盖粒计算的海量
7、数据挖掘模型与方法研究” (QZYZ1308)。 作者简介:刘晓平,女,衢州I职业技术学院信息工程学院讲师,主要研究方向:数据挖掘。 75 广州城市职业学院学报 2014年第4期 的数据点定义为离群点,但是该方法只能针对只 有一个属性的数据且要事先得知所研究数据的分 布规律,实际上,这两个条件往往满足。基于距离 的离群数据挖掘最早由Knorr等人6, 提出。离群 点被定义为与数据集中大多数数据的距离都大于 某个阈值的点。Ramaswamy等人8在此基础上提 出了KNN离群检测算法,根据距离数据点最近的 第k个邻居的距离来对离群点进行排序,但是该 算法是基于全局度量的,在遇到数据集中含有不 同密
8、度的数据区域时会出现错误。基于距离的算 法需要用户定义距离,而该距离往往难以准确定 义,此外,基于距离的算法也无法有效应用于分类 属性数据集 本文首先提出一种基于粒度计算理论的计算 对象离群程度的公式。然后根据所计算出的每个 对象的离群因子值对所有对象进行排序,声明排 序后的前k个对象为离群点。为简单起见。文中 构造了一个用于检测分类属性数据集的离群检测 算法ODAGrC并通过应用实例证明了算法的有效 性和可行性。 一、理论基础 一般而言结构化数据可以存放在一张表中, 其中每一行代表一个对象事实。在粗糙集理论 中_9 ,一个数据表也称为一个信息系统。一个 分类属性信息系统(Informatio
9、n system,IS)通常可 以表示为:S=( ,A, , )。 ,其中,U= , , 是一个有限非空对象集合,称为论域; 为对象所携带的信息的非空有限集合,这些信息 称为对象的属性,即属性集合; =u。 是属性 aA的值域集合;厂:uA一 是一个信息函数,它 为每个对象的每个属性赋予一个信息值。即V a A, U 厂( ,a) 。 对于任意属性子集 A,存在一个不可分辨 关系Ind(B)=( ,Y)UxUl VaB, ( )= (Y),其Of(x)和 ( )分别表示对象 和Y在 条件属性 上的值。对于任意对象 U, 1 B= YUI( ,Y)Ind(B),显然不可分辨关系Ind (B)将论
10、域U划分为一族不相交的类,表示为 Ind(B):X1,X2, ,其中 是通过Ind ( )所得到的一个等价类,i:1,2,S。显然属于 同一等价类X UInd(B)的任意2个对象根据属 76 性集日都是不可分辨的。一个等价类X (i=1,2, 。S)也称为一个元素集或信息粒。 大多数离群点检测算法都是基于距离测度或 者统计分布的,这些算法要么存在参数选择问题 要么不适用于分类集属性数据集。以下本文提出 一种新的基于粒度计算理论的对象离群程度检测 方法。 定义1令IS=IS=(U,A,V, 是一个分类属 性信息系统, U。则对象 在属性集A上的离 群因子定义如下: 1 1 D ( ) 其中lJ表
11、示集合的基数,显然有OOFA( ) 1。离群因子是衡量对象离群程度的指标,其值 越大,表示对象的离群程度越大。 以下通过一个实例来说明离群因子的定义。 实例1令 a= , :, , , , , , , , 。是论域 中在属性a上的 等价类,则每个对象的离群因子计算如下。 1 ( 一) , 1 DFl al(PC2)=DF (PC3) 南 05, 1 PC4)= ( =OFIo(PC6 专 粥, OF。I( 7)=OF。I( 8)=OF ( 9)=OF。( lo)= 1 =025。 fX7, 8,PC9, 10l 从以上的计算结果可以看出,在同一个等价 类中对象离群因子值相同,等价类的基数越小则
12、 等价类中对象的离群因子值就越小。 二、基于粒度计算的离群点检测算法 基于定义1本文构造一个离群点检测算法 ODAGrC(Outlier detection algorithm based on granu lar computing,ODAGrC),以对分类属性信息系统 中的对象进行离群点检测。0DAGrC算法具体描述 如下: 算法:ODAGrC 输人:一个分类属性信息系统IS=(U,A,V, fa)aA和离群点数k 输出:根据离群因子值排序的数据对象 刘晓平:基于粒度计算的分类属性数据离群点检测算法 步骤1对于每个属性aA,根据属性a对所 有对象进行排序,得到划分Ua。 步骤2对于每个对象
13、xU,根据定义1和步 骤1的结果。计算离群因子OFA(x)。 步骤3根据离群因子值对所有对象进行降序 排序。 步骤4输出对应最大离群因子值的前k个对 象。 以下对ODAGrC算法的复杂度进行分析,首 先考虑时间复杂度。如果采用基数排序法计算由 属性所导致的划分。则步骤l所耗费的时间为0(I cll I):步骤2中如果使用二分查找法来定位等 价类中对象,所耗费的时间为0(IUIICIIlog(max (1 I)I);如果采用数据排序法,步骤3所 耗费的时间为0(1 I);步骤4耗费的时间为0 ( )。则ODAGrC算法的总的时间复杂度为0(1 ll cll log(max(1 01)I)。其次是
14、空间复杂 度,因为算法需要空间来对信息表进行排序,所以 ODAGrC算法的空间复杂度为0(1CI I I)。 三、应用实例 表1给出了分类属性信息表用来说明OD AGrC算法的应用,其中共有l0个对象和6个属 性算法的目标是从表1中找到离群对象。 表1分类属性信息表 为了找到前k个离群对象,需要为计算每个 对象的离群因子的值。根据ODAGrC算法的步 骤,需要计算每个属性ai(1i6)在论域u上的 划分。下面以属性a 为例来说明论域划分的过 程。 由属性a 可以划分出三个等价类,分别为 x(a1=Big)=1,6,9, 、X(al=Medium)=2,4,10, x(a:Smal1)=3,5,
15、7,8 则根据公式(1),由属性a 所划分的对象1, 6,9、2,4,10和3,5,7,8的离群因子分别为 033、033和025。在表2中的第一列列出了计算 的结果。 对表1中所有的属性进行相似的计算过程,计 算结果如表2所示。表2中最后一列列出了每个 对象在所有属性上的离群因子值。所有对象在所 有属性上的离群因子值的比较结果如图1所示,从 图1可以看出,对象3有最大的离群因子值,其次 是对象2。 表2所有对象的离群因子值 050 100 O25 05O 025 0_33 O25 025 033 0-33 025 0-33 033 033 033 025 025 0-33 O25 033 0
16、25 025 O5O 05O 025 025 025 025 O25 025 020 0-33 10o 02O 020 033 1o0 020 O33 020 05O 025 025 O5O O25 025 O25 025 O25 025 034 042 043 039 O26 029 038 026 O29 028 77 站妈 O 0 O O O O O O O 0 l 2 3 4 5 6 7 8 9 K 广州城市职业学院学报 2014年第4期 O5 O4 害03 襄02 01 O l 2 3 4 5 6 7 8 9 1O 对象 图1所有对象的离群因子比较图 四、结论 当前大多数离群点检测算
17、法都是基于距离测 度或者统计分布的。这些算法或者存在参数选择 难的问题,或者不适用于分类属性数据集。本文 提出一个基于粒度计算理论的新公式来计算分类 属性数据的离群程度。然后基于每个对象的离群 因子值的大小对对象进行排序,并声明排序后的 前k个对象为离群点。为了开发相对简单的解决 方案以从分类属性数据集中找到离群对象,本文 构造了一个算法ODAGrC。理论分析的实例计算 均说明了ODAGrC算法的有效性和可行性。 参考文献: 1D Hawkins,Identification of outliersMLondon:Chapman and Hall,1980 2汤俊,熊前兴用于金融交易监控的对比
18、离群点检测模型J武汉理工大学学报,2006,28(4):112-115 3王茜,唐锐基于频繁模式的离群点挖掘在入侵检测中的应用J计算机应用研究,2013,30(4):1208-1211 4Bouarfa L,Dankelman JWorkflow mining and outlier detecdon from clinical acdvilogsJJournal of Biomedical Informat ics,2012,45(6):11851190 5Bamett V,Lewis TOutliers in statistical dataMNew York:Wiley,1994 6Kn
19、orr E M,Ng R TAlgorithm for mining distancebased outliers in large datasetsCProc ofthe 24th International Con ference on Very Large Data Bases,1998:392403, 7Knorr E M,Ng R T,Tucakov VDistancebased outlier:algorithms and applicationscProc of the 26th International Conference on Very Large Databases,2
20、000:237253 8Ramaswamy S,Rastogi R,Kyuseok SEfficient algorithms for mining outliers from large data setscProc of ACM SID- MOD International Conference on Management of Data,2000 9Pawlak ZRough setJInternational Journal of Computer and Information Science,1982,11(5):341356 1O“M,Shang C,Feng S,et a1Quick attribute reduction in inconsistent decision tablesJInformation Sciences,2014, 254:155-180 1 1“M,Deng S,Feng S,et a1Fast assignment reduction in inconsistent incomplete decision systemsJJournal of Systems Engineering and Electronics,2014,25(1):8394 78 (责任编辑练传喜)