1、在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。属性相关分析的基本思想就是针对给定的数据集或概念,对相应属性进行计算已获得(描述属性相关性) 的若干属性相关参量。这些参量包括 :信息增益、Gini 值、不确定性和相关系数等。采用属性相关分析方法,以帮助滤去统计无关或弱相关的属性并保留(与挖掘任务) 最相关的属性。包含属性(维)相关分析的定性概念描述就称为分析定性概念描述 (analytical characterization )。包含属性( 维) 相关分析的对比定性概念描述也就称为分析对比定性概念描述(analytical comparison)。直观上讲,若一个属性
2、(维)的取值可以帮助有效地区分不同类别的数据集 (class,那么这个属性( 维) 就被认为是与相应类别数据集密切相关的。例如: 一个汽车的颜色不太可能用于区分贵贱汽车(类别);但是汽车的型号、品牌、风格可能是更相关的属性。此外即使同一个属性( 维) ,其不同抽象层次的概念对不同类别数据集的分辨能力也不同。例如: 在出生日期(birth date)维中,birth day 和 birth month 都不太可能与雇员的工资相关;而只有 birth decade(年龄) 可能与雇员的工资相关。这也就意味着属性 (维) 相关分析应该在多层次抽象水平上进行,只有最相关的那个层次的属性(维) 应被包含
3、到数据分析中。当属性相关分析应用在聚类算法时,它根据数据在每个属性上的分布情况来删除稀疏的属性和数据,最终达到降维和缩小数据集的目的;当属性相关分析应用在离群数据挖掘时,它根据数据在每个属性上的稀疏程度删除稠密的属性和数据,通过删除稠密属性和数据,也能达到降维和缩小数据集的目的。利用属性相关分析,首先,可以删除在所有维组合中都处于稠密区域的数据,由于这些数据不可能出现在稀疏区域内,因此他们也不可能出现在离群子空间中;第二,利用属性相关分析删除不相关属性,不相关属性是指在这个属性中所有的数据都分布在稠密区域内,容易知道由稠密区域构成的维不可能成为构成离群子空间的维,因此,不相关属性可以删除。关于
4、属性相关分析,在机器学习、统计、模糊和粗糙集理论等方面都有许多研究。属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。这种度量包括信息增益、Gini 索引、不确定性和相关系数。 这里,我们介绍一种方法,它将信息增益分析技术(诸如在学习决策树 ID3 和 C4.5 算法中提供的 )和基于多维数据分析的方法集成在一起。该方法删除信息量较少的属性,收集信息量较多的属性,用于概念描述分析。 信息增益计算如何工作?设 S 是训练样本的集合,其中每个样本的类标号是已知的。事实上,每个样本是一个元组,一个属性用于确定训练样本的类。例如,属性 status 可以用于定义每个样本的类标号
5、或者是“graduate”,或者是“undergraduate”。假定有 m 个类。设 S 包含 si 个 Ci 类样本,i = 1, ., m。一个任意样本属于类 Ci 的可能性是 si / s,其中 s 是集合 S 中对象的总数。对一个给定的样本分类所需的期望信息是: iSisI1221log),.(具有值a1,a2,.,av 的属性 A 可以用来将 S 划分为子集 S1,S2,.,Sv ,其中,Sj 包含S 中 A 值为 aj 的那些样本。设 Sj 包含类 Ci 的 sij 个对象。根据 A 的这种划分的期望信息称作 A 的熵。它是加权平均:vj mjjmjj sIsE11).(.)(A
6、 上该划分的信息增益定义为 : )(,.()21AEIGainm在这种相关分析方法中,我们可以计算定义 S 中样本的每个属性的信息增益。具有最高信息增益的属性是给定集合中具有最高区分度的属性。通过计算信息增益,我们可以得到属性的秩评定。这种秩评定可用于相关分析,选择用于概念描述的属性。 概念描述的属性相关分析执行步骤如下: 1 数据收集:通过查询处理,收集目标类和对比类的数据。对于类比较,目标类和对比类都由用户在数据挖掘查询中提供。对于类特征,目标类是要特征化的类,而对比类是不在目标类中的可比较数据。2 使用保守的 AOI 进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于它们。由
7、于维的不同层次对于给定的类具有很不相同的相关性,原则上,定义维概念层的每个属性都应当包含在相关分析中。通过删除或泛化具有大量不同值的属性(如,name 和 phone) ,面向属性的归纳( AOI)可以用来进行一些预相关分析。对于概念描述,具有大量的不同值的属性多半没有意义。保守一点,这里进行的 AOI 使用的属性分析阈值要合理的大,使得更多的(但非所有的)属性在进一步相关分析(下面的步骤 3)中被考虑。这样使用 AOI 得到的关系称作挖掘任务的候选关系。3 使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性。此步所用的相关性度量可以建立在数据挖掘系
8、统中,或由用户提供。例如,可以使用上面介绍的信息增益度量。根据计算的属性与数据挖掘任务的相关性,对属性排序(即确定秩) 。然后删除与类描述任务不相关或弱相关的属性。可以设置一个阈值来定义“ 弱相关” 。其结果为初始目标类工作关系和初始对比类工作关系。4 使用 AOI 产生概念描述:使用一组不太保守的属性泛化阈值进行 AOI 。如果类描述任务是类特征,这里只包含初始目标类工作关系。如果类描述任务是类比较, 初始目标类工作关系和初始对比类工作关系都要包含在分析中。 基于改进光流和 HMM 的人脸表情识别研究本文利用特征化与比较中所用的属性相关分析成功对人脸表情特 征子区域进行了相关性分析,对多个子
9、区域特征进行了相关度由高到底的排序, 从众多特征中做出了选择。 在判断一个样本属于哪个类时,用这个样本或类的属性(特征)判断,但是一般样本或类有多个属性,对于我们来说,确定哪些属性应该包含在类特征分析中是比较困难的。如果包含的属性太少,会造成特征不完整;如果包含的属性太多,也会降低系统的性能,甚至加入干扰信息。我们希望对任何一个样本以属性值分类,现在的问题是选择哪些属性作为分类属性。属性分析就是要解决这一类问题。属性的相关性要根据属性区分一个类和其他类的能力来评估。属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。这种度量有很多,如信息增益、 索引、不确定性和相关系数等
10、。 Gin选择一个样本空间 ,根据已有的知识给每一个样本赋予一个类标号。设共有 m 个类S,样本有属性 等等,我们希望对任何一个样本以属性分类。在样miC,.21,DCBA,本数很大时一个任意样本属于类 的可能性是 ,其中 是集合 中对象的总数。对一i si/S个给定的样本分类所需的期望信息是:miSisI1221log),.(属性 可以依据值 在样本空间上产生一个划分,设将 划分为 个子集A,.2vaSv,其中, 包含 中 值为 的那些样本。设 包含类 的 个样本。,.21vSjsSAj jsiCij根据 的这种划分的期望信息称作 的熵。它是加权平均: vj mjjmjj sIsAE11).
11、(.)(上该划分的获得的信息增益定义为: )(,.()21AEIGainm运用这种相关性分析方法,我们可以计算出定义 中样本的每一个属性的信息增益。S具有最高信息增益的属性是具有最高区分度的属性。通过计算信息增益,可以得到属性的秩评定。这种秩评定可用于相关分析,选择用于概念描述的属性。 将上文中检测出的特征子区域作为属性,在这些属性中要挖掘出具有较好区分度的属性,分别计算各个子区域特征的信息增益,从而对每个属性按此划分的信息增益排序可得每个属性的区分能力由大到小的排列顺序。具体步骤为选择若干组表情序列表情变化最为显著时的图片,分别测量各子区域的属性值如嘴部子区域可测量嘴长、嘴宽等。接着计算每个属性值的熵,进而得到期望信息以及信息增益。信息增益可以作为特征向量构造时各子区域的权值。 眉眼区域和嘴部区域为最典型的部分,这些区域的选取是基于表情的度量结果,他们被证明是变化最显著的区域。综合以上分析,本文在将眉眼、嘴部、额 头和腮部区域独立的划分出来。