收藏 分享(赏)

基于软超球体的高维非线性数据异常点识别算法.doc

上传人:无敌 文档编号:149142 上传时间:2018-03-22 格式:DOC 页数:13 大小:231.50KB
下载 相关 举报
基于软超球体的高维非线性数据异常点识别算法.doc_第1页
第1页 / 共13页
基于软超球体的高维非线性数据异常点识别算法.doc_第2页
第2页 / 共13页
基于软超球体的高维非线性数据异常点识别算法.doc_第3页
第3页 / 共13页
基于软超球体的高维非线性数据异常点识别算法.doc_第4页
第4页 / 共13页
基于软超球体的高维非线性数据异常点识别算法.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、基于软超球体的高维非线性数据异常点识别算法 徐钢 张晓彤 黎敏 徐金梧 北京科技大学计算机与通讯工程学院 钢铁共性技术协同创新中心 摘 要: 在冶金、化工等流程型工业领域, 生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题, 本文引入了软超球体的概念, 采用非线性核函数将原始数据映射到高维的特征空间, 并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点, 从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例, 对实际生产数据进行检测, 证明了所提出的基于软超球体的异常点识别算法对于高维的非线

2、性数据具有良好的检测能力.关键词: 软超球体; 高维非线性数据; 异常点识别; 核映射; 作者简介:张晓彤, E-mail:ZXT收稿日期:2016-07-07基金:国家高技术研究发展计划 (863 计划) 资助项目 (2014AA041801-2) An outlier detection algorithm based on a soft hyper-sphere for high dimension nonlinear dataXU Gang ZHANG Xiao-tong LI Min XU Jin-wu School of Computer and Communication Eng

3、ineering, University of Science and Technology Beijing; Collaborative Innovation Center of Steel Technology; Abstract: In process industries, such as metallurgy and chemistry, real procedure parameters usually possess high-dimensional nonlinear features. To solve the problem of outlier detection in

4、complex high-dimensional data, the concept of a soft hyper-sphere is introduced in this paper. An original data set is projected into a high-dimensional feature space using a nonlinear kernel function, and the boundary of the soft hyper-sphere is determined within this feature space. To avoid a mass

5、 product quality incident, location information on the testing samples, which are projected into the feature space, is used to decide whether they are outliers. As an applied example, practical procedure data obtained from a type of auto steel product were tested. The results verify that the propose

6、d outlier detection algorithm based on a soft hyper-sphere has a better ability for outlier detection in high-dimensional nonlinear data than tradional methods.Keyword: soft hyper-sphere; high dimension nonlinear data; outlier detection algorithm; Kernel mapping; Received: 2016-07-07在实际工业生产中, 经常需要确定

7、工艺参数在什么范围内产品质量是可控的, 即需要确定过程参数的控制范围.当工艺参数 (也包括原料参数) 在该范围内, 可以认为所设定的过程参数能满足产品质量要求, 反之, 则可能出现质量异常.这种通过实际生产数据来确定产品质量可控区的方法在工业生产中非常有用, 它改变了通常采用的“事后”质量抽检的方式, 在过程参数设定过程中就能判定出产品质量是否在可控区范围内, 避免了出现大量的质量判废.异常点 (outlier) 检测1-2的目的就是根据所确定的边界来判断过程参数的设定值是否会造成产品质量异常.异常点检测方法还常用于在质量追溯过程中, 判断出现质量异常的原因3-4.传统的统计过程控制 (sta

8、tistical process control, SPC) 方法主要是通过过程参数和质量指标的统计规律来控制引起产品质量变化的各种因素, 避免产品质量出现异常.目前, 企业中大多采用 6 方法对单变量进行统计过程控制, 以保证每个单独变量在设定的控制限内.但是, 在实际的工业生产过程中, 往往存在各种高度相关的过程变量, 单变量统计过程控制忽略了变量间的相关性, 因此难以准确判别生产过程中的复杂行为.多变量统计过程控制 (multivariate statistical process control, MSPC) 综合考虑各变量间的相关关系, 可实现多变量生产过程的质量监控5.随着统计数据

9、降维技术的发展, 多变量统计控制图的研究应用出现了新的趋势, 过程控制的对象从基于距离的统计量, 转向了一些基于统计降维方法所构建的综合变量.根据统计降维的原理, Jackson6提出了基于主成分分析 (principal component analysis, PCA) 方法的多变量统计控制图, 随后 Wold等7提出了基于偏最小二乘法 (partial least squares, PLS) 的多变量统计控制图.但是, 无论主成分分析还是偏最小二乘法的多变量统计控制图都有一个假设前提:所有变量服从多变量正态分布 (multivariate normality, MVN) .在这个假设条件下

10、, 对于一个稳定的生产过程, 正常样本点分布在高维空间中的某个超椭球体内;一旦样本点超出超椭球体的边界, 可以认为该生产过程出现了异常.多变量统计控制图 (如 Hotelling 控制图) 的本质是通过历史数据来确定高维空间中这个超椭球的位置和大小.其中, 超椭球的位置主要取决于各变量的均值大小和变量间的相关性, 而超椭球的大小则主要取决于变量的方差.虽然, 通过确定超椭球边界的方法能够较好的解决服从多变量正态分布的异常点识别问题, 但是在实际工业生产过程中, 尤其对于冶金和化工这类复杂流程工业, 生产数据中往往存在非线性特征, 数据分布在软性的超球体内, 即超球体的边界是一组复杂的超曲面.对

11、于这类复杂的数据结构, 采用传统的超椭球边界的方法来判别异常点会造成大量的误判.本文针对工业生产中常见的这类非线性数据结构, 引入了软超球体的概念, 通过非线性核函数将原始数据映射到高维的特征空间中, 并在特征空间中来确定软超球体的边界, 解决复杂数据的异常点检测难题.通过某类汽车用钢制造过程中的工业应用实例证明了新方法的有效性.1 异常点检测方法异常点检测方法主要是通过实际生产数据来确定过程参数可控区的边界, 也称为单一类的分类问题8.下面分别从硬超球体、线性软超球体和非线性软超球体三个方面来讨论单一类的分类问题.1.1 硬超球体假设给定一个数据集 S=x1, x2, , xn, 其中 xi

12、为 p 维的数据向量, 需确定该数据集的边界, 即求解包含该数据集的最小封闭超球体.数据集中的每个样本点与超椭球体的中心 C 的距离均应小于球体的半径 r, 如图 1 所示.图 1 最小封闭超球体示意图 Fig.1 Minimum hyper-sphere diagram 下载原图最小封闭超球体可以转化为如下的优化问题约束条件为:对上式的约束条件附加拉格朗日乘子 i0, 对应的拉格朗日函数为分别对 C 和 r 求偏导且令导数值为 0, 求得优化解.最终可以得到:由于 , 式 (2) 也可以表示为另一种形式8-9:其中, (x i, xj) 表示变量的内积, 令 , 式 (2) 转化为求下面优化

13、解由式 (4) 可以求得最小超球体的半径 r 和球心 C, 其中, i是由式 (4) 求得的最优解.对待测的检测点 x, 可以由下式来判断该检测点是否正常其中, H (x) 表示 Heaviside 函数.当 , 则该检测点被判为异常点.1.2 线性软超球体上面所讨论的最小封闭超球体实质上是一种硬球体, 球体的最小半径为离球心最远的样本点的距离.这意味着, 如果样本中有少数样本点偏离了其他样本, 球体的最小半径将会扩大.这时异常点的检测存在一定的风险, 即:扩大球体的最小半径会将异常点判为正常点, 如图 2 所示.在实际工业生产中, 由于异常点与正常点的部分边界有可能是交叉重叠的, 因此需要考

14、虑允许有少数正常的样本点被划在边界外.通常, 将包含绝大部分样本点的封闭超球体称为封闭软超球体9-10, 它是在硬球体的基础上对边界作了松弛处理.图 2 扩大球体的最小半径会将异常点判为正常点 Fig.2Outliers are regarded as normal samples when the minimum radius of the hyper-sphere increases 下载原图封闭软超球体的求解过程与式 (2) 相似, 引入松弛变量封闭软超球体的优化解为约束条件为:其中 , 式 (7) 中的 A 为一常数, 其值需在控制半径最大化与控制松弛变量之间做出权衡.常数 A 的选择

15、与第一类错误和第二类错误有关5, 通常 A 可以取 0.1 或 0.05.同样, 引入拉格朗日乘子 i0, i0, 对应的拉格朗日函数为分别对式 (8) 求 C, r, i的偏导, 且令导数值为 0, 求得下面的优化解从而得到 把这些约束条件代入式 (8) , 有同样, 令 式 (7) 转化为求下面优化解由式 (11) 可以求得最小超球体的半径 r 和球心 C其中 i是由式 (11) 求得的最优解.对待检测的样本点 x, 可以由下式来判断该检测点是否正常其中, 为惩罚因子.当 f (x) =1, 则该检测点被判为异常点.1.3 非线性软超球体前面所讨论的方法属于线性的映射方法.当数据集中存在非

16、线性的复杂边界时, 这种线性的表达形式对于非线性的数据结构会造成大量的误判, 如图 3 所示.下面讨论非线性的数据结构的封闭超球体求解方法.图 3 对于非线性的数据可能造成误判 Fig.3 Nonlinear data may result in erroneous judgment 下载原图设 X 是一个 R 的紧凑子集, k (x, z) 是 XX 上的一个连续的实值对称函数.如果存在一个从原始 X 空间到高维特征空间 F 的映射 :x (x) , 对所有都有则称 k (x, z) 为定义在 XX 上的核函数.根据 Mercer 定理, 如果核矩阵 K 是一个半正定矩阵, 则 k (x,

17、z) = (x) , (z) 是一个有效核11, 因而核函数 k (x, z) 等价于高维特征空间中映射点 (x) 和 (z) 的内积.这意味着, 可以通过非线性核函数将原始空间上的数据集映射到高维的特征空间中, 采用映射点 (x) 和 (z) 的内积 (对偶形式) 来求解非线性情况下的封闭超球体.根据式 (7) 的方式来建立特征空间中封闭超球体的优化解.约束条件为:拉格朗日函数为上式与式 (10) 不同之处在于, 式 (10) 是采用线性核函数, 因而只能解决简单边界问题.而式 (16) 采用的是非线性核函数来解决复杂非线性边界问题.两者差别主要是选择线性核函数还是非线性核函数, 而求解的过

18、程与第二节所讨论的方法是一致的.常用的核函数有:(1) 线性核函数.(2) 多项式核函数.其中, c 和 d 均为常数.(3) 高斯核函数 (径向基核函数) .其中, 为大于 0 的常数.(4) Sigmoid (S 形的) 核函数.其中, 00, 10.这意味着, 实际应用中只需边界附近 i0 的点作为异常点的判别依据.这些位于边界的点称为支持向量 (support vector) .由支持向量所确定的边界在本质上与前面讨论的非线性超球体的边界是相同的, 不同之处在于异常点的识别时只需考虑少数几个与支持向量相对应的样本点 xi和 i.因此, 支持向量简化了异常点的识别过程, 提高了在线识别系

19、统的实时性.基于支持向量的异常点检测方法为图 4 核参数 取不同值时 2 维数据的边界限 Fig.4 Boundary of two-dimensional data with different kernel values 下载原图其中, x 表示待检测点, q 表示支持向量的个数, x i表示支持向量, i表示支持向量对应的权重系数.实际上, 在判别式 (21) 中与待检测点 x 有关的项只有, 从高斯核函数的定义 (x, x) =1, 剩余的其他项都是根据历史数据集求得的常量.基于支持向量的异常点检测方法的流程图如图 5 所示.在实际工业应用中, 可以通过采集满足质量要求的样本集作为历史

20、数据, 按照前面讨论的方法确定非线性软超球体的边界, 并从中选择出支持向量 xi和对应的权重系数 i.通过判别函数可以在线判断待检测样本点是否为异常点, 一旦发现过程参数的设定值超出了边界, 系统将给予警示, 从而避免发生批量的产品质量判废.3 应用实例分析为了验证基于软边界的异常点检验方法的有效性, 分别对 2 维仿真数据和实际工业数据进行分析与验证.图 6 表示从 2 维仿真数据得到的 50 个样本点的分布图, 采用基于支持向量的封闭超球体方法对样本进行边界划定, 参数 值为 3, A 取值 0.1, 支持向量的个数为 6.通过式 (21) 计算结果发现:有 4 个点的 f (x) =1,

21、 这些点被判为异常点, 在图 6 中可以看出这 4 个点在边界线外部.通过上面仿真数据可以证明采用核函数的非线性软边界确定方法能较好的处理复杂边界问题.但在实际工业应用中, 过程数据中通常具有高维、强耦合、非线性等特征.为了验证所提出方法的有效性, 从实际生产数据中采集 IF 钢中不同等级汽车板在各生产工序中的 15 个主要工艺参数, 包括钢中主要成分、热轧、冷轧和退火过程中关键工艺参数.主要工艺参数名称及统计量如表 1 如示.图 5 基于支持向量的异常点检测流程图 Fig.5 Flowchart of outlier detection based on the support vector

22、 下载原图图 6 2 维仿真数据的分布图及软边界 Fig.6 Distribution graph and soft boundary of two-dimensional simu-lation data 下载原图通过采集 IF 汽车用钢中 3 个主要系列钢种 DC03、DC04 和 DC05 的实际生产数据作为历史数据集, 并采用基于核函数的非线性软边界确定方法求得支持向量 xi和对应的权重系数 i, 最小超球体半径 r, 且遴选出 36 个支持向量.然后, 按照图 5 所示的流程, 分别从炼钢、热轧、冷轧和退火工序中采集待检测的关键工艺参数, 对 169 个样本点进行异常点识别, 结果如

23、图 7 所示.从图中可以看出, 有 5 个样本点处于边界限的上方, 这些点存在不同程度的异常现象.表 1 主要工艺参数名称及统计量 Table 1 Main process parameters and statistics 下载原表 图 7 实际工业数据异常点识别结果 Fig.7 Result of outlier detection in real industrial data 下载原图由于多变量间存在多重耦合关系, 出现工艺参数异常的原因是多方面的, 包括某些工艺参数超过了临界值, 或者是工艺参数间的相关性不符合统计规律.在图7 中, 第 5 号样本点的工艺参数中, 压下率仅为 65.

24、5%, 低于最小值.第 125 号样本点的工艺参数中, 连退快冷出口平均温度仅为 351, 连退时效出口平均温度为 287.1, 均低于最小值.进一步分析得知, 连退快冷出口平均温度的标准方差 为 13.7, 351远超出了-3 范围 (436.3-41.1=395.2远大于 351) ;同样, 连退时效出口平均温度也远低于-3 范围, 因此该点被判为异常点.第 138 号样本点的工艺参数中, 连退快冷出口平均温度为 351, 连退缓冷出口平均温度为 606, 卷取温度为 659, 这 3 个温度值均低于或接近最小值;而 2 个主要的成分 C 和 Mn 的质量分数分别为 0.021%和 0.16%, 都高于平均值, 接近或达到最高值.第 164 号样本点工艺参数中, 连退均热平均温度为843, 热轧加热炉出口温度为 1273, 均接近最大值.第 168 号样本点工艺参数中, 精轧入口温度为 1084, 超过了最高值, 卷取温度为 657, 接近最小值.从上面分析结果中可以看出, 第 5、125、164、168 样本点被判为异常点的主要原因是由于个别工艺参数超出了边界点;而第 138 样本点是由于个别工艺参数接近最大值 (或最小值) , 且变量之间相关性不符合统计规律, 因而被判为异常

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报