1、基于信息熵加权词包模型的扣件图像检测 李爽 李柏林 狄仕磊 罗建桥 西南交通大学机械工程学院 摘 要: 针对传统“视觉词包模型”在进行铁路扣件检测时忽略图像结构而导致的区分能力不强的问题, 提出一种基于信息熵加权词包模型的扣件检测模型 EWBOW。在传统“视觉词包模型”的基础上, 引入信息熵对扣件图像局部区域的词包模型的词频进行加权处理, 加强词包模型对不同类别扣件的区分性, 并利用潜在狄利克雷分布学习扣件图像的主题分布。最后, 采用支持向量机对扣件进行分类识别。对四类扣件图像的分类实验证明该模型能够有效提高扣件分类精确度。关键词: 铁路扣件检测; 词包模型; 视觉单词; 信息熵; 潜在狄利克
2、雷分布模型; 作者简介:李爽 (1992) , 男, 硕士研究生, 研究领域为:图像处理、机器视觉;E-mail:;作者简介:李柏林 (1962) , 男, 教授, 博士生导师, 博士, 研究领域为:图像处理、优化技术;作者简介:狄仕磊 (1992) , 男, 硕士研究生, 研究领域为:图像处理、目标检测;作者简介:罗建桥 (1991) , 男, 博士研究生, 研究领域为:图像处理、优化技术。收稿日期:2017-03-27基金:四川省科技支撑计划项目 (No.2016GZ0194) Inspection for railway fasteners based on entropy-weight
3、ed BOW modelLI Shuang LI Bailin DI Shilei LUO Jianqiao School of Mechanical Engineering, Southwest Jiaotong University; Abstract: The traditional Bag Of Words (BOW) model ignores the structure of the image while conducting the inspection of railway fasteners. To overcome this defect, this paper prop
4、oses an Entropy-Weighted BOW (EWBOW) model for identification of the image of fasteners. On the basis of the traditional BOW model, the entropy is introduced to weight word frequency of BOW model in the sub-image of fasteners, thus making the BOW model more distinguishable for different categories o
5、f fasteners. And then the Latent Dirichlet Allocation (LDA) is used to learn the topic distribution of the images. Finally, the Support Vector Machine (SVM) is applied to classify a new image. The experiment on four types of fasteners shows that the EWBOW model can inspect fastener states more preci
6、sely.Keyword: railway fastener inspection; Bag Of Words (BOW) model; visual word; entropy; Latent Dirichlet Allocation (LDA) model; Received: 2017-03-271 引言轨道设施的正常工作是维系铁路运营安全的重要保障。传统的轨道检测是人工巡检, 这种检测方法缺乏实时性和准确性, 无法满足铁路高速发展运行密度大的情况下对轨道检测提出的新需求。近年来, 在车载轨道自动巡检方面的研究取得了丰硕的成果1-4, 但一直未能很好地解决铁路扣件的检测问题。扣件的损坏可
7、能酿成列车脱轨等重大事故, 已经引起了铁路部门的高度重视5。随着计算机技术的发展, 计算机视觉技术逐渐应用到铁路扣件自动检测中6-7。目前, 扣件自动检测方法主要分为三类: (1) 基于扣件图像全局特征的检测方法。如文献8利用主成分分析 (Principle Component Analysis, PCA) 检测扣件状态。此类方法忽略了局部信息, 仅能描述扣件整体状态, 因此分类效果不理想; (2) 基于扣件图像局部目标区域的检测方法。如文献9-10将扣件图像划分为子块, 并串联了图像子块特征, 能够检测大部分失效扣件。但利用这类方法检测扣件时, 子块特征串联后的维度较高, 噪声和冗余严重,
8、造成大量正常扣件被误检。前两类方法都是因为底层特征与图像内容之间存在语义鸿沟11制约了扣件状态检测算法的准确性。 (3) 基于“视觉词包模型” (Bag-Of-Words, BOW) 的检测方法。此类方法首先利用局部特征向量定义图像块的不同语义概念 (如轨枕, 扣件等) , 称其为视觉单词, 再统计这些视觉单词的出现频率, 生成图像-单词词频矩阵, 将其作为图像内容的表示, 最后, 使用机器学习算法来实现扣件图像分类。文献12在“视觉词包模型”的基础上, 利用潜在狄利克雷分布模型 (Latent Dirichlet Allocation, LDA) 学习得到扣件图像的潜在主题分布, 进一步提高
9、了扣件检测性能。这类方法在将图像表示成视觉单词集合时, 将每个局部特征映射为与其欧氏距离最近视觉单词。然而, 这样的映射方法仅仅将图像看成若干视觉单词的集合, 忽略了单词的位置信息, 导致单词存在多义性。比如, 当一幅图像出现表示“扣件”的单词时, 该单词既可能表示扣件顶部某区域, 也可能表示扣件端部某区域, 而不同类别扣件间的差异仅存在于图像的某一局部区域内, 这就导致模型对不同类别扣件的区分性不强。针对传统“视觉词包模型”忽略扣件图像结构的缺点, 本文提出一种基于信息熵加权词包模型 (entropyweighted BOW, EW_BOW) 的扣件检测模型。在传统“视觉词包模型”的基础上,
10、 引入信息熵来分析扣件局部区域所含的信息量, 并将其作为权值系数, 对各局部区域的图像-单词词频矩阵进行加权处理, 以提高不同状态扣件在模型下的区分度。实验结果表明, 信息熵加权后的“视觉词包模型”具有更高的分类性能。2 基于 EW_BOW 的扣件检测模型传统“视觉词包模型”通过对图像的底层特征向量进行聚类, 生成“视觉词典”, 利用生成的“视觉词典”将同一簇内的特征向量映射为同一视觉单词, 从而将图像表示成无序的视觉单词集合即“图像-单词词频矩阵”。但这样的词频矩阵的生成方式忽略了扣件的空间结构信息。针对这一问题, 本文首先根据扣件的对称结构划分局部区域, 以克服视觉单词的多义性。在此基础上
11、引入信息熵, 对各局部区域的图像-单词词频矩阵进行加权, 将图像量化为一个更具区分性的图像-单词词频矩阵。本文的模型框架如图1 所示。图 1 中, 实线部分表示训练过程, 虚线部分表示测试过程。2.1 生成局部区域的词频矩阵从底层特征中得到图像-单词词频矩阵可以通过构造视觉单词来实现, 但扣件图像左右区域对称, 上下区域相似, 导致了单词的多义性问题, 造成语义表达的混乱。因此, 将扣件图像均分为 22 的局部区域, 分别用 Z1, Z2, Z3, Z4表示。每个局部区域的特征向量仅对应本区域内的单词, 其他局部区域的特征向量不能映射到本区域内的单词。扣件局部区域的构建方式如图 2 所示。在将
12、扣件划分到四个独立的局部区域后, 每个局部区域内没有相似的扣件结构, 从而克服了单词的多义性图 1 本文模型检测框架 下载原图图 2 扣件局部区域示例 下载原图问题。本文采用上述基于扣件局部区域的方法从底层特征生成图像-单词的词频矩阵。首先需要训练视觉词典, 具体训练步骤如下:(1) 根据底层特征向量所在局部区域的位置, 将训练集图像中全体特征向量 S划分为 4 个部分 S1, S2, S3, S4。(2) 使用 K-means 算法对 Sn进行无监督聚类, 每一个聚类中心向量 wn, i就是一个视觉单词, 从而得到 4 个容量为 K 的局部区域视觉词典 Wn=wn, 1, , wn, i,
13、, wn, K, n=1, 2, , 4, i=1, 2, , K。局部区域词典训练流程如图 3 所示。图 3 局部区域词典的训练 下载原图根据局部区域词典与扣件底层特征向量的映射关系, 将单词下标作为其对应特征向量的编码, 并统计图像各局部区域不同单词出现次数, 生成单词图像-单词的词频矩阵 Dn (n=1, 2, 3, 4) , 将其作为扣件图像局部区域的内容表示。编码底层特征生成局部区域的图像-单词词频矩阵的步骤如下:(1) 初始化词频矩阵 Dn (i) =0, n=1, 2, , 4, i=1, 2, , K。(2) 根据图像中某一特征向量 s 所在局部区域位置 Zn选择一个词典 Wn
14、。(3) 在 Wn中检索与 s 欧氏距离最近的单词 wn, i, 将 wn, i的下标作为 s 的编码, 将词频矩阵中该编码值出现的次数加 1。(4) 重复步骤 (2) (3) , 直到编码一幅图像中所有特征向量。2.2 信息熵加权词频矩阵信息熵13可以定量表达图像灰度分布的稀疏度和信息量。本文引入信息熵用于表示扣件图像局部区域的图像-单词的词频矩阵中所含的信息量。在一幅扣件图像中, D n (n=1, 2, , 4) 是 Zn区域对应的局部区域词频矩阵, 其中单词wn, i (i=1, 2, , K) 出现的概率为 pn, i, 则该局部区域词频矩阵的熵值如式 (1) 所示:实际工况下的扣件
15、可分为正常、断裂、丢失以及被遮挡四种状态, 不同状态的扣件图像如图 4 所示。抽取四种状态的扣件图像各 100 幅, 并在每幅图像中选取最能表征当前状态的局部区域, 比如, 图 4 (b) 中的 Z2区域反映了当前断裂扣件的状态。以 SIFT (Scale Invariant Feature Transform) 特征为例, 根据式 (1) 计算每幅图像中被选中局部区域的词频矩阵的熵值, 得到四种状态扣件的平均熵值分别为 5.138、4.993、4.124、4.692。可知不同状态扣件的局部区域的词频矩阵所含信息量存在明显差异, 即信息熵对不同状态扣件具有区分性。图 4 不同状态的扣件图像 下
16、载原图再根据式 (2) 、 (3) 计算各区域词频矩阵的权重系数 n, 来对各局部区域词频矩阵进行加权, 从而得到一幅扣件图像的 EW_BOW 表示。本文采用上述基于信息熵加权“词包模型”的方法完成一幅扣件图像的 EW_BOW表示, 具体步骤如下:(1) 根据式 (1) 得到各区域词频矩阵的信息熵 Hn。(2) 根据式 (2) (3) 得到各区域词频矩阵的权重系数 n。(3) 对各局部区域的词频矩阵进行加权处理, 得到局部区域的 EW_BOW 表示D n= nDn (n=1, 2, 3, 4) 。(4) 将 D 1D 4首尾相接, 构成一幅扣件图像的 EW_BOW 表示:通过信息熵对扣件图像各
17、局部区域的词频矩阵进行加权处理, 可增加信息量较多的词频矩阵中视觉单词出现的次数, 降低信息量较少的词频矩阵中视觉单词出现的次数, 从而增加不同状态扣件的词频矩阵之间的差异, 提高“视觉词包模型”对不同状态扣件的区分度。2.3 学习扣件图像的主题分布潜在狄利克雷分布 (LDA) 模型将一幅图像作为一篇文档, 将文档描述成主题的集合, 而主题通过视觉词汇的分布来表达, 在自然语言处理、场景分类等领域已被广泛应用14-15。当局部特征向量聚类生成视觉词典时, 若某特征向量处于多个视觉单词的边界附近, 特征点的单词语义可能存在歧义, 造成语义信息丢失, 而单词背后的主题语义能够解决这个问题。此外,
18、由于 LDA 对“视觉词包模型”进行总结, 进一步整合了语义信息, 所以主题分布是一种高层语义特征, 对图像中扣件轻微的倾斜或歪曲具有较强的鲁棒性。LDA 中一幅图像的生成步骤如下:(1) 选择 Diri ch let () , 其中 是一个 CT 的矩阵, 行向量 i是第 i 幅图像的主题分布向量。(2) 对于每个图像块 xi, 从多项式分布 抽样主题 tk, tkMulti () , 以概率 p ( m|tk, ) 选择一个视觉单词 m, 是一个 KV 的矩阵, 其元素 i, j=p ( i=1|tj=1) 表示视觉单词 i和主题 tj同时出现的概率。(3) 重复步骤 (1) (2) ,
19、反复进行图像主题的选择, 通过主题产生对应的单词, 直到生成一幅完整的图像。LDA 模型的学习过程是其生成模型的逆过程, 采用吉布斯采样可求解出模型中参数的近似值, 从而获得每幅图像的主题分布。2.4 算法描述综上所述, 基于 EW_BOW 的扣件检测算法的具体步骤如下:(1) 提取全体图像的底层特征向量 S。(2) 利用 K-means 聚类方法对全体底层特征向量进行聚类, 根据特征向量所在位置, 生成 4 个局部区域的视觉词典 Wn (n=1, 2, 3, 4) 。(3) 根据特征向量所在位置, 将每个底层特征映射到相应视觉词典中的视觉单词, 生成图像-单词词频矩阵 Dn (n=1, 2,
20、 3, 4) 。(4) 根据式 (1) 计算每个局部区域的词频矩阵的信息熵。(5) 对于每个局部区域的词频矩阵, 根据式 (2) 、 (3) 进行加权处理, 并利用式 (4) 进行连接。(6) 利用 LDA 模型学习扣件图像的潜在主题分布。(7) 构建 SVM 分类器, 对新的扣件图像进行分类。3 实验及结果分析3.1 实验数据与配置本文从采集的扣件图像中选取共 800 幅作为实验数据, 其中正常、断裂、丢失以及被遮挡的 4 类扣件图像 (如图 4) 各 200 幅, 均为 120 像素180 像素的灰度图像。实验 PC 处理器为 AMD Sempron X2 190 Processor2.5
21、 GHz, 内存 4.0 GB, 在Matlab2014a 环境下进行实验。3.2 实验及结果分析(1) 实验 1为了分析视觉词典容量对于分类性能的影响, 本文改变视觉词典容量的设置进行多次重复的实验。图 5 展示了在 SIFT、LBP (Local Binary Pattern) 以及HOG (Histogram of Oriented Gradient) 三种不同的底层特征下, 词典容量的变化对正确率的影响。观察可知, 随着词典容量的增加, 不同底层特征下的测试结果正确率也在稳步提升。但当词典容量大于一定的值后, 继续增加视觉单词数量, 正确率不会继续提高。这是因为过小的词典容量造成了语义
22、的丢失, 而过大的词典容量则会导致语义的冗余, 进而影响测试结果的正确率。因此在后续实验中选择测试结果正确率相对较高的视觉单词数目80。图 5 词典容量对扣件分类性能的影响 下载原图(2) 实验 2通过不同状态扣件在模型下的类间距离大小来评估当前模型对扣件的图像的描述能力。类间距离越大, 表明模型对不同状态扣件的区分能力越强, 对扣件状态的描述越精确。分别采用传统“视觉词包模型”和 EW_BOW 模型, 度量正常扣件与各种失效扣件之间的类间距离。表 1 和表 2 分别为在 SIFT 特征和 HOG 特征的基础上, 不同状态扣件在传统“视觉词包模型”和 EW_BOW 下的类间距离对比。表 1 不
23、同模型下的类间距离对比 (SIFT) 下载原表 表 2 不同模型下的类间距离对比 (HOG) 下载原表 从表 1 可以看出, 在 SIFT 特征下, 利用 EW_BOW 描述扣件图像时, 正常扣件与各类失效扣件间的距离相对于采用传统“视觉词包模型”描述扣件时均有所提高。其中增长最多的为正常-丢失扣件的类间距。分析其原因为:不同类别扣件图像所属的图像-单词词频矩阵具有差异性较明显的信息熵, 信息熵加权后的词频矩阵对于正常扣件和各类失效扣件具有更强的分辨能力。由表 2 可知, 在HOG 特征下, EW_BOW 同样能够提高正常扣件与各类失效扣件间的距离。实验结果表明, 相比与传统“视觉词包模型”,
24、 EW_BOW 模型能够更加准确地描述各种扣件的状态。(3) 实验 3一方面, 分别采用 SIFT 特征、LBP 特征和 HOG 特征作为底层特征, 采用传统“视觉词包模型”方法16与本文方法进行比较, 以评估本文方法的语义有效性;另一方面, 通过将本文方法与文献8中的主成分分析方法、文献9中的方向场 (Directional Field, DF) 方法以及文献10中的 LBP+SVM 方法这几种主要的扣件检测方法对比, 以综合评估本文方法的扣件检测性能。各种方法的实验设置为:传统“视觉词包模型”与本文方法中, 参数均已优化。文献8-10中各方法的参数设置均与原文献保持一致。实验样本采用本文创
25、建的样本库。训练集为每种状态的扣件图像各 100 幅, 共 400 幅图像, 余下的作为测试集。训练集与测试集的大小均为 400。选择 LIBSVM17对扣件数据进行分类, 实验结果为 3 折交叉验证 (cross-validation) 的平均值, 并统计实验结果的误检率和漏检率。误检率=误检扣件数量/正常扣件总数量100%, 漏检率=漏检扣件数量/失效扣件总数量100%, 其中, 丢失、断裂、被遮挡的扣件均被视为失效扣件。检测结果首先要求准确判断出失效扣件, 降低漏检率;其次是降低误检率, 减小浪费。各方法的检测结果如表 3 所示。表 3 本文方法与其他方法的比较 下载原表 实验 1、2
26、表明, 在 SIFT 特征下, 本文方法显著提高了传统“视觉词包模型”的扣件检测性能。一方面, 根据扣件的结构划分局部区域的方法克服了视觉单词多义性的问题;另一方面, 通过信息熵加权后, 各种类别扣件的视觉特征在模型下呈现了更大的差异性, 使扣件检测结果更加准确。实验 3、4 和 5、6 这两组实验表明, 在 LBP 特征和 HOG 特征下, 本文方法同样能够降低“视觉词包模型”的漏检率和误检率。从实验 4、7、8、9 中可以看到, 文献8的主成分方法和文献10的 LBP+SVM方法虽耗时较短, 但误检率和漏检率均较高。文献9的方向场方法虽对失效扣件检测效果较好, 但误检率过高, 且耗时较长。
27、与现有方法相比, 本文方法能更加有效地检测扣件状态。4 结语通过引入信息熵, 利用信息熵加权后的“视觉词包模型”对扣件状态进行检测, 在一定程度上减小了底层特征与高层语义之间的“鸿沟”, 提高了扣件检测精度。在四类扣件数据集上实验获得比传统“视觉词包模型”更低的漏检率和误检率, 证明了本文模型的有效性和可行性。下一步的研究重点是如何更准确地定义视觉单词, 以进一步增强扣件语义准确性。参考文献1Singh M, Singh S, Jaiswal J, et al.Autonomous rail track inspection using vision based systemC/IEEE In
28、ternational Conference on Computational Intelligence for Homeland Security and Personal Safety, 2006:56-59. 3Yella S, Dougherty M, Gupta N K.Fuzzy logic approach for automating visual condition monitoring of railway sleepersC/Indian International Conference on Artificial Intelligence, 2007:941-956.
29、4许贵阳, 史天运, 任盛伟, 等.基于计算机视觉的车载轨道巡检系统研制J.中国铁道科学, 2013 (1) :139-144. 5肖新标, 金学松, 温泽峰.钢轨扣件失效对列车动态脱轨的影响J.交通运输工程学报, 2006, 6 (1) :10-15. 6Xia Yiqi, Xie Fengying, Jiang Zhiguo.Broken railway fastener detection based on adaboost algorithmC/International Conference on Optoelectronics and Image Processing.IEEE X
30、plore, 2010:313-316. 7Li Ying, Otto C, Haas N, et al.Component-based track inspection using machine-vision technologyC/International Conference on Multimedia Retrieval (ICMR 2011) , Trento, Italy, April, 2011:60. 8王凌, 张冰, 陈锡爱.基于计算机视觉的钢轨扣件螺母缺失检测系统J.计算机工程与设计, 2011, 32 (12) :4147-4150. 9Yang Jinfeng, T
31、ao Wei, Liu Manhua, et al.An efficient direction field-based method for the detection of fasteners on high-speed railwaysJ.Sensors, 2011, 11 (8) :7364-7381. 10Dou Yunguang, Huang Yaping, Li Qingyong, et al.A fast template matching-based algorithm for railway bolts detectionJ.International Journal of
32、 Machine Learning and Cybernetics, 2014, 5 (6) :835-844. 11Tang Jinhui, Zha Zhengjun, Tao Dacheng, et al.Semanticgap-oriented active learning for multilabel image annotationJ.IEEE Transactions on Image Processing, 2012, 21 (4) :2354-2360. 12罗建桥, 刘甲甲, 李柏林, 等.基于局部特征和语义信息的扣件图像检测J.计算机应用研究, 2016, 33 (8)
33、:2514-2518. 13唐立力.基于信息熵与动态聚类的文本特征选择方法J.计算机工程与应用, 2015, 51 (19) :152-157. 14Wang Ying, Li Jie, Gao Xinbo.Latent feature mining of spatial and marginal characteristics for mammographic mass classificationJ.Neurocomputing, 2014, 144 (1) :107-118. 15Zhou Wengang, Li Houqiang, Lu Yijuan, et al.BSIFT:towa
34、rd data-independent codebook for large scale image searchJ.IEEE Transactions on Image Process, 2015, 24 (3) :967-979. 16董健.基于加权特征空间信息视觉词典的图像检索模型J.计算机应用, 2014, 34 (4) :1172-1176. 17Chang C, Lin C.LIBSVM:a library for support vector machineJ.ACM Transactions on Intelligent Systems and Technology, 2011, 2 (3) :27.