1、基于深度学习的图像自动标注算法研究 马颖 河南工程学院计算机学院 摘 要: 以往图像自动标注多为人工选取特征, 整个过程所需时间和精力较大, 并且所用的标签传播算法会造成语义近邻被忽视, 最终会出现视觉相似但是语义不相似的情况, 影响图像标注效果。为改善传统图像标注算法应用存在的缺陷, 便可以选择应用深度学习图像自动标注算法, 可以完美解决语义近邻识别问题, 提高图像标注综合效果, 本文对其应用要点进行了简单分析。关键词: 深度学习; 图像标注; 机器学习; 作者简介:马颖 (1977) , 女, 河南郑州人, 硕士, 副教授, 研究方向:分布式计算及图像智能检索技术。收稿日期:2017-09
2、-27Research on Automatic Image Annotation Algorithm Based on Depth LearningMa Ying Henan Institute of Engineering School of Computing; Abstract: The automatic image annotation for the artificial feature selection, the whole time and energy is larger, and the label propagation algorithm will cause se
3、mantic neighbor is ignored, eventually there will be a similar but not similar visual semantic image annotation, influence effect.In order to improve the defects existing in traditional image annotation algorithm, we can choose the depth of application of automatic annotation algorithm for learning
4、image, can perfectly solve the semantic neighbor recognition problem, improve the comprehensive effect of image annotation, this paper makes a brief analysis of its application.Keyword: depth learning; image annotation; machine learning; Received: 2017-09-27基于深度学习的图像自动标注算法在实际应用中具有较大优势, 可以打破传统标注算法对图像
5、视觉特征的依赖性, 可以直接通过图像各像素点完成类别标注, 处理效率更高。1 深度学习图像自动标注算法深度学习为机器学习领域研究要点内容, 其基本原理就是通过算法来促使计算机模拟人脑处理事务流程, 向其提供一个与人相似具有一定辨别事务的能力。想要实现基于深度学习的图像自动标注算法, 就需要对传统神经网络进行持续改进研究, 形成层次更深的神经网络结构, 现在所存的深度学习表现形式如自动编码器、深信度网络以及卷积神经网络等。其中, 卷积神经网络作为多层网络结构, 对于图像平移、旋转以及按比例缩放等形变敏感度低, 利用其在进行图像标注时, 能够更大程度上来抵抗外部因素的干扰。并且卷积神经网络设置灵活
6、度高, 在实际应用中可以根据要求来选择相应网络结构, 总结相关知识学习和网络结构应用效果信息, 可以确定试验所用数据集内所涉及到的图像种类越多, 则需要设置越多的网络层数, 并且卷积层所含特征图个数与其所处层数成正比, 所处层数越深, 对应的特征图个数也就越多1。一般情况下向同一网络结构内输入的图像分辨率越大, 网络运算的规模也就越大, 响应者模式迭代一次所需时间越长。2 深度学习图像自动标注算法实现2.1 模型结构设计以往传统神经网络大部分均是应用的单一隐藏层进行数据建模, 而深度学习则是采用多层隐藏层神经元网络, 能够处理更复杂问题。一般可选择应用 RBM 或DAE 模型进行网络权重预训练
7、, 然后将预训练得到的各层权重值作为反向传播算法的权重初始值赋予整个神经网络, 最后在利用反向传播算法对整个网络权重进行更新, 以免网络算法求解过程中陷入到局部最优问题中。本文主要对 3层深度神经网络结构进行分析, 向输入层单元内输入图像特征 v, 确定图像标签信息为网络输出节点 t, 应用 RBM 模型进行预训练, 神经网络输入单元 vR (N 表示输入图像特征为数) , 则可以确定应用 GBRBm 为深度神经网络第一层网络结构 h1, 两层应用常规 RBM 为深度网络第二层 h2与第三层 h3网络2。网络模型在进行图像信息分类时, 设定监督向量位数目为类别数目 M, 其所对应样本类别为 k
8、, 便可确定输出层第 k 维为 1, 而其余维数为 0。应用反向传播算法进行分析, 可利用神经网络计算实际输出和监督向量差异对网络收敛程度进行衡量, 在达到训练次数要求后便可停止训练。训练结束后将得到的数据结果输入到神经网络内, 确定输出层最大节点位置便为样本预测类别。对图像信息进行分类时, 就可以将样本多类别信息对应监督向量的维数设置成 1, 并以逻辑斯蒂克函数替换 softmax 函数作为输出层激励函数, 并对输出层得到的结果进行排序, 排序中靠前类别便可作为神经网络对图像样本信息的预测结果。与图像多分类不同, 图像标注的标注信息并非均匀分布, 各标签所属图像多少并不确定, 这样如果对不同
9、标签信息采用相同算法处理, 便会造成低标注频率的标签被掩盖在高标注频率的标签中, 降低了给定图像标注的准确性。在应用深度学习图像标注算法分析时, 可以将图像标签频率引入到监督信息中, 对神经网络监督向量进行调整更改, 实现图像标注结果的准确性, 解决标签分布不均匀问题。2.2 卷积神经网络标注利用卷积神经网络来实现图像的自动标注, 为实现图像特征的可靠提取, 应先对目标彩色图片进行灰度化处理, 并利用双线性插值算法对图片进行缩放, 最终转换成 100100 模式。C1 层利用 6 个尺寸大小为 55 的卷积核对图像进行卷积处理, 可确定处理后图像各图征图大小为 (100-5+1) (100-5
10、+1) =9696。然后想 S1 层内输入处理后得到的数据, 通过亚采样层 S1 层完成 C1层特征图的采样, 其中 S1 层池化矩阵尺寸为 44, 存在 6 个特征图, 且每个特征图大小为 (96/4) (96/4) =2424。然后 C2 层继续卷积处理, 共有 12个特征图, 卷积核尺寸不变, 可得到各特征图尺寸为 (24-5+1) (24-5+1) =2020。S2 层继续亚采样, 池化矩阵尺寸不变, 共有 12 个特枕图, 可确定其尺寸为 (20/4) (20/4) =55。共选择 7 类共 650 张图片进行图像分类模型训练, 每类剩余 30 张图像组成一个具有 140 张图像测试
11、数据集, 神经网络权值在模型迭代次数不断增加的过程中持续变化, 最终可以得到一个趋于理想的数值结果3。3 结语现在已经进入到信息网络化时代, 数据应用对进一步促进工作效率具有重要意义。面对井喷式的数据增长情况, 互联网上每天会产生海量的图像与视频信息, 为针对图像资源进行可靠组织、查询与浏览动作, 首先需要完成图像标注, 作为内容图像检索和文本图像检索的基础。基于深度学习自动图像标注算法的应用, 对比传统标注算法, 可以提高图像标注可靠性与效率性。参考文献1李灵芝.自然场景图像的自动标注方法研究D.广西师范大学, 2016. 2罗世操.基于深度学习的图像语义提取与图像检索技术研究D.东华大学, 2016. 3杨阳, 张文生.基于深度学习的图像自动标注算法J.数据采集与处理, 2015, (01) :88-98.