收藏 分享(赏)

深度学习在图像识别中的应用与发展.doc

上传人:无敌 文档编号:165038 上传时间:2018-03-22 格式:DOC 页数:5 大小:70KB
下载 相关 举报
深度学习在图像识别中的应用与发展.doc_第1页
第1页 / 共5页
深度学习在图像识别中的应用与发展.doc_第2页
第2页 / 共5页
深度学习在图像识别中的应用与发展.doc_第3页
第3页 / 共5页
深度学习在图像识别中的应用与发展.doc_第4页
第4页 / 共5页
深度学习在图像识别中的应用与发展.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、深度学习在图像识别中的应用与发展 王禹鄢 天津耀华中学 摘 要: 深度学习模型由多级提取抽象特征的学习处理层构成, 利用深度神经网络和反向传播算法学习、处理、分析图像特征, 以识别各种不同模式的目标和对象。深度学习在人脸识别, 图片语义描述, 目标检测, 光流测距, 导航等图像识别领域取得了重大突破。本文简要描述图像识别与深度学习的研究背景, 并对深度神经网络在图像识别中的发展进行介绍。关键词: 深度学习; 图像识别; 神经网络; 作者简介:王禹鄢, 天津耀华中学。由于传统的机器学习技术难以处理结构化的原始数据, 几十年来, 构建一个模式识别或机器学习系统需要丰富的工程经验和可靠的专业知识去设

2、计一个特征提取器, 把结构化数据转为合适的中间特征作为机器学习系统的输入。深度学习是具有多级特征学习的方法, 通过非线性模型将结构化数据逐级提取出高层次的抽象特征, 同时层次化的特征学习不需要手工设计, 使用通用的学习方法从数据中学习, 提高了学习系统解决问题的能力和泛化性。图像识别的常用方法有:贝叶斯分类法、模板匹配法、核方法等1。贝叶斯分类法, 是假设图像的特征之间独立并计算特征的后验概率来对图像进行分类模板匹配法, 是将样本特征与特定的模板比较, 根据相似度判断是否同类。由于模板构造困难, 特征需要手工提取, 精度有限。核方法, 是通过核函数将原始数据非线性映射到高位空间中, 利用通用的

3、线性分类器将数据分类。该方法不需要手工提取特征, 使用方便, 精度高, 但学习过程中参数调优困难, 泛化能力不强。基于深度学习的图像识别方法, 是使用大规模深层次卷积神经网络模型从海量数据集中自动学习图像特征, 并泛化到实际识别场景中。深度学习通过模拟大脑皮层, 采用多层非线性方式处理特征, 对输入数据逐级提取, 逐层建立从底层特征到高级抽象特征的映射, 使复杂的特征提取工作简单化, 抽象化, 具有学习速度快, 耗时小, 识别率高的优点。随着深度学习的持续发展, 图像识别技术得到极大提高。Facebook 研发了根据相片进行人脸匹配的 Deep Face2;雅虎收购的图像识别公司 IQ Eng

4、ine 开发的 Glow 可以通过图像识别自动生成照片的标签以帮助用户管理手机上的照片;微软设计的 How-old 应用根据照片自动判断用户性别与年龄。图 1 卷积神经网络 下载原图深度神经网络在图像识别的发展一、卷积神经网络如图 1 所示, 卷积神经网络3 (Convolutional Neural Network:CNN) 由一个或多个 2D 卷积层和顶端的全连接层组成, 中间夹杂激活函数和池化层 (Pooling) , 使其能够直接处理结构化的图像数据。卷积层:卷积层就像利用 2D 卷积滤镜来提取输入数据的特征。公式 1.1 为卷积计算过程, 其中 in (x, y) 代表在输入特征图位

5、置 (x, y) 的输入数据, out (x, y) 为输出特征图 fo位置 (x, y) 的输出数据;卷积核 (kernel) 大小为kx*ky, 权重共享贯穿于同一特征图的所有神经元。池化层:如公式 1.2 所示, 求解 Kernel 内最大值或平均值对输入层进行下采样, 一方面使特征图变小, 简化网络计算复杂度;另一方面进行特征压缩, 提取主要特征。目的是模糊图像, 减少参数, 降低维度。激活函数:引入非线性因素, 加强神经网络的表达能力, 分类精度。常用激活函数为 sigmoid 函数或 tanh 函数, 具有饱和非线性特征。由于非饱和非线性特征使神经网络的收敛速度加快, Re LU

6、激活函数被广泛应用到深度学习模型当中, 如公式 1.3 所示。全连接层:全连接层如经典的多层感知器一样, 每一个输出连接所有的输入神经元, 权值不共享。由于分类层和最后一层卷积层神经元数目不同且固定, 全连接层作为两层之间的桥梁, 转换神经元的数量。结构化处理使 CNN 能够直接接受输入的二维图像, 充分保留图片的结构特征和相关性, 避免了传统识别算法中复杂的特征提取和数据重建过程。这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。二、Alex Net4模型为了提高卷积神经网络的性能, 更大的数据集、更强的模型以及更优秀的去过拟合技术在 Alex Net 中使用。Alex N

7、et 网络在 ILSVRC12 中实现 17%的 top5和 37.5%的 top1 误差率, 刷新了图像识别的记录。如图 2 所示, Alex Net 网络模型包含五个卷积层, 三个全连接层以及 softmax损失函数层。由于网络规模的扩大, Alex Net 采用双通道结构, 在两个 GPU 上训练, 有效提高了训练效率。同时 Alex Net 使用 Re LU5代替 sigmoid 激活函数, Re LU 的饱和非线性特性使网络训练速度提高几倍。Dropout 和 LRN 技术使网络的去过拟合能力更强, 保证了卷积神经网络的学习能力和泛化性能。图 2 Alex Net CNN 网络模型

8、下载原图Image Net6数据集包含 1500 万张 22000 类的高分辨率图片, 结合 Alex Net新颖的网络结构、有效的去过拟合技术, 使 CNN 网络模型得到充分的训练, 极大提高了卷积神经网络的图像识别正确率和泛化能力。Alex Net 深度卷积神经网络模型的成功使学术界以及工业界相信深度学习在图像识别上的潜力, 掀起了深度学习的研究与应用热潮。三、De Conv Net7模型卷积神经网络在图像分类中的成功使研究者将深度学习用于解决结构化预测问题, 比如语义分割, 姿势识别等场景。De Conv Net 网络由卷积层和反卷积层构成。卷积层作为特征提取器将输入图像转为多维特征图。

9、反卷积层接收特征图, 使用反池化技术将激活单元还原在图像中的位置, 通过反卷积操作还原特征的原始形状, 生成精确的语义结构。与全连接方法对比, 反卷积网络通过一系列的反卷积操作重建物体的粗略框架和细致结构, 适合分割稠密和明确的目标。反卷积神经网络模型是一种深度学习模型, 它将卷积稀疏编码与神经网络相结合, 可有效地重建输入图像。同时, 多层学习结构使得该模型可获得不同尺度的复杂图像特征, 可以同时适用于信号层面、结构层面与语义层面的应用。四、Res Net8模型深度学习在图像分类上实现了重大的突破, 研究学者逐步加深网络模型的深度以加强卷积神经网络对高层次特征的提取能力。但是随着网络的加深,

10、 梯度爆炸或梯度弥散问题的出现使深度网络变得难以训练。针对这一现象, Res Net引入残差结构使网络的深度达到 1202 层, 实现了突破性的识别精度, 有力的推动了深度学习的进一步发展。残差网络通过在一个浅层网络基础上叠加的层 (Identity Mappings, 恒等映射) , 以构造一个残差结构。这种结构可以让网络随深度增加而不退化, 解决梯度爆炸或弥散的问题。在低层次视觉和计算图形学的偏微分方程求解中, 多重网格法9 (Multigrid) 将系统分解为多个子求解器, 每个子求解器给出一个合适粒度的残差值。这种使用残差的解决方法比标准求解器收敛速度快很多。在深度学习中, Res N

11、et通过残差结构将系统分解为多个相关的特征提取器, 加快训练收敛速度, 丰富网络提取的特征, 提高了网络的性能。五、总结本文简述了图像特征提取和图像识别的传统方法, 以及基于深度学习的图像识别方法的技术优势;介绍了深度学习的研究现状和卷积神经网络的结构特点和视觉处理机制。同时从理论机制和网络优化方面综述了深度学习在图像识别中的发展, 表明基于深度学习的图像识别技术精度高、泛化能力强, 可以被广泛应用到人脸识别, 视觉导航、机器人等领域。可以预见, 随着深度学习技术的深入研究, 理论的突破和模型的发展, 未来深度学习在图像识别领域将会有更广阔的发展。参考文献1王志明, 殷绪成, 曾慧.数字图像处

12、理与分析M.北京:清华大学出版社, 2012.184-204 2Taigman Y, Yang M, Ranzato M A, et al.Deepface:Closing the gap to human-level performance in face verificationC.Proceedings of the IEEE conference on computer vision and pattern recognition.2014:1701-1708. 3Le Cun Y, Bottou L, Bengio Y, et al.Gradient-based learning a

13、pplied to document recognitionJ.Proceedings of the IEEE, 1998, 86 (11) :2278-2324. 4Krizhevsky A, Sutskever I, Hinton G E.Imagenet classification with deep convolutional neural networksC.Advances in neural information processing systems.2012:1097-1105. 5Nair V, Hinton G E.Rectified linear units impr

14、ove restricted boltzmann machinesC.Proceedings of the 27th international conference on machine learning (ICML-10) .2010:807-814. 6Deng J, Dong W, Socher R, et al.Imagenet:A largescale hierarchical image databaseC.Computer Vision and Pattern Recognition, 2009.CVPR 2009.IEEE Conference on.IEEE, 2009:2

15、48-255. 7Noh H, Hong S, Han B.Learning deconvolution network for semantic segmentationC.Proceedings of the IEEE International Conference on Computer Vision.2015:1520-1528. 8He K, Zhang X, Ren S, et al.Deep residual learning for image recognitionC.Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778. 9Briggs W L, Henson V E, Mc Cormick S F.A multigrid tutorialM.Society for Industrial and Applied Mathematics, 2000.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报