1、机器学习方法在图像分类中的应用 虞达飞 河南省郑州中学 摘 要: 近年来, 随着硬件技术的发展, 尤其是 GPU计算能力的提升, 机器学习方法在图像分类领域取得了一系列的进展, 特别是卷积神经网络对于提高图像分类的效果有着显著的作用。综述图像分类的基本概念, 以及近机器学习, 深度学习方法在图像分类领域的进展和典型模型。关键词: 机器学习; 图像分类; SVM; 深度学习; 作者简介:虞达飞 (2000) , 男, 河南郑州人, 现就读于河南省郑州中学高中, 研究方向:机器学习。1. 概述1.1 研究背景与意义随着社会的发展, 尤其是智能手机的普及, 人们获取图像的方式越来越方便、快捷。因此网
2、络上存储的图片数据越来越多, 不仅仅给图像数据的存储带来了很大的困难, 并且图像数据中存储的信息也是十分丰富的, 要获取图像中的信息也变得越来越重要。图像中的信息对于我们来说也是非常重要的, 这些信息不仅可以帮助我们获得人们的想法, 还为我们提供了很多人类的行为数据。图像分类是一个基础性的工作, 它的应用非常广泛, 不仅应用在图像分类管理和信息提取方面, 还应用于目标识别, 人脸识别, 图像检索等方面, 并且在其他研究领域有重要的价值和意义。在进行图像分类之前, 必须对它们进行高效的分类管理, 并且, 想要让计算机像人类一样灵活地对图像数据进行分类, 具有非常大的挑战性, 其中所要面临的难题不
3、仅是图像数据的不规则性, 还包括图像的数量级, 不同图像数据的表示方法等等, 因此, 图像分类问题向来都是一个具有挑战性的研究热点。1.2 图像分类的当前研究现状Swain和 Ballard提出了基于色彩直方图的方法, 通过比较颜色直方图的不同来分析两幅图像之间在颜色分布上的差异, 但是由于对于其他的一些特点如形状等不敏感, 因此效果并不是十分的理想。上世纪八十年代 Pawlak.Z等人提出的粗糙集理论, 通过引入代数中的等价关系来解读知识, 通过对一些知识的处理, 从而获得了更好的分类效果。另外基于机器学习方法的分类主要由贝叶斯方法和神经网络方法等。贝叶斯分类方法的主要过程是:首先计算每一个
4、训练集的类分布, 把这种分布作为每一个类别的概率分布, 然后再利用概率论中的贝叶斯定理和数理统计学去估算某个特质样本属于那一类的概率大小。贝叶斯方法又可具体分为贝叶斯信念网络和朴素贝叶斯方法, 但是根据目前状况来看, 该方法应用较多的是贝叶斯信念网络, 但是该方法训练过程复杂, 难以选出评估函数, 这是现在研究要解决的主要问题。近年来, 深度学习模型在提取图像高层特征表示方面取得重大突破, 在 20世纪60年代, 在神经生物学家的研究中, 人类大脑视觉系统对信息的处理是分级的。这种层次的特性学习模型已经被应用到许多领域, 是机器学习领域的一个最新的研究热点。深度学习的模型就像大脑视觉皮层对信息
5、的分层处理许多个隐含层就与大脑的 V1、V2 区一样, 能够形成像素到目标的高层特征表示, 传统的浅层学习结构不具备这种特征。但是, 构造多成网络结构又不能高效地完成训练, 直到 2006年, Hinton 等人提出采用非监督贪婪逐层训练算法去解决深度结构的训练问题, 这才引起人们度深度学习的关注, 随后, 深度学习模型又得到了改进和优化, 如卷积深度置信网络, 去噪自动编码器, 去卷积网络等。2. 图像分类2.1 什么是图像分类分类是根据训练数据集中的数据所表现出来的类特征, 给每一类确定一种准确地描述方式, 由此生成类描述或模型, 并运用这种描述方式对新的数据集进行分类。图像分类是指针对原
6、始的图片数据, 对数据进行过滤、提取特征等操作, 然后根据图像特征进行分类。2.2 图像分类的过程图像数据的预处理:首先我们需要针对相应的图像做一部分预处理, 这一步的主要目的是处理原始的图片数据, 使其符合我们的模型的需要, 有一些对图像的基础操作也在这一步骤中进行。比如将图片裁剪成特定的大小, 将彩色图转换成灰度图, 将数据处理成统一的格式等。数据增强:由于我们的数据存在着很大的差异, 很多时候我们的训练数据是非常不足的, 但是像是神经网络这种算法往往需要非常大量的训练数据, 如果训练数据不足的话, 很容易造成网络的过拟合。这样模型的泛化误差就会非常的大, 得不到良好的分类效果。因此我们需
7、要对图像进行一些随机裁剪, 随机翻转, 旋转随机角度等操作, 增加数据的复杂性, 提高模型的泛化能力。构建分类模型:首先需要一个类别属性值已知的数据集作为训练集, 经过特征提取和离散化后, 进行训练样本集的监督学习, 去建立一个分类模型。最后我们的分类模型一般是以规则, 决策树或者数学公式的形式给出。模型预测:首先运用“测试集”对分类模型进行评估, 若模型预测的准确性足够高, 就可以用该模型对未知类别属性值的图像进行分类预测3. 图像分类方法3.1 支持向量机SVM自从提出后, 虽然有非常多的不同版本, 但是在神经网络大规模应用之前, 一直是效果最好的图像分类方法之一。SVM是针对线性可分的问
8、题提出的一种分类算法, 首先模型需要保证支持向量与分类标准之间的最大间隔, 即在保证所有的样本都被分类正确的前提下, 满足两类之间的分类间隔最大。对于图像分类来说, 我们将图像的每一个像素点都当做是图像的一个属性, 在 SVM中我们将一幅图像展开成一个向量作为模型的输入, 如果图像是 32*32个像素点的灰度值的话, 那么我们的输入向量的大小就是 1024*1大小的矩阵。因此有时候有很多属性是与我们的预测结果无关的, 所以我们如果需要获得良好的预测结果的话, 我们有时候需要使用主成分分析法首先对图像进行降维, 去掉一些无关的属性, 加快训练速度。然后网络会根据一些支持向量去选择分类标准。另外对
9、于一些线性不可分的数据, 可以使用核函数来进行分类, 本文不再详细的描述。3.2 神经网络分类3.2.1 卷积神经网络介绍传统的机器学习方法对于图像分类来说, 虽然已经取得了非常好的效果。但是随着时代的进步, 我们发现, 很多优秀的发明都参考了生物界的机理, 比如飞机的外形很像鸟一样。神经网络也是这样, 参考了人类大脑的构成。从上世纪六十年代开始, 以 Hubel为代表的一些科学家通过对猫的大脑皮层研究发现, 生物的视觉系统是通过一系列的神经元来逐层的传递信息, 并进一步的对视觉信息进行处理, 最终形成了我们所能够感知到的信息。我们现在所接触到的神经网络算法正是根据这样一种机理, 来一层一层的
10、迭代, 不断地更新信息, 最终形成我们所接受到的信息。3.2.2 MNIST数据集以及 Le Net-5MNIST数据集是 Yann Le Cun等人建立起来的一个手写数字的识别数据库, 近些年来在这个数据库上很多人取得了很多不错的成果。这个数据主要包括60000个训练数据以及 10000个测试数据, 这些数据都是手写数字, 并且标记好了类别。这些数据都是已经做出预处理的数据, 然后处理成了相同的大小, 并且数字都在图片的中间位置。Yann Le Cun首次使用反向传播算法对卷积神经网络进行迭代, 构建了 Le Net-5模型, 并且在 MNIST数据集上获得了不错的效果。Le Net-5 是
11、第一个卷积神经网络, 与以前的神经网络不通, 卷积神经网络更多的利用空间信息来提取特征, 可以更加有效的提取图像的边缘特征, 但是由于卷积神经网络需要非常大的计算量, 因此之前一直受到计算资源的限制, 没有大规模应用起来。Le Net-5使用梯度下降算法计算卷积, 加快了计算的速度。由于 Le Net-5的测试数据集为 MNIST, 因此原始网络的输入为 32*32大小的图像, 然后是 6个 5*5的卷积核, 然后是一个池化层, 后面是 16个 5*5的卷积核, 跟一个池化层, 最后是三个全连接层, 负责将之前卷积层提取出来的特征组合成一维的新的特征, 最后根据这些特征来进行预测。网络结构如图
12、所示:4. 评估方法在图像分类的问题中, 我们在最后预测图像是属于哪一类的时候, 通常使用one-hot编码来实现, 尤其是在神经网络中, 网络的最后一层通常表示着模型的输出层, 加入我们有十个类别, 那么最后一层就有十个输出, 每一个输出分别代表着属于每一类的概率, 为 0-1之间的值。因此对于一个十分类的问题来说, 网络最后会得到十个不同的输出, 每一个输出代表着属于每一类的概率值, 最后只要选出最大的一个值, 就是我们所要预测的最终结果。那么如何衡量机器学习方法的好坏就成了我们目前的问题。4.1 准确率当我们获得了模型最后的输出后的首要目标就是要判断预测的结果是否是我们预期的结果, 准确
13、率便成了一个最好的选择。准确率是指模型预测的结果与真实结果的比值, 假设我们的测试集有 100张图片, 最后又 97张被分类正确了, 那么我们的准确率就是 97%。当前最为标准的图像分类的比赛 Image Net采用多个准确率的评估标准, 如top1和 top5, top5是指我们在最后的预测结果中选择最大的 5个概率值与我们真是的类别去比较, 如果有一个被分类正确了, 那么我们就认为模型的结果是正确的。这样的话, 就更接近人类去做这样的事情了, 会降低一些误判的情况。top1 就是选择最大的那一个。4.2 ROC曲线对于经典的二分类问题, 对于一张图像只有被分类为正类和负类的情况。但是在实际
14、的分类中可能会出现四种不同的情况:当一张图像本身是正类的时候, 模型也预测为正类的时候, 我们称这种情况为真正率 (TP) 当一张图像本身为正类, 但是被预测为负类的时候, 我们称这种情况为假负类 (FN) 当一张图像本身是负类, 但是被预测正类的时候, 我们称这种情况为假正类 (FP) 当一张图像本身是负类的时候, 模型也预测为负类的时候, 我们称这种情况为真负类 (TN) 真正类率 TPR以如下的方式定义:代表着模型的预测结果中是真正的正类的概率占所有正类的比例, 有的论文中称之为 sensitivity。负正类率 FPR以如下的方式定义:代表着模型的预测结果中预测为正类的负类的数量占所有
15、负类的比例。ROC曲线以 FPR为横轴, TPR 为纵轴。因此在 ROC曲线中, 曲线覆盖的面积越大代表我们的模型越好。5. 总结与展望如今是信息化的时代, 图像分类在我们的日常生活中不可缺少, 使得机器学习成为现今信息技术领域中的重要研究方向, 机器学习可以帮助人们高效地分类管理图片, 更加方便快捷地获取图片信息内容, 同时图像分类还应用于目标识别, 人脸识别, 图像检索等方面, 具有相当广泛的研究前景。本文主要介绍了图像分类的背景, 意义, 当前的研究现状, 以及图像分类的概念和分类方法, 从支持向量机, 卷积神经网络等方面总结了近年来图像分类研究的重要方法。但是, 图像分类器还存在着很多
16、问题, 包括:1) 目前的图像分类方法还没有完全解决这类问题;2) 不能很好的可视化图像中的特征。参考文献1高锦.基于 SVM图像分类M.2010. 2周俊宇, 赵艳明.卷积神经网络在图像分类和目标检测应用综述J.计算机工程与应用, 2017:34. 3李莉.医学影像数据分类方法研究综述J.中国医学物理学杂志, 2011. 4Yann Le Cun.Gradient-Based Learning Applied to Document Recognition. 5Alex Krizhevsky.Image Net Classification with Deep Convolutional Neural Networks. 6Yann Le Cun.Over Feat:Integrated Recognition, Localization and Detection using Convolutional Networks. 7Harry Zhang.The Optimality of Naive Bayes.