深度学习汇报.ppt-道客多多_道客多多docduoduo.com

资源描述

1、,深度学习（Deep Learning）,1/25,Outline,2/25,深度学习的概念,3/25,什么是deep learning?深度学习：一种基于无监督特征学习和特征层次结构的学习方法。本质：通过构建多隐层的模型和海量训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。含多隐层的多层感知器就是一种深度学习结构。,DL训练过程,4/25,深度学习的基本思想：对于Deep Learning，需要自动地学习特征，假设有一堆输入I，输出是O，设计一个系统S（有n层），形象地表示为： I =S1=S2=.=Sn = O，通过调整系统中参数，使得它的输出仍然是输入I，那么就可以自动地获

2、取得到输入I的一系列层次特征，即S1，., Sn。,深度学习训练过程：第一步：采用自下而上的无监督学习1）逐层构建单层神经元。2）每层采用wake-sleep算法进行调优。每次仅调整一层，逐层调整。,DL训练过程,5/25,wake-sleep算法:1）wake阶段：认知过程，通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。 2）sleep阶段：生成过程，通过上层概念（Code）和向下的生成（Decoder）权重，生成下层的状态，再利用认知（Encoder）权重产生一个抽象景象。利用初始上层概念和新建抽象景象的残差，利用

3、梯度下降修改层间向上的认知（Encoder）权重。,DL训练过程,6/25,第二步：自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础上，在最顶的编码层添加一个分类器（例如罗杰斯特回归、SVM等），而后通过带标签数据的监督学习，利用梯度下降法去微调整个网络参数。,DL模型,7/25,深度学习的具体模型及方法：1、自动编码器（ AutoEncoder ）2、稀疏自动编码器(Sparse AutoEncoder)3、限制波尔兹曼机（Restricted Boltzmann Machine）4、深信度网络（Deep Belief Networks）5、卷积神经网络（Convolutiona

4、l Neural Networks）,自动编码器,8/25,1、自动编码器（ AutoEncoder ）将input输入一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示，再加一个decoder解码器，这时候decoder就会输出一个信息，那么如果输出的这个信息和一开始的输入信号input是很像的（理想情况下就是一样的），就有理由相信这个code是靠谱的。所以，通过调整encoder和decoder的参数，使得重构误差最小，就得到了输入input信号的第一个表示了，也就是编码code了。因为是无标签数据，所以误差的来源就是直接重构后与原输入相比得到。,稀疏自动编码

5、器,9/25,2、稀疏自动编码器(Sparse AutoEncoder),如上图，其实就是限制每次得到的表达code尽量稀疏。因为稀疏的表达往往比其他的表达要有效。,在AutoEncoder的基础上加上L1的Regularity限制（L1主要是约束每一层中的节点中大部分都要为0，只有少数不为0），就可以得到Sparse AutoEncoder法。,RBM,10/25,3、限制波尔兹曼机（RBM）定义：假设有一个二部图，同层节点之间没有链接，一层是可视层，即输入数据层（v)，一层是隐藏层(h)，如果假设所有的节点都是随机二值（0，1）变量节点，同时假设全概率分布p(v,h)满足Boltzmann

6、分布，称这个模型是RBM。,RBM,11/25,训练模型：联合组态（jointconfiguration）的能量可以表示为：而某个组态的联合概率分布可以通过Boltzmann 分布（和这个组态的能量）来确定：给定隐层h的基础上，可视层的概率确定：（可视层节点之间是条件独立的）,RBM,12/25,给定可视层v的基础上，隐层的概率确定：给定一个满足独立同分布的样本集：D=v(1), v(2), v(N)，我们需要学习参数=W,a,b。最大似然估计：对最大对数似然函数求导，就可以得到L最大时对应的参数W了。,DBN,13/25,4、深信度网络（DBN）,DBNs是一个概率生成模型，与传统的判别模型

7、的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候，DBNs遇到了以下问题：（1）需要为训练提供一个有标签的样本集；（2）学习过程较慢；（3）不适当的参数选择会导致学习收敛于局部最优解。,DBN,14/25,DBNs由多个限制玻尔兹曼机（RBM）层组成，一个典型的神经网络类型如下图所示。,在最高两层，权值被连接到一起，更低层的输出将会提供一个参考的线索或者关联给顶层

8、，顶层就会将其联系到它的记忆内容。,CNN,15/25,5、卷积神经网络（Convolutional Neural Networks）卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。CNNs是第一个真正成功训练多层网络结构的学习算法。,概念示范：输入图像通过与m个可训练的滤波器和可加偏置进行卷积，在C1层产生m个特征映射图，然后特征映射图中每组的n个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到m个S2层的特征映射图。这些映射图再经过滤波得到C3层。这个层级结构再和S2一样产生S4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的

9、神经网络，得到输出。,CNN,16/25,关于参数减少与权值共享：,减少参数的方法：每个神经元无需对全局图像做感受，只需感受局部区域（Feature Map），在高层会将这些感受不同局部的神经元综合起来获得全局信息。每个神经元参数设为相同，即权值共享，也即每个神经元用同一个卷积核去卷积图像。,CNN,17/25,隐层神经元数量的确定：,神经元数量与输入图像大小、滤波器大小和滤波器的滑动步长有关。例如，输入图像是1000x1000像素，滤波器大小是10x10，假设滤波器间没有重叠，即步长为10，这样隐层的神经元个数就是(1000x1000 )/ (10x10)=10000个。,CNN,18/

10、25,总之，卷积网络的核心思想是将：局部感受野、权值共享以及时间或空间子采样这三种结构思想结合起来获得某种程度的位移、尺度、形变不变性。CNN的优点：1、避免了显式的特征抽取，而隐式地从训练数据中进行学习；2、同一特征映射面上的神经元权值相同，从而网络可以并行学习，降低了网络的复杂性；3、采用时间或者空间的子采样结构，可以获得某种程度的位移、尺度、形变鲁棒性；4、输入信息和网络拓扑结构能很好的吻合，在语音识别和图像处理方面有着独特优势。,应用,19/25,深度学习的应用： 1、深度学习在图像识别上的应用,空间金字塔,实验在Caltech 256数据集上，利用单特征识别，Sparse CRBM性

11、能最优。,应用,20/25,应用,21/25,2、深度学习在音频识别上的应用,许多专家还发现，不仅图像存在这个规律，声音也存在。他们从未标注的声音中发现了20种基本的声音结构，其余的声音可以由这20种基本结构合成。,应用,22/25,3、深度学习在视频识别上的应用 4、深度学习在自然语言处理上的应用 5、深度学习在多模态学习中的应用 6、深度学习在多任务学习中的应用 7、基于深度学习的迁移学习应用 8、深度学习在大尺度数据集上的应用,目前的困难程度,23/25,深度学习面临的问题：1、理论问题理论问题主要体现在两个方面，一个是统计学方面的，即需要多少训练样本才能学习到足够好的深度模型；另一个是

12、计算方面的，即需要多少的计算资源才能通过训练得到更好的模型，理想的计算优化方法是什么？ 2、建模问题针对具体应用问题，如何设计一个最合适的深度模型来就解决问题？是否可以建立一个通用的深度模型或深度模型的建模语言，作为统一的框架来处理语音、图像和语言？另外，对于怎么用深度模型来表示像语义这样的结构化的信息还需要更多的研究。 3、工程问题对于互联网公司而言，如何在工程上利用大规模的并行计算平台来实现海量数据训练，这是首要解决的问题。,目前的困难程度,24/25,未来需解决的问题：（1）对于一个特定的框架，对于多少维的输入它可以表现得较优（如果是图像，可能是上百万维）？（2）对捕捉短时或者长时间的时间依赖，哪种架构才是有效的？（3）如何对于一个给定的深度学习架构，融合多种感知的信息？（4）有什么正确的机理可以去增强一个给定的深度学习架构，以改进其鲁棒性和对扭曲和数据丢失的不变性？（5）模型方面是否有其他更为有效且有理论依据的深度模型学习算法？,Thank You,25/25,

展开阅读全文