收藏 分享(赏)

机器学习与深度学习.ppt

上传人:weiwoduzun 文档编号:5710035 上传时间:2019-03-14 格式:PPT 页数:84 大小:3.28MB
下载 相关 举报
机器学习与深度学习.ppt_第1页
第1页 / 共84页
机器学习与深度学习.ppt_第2页
第2页 / 共84页
机器学习与深度学习.ppt_第3页
第3页 / 共84页
机器学习与深度学习.ppt_第4页
第4页 / 共84页
机器学习与深度学习.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、机器学习与深度学习,目录,机器学习的基础 神经元网络 深层神经元网络 延伸和应用 深层学习实现架构 未来和思考,小学生解方程,a 3 + b = 10a 8 + b = 30 a = ?b = ?,高中, 大学 - 矩阵,矢量,线性回归及分类 机器学习背景,Y 是一个N 维向量XT 是一转置矩阵 N * (p+1) 是 一个 p+1 的向量线性回归:, 给定 X, 和 Y, 计算 以最佳匹配X, Y 的关系。 N p+1 。 即为线性回归模型的 参数。 k 表明对应的维度, Xk 的重要性,什么为最佳匹配?,参数估计方法一: 最小化误差平方和 机器学习背景,正则化 L2 (Ridge) Reg

2、ularization,限制参数的大小 , 以避免过拟合,正则化 L1 Regularization (Lasso),限制参数的大小 , 以避免过拟合,No closed form for ,逻辑回归,j,G,逻辑回归 - 参数训练,j,G,训练目标函数:最大似然对数概率,牛顿迭代:,目录,机器学习的基础 神经元网络 深层神经元网络 延伸和应用 深层学习实现架构 未来和思考,神经元网络,单层前向网络 两阶段回归或分类 K-Class 分类 最底层为数据层 最上层为输出层 中间层为隐含层 这种简单的 NN称为Perceptron,神经元网络 - 输入层到隐含层,中间层为输入层线性组合的某函数,其

3、中为激活函数: sigmoid,神经元网络 - 激活函数,为激活(Activation)函数 (红线),0 1,(10v),(0.5v), (sv) , s控制 0 点的激活强度,当 s0, 线性函数,神经元网络 , 隐含层到输出层,输出层为中间层的线性组合,回归问题,K-Class 分类问题, softmax函数,训练神经元网络 : 参数集合及维度,神经元网络参数集合 ,训练神经元网络 优化参数求导,最小化目标函数:最小误差平方和及求导,训练神经元网络 - Back Propagation,梯度下降迭代算法,输出层误差: ki,隐含层误差: smi,BP 算法,初始化参数 两阶段算法: Tw

4、o-Pass 前向 Forward-Pass: 给定参数,计算输出值 后向 Backward-Pass: 计算输出层误差, 计算隐含层误差,更新参数,BP算法图示(1985),input vector,hidden layers,outputs,Back-propagate error signal to get derivatives for learning,Compare outputs with correct answer to get error signal,神经元网络小结,目录,机器学习的基础 神经元网络 深层神经元网络 延伸和应用 深层学习实现架构 未来和思考,BP算法在深层

5、神经元网络中的问题,依赖于标注的训练数据 目前大量数据为非标注数据训练时间长, 很难规模化 多层神经元网络训练很慢会停驻在性能较差的本地优化点 浅层网络,该问题不明显 深层网络,问题显著,支持向量基 (SVM) 一个特殊的神经元网络,Still Perceptron 一个特殊的单隐含层网络 每个训练案例用于构造一个特征,该特征用于测量改训练案例和测试案例的距离 SVM训练选择自由特征集以及特征的权重 1990-2010 很多让放弃NN, 选择 SVM,non-adaptive hand-coded features,output units e.g. class labels,input un

6、its e.g. pixels,Sketch of a typical perceptron from the 1960s,Bomb,Toy,深层信任网络(Deep Belief Net,DBN) 是部分解决了以上问题的神经元网络,谁重新激活了神经元网络?,Geoffrey Hinton 出生于: 1947 专业: 学士,心理学,1970, 博士,人工智能,1978 多伦多大学教授 Google 研究中心 1986: 神经元网络BP算法发明人之一 深度学习主要贡献人,I GET VERY EXCITED WHEN WE DISCOVER A WAY OF MAKING NEURAL NETWO

7、RKS BETTER AND WHEN THATS CLOSELY RELATED TO HOW THE BRAIN WORKS.,谁重新激活了神经元网络?,NCAP: 神经计算和自适应感知项目 2004 NCAP Researchers Yoshua Bengio Yann Lecun (FaceBook) Andrew Ng (Baidu) 20 Others,Core Team,深度学习的,2006年,Geoffery Hinton Science发表DBN文章。 2012年,Hinton, ImageNet, 26%-15%。 2012年,Andrew Ng和分布式系统顶级专家Jeff

8、 Dean,Google Brain项目,16000个CPU核的并行, 10亿个神经元的深度神经网络 2012年,微软首席研究官Rick Rashid在21世纪的计算大会上演示了一套自动同声传译系统 2013年,Hinton-Google; Yann LeCun -Facebook; 用户图片信息提取2013年,百度成立了百度研究院及下属的深度学习研究所(IDL), 2014年,Andrew Ng -Badidu,可信任网络 Belief Nets (BN),一个BN 是一个由随机变量组成的有向非循环图 一部分变量为可观察已知变量 如何由已知变量推断出非观察变量的状态 调整变量之间连接的参数优

9、化:最大可能重新生成观察变量,stochastic hidden cause,visible effect,We will use nets composed of layers of stochastic binary variables with weighted connections. Later, we will generalize to other types of variable.,可信任, 信任什么?,随机的二元单元 (Bernoulli variables),隐含层的神经元的状态为0或1该神经元激活的概率为输入层加权和的 sigmoid 函数,0,0,1,Restrict

10、ed Boltzmann Machines (RBM),限制神经元之间的链接以简化参数学习. 只包含一个隐含层. 多隐含层后期引入隐含层单元之间无链接.给定输入可观察矢量, 隐含层单元之间独立隐含层和输入层之间为无向链接,hidden,i,j,visible,RBM 训练,i,j,i,j,i,j,i,j,t = 0 t = 1 t = 2 t = infinity,从可观察训练矢量开始,交替更新隐含层和可观察矢量层单元,a fantasy,小结一个基础的DBN网络,决定DBN的隐含层数以及隐含层的神经元数每两层之间依据RBM单独依次训练参数训练完的两层网络简单叠加起来成为深层网络利用BP算法对

11、叠加后的网络连接参数进一步优化RBM Pseudo 代码 For t=0 to n: Vt - Ht 基于sigmoid函数 和Gibbs 采样 Ht - Vt+1 基于sigmoid函数 和Gibbs 采样 Vt+1 - Ht+1 基于sigmoid函数 和Gibbs 采样 更新参数W:RBM Code,目录,机器学习的基础 神经元网络 深层神经元网络 延伸和应用 深层学习实现架构 未来和思考,深度学习目前常用的架构,深度神经元全连网络 DNN (Deep Neural Nets), Tensor-DNN 卷积神经元网络 CNN (Convolutional Neural Nets) 深度叠

12、拼神经元网络 DSN (Deep Stacking Nets); Kernel-DSN, Tensor-DSN 循环神经元网络 RNNs (Recurrent and recursive Neural Nets),DNN在语音识别中的应用,DNN在语音识别中的应用,语音识别中的BottleNeck 特征,图像识别中的神经元网络应用,卷积神经元网络 Convolution Neural Network (CNN),输入层可以使多元的, 也可以是一元的,图像识别中的神经元网络应用 :卷积层,输入: 维度的矩阵 X 输出: 维度的矩阵 连接输入和输出的参数: 维度的矩阵 W,图像识别中的神经元网络应

13、用 :Pooling 层,输入: region, 矩阵输出: A single value , 连接输入输出层参数:无最大值 pooling均值pooling,图像识别中的神经元网络应用 :全连层,同DNN,卷积神经元网络的架构,ImageNet 2012年 竞赛,ImageNet 2013年 竞赛,目前图像中物体识别性能,语音识别中CNN的使用 (2013,Sainath IEEE),循环神经元网络 RNN,RNN 同 DNN 的比较,Back Propagation Through Time (BPTT),三类参数 训练方式可等同于前向网络在时域的组合,双向RNN 实现,训练算法:RBM

14、初始化每个时间点t的 网络BPTT , BP算法的扩展优化参数训练,神经元网络在自然语言处理中的应用,语言模型 信息分类 信息聚类 信息提取 搜索 翻译 词向量语义表示,一批关键的文章,Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research (JMLR), 3:11371155, 2003. PDF Ronan Collobert, Jason Weston,

15、Lon Bottou, Michael Karlen, Koray Kavukcuoglu and Pavel Kuksa.Natural Language Processing (Almost) from Scratch. Journal of Machine Learning Research (JMLR), 12:2493-2537, 2011. PDF Andriy Mnih & Geoffrey Hinton. Three new graphical models for statistical language modelling. International Conference

16、 on Machine Learning (ICML). 2007. PDF Andriy Mnih & Geoffrey Hinton. A scalable hierarchical distributed language model. The Conference on Neural Information Processing Systems (NIPS) (pp. 10811088). 2008. PDF Mikolov Tom. Statistical Language Models based on Neural Networks. PhD thesis, Brno Unive

17、rsity of Technology. 2012. PDF Turian Joseph, Lev Ratinov, and Yoshua Bengio. Word representations: a simple and general method for semi-supervised learning. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). 2010. PDF Eric Huang, Richard Socher, Christoph

18、er Manning and Andrew Ng. Improving word representations via global context and multiple word prototypes. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. 2012. PDF Mikolov, Tomas, Wen-tau Yih, and Geoffrey Zweig. Linguistic regularities

19、in continuous space word representations. Proceedings of NAACL-HLT. 2013. PDF,DNN 语言模型,RNN 语言模型,没有必要定义上下文长度没有投影层(No Word Embedding)前一层的隐含链接下一个词的隐含层,其他的深度学习架构: Deep Stacking Network (DSN),特点线性和非线性层交替训练更容易并行优化目标凸函数(convex),目录,机器学习的基础 神经元网络 深层神经元网络 延伸和应用 深层学习实现架构 未来和思考,深度学习实现的物理架构,挑战:训练数据规模庞大计算开销大 训练过程

20、收敛难 训练用时久解决方案: GPU 计算资源并行 CPU 集群,几万神经元, 几千万参数,工业界深度学习平台架构,深度学习开源软件,腾讯深度学习平台 Mariana,DNN的GPU数据并行框架 CNN的GPU数据并行和模型并行框架 DNN CPU集群框架,GPU服务器为主 4-6 Nvidia Tesla GPU Cards (系列高端科学计算用) 2000流处理器 / GPU card 并行计算,深度学习并行策略,模型并行 将训练数据划分为多份,每份数据有一个模型实例进行训练,再将多个模型实例产生的梯度合并后更新模型 数据并行 模型并行指将模型划分为多个分片,每个分片在一台服务器,全部分片

21、协同对一份训练数据进行训练 流式控制,DNN GPU 的并行架构,DNN的数据并行框架通过同步随机梯度下降进行训练。 每个GPU卡各自训练,并各自产生一份梯度值,然后进行参数交换。 自适应学习率算法,使得支持自适应学习率所需交换的数据量降低了一个数量级。 参数交换的成本,CNN-GPU并行架构 - 腾讯,模型拆分数据拆分流式控制,GPU卡分组 组内两个GPU卡做模型并行, 组间做数据并行,CNN-GPU并行架构 - 腾讯,模型拆分数据拆分流式控制,GPU卡分组 组内两个GPU卡做模型并行, 组间做数据并行,DNN CPU并行架构,目录,机器学习的基础 神经元网络 深层神经元网络 延伸和应用 深

22、层学习实现架构 未来和思考,IBM Synapse,自适应塑料可伸缩电子神经形态系统,SyNAPSE is a DARPA-funded program to develop electronic neuromorphic machine technology that scales to biological levels. More simply stated, it is an attempt to build a new kind of computer with similar form and function to the mammalian brain. Such artifi

23、cial brains would be used to build robots whose intelligence matches that of mice and cats.SyNAPSE is a backronym standing for Systems of Neuromorphic Adaptive Plastic Scalable Electronics. It started in 2008 and as of January 2013 has received $102.6 million in funding. It is scheduled to run until

24、 around 2016. The project is primarily contracted to IBM and HRL who in turn subcontract parts of the research to various US universities.,IBM Synapse,自适应塑料可伸缩电子神经形态系统,猫脑机 2009 IBM,Dawn - the Blue Gene/P supercomputer150K CPU , 144T Memory模拟猫脑 Cortical simulations with 109 neurons, 1013 synapses , 1

25、6亿神经元, 8.9万亿链接,Criticism of the cat brain simulation claim,Brain Wall,SyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics),The Brain Wall: A Neural Network Visualization Tool by IBM SyNAPSE Researchers,数字神经元芯片, CMOS, Memristor,Synapse 的合作者,DARPA - program managed by Gill Pratt IBM

26、Research - Cognitive Computing group led by Dharmendra Modha Columbia University Medical Center - Theoretical neuroscience research, development of neural network models, led by Stefano Fusi Cornell University - Asynchronous VLSI circuit design, the neurosynaptic core, led by Rajit Manohar Universit

27、y of California, Merced - environment research, led by Christopher Kello University of Wisconsin-Madison - Simulation, theory of consciousness, computer models, led by Giulio Tononi HRL Laboratories - Memristor-based processor development led by Narayan Srinivasa Boston University: Stephen Grossberg

28、, Gail Carpenter, Yongqiang Cao, Praveen Pilly George Mason University: Giorgio Ascoli, Alexei Samsonovich Portland State University: Christof Teuscher Set Corporation: Chris Long Stanford University: Mark Schnitzer The Neurosciences Institute: Gerald Edelman, Einar Gall, Jason Fleischer University of California-Irvine: Jeff Krichmar University of Michigan: Wei Lu,Synapse 投入经费 102 Million Dollars,Why DBN,为什么我们应该探索深度学习?,Why DBN,在多个领域中取得更好的准确率,Why DBN,跟其他机器学习的训练方法比需要人工投入少?,Why DBN,天然特征的层次结构,Why DBN,符合仿生学结构,Why DBN,并行计算能力支撑,Why DBN,大数据支撑,你还不累, 我累了!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报