1、交流内容,Part1 机器学习的基本概念,Part2 深度学习的概念、由来及历史,Part3 基本的深度学习模型及其应用,Part4 强化学习的概念及应用,数据:人类文明进步的基石,获取数据,分析数据,构建模型,预测未来,人类使用数据的一般流程,天文学的起源和发展历程,清晰表明数据在人类发展过程中所产生的巨大作用,尼罗河畔的文明(古埃及人) 洪水退去后留下肥沃的土地 观察天象,预测洪水到来和退去时间及其大小,开创天文学 根据天狼星和太阳同时出现的位置,判定农耕时间和节气推测出:365*4+1=1461天,作为一个周期,美索不达米亚文明(苏美尔人) 观察发现月亮每隔28-29天,完成从新月到满月
2、再回到新月的周期 同时,观察到每年有四季之分,每过12-13个月亮周期,太阳就回到原来位置 发明了太阴历,古代历法,本质上是对天文现象的一个数据化描述,2,数据:人类文明进步的基石,开普勒关于行星运动的三大定律,形式简单,描述准确 但他并不理解其内涵,100多年的 观测数据,托勒密用40-60个小园套大圆的方法, 精确计算出了所有行星运动的轨迹,牛顿第二定律和万有引力定律把行星运动归结成一个纯粹的数学问题,即一个常微分方程组。牛顿运用的是寻求基本原理的方法,远比开普勒的方法深刻。知其然,且知其所以然。,y = - k x,3,机器学习的定位和定义,经典定义:利用 经验 来改善计算机系统的 性能
3、,A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, it its performance at tasks in T as measured by P, improves with experience. T. Mitchell (CMU),经验:在计算机系统中,即为数据(集)主要目标:预测未知、理解系统,机器学习是人工智能的一个重要分支,是实现智能化的关键,通常解决一些人为设计和使用确定性程序很难解决的问题
4、; 提高对机器学习的认识,将提高我们自身对智能背后原理的理解。因此受到极大关注。,4,从机器学习角度看人工智能的发展历史,1956,1974,1980,1993,1987,AI 诞生,STAGE1:推理期 Logic Inference,STAGE2:知识期 Knowledge Engineering,STAGE3:学习期 Machine Learning,技术进步,应用突破,第一次寒冬对AI发展丧失信心,研究经费大大减少,第二次寒冬缺少AI的实际应用,研究经费大大减少,出现了第一个机器人和智能软件,专家系统的研发 神经网络的突破,大数据 深度学习、强化学习,1957年 提出Perceptro
5、n,1970年代初 结构化的学习系统 基于逻辑的推理系统,1986年 BP算法 多层神经网络,1995年 AdaBoost算法 SVM算法,2006年 深度神经网络(DNN),2013年 DNN在图像和声音识别取得突破,统计学习 (传统机器学习),1961年,第一台工业机器人Unimation,在通用电气公司应用,1973年,世界第一个人形机器人Wabot-1,诞生于早稻田大学,1980年,专家系统XCON,由CMU研发,并用于DEC公司,1997年,IBM的Deep Blue战胜国际象棋大师加里卡斯帕罗夫,2006 年,智能可编程类人机器人NAO面世,Apple:Siri Google:无人
6、驾驶车,AlphaGo IBM:Waston 大量日常的AI机器人出现 ,5,机器学习的应用:帮助奥巴马赢得竞选,2008年美国总统大选,奥巴马竞选团队的数据分析师构建一个庞大的数据分析系统,将民意调查员、筹款人、现场工作人员、消费者数据库、社交媒体、移动通信用户与摇摆州的民主党选民档案合并在一起,帮助奥巴马筹集了10亿美元的选举资金 构建摇摆州的选民画像,分析选民意图,预测哪些类型的选民会被某种类型的政策因素所说服 实时监控选民的意向改变情况,调整选举模拟模型 对选举电视广告进行精确投放,They are our nuclear codes !,6,机器学习的应用:自动驾驶,DARPA Gr
7、and challenge 2005: 搭建一个能在10个小时内,自主航行并穿越175英里沙漠地区的机器人 获胜者:Stanford的“Stanley”赛车实际所用时间为6小时54分钟。力压卡内基梅隆的两辆改装悍马,形成目前无人驾驶行业完整产业链的“原点“。随后自动驾驶算法、激光雷达、高精地图、芯片提供解决方案的初创公司纷纷涌现。,7,机器学习的应用:产品推荐,NetflixPrize : 根据用户的行为偏好,预测用户对某部影片的评分 数据集 : 480,189名不同的用户对17,770部电影给出的100,480,507个打分结果(1-5分) 奖金 : 基于Netflix的Cinematch系
8、统,获得10%的效果提升就能赢得1百万美元,http:/,8,机器学习的应用:信用分析和评估,数据:抽取规则:,9,机器学习的应用,市场零售:市场购物篮分析、客户关系管理 金融领域:信用评级(评分)、欺诈检测 制造领域:问题优化、智能诊断 医疗领域:疾病诊断、治疗路径选择 通讯领域:服务质量的优化、路由选择 生物信息领域:基因测序、对齐 ,10,机器学习的主要任务,分类(Classification): : 1, 垃圾邮件过滤,人脸识别,情感分析 回归(Regression): : 机器翻译 (Machine Translation): :SequenceSequence 排序(Ranking
9、) 搜索引擎、产品推荐 异常检测 (Anomaly Detection) 密度估计或概率质量函数估计 ,11,机器学习的主要任务,监督学习: 从有标记的训练数据中推断预测函数。即,给定数据,预测标签 分类、回归 无监督学习:从无标记的数据中推断结论。即,给定数据,寻找隐藏结构 聚类、异常检测 增强学习:如何在给定环境中采取行动以便获得回大化回报。即,给定条件,学习选择一系列行动,最大化长期收益 棋牌类游戏,12,机器学习的基本框架,收集、预处理数据 Collecting Data,模型(Model),未知数据 Unknown Data,预测 (Prediction),学习 Learning,应
10、用 Application,=(;),数据类型 结构化数据:通常以关系表表示和存储 非结构化数据:图像、声音、视频、文本 数据使用:训练集、验证集、测试集,模型的选择 模型的优化(参数) 模型的评估,13,机器学习中的若干概念,数据集(Data Set)假设空间(Hypothetical Space) 所有可能的能满足样本输入和输出的假设函数h(x)的集合 学习的模型是从一个限定的假设空间里进行选取,而不是凭空选择的归纳偏好(Inductive Bias) 根据训练数据,从假设空间中选出最佳的一个假设 奥卡姆剃刀原理、没有免费的午餐定理,例:用三个特征描述西瓜(色泽、根蒂、声响),基于这3个特
11、征获得10万条记录,其中一条取值: 色泽=光亮、根蒂=坚硬、声响=清亮 记录到.csv文件或者数据库中,可以得到一个二维数组,行数为10万(记录),列数为3(特征),例:假设以上三个西瓜特征,每个特征有三种可能取值,那么该假设空间的大小为4*4*4+1=65 (其中,4=3+1,表示不考虑该特征的情形),14,机器学习中的若干概念,损失函数(Loss Function) 用来近似衡量模型好坏的一个很重要的指标,损失函数的值越大说明模型预测误差越大,所以我们要做的就是不断更新模型的参数,使得损失函数的值最小 , = 0, =() 1, () 优化策略(Optimization Strategy)
12、 根据损失值不断更新模型参数的函数,作用是在参数空间中找到损失函数的最优解 梯度下降法是最熟知的损失函数,15,机器学习中的若干概念,泛化能力(Generalization Ability) 机器学习模型对未知数据的预测能力 欠拟合:模型复杂度太低,使得模型能表达的泛化能力不够,对测试样本和训练样本都没有很好的预测性能 过拟合:模型复杂度太高,使得模型对训练样本有很好的预测性能,但是对测试样本的预测性能很差误差、偏差和方差 误差反映整个模型的准确度 偏差反映模型在样本上的输出和真实值的误差 方差反映模型每一次输出结果与模型输出期望之间的误差,新叶训练样本,新样本,过拟合模型分类结果: 不是树叶
13、 (误以为树叶必须有锯齿),欠拟合模型分类结果: 是树叶 (误以为绿色的都是树叶),损失函数加正则化项可以缓解过拟合现象,如L2正则项: = 2 =1 ( , ) 2 + 2 ,16,机器学习中的三大流派,符号主义(Symbolists) 认知即计算,通过对符号的演绎和逆演绎进行结果预测 代表算法:逆演绎算法(Inverse deduction) 代表应用:知识图谱 联结主义(Connectionist) 对大脑进行仿真 代表算法:反向传播算法(Backpropagation)、深度学习(Deep learning) 代表应用:机器视觉、语音识别 行为主义(Analogizer) 新旧知识间的
14、相似性 代表算法:核机器(Kernel machines)、近邻算法(Nearest Neightor) 代表应用:Netflix推荐系统,17,AI技术Venn图,例: 知识库,人工智能,机器学习,表示学习,深度学习,例: 逻辑回归,例: 浅层自动编码器,例: 多层感知机,18,交流内容,Part1 机器学习的基本概念,Part2 深度学习的概念、由来及历史,Part3 基本的深度学习模型及其应用,Part4 强化学习的概念及应用,Part5 深度学习的未来思考,联结主义(神经网络)的发展历程,20,McCulloch-Pitts神经元模型(M-P模型,1943),美国心理学家McCullo
15、ch和数学家Pitts,提出的模拟人类神经元网络进行信息处理的数学模型 神经元的特点:多输入单输出;突触(传递神经冲动的地方)兼有兴奋和抑制两种性能;能时间加权和空间加权;可产生脉冲;脉冲进行传递;非线性 简单的线性加权的方式来模拟这个过程,其中I为输入,W为权重,加权的和经过一个阈值函数后作为输出。,沃伦麦卡洛克 (1898-1969),瓦尔特皮茨 (1923-1969),21,Hebb假设(1949),在1949年出版的行为的组织中,赫布提出了其神经心理学理论 Hebb假设:当细胞A的轴突到细胞B的距离近到足够激励它,且反复地或持续地刺激B,那么在这两个细胞或一个细胞中将会发生某种增长过程
16、或代谢反应,增加A对细胞B的刺激效果,唐纳德赫布(1904-1985),22,Rosenblatt感知机(Perceptron)算法(1958),1958年,第一次将M-P模型用于对输入的多维数据进行二分类,使用梯度下降法从训练样本中自动学习更新权值 1962年,该方法被证明最终收敛,理论与实践效果引起第一次神经网络的浪潮,Frank Rosenblatt (1928-1971),23,XOR问题的质疑(1969),1969年,美国数学家及人工智能先驱Minsky和Papert,在其著作中证明了感知器本质上是一种线性模型 无法解决最简单的XOR(亦或)问题,“线性不可分的问题” 宣判了感知器的
17、死刑,神经网络的研究也陷入了10余年的停滞(进入第一个寒冬!),24,MLP和BP算法的提出(1986-1989),1986年,Rumelhart,Hilton等人发明了适用于多层感知器(Multi-Layer Perceptron,MLP)和误差反向传播算法(Back Propagation,BP)算法,并采用Sigmoid函数进行非线性映射,有效解决了非线性分类和学习的问题1989年,Robert Hecht-Nielsen证明了MLP的万能逼近定理,即对于任何闭区间内的一个连续函数f,都可以用含有一个隐含层的BP网络来逼近该定理的发现极大的鼓舞了神经网络的研究人员 1989年,LeCun
18、发明了卷积神经网络-LeNet,并将其用于数字识别,且取得了较好的成绩,不过当时并没有引起足够的注意,LeNet,25,MLP和BP算法的提出(1989-1997),在1989年以后由于没有特别突出的方法被提出,且NN一直缺少相应的严格的数学理论支持,神经网络热潮退去 第二次寒冬来自于1991年,BP算法被指出存在梯度消失问题,即在误差梯度后向传递的过程中,后层梯度以乘性方式叠加到前层,由于Sigmoid函数的饱和特性,后层梯度本来就小,误差梯度传到前层时几乎为0,因此无法对前层进行有效的学习,该发现对此时的NN发展雪上加霜 1997年,LSTM模型被发明,尽管该模型在序列建模上的特性非常突出
19、,但由于正处于NN的下坡期,也没有引起足够的重视,LSTM,26,统计学习占领主流(1986-2006),1986年, ID3,ID4,CART等改进的决策树方法相继出现,到目前仍然是非常常用的一种机器学习方法。该方法也是符号学习方法的代表 1995年,SVM被统计学家V. Vapnik 和 C. Cortes发明了SVM提出。该方法的特点有两个:由非常完美的数学理论推导而来(统计学与凸优化等),符合人的直观感受(最大间隔)。不过,最重要的还是该方法在线性分类的问题上取得了当时最好的成绩 1997年,AdaBoost被提出,该方法是PAC(Probably Approximately Corr
20、ect)理论在机器学习实践上的代表,也催生了集成方法这一类。该方法通过一系列的弱分类器集成,达到强分类器的效果。 2000年,KernelSVM被提出,核化的SVM通过一种巧妙的方式将原空间线性不可分的问题,通过Kernel映射成高维空间的线性可分问题,成功解决了非线性分类的问题,且分类效果非常好。至此也更加终结了NN时代。 2001年,随机森林被提出,这是集成方法的另一代表,该方法的理论扎实,比AdaBoost更好的抑制过拟合问题,实际效果也非常不错。 2001年,一种新的统一框架-图模型被提出,该方法试图统一机器学习混乱的方法,如朴素贝叶斯,SVM,隐马尔可夫模型等,为各种学习方法提供一个
21、统一的描述框架,27,统计学习 SVM(1995),V. Vapnik和C. Cortes两人发明了SVM, 它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。,C. Cortes,V. Vapnik,28,统计学习 SVM,优点: SVM利用内积核函数代替向高维空间的非线性映射 SVM 是一种有坚实理论基础的新颖的小样本学习方法 SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而非样本空间的维数,避免“维数灾难” 少数支持向量决策,简单高效,鲁棒性好,29,深度
22、学习 Deep Neural Network(2006),G. Hinton等人提出了Deep Belief Network,它是一种生成模型,通过训练其神经元间的权重,使得整个神经网络按照最大概率来生成训练数据。 使用非监督贪婪逐层方法去预训练获得权值 不用靠经验提取数据特征,经过底层网络自动提炼,G. Hinton,30,深度学习的提出:Why Deep ?,从实际的需求来看,随着数据采集和计算机能力的增加,积累了大量的数据,而且绝大部分是非结构化(语义不清楚、稀疏)数据。先前的机器学习方法收效甚微,31,深度学习的提出:Why Deep ?,瓶颈:特征工程(Feature Enginee
23、ring),以视觉信息处理为例,数据采集,数据预处理,特征提取,特征选择,学习和推理,具有不变性 大小不变性 尺度不变性 旋转不变性 光照不变性 可区分性,32,深度学习的提出:Why Deep ?,从人类的脑结构的角度来看,人类神经系统就是一个深层次的结构。人的大脑有100多亿个神经细胞,每天能记录生活中大约8600万条信息。据估计,人的一生能凭记忆储存100万亿条信息,并且神经元多种多样,并呈现层次结构 从人类的大脑处理信息的方式来看,人类对视觉信息的处理是分层次的,不是一步到位的。人类倾向于将一个抽象层次的概念表示为较低层次的概念组合,33,Hubel-Wiesel Experiment
24、,Hubel, David H., and Torsten N. Wiesel. “Receptive fields of single neurones in the cats striate cortex.“ The Journal of physiology 148, no. 3 (1959): 574-591.,1981年诺贝尔生理学或医学奖,通过研究猫的视觉皮层感受野,提出的视觉神经系统的层级结构模型 ,亦称Hubel-Wiesel结构 简单细胞:方向选择性细胞的神经元细胞,当瞳孔发现了眼前的物体的边缘,而且这个边缘指向某个方向时,这种神经元细胞就会活跃 复杂细胞:组合“简单细胞”层
25、中相应的子区域,使得整个感受野对局部变换具有一定的不变性,神经-中枢-大脑的工作过程,或许是一个不断迭代、不断抽象的过程,人类的逻辑思维,经常使用高度抽象的概念。,34,进一步的实验:稀疏编码,1996年, Cornell大学的Bruno Olshausen和David Field在Nature杂志上发表了一篇重要论文指出,自然图像经过稀疏编码后得到的基函数类似于V1区简单细胞感受野的反应特性 从400张碎片中选择尽量少的图片拼接目标图片,发现最终选择的图片,基本上是照片上不同物体的边缘 稀疏编码模型提取的基函数首次成功地模拟了V1区简单细胞感受野的三个响应特性:空间域的局部性、时域和频域的方
26、向性和选择性,考虑到基函数的超完备性(基函数维数大于输出神经元的个数),Olshausen 和Field在1997年又提出了一种超完备基的稀疏编码算法,利用基函数和系数的概率密度模型成功地建模了V1区简单细胞感受野。,35,实验证明:人脑视觉机理,人的视觉系统的信息处理是分级的 高层的特征是低层特征的组合,从低层到高层的特征表示越来越抽象,越来越能表现语义或者意图 抽象层面越高,存在的可能猜测就越少,就越利于分类,36,深度学习的提出:Why Deep?,从特征表示的角度来看,特征应该是分层的,一般而言,特征越多,给出信息就越多,识别准确性会得到提升; 但特征多,计算复杂度增加,探索的空间大,
27、可以用来训练的数据在每个特征上就会稀疏。 结论:不一定特征越多越好!需要有多少个特征,需要学习确定。,37,深度学习的提出:Why Deep?,分层的结构性特征表示,38,浅层学习的局限性分析,传统的MLP及BP算法 虽被称作多层感知机,但通常只含有一层隐层节点的浅层模型 SVM、Boosting、最大熵方法(如LR,Logistic Regression):带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)的浅层模型 局限性:有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受限,39,深度学习的概念提出,2006年,加拿大多伦多大学教授、机器
28、学习领域的泰斗Geoffrey Hinton在科学上发表论文提出深度学习主要观点: 多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类 深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,逐层初始化可通过无监督学习实现的,40,深度学习的概念,深度学习:一种基于MLP模型,无监督的、多层次的结构特征表示学习方法 多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类 深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wis
29、e pre-training)来有效克服,逐层初始化可通过无监督学习实现的,Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction. - Yann LeCun, Yoshua Bengio & Geoffrey Hinton,41,深度学习概念的分析,通过构建多隐层的模型和海量训练数据(可为无标签数据),来学习更有用的特征,从而最终提升
30、分类或预测的准确性。 “深度模型”是手段,“特征学习”是目的 与浅层学习区别 强调了模型结构的深度,通常有5-10多层或者更多(甚至100层以上)的隐层节点 明确突出了特征学习的重要性,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息 好处:可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,42,深度学习 vs. 传统神经网络,传统神经网络 : 深度学习:,43,深度学习 vs. 传统神经网络,相同点:二者均采用分层结构,系统包括输入层、隐层(多层
31、)、输出层组成的多层网络,只有相邻层节点之间有连接,同一层以及跨层节点之间相互无连接,每一层可以看作是一个logistic 回归模型 不同点: 传统神经网络:采用BP算法调整参数,即采用迭代算法来训练整个网络。随机设定初值,计算当前网络的输出,然后根据当前输出和样本真实标签之间的差去改变前面各层的参数,直到收敛; 深度学习:采用逐层训练机制。采用该机制的原因在于如果采用BP机制,对于一个deep network(7层以上),残差传播到最前面的层将变得很小,出现所谓的gradient diffusion(梯度扩散)。,44,深度学习训练过程,经典深度学习训练 现代深度学习训练,45,经典深度学习
32、训练(逐层训练方式),第一步:采用自下而上的无监督学习 1)逐层构建单层神经元。 2)每层采用wake-sleep算法进行调优。每次仅调整一层,逐层调整。这个过程可以看作是一个feature learning的过程,是和传统神经网络区别最大的部分。,46,经典深度学习训练,wake-sleep算法:1)wake阶段:认知过程,通过下层的输入特征(Input)和向上的认知(Encoder)权重产生每一层的抽象表示(Code),再通过当前的生成(Decoder)权重产生一个重建信息(Reconstruction),计算输入特征和重建信息残差,使用梯度下降修改层间的下行生成(Decoder)权重。也
33、就是“如果现实跟我想象的不一样,改变我的生成权重使得我想象的东西变得与现实一样” 2)sleep阶段:生成过程,通过上层概念(Code)和向下的生成(Decoder)权重,生成下层的状态,再利用认知(Encoder)权重产生一个抽象景象。利用初始上层概念和新建抽象景象的残差,利用梯度下降修改层间向上的认知(Encoder)权重。也就是“如果梦中的景象不是我脑中的相应概念,改变我的认知权重使得这种景象在我看来就是这个概念”,47,经典深度学习训练,Encoder,Decoder,Input Image,Class label,Features,Encoder,Decoder,Features,E
34、ncoder,Decoder,AutoEncoder:,48,经典深度学习训练,第二步:自顶向下的监督学习 这一步是在第一步学习获得各层参数进的基础上,在最顶的编码层添加一个分类器(例如罗杰斯特回归、SVM等),而后通过带标签数据的监督学习,利用梯度下降法去微调整个网络参数。深度学习的第一步实质上是一个网络参数初始化过程。区别于传统神经网络初值随机初始化,深度学习模型是通过无监督学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够取得更好的效果。,49,自2012年开始,深度学习进入爆发期,现代深度学习训练,标志:AlexNet由2012年ImageNet竞赛冠军获得者Hinton和
35、他的学生Alex Krizhevsky设计的。也是在那年之后,更多的更深的神经网络被提出,比如优秀的VGG net, GoogLeNet它的出现开启了深度学习的研究的浪潮很多新的理念被提出:比如用GPU训练深度模型,数据增强操作等等,50,现代深度学习训练,1. 激活函数由Sigmoid 换成 ReLU2. 好的权重初始化方式.(Xavier/He init)3. Batch Normalization 4. 更先进的优化算法,Adam,AdaGrad, SGD + Momentum5. 正则化项:Dropout 等等6. 数据增强和数据预处理操作,目前的深度学习模型不再需要逐层训练方式,可以
36、直接端到端的训练,具体有如下的训练技巧:,51,现代深度学习训练,实现方法 硬件 CPU, GPU, TPU, 软件 PyTorch(动态计算图), TensorFlow(静态计算图), .,52,现代深度学习训练(硬件),CPU: Central Processing UnitGPU: Graphics Processing Unit (Speed up parallel operation),53,现代深度学习训练(软件),现代深度学习训练一般都需要用到深度学习框架:1. 这里框架是指的就是软件库(API),其中里面实现了一些常用的张量(Tensor)的操作以及实现的一些基本网络层的操作,
37、比如卷积神经网络与循环神经网络2. 作一个简单的比喻,一套深度学习框架就是这个品牌的一套积木,各个组件就是某个模型或算法的一部分,你可以自己设计如何使用积木去堆砌符合你数据集的积木比较著名的框架有:TensorFlow(Google维护),PyTorch(Facebook维护),54,框架的重要意义,对于科研,我们可以快速地实现自己的想法做实验,不必重复造轮子,进而加速各个领域的进展对于应用,我们可以用框架训练出适合当前任务的模型,并把它部署到产品当中框架有效地利用GPU,以及相关加速库,加速模型的训练过程,55,交流内容,Part1 机器学习的基本概念,Part2 深度学习的概念、由来及历史
38、,Part3 基本的深度学习模型及其应用,Part4 强化学习的概念及应用,深度学习的变革,图像分类:ImageNet,1000个类别 2012年AlexNet在ImageNet大赛上一举夺魁,大大提高了图像分类精度,开启了深度学习的时代。,57,深度学习的变革,目标检测:Pascal VOC2007,20个类别 RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,大量基于深度学习的目标检测算法相继被提出。,58,深度学习的变革,文本翻译,59,深度学习的变革,语音识别:10多年没有进展,深度学习应用后大幅度提升了语音识别效果,60,卷
39、积神经网络,LeNet-5是Yann LeCun在1998年设计的用于手写数字识别的卷积神经网络,当年美国大多数银行就是用它来识别支票上面的手写数字,是早期卷积神经网络中最有代表性的实验系统之一,61,卷积神经网络,字符识别,图像检索,图像分类,人体关键点,62,卷积神经网络,卷积神经网络的主要组成:卷积层、池化层、全连接层、激活函数,63,卷积神经网络,卷积层是卷积神经网络的核心组成,卷积层示意图,卷积层可视化,64,卷积神经网络,池化层通常紧接着在卷积层之后使用,简化从卷积层输出的信息,2x2平均池化,2x2最大池化,65,卷积神经网络,激活函数是用来加入非线性因素的,因为线性模型的表达力
40、不够,66,卷积神经网络的发展,AlexNet(2012) VGGNet(2013) GoogLeNet(2014) ResNet(2015) DenseNet(2016),67,AlexNet,成功使用 ReLU 作为 CNN 的激活函数 ;训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合 ;在CNN中使用重叠的最大池化 ;提出了LRN层 ,增强了模型的泛化能力,68,VGGNet,VGGNet 探索了卷积神经网络的深度与其性能之间的关系,通过反复堆叠 3*3 的小型卷积核和 2*2 的最大池化层,VGGNet 成功地构筑了 19 层深的卷积神经网络。,69,GoogLeNet
41、,GoogLeNet提出了一种新的网络模块(inception module),如图所示,它既能保持网络结构的稀疏性,又能利用密集矩阵的高计算性能。Inception 的主要思想是用稠密的模板覆盖卷积神经网络中最优的局部稀疏结构,使之能够近似地表示原来的局部稀疏结构。,70,ResNet,ResNet(Residual Neural Network)由微软研究院的 Kaiming He 等 4 名华人提出,通过使用 Residual Unit 成功训练 152 层深的神经网络 ,解决了深层网络信息传递丢失的问题,效果非常突出。,71,DenseNet,DenseNet使得网络更窄,参数更少,很
42、大一部分原因得益于下图这种 dense block 的设计 ,既充分利用了feature,加强了feature的传递,避免了feature在网络的不同层冗余出现,又进一步减轻了梯度消失问题。,72,循环神经网络,循环神经网络一次处理一个输入序列元素,同时维护网络中隐式单元中包含的过去时刻序列元素的历史信息的“状态向量”,可以对序列信息建模,更加强大,也更加符合人类大脑皮层对信息的处理方式。,73,循环神经网络,图像描述:输入图像,输出文字序列,74,循环神经网络,情感分类:输入文字序列,输出情感类别,75,循环神经网络,机器翻译:输入文字序列,输出文字序列,76,循环神经网络,视频帧分类:输入
43、图片序列,输出类别序列,77,循环神经网络,LSTM:Long Short Term Memory(长短期记忆网络),由Hochreiter和Schmidhuber15于1997年首次提出,引入“门”的概念, 包括输入门、输出门、遗忘门 解决了 RNN 的梯度消失问题,有能力学习长时间的依赖关系,78,循环神经网络,长短期记忆网络LSTM,79,自编码器,Auto-Encoder(AE) 自编码器,80年代晚期出现 主要用于降维,后用于主成分分析,80,PCA(主成分分析),Principal Component Analysis 一种能够极大提升无监督特征学习速度的数据降维算法 主要思想是通
44、过线性变换将n维特征映射到k维(kn)全新的正交特征上,81,自编码器,输入层, ,输出层,隐藏层,尽可能接近,隐藏层的输出即为编码结果,编码,解码,82,自编码器,输入层, ,输出层,隐藏层,隐藏层的输出即为编码结果,编码,解码,稀疏自编码器,稀疏限制,83,自编码器,降噪自编码器,编码,解码,添加噪声,尽可能接近,Vincent, Pascal, et al. “Extracting and composing robust features with denoising autoencoders.“ ICML, 2008.,84,自编码器 文本检索,word string: “This
45、is an apple”,1,1,0,1,1,0,Bag-of-word,Semantics are not considered.,Vector Space Model,document,query,85,自编码器 文本检索,Bag-of-word,(document or query),LSA: project documents to 2 latent topics,2000,500,250,125,2,意思相近的文本应该有相似的编码.,86,自编码器 图像检索,32x32,8192,4096,2048,1024,512,256,编码,87,自编码器 图像检索,88,交流内容,Part1
46、 机器学习的基本概念,Part2 深度学习的概念、由来及历史,Part3 基本的深度学习模型及其应用,Part4 强化学习的概念及应用,强化学习(Reinforcement Learning),马尔科夫决策过程(Markov Decision Process),一个智能体(Agent)和一个环境(Environment)交互 对于一个环境的特定状态(State) 智能体可以做出特定动作(Action) 而这些动作会带来奖励(Reward) 每当智能体做出一个动作,就会进入一个新的状态,90,强化学习(Reinforcement Learning),在智能体和环境不断交互的过程中,我们得到一个状
47、态-动作-奖励序列目标:最大化总未来奖励(total future reward)实际使用往往加入折扣因子0,1,91,Q-Learning,定义函数(,) 表示我们在状态s进行动作a时的最大折扣未来奖励 , = max +1 于是,在状态s下,最好的动作a*应该是能让未来奖励最大的那个,即 = = (,) 通过贝尔曼公式以及Q-Learning算法,我们可以学习到一个好的Q函数,92,Q-Learning迭代算法,贝尔曼公式:当前状态s和动作a的最大未来奖励 = 动作a后的立即奖励 + 下一时刻状态s在所有可能动作下能获得的的最大未来奖励,Q-Learning:用贝尔曼公式迭代近似Q函数,9
48、3,强化学习和深度学习的结合,在很多问题中,状态维度过高,导致难以穷举Q函数的所有取值(比如一个84*84的屏幕像素点的状态可以 有256 8484 种) 用深度神经网络来近似Q函数 输入:当前环境状态(高维,可以是图片) 输出:对于所有动作的(,)取值,94,深度强化学习(以Atari游戏为例),输入:当前游戏画面(状态s),网络:卷积神经网络(CNN),输出:游戏手柄不同按键(动作a)的(,)值 选Q值最大的作为当前动作,95,强化学习的应用,围棋(AlphaGo,DeepMind),Silver, David, Julian Schrittwieser, Karen Simonyan, Ioannis Antonoglou, Aja Huang, Arthur Guez, Thomas Hubert, et al. “Mastering the Game of Go without Human Knowledge.” Nature 550, no. 7676 (October 2017): 35459. https:/doi.org/10.1038/nature24270.,96,强化学习的应用,战略游戏(如星际争霸,DeepMind),