1、机器学习概述,Machine Learning,制作人:李丹阳 高鹏飞,机器学习,Langley说:“机器学习是一门人工智能的学科,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。” TomMitchell说:“机器学习是对能通过经验自动改进的计算机算法的研究。” Alpaydin说:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”,什么是机器学习?,机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。顾名思义,机器学习是研究如何使用机器来模拟人类学习活动的一门学科。严格的说,机器学习是一门研究机
2、器获取新知识和新技能,并识别现有知识的学问。,机器学习定义,机器学习发展史,机器学习的发展大体上经历了三个阶段: 第一阶段:探索阶段,20世纪5060年代这一阶段主要受神经生理学、生理学和生物学影响,主要侧重于非符号的神经元模型的研究。第二阶段:发展阶段,20世纪70年代这一阶段专家系统发展迅速,知识获取成为当务之急,主要侧重于符号学习的研究。第三阶段:鼎盛阶段,20世纪80年代这一阶段的理论研究和应用研究也有了新的突破,机器学习的研究进入了全面的系统化的时期。,机器学习的应用,机器学习目前已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测
3、信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。,机器学习的应用,百度目前正在推进一个名为“百度大脑”的项目,利用计算机技术模拟人脑,已经可以做到2-3岁孩子的智力水平。目前百度大脑在语音、图像、自然语言处理和用户画像等前沿领域都有了不错的进展。,IBM识别癌变细胞技术取得重大突破,用深度学习与神经网络重塑病理学。,Google翻译里程碑:基于单一模型的 Zero-Shot 系统正式上线。Google多语言神经机器翻译系统支持103种语言的翻译。,整容式的美颜2.0技术如何实现?最关键的技术人脸识别。,机器学习的应用,机器学习将会在各行业得到广泛应用,未来5-1
4、0年内会在工业,农业,商业智能,教育,交通,金融,医疗,娱乐等领域得到应用。 工业:对制造、物流业起到推动作用,依托传感器、芯片等底层数据收集硬件,基于大数据优化工业机器人算法,替代更多人工工作。 农业:通过底层硬件实现全自动灌溉等,解放人工。 教育:虽然教育活动的主角仍然是教师,但人工智能可以有效地降低教育的成本,如通过网络让更多人在线学习优秀教师的课程,并通过机器学习技术来分析学习效果,帮助教师用更少的精力提供对更多人的差异教育,真正实现因材施教。,机器学习的应用,交通:除无人汽车以外,随着车联网的发展,城市交通管理可以做到根据交通情况的变化,动态调整交通管理策略,如改变高速路的收费策略,
5、或是引导司机绕开拥堵路段。 金融:风控模型和客服系统将得到进一步的升级,真正做到根据个人情况提供个性化的金融服务,包括贷款、保险费率的变化,虚拟客服服务的提供等。另外,金融安保能力也将得到进一步的提升,如使用人脸、指纹识别技术降低风险,或是利用更先进的加密技术,抵挡黑客的入侵。,机器学习的应用,医疗:通过智能硬件来收集个人健康数据,并基于医疗案例库,自动形成医疗建议,帮助医生更好的发现病人潜在的问题,提升医疗效率。 娱乐:结合VR、AR技术,通过智能硬件生成虚拟现实,提供给游戏等娱乐产品使用。,机器学习的现状,“机器学习”现在的形态是什么?算法 + 数据“机器学习”有哪些技术局限?,局限(1)
6、:需要大量训练样本,大数据时代,训练样本数量不再是问题? NO!,局限(2):难以适应环境变化,无人驾驶难点:路况变化,环境变化,局限(3):黑箱模型,黑箱模型难以用于高风险应用,机器学习的下一步怎么发展?,机器学习的下一步其实会往各种方向发展,一个大的趋势是因为不同类型的数据会越来越多,所以需要分析的数据也会越来越多。往后有很多任务可能都需要新的机器学习技术,但是一个大的趋势是我们要增加机器学习的鲁棒性。这个是非常大的需求,因为在目前情况下很多研究中机器能达到人类的水准,甚至比人类的状态还要好。但是如果遇到一些罕见的情况,它会错得非常离谱。,机器学习的一般步骤,机器学习是一个有反馈的系统,其
7、基本系统结构模型图1 所示:图1 机器学习的基本系统结构模型,机器学习的一般步骤,环境:外部信息的来源,为系统的学习提供有关信息。 学习:从环境取得信息,经过分析、类比和归纳等思想获得知识存入知识库。 知识库:存放由学习得到的知识。 执行:基于新的知识库,执行一系列任务。,机器学习的一般步骤,机器学习中学习环节的一般过程如图2:图2 学习环节的一般过程在进行学习前要先确定具体采用哪一种方法学习,而训练就是运行具体的学习算法获得相关的知识。,机器学习实施过程,特征提取,特征1,样本数据,样本数据,样本数据,n,预处理,特征样本集,原始样本集,机器学习算法,训练,预测,输出,验证集,评价,目标,特
8、征1,n,目标,特征1,n,目标,特征1,n,训练集,目标,特征1,n,目标,特征1,n,目标,特征1,n,验证集,目标,特征1,n,目标,特征1,n,目标,预测目标,预测目标,预测目标,改进,机器学习方法的分类,机器学习的研究方法种类繁多,目前比较流行的机器学习方法分类主要有以下几种。 按学习时所用的分类方法进行分类机械式学习 示教学习 类比学习 解释学习,机器学习方法的分类,按推理的策略进行分类 演绎学习:所用的推理形式为演绎推理,推力从公理出发,经过逻辑变换推导出结论。这种学习方法包含宏操作学习、知识编辑和组块技术。 归纳学习:有教师或环境提供某概念的一些实例或反例,让学生通过归纳推理得
9、出该概念的一般描述。,机器学习方法的分类,按综合因素进行分类 连接学习 分析学习 遗传算法与分类器系统,机器学习的分类,监督学习,无监督学习,机器学习算法,统计 分类,回归 分析,聚类,关联 规则,监督学习(unsupervised learning):利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。,无监督学习(unsupervised learning):设计分类器时候,用于处理未被分类标记的样本集。,决策树、朴素贝叶斯、逻辑回归、KNN、SVM、神经网络、随机森林,K-means、BIRCH、 Apriori,机器学习中的推理方法,按推理过程的思维方向划分,分为演绎推理、归纳推理和类比推理。演绎推理:结论可从叫做前提的已知事实必然得出的推理。 归纳推理:从个别性知识推出一般性结论的推理。 类比推理:根据两个或两类对象有部分属性相同,从而推断出它们的其他属性也相同的推理,简称类推、类比。,