1、,人工智能的现状与未来,网经科技,刘继明,目录 content,人工智能简述,深度学习算法,知识图谱,人工智能将引领人类第四次工业革命 智能化,时间,18世纪末,工业1.0 创造了机器工厂的 “蒸汽时代”,20世纪初,电力广泛应用,蒸汽机,信息物联系统,1970年代初,今天,工业2.0 将人类带入分工明确、大批量生产的流水线模式和“电气时代”,工业3.0 应用电子信息技术,进一步提高生产自动化水平,自动化、信息化,工业4.0 开始应用信息物理融合系统(CPS),复 杂 度,悄悄 来临,互联网时代,正在 终结,人工智能 机器人,交通工具(即无人机、无人驾驶等) VR(虚拟现实),AI将催生“无用
2、阶层”吗?,人工/脑力劳动:翻译、记者. 人工/体力劳动:保安、保姆.,什么是人工智能(AI)?,全面实施战略性新兴产业发展规划,加快人工智能等技术的研发和转化,做大做强产业集群 把发展智能制造作为主攻方向,推进国家智能制造示范区、制造业创新中心建设,人工智能:国家战略(2017年政府工作报告),人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处
3、理和专家系统等。 人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。,什么是人工智能?,人工智能有那些类型?,弱人工智能,包含基础的、特定场景下角色型的任务,如Siri等聊天机器人和AlphaGo等下棋机器人; 通用人工智能,包含人类水平的任务,涉及机器的持续学习; 强人工智能,指比人类更聪明的机器;,1956,1974,1980,1987,1993,2006,AI的诞生 1956达特矛斯 会议,“人工智 能”正式诞生,孕育期 电子计算机 机器翻译与NLP 图灵测试 计算机下棋 早期神经网络,搜索式推理 聊天机器人,乐观思潮,所有的AI程序
4、 都只是“玩具”,运算能力,计算复杂性,常识与推理,专家系统,知识工程,五代机,神经网络重生,未达预期 削减投入,摩尔定律,统计机器学习,AI广泛应用,大数据,计算能力,应用增多,深度学习,人工智能,2016,人工智能发展历程,手机中的AI,人工智能相关技术刚刚越过曲线高峰(处于狂热期),是推动透明化身临其境体验技术发展的主要动力 涉及透明化身临其境体验的人本技术(如智能工作空间、互联家庭、增强现实、虚拟现实、脑机接口)是拉动另外两大趋势的前沿技术 数字平台在曲线上处于快速上升期,其中的量子计算和区块链将在今后510年带来变革性的影响,AI处于什么阶段?,AI Roadmap,国人为什么要关注
5、AI?,为什么人类能成为地球的主宰?,基因:人和大猩猩的基因,有98.4%都是完全一样的,只有1.6%有区别,“符号语言”(口头语言和书面文字):传递、保存、共享知识 “集体知识”:人类的大脑可以相互共享信息,交换知识,人类个体比其他动物没有多大优势,掌握了符号语言,人类社会的结构发生了突变,有了一个连接在一起的集体大脑。这种物种之间相互关联、相互作用的方式,才是我们和其他物种的真正区别,脑容量:历史上的“尼安德特人”和我们的祖先脑容量是一样的。但后来尼安德特人就没留下来,只有我们这一支留下来了,时间地图:大历史导论,知识和创新是推动人类发展的动力,AI学科结构,AI的几大门派,符号学派,联结
6、学派,行为学派,神经网络,知识表示,机器人,模拟人的心智,模拟脑的结构,模拟人的行为,聪明的AI,有学识的AI,深度学习,知识图谱,感知 识别 判断,思考 语言 推理,贝叶斯学派,进化学派,类推学派,人工智能产业生态的三层基本架构,基础资源层:主要是计算平台和数据中心,属于计算智能;技术层:通过机器学习建模,开发面向不同领域的算法和技术,包含感知智能和认知智能;应用层:主要实现人工智能在不同场景下的应用。,基础资源支撑,AI生态逐步形成:基础资源+技术+应用,人工智能系统的技术架构,智能终端,智能云平台,人工智能简述,深度学习算法,知识图谱,推理期,知识期,机器学习期,人工智能的三个研究阶段,
7、1950s,1970s,1980s,基于符号知识表示 通过演绎推理技术,基于符号知识表示 通过获取和利用领域知识 建立专家系统,神经网络第二个高潮 NP(non-deterministic polynomial-time)难题 中获重大进展 助力大量现实问题,神经网络 第一个高潮期,神经网络以深度学 习之名再次崛起 大幅提升感知智能 准确率,2017,90s中期,统计学习登场并占据主流,支持向量机、核方法为代表性技术,提出支持向量、VC维等概念,统计学的研究成果经由机器学习 研究,形成有效的学习算法,联结学派对大脑进行逆向分析 灵感来自于神经科学和物理学 产生的是“黑箱”模型 神经网络可归置此
8、类,符号学派将学习看作逆向演绎 并从哲学、心理学、逻辑学中寻求洞见 代表包括决策树和基于逻辑的学习,机器学习&深度学习,从以“推理”为重点到以“知识”为重点,再到以“学习”为重点 机器可以自动“学习”的算法,即从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。目前,机器学习=“分类” 人工智能 机器学习 深度学习,深度学习是使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法 深度学习是一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更
9、容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征,用数据优化计算机程序的模型参数,通过经验自动改进的计算机算法,深度学习算法简介:机器学习,机器学习的基本定理模型的出错率 推论:模型复杂-大样本样本小-简化模型,模型的复杂程度 样本的大小,Class label (Classification),Vector (Estimation),机器学习实施过程,特征提取,特征选取是成败的关键,人脑是通过分级的、多层网络模型来识别 减少数据量,保留物体的有用信息,低层信息,预处理,特征提取,识别分类,对效果影响极
10、大 手动化特征工程 非常耗时,图像识别的一般流程,人脑识别图像的过程,第一个模型是一个线性模型,低度拟合,不能很好地适应训练集;第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集,但在新输入变量进行预测时可能会效果不好;中间的模型似乎最合适,经过算法预测的结果是一个连续的值,我们称这样的问题为回归问题。,算法能够学会如何将数据分类到不同的类里,我们称这样的问题为分类问题。,深度学习算法简介:数学基础,当感知器用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开 神经网络的学习过程就是神经网络参数的设定过程 一个神经元网络结构确定之后,需要对一系列参数(权
11、重、阈值等)进行有效的设定。这个过程叫做学习或训练过程,此时的方法叫学习算法,是一个由线性阈值元件组成的单层(或多层)神经元的神经网络 当输入的加权和大于或等于阈值时,输出为1,否则为0 模型假定神经元中间的耦合程度(即加权系数W)可变,这样,该模型可以学习,深度学习算法简介:感知器,深度学习的训练方法,2006年,Geoffrey Hinton在科学上发表论文提出深度学习主要观点: 多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类 深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克
12、服,逐层初始化可通过无监督学习实现的 在著名的ImageNet问题上将错误率从26降低到了15,并且输入没有用到其他任何人工特征,仅仅是图像的像素,深度学习的神经网络训练方法,C1层: 输入图片大小: 32*32 卷积窗大小: 5*5 卷积窗种类: 6 输出特征图数量:6 输出特征图大小:28*28 (32-5+1) 神经元数量: 4707 (28*28)*6) 连接数: 12304 (5*5+1)*6*(28*28) 可训练参数: 156 (5*5+1)*6,局部感受 - 卷积,FeatureMap,池化,原理:根据图像局部相关的原理,图像某个邻域内只需要一个像素点就能表达整个区域的信息 常
13、见的方法: 最大值池化(max-pooling) L2池化(L2 pooling) 均值池化(Mean Pooling),LeNet-5,Yann Lecun,1989年用美国邮政系统提供的近万个手写数字的样本来训练神经网络系统,在独立的测试样本中,错误率只有5%,进一步运用CNN,开发出LeNet-5用于读取银行支票上的手写数字,这个支票识别系统在九十年代末占据了美国接近20%的市场,深度学习的训练方法,Hinton in ImageNet 比赛 140万图像, 1000类 图库 1000万图像 20000类 7层CNN 准确率74%-85%,深度学习的成功应用,AlphaGo战胜李世乭 图
14、像识别全面超越人类 语音识别接近人类 将声学模型中混合高斯模型替换为DNN模型 获得30%+ 相对提升 Tesla Autopilot投入商用 Google Translate投入商用 它把原文例如中文词先翻成一个词向量,变成一个数字向量。 它对这个词向量再编辑,变成一个语义表示的方式。 再把它翻译成它的目标语言,例如英文。,人工智能简述,深度学习算法,知识图谱,知识图谱(Knowledge Graph),知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,一般用三元组表示 知识图谱亦可被看作是一张巨大的图,节点表示实体或概念,边则由属性或关系构成,知识图谱构建,Web,字典, 术语表,
15、百科,书本,知 识 获 取,已有知识库,知 识 融 合,知 识 验 证,知识图谱,基于人工规则的语义理解,神话是孙楠和谁合唱的?,文法 解析,知识库 查询,SPARQL查询语句生成,答案生成,孙楠和韩红合唱了神话,韩红,歌手 6万 歌曲 260万 专辑 44万 标签 2000类,param:singer孙楠 #param:song神话 #predicate:chorusWith 神话是孙楠和谁合唱的,查询神话这首歌曲的演唱者,演唱者要包括孙楠,输出还包括的另外一个演唱者,文法,规则,模板,歌手 6万 歌曲 260万 专辑 44万 标签 2000类,互联网 各种音乐相关信息,下载,融合,知识图谱
16、的成功应用:现代搜索引擎,半结构化数据,结构化数据,文本数据,实体对齐,异构数据整合,属性值决策,关系建立,知立方数据,索引生成,检索系统,本体库,SPARQL查询语句,Query,面向知识图谱的Sogou搜索技术,Gene Ontology,LOD,企业对知识图谱根据内部数据有大量的业务需求,从两方面来建设知识图谱体系: 知识实体,算法,企业知识图谱的建立,结构化数据,数据融合,自由扩展数据模式,行业智能问答,业务需求,技术方案,数据挑战,知识图谱助力企业商业智能,通用知识图谱 + 行业知识图谱,通用知识图谱的广度,行业知识图谱的深度,相互补充,形成更加完善的知识图谱,通用知识图谱中的知识,
17、可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中,通用知识图谱,行业知识图谱,通用知 识图谱,深度学习与智能围棋,第二节,从AlphaGo Lee/Master讲起,蒙特卡洛树式搜索,AlphaGo的实现原理,AlphaGo Zero,01,人机大战:深度学习算法的标志性成果,最复杂(注:状态复杂度与博弈复杂度)的智力游戏:看似简单,实为复杂,具有10的170次方状态复杂空间,涉及逻辑推理,形象思维,优化选择等多种人类智能(注:国际象棋只有逻辑推理,没有形象思维),02,接近人类,公认是人工智能领域长期以来的重大挑战,03,标志性,国际学术界曾经普遍认为解决围棋问题
18、需要15-20年时间,04,挑战,为什么做围棋AI?,创新性,投入力度,业内龙头,目前技术优势:起步早,算法新,技术强,资源雄厚最近一年专注于强化学习研究拟于近期公布新论文和数据,并从此退出围棋AI领域,Google Deepmind 简介,深度学习与智能围棋,第二节,从AlphaGo Lee/Master讲起,蒙特卡洛树式搜索,AlphaGo的实现原理,AlphaGo Zero,传统围棋AI算法 MCTS (蒙特卡洛树搜索),双人 一人一步 双方信息完备(棋类完全信息,牌类不完全信息) 零和,动态博弈问题,计算机下棋,棋类要素的数字化恰当的数据结构棋盘、棋子、棋规(着法规则,胜负规则) 用着
19、法推演局面博弈树展开 从有利局面选择当前着法博弈搜索 局面评估指标定义与综合,展开深度为4的博弈树,根节点为当前局面 叶节点为展开终点 双方轮流出手 偶数层为本方 奇数层为对方,围棋落子蒙特卡洛数学模型及评估,围棋对弈过程可以看做一个马尔科夫过程: 五元组:T,S,A(i),P(|i,a),r(i,a) T:决策时刻 S:状态空间,S=i A(i):可行动集合(可落子点) P(|i,a):状态i下选择行动a的概率 r(i,a):状态i下选择行动a后课获得的收益,从当前局面的所有可落子点中随机(或者给胜率高的点分配更多的计算力)选择一个点落子 重复以上过程 直到胜负可判断为止 经多次模拟后(计算
20、越多越精确),选择胜率最大的点落子,传统围棋AI算法 数学模型 MCTS (蒙特卡洛树搜索),基本思想与特点: - 将可能出现的状态转移过程用状态树表示 - 从初始状态开始重复抽样,逐步扩展树中的节点 - 某个状态再次被访问时,可以利用已有的结果,提高了效率 - 在抽样过程中可以随时得到行为的评价,选择 - 从根节点出发自上而下地选择一个落子点 扩展 - 向选定的点添加一个或多个子节点,模拟 - 对扩展出的节点用蒙特卡洛方法进行模拟 回溯 - 根据模拟结果依次向上更新祖先节点估计值,深度学习与智能围棋,第二节,从AlphaGo Lee/Master讲起,蒙特卡洛树式搜索,AlphaGo的实现原
21、理,AlphaGo Zero,AlphaGo的实现原理,控制宽度(250),控制深度 (150),基本算法,快速模拟,围棋是完全信息博弈,从理论上来说可以通过暴力搜索所有可能的对弈过程来确定最优的走法,Policy Network策略网络:落子棋感,深度神经网络的有监督学习,目标是获得在围棋盘面下的落子棋感 学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式) 把当前局面作为输入,预测下一步的走棋。它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数 用Policy Network作为第一感,将计算力分配到最有希望的选点 分枝数从上百个减少到几个 优先计算Pol
22、icyNetwork分数高的点,计算力充沛时,适当分配到其他分值较低的点,PolicyNetwork输入特征,局部感知域 权重共享 特征训练 卷积层+池化层,模型结构 13个卷积层,每层192个3*3卷积核 数百万个参数 训练数据 KGS 6d以上对局,17万,职业对局8万。 训练数据量5000万+ 训练时间几十天 运算速度 GPU,3ms 预测准确率 57%,左右互博,自我进化,Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。 根据游戏结果迭代更新转移概率和评估函数 神经网络结构与策略网络相同 训练方法:自我
23、对局 目标:校正价值导向 将策略网络权值作为初始值,自我对弈更新权值,从而提升棋力 Pros: 棋艺更高(win 80% of the games with SL policy network) Cons: 走法集中,不适应MCTS多搜索范围的需求,强化学习(RL),Fast-Rollout 快速走子,Rollout(随机模拟走子) 通过随机模拟走子胜率来判定形势 速度快 随机性,合理性的平衡 原因:1. 策略网络的运行速度较慢 (3ms)快速走子在2us2. 用来评估盘面。 在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。提升棋力 结
24、构:局部特征匹配 + 线性回归 特征:围棋专业知识,Value Network:胜负棋感,深度神经网络的增强型学习(DeepMind独创) 通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局) 获取在围棋盘面的胜负棋感(注:对每一个落子点给一个当时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的),形势判断:-1:白棋必胜 0:黑棋优势 1:黑棋必胜,Value Network 模型,模型结构 13个卷积层,每层192个卷积核,每个卷积核3*3 数百万个参数 训练数据 Policy Network自我对弈棋谱。3000万
25、+ 特定盘面+胜负结果 训练时间几十天 运算速度 GPU,3ms 方法: 在每个分支节点,使用Value Network直接判断形势 与Rollout随机模拟相结合,互为补充 效果: 职业水平,AlphaGo,MCTS在对局中实时搜索 Step 1:基于策略网络落子,可能性大的落子拓展节点 Step 2:对未来走势进行评估,同时使用估值网络和快速走子,综合两者预测未来走法 Step 3:评估结果作为下一步走法的Q值。重新模拟。 Step 4:结合下一步走法的Q值和策略网络进行再一次模拟。如果出现同样走法,Q值起平均。新分数= 调整后的初始分+ 0.5 * 通过模拟(策略网络+快速走棋)得到的赢
26、棋概率 + 0.5 * 估值网络的局面评估分 Step 5:反复循环直到n次,或者timeout,选择被选择次数最多的走法作为下一步,Put-Together,深度学习与智能围棋,第二节,从AlphaGo Lee/Master讲起,蒙特卡洛树式搜索,AlphaGo的实现原理,AlphaGo Zero,AlphaGo Zero,第3天,下了490万局棋,打败老大,老三战绩,老三学棋过程,刚开始,随机下子,热衷于吃子,完全不顾死活,发现了如果先占住棋盘的边和角,后面占便宜,学会了如何打劫、征子,懂得看棋形,第21天,败了老二,第40天,完整走过了一个人类棋手学棋的全过程,棋盘/黑子/白子,棋子被围
27、起来就死,棋士柯洁 10月19日 02:22一个纯净、纯粹自我学习的AlphaGo是最强的.对于AlphaGo的自我进步来讲.人类太多余了,老大AlphaGo Lee,2016年3月 4:1 打败韩国棋手李世石 老二AlphaGo Master,2017年5月 3:0 打败中国棋手柯洁 老三AlphaGo Zero,2017年10月宣布 自学围棋40天,打败所有人,AlphaGo Zero解析,人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),阿法元不再被人类认知所局限,而能够发现新知识,发展新策略,区别1:特征提取层采用40个残差模块,每个模块包含2个卷积层。运用残
28、差模块提升了网络深度,更深的网络能更有效地直接从棋盘上提取特征 区别2:同时训练走子策略(policy)网络 和胜率值(value)网络,启示,深度学习训练过程需要消耗大量人类标注样本,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以减少样本和人类标注的方法非常重要 开局和收官和专业棋手的下法并无区别,但是中盘难于理解;机器经验与人类经验有很大差别,我们又该如何去选择和利用呢?,智能围棋与蒙特卡洛树搜索,没有棋感直觉不行,完全依赖棋感直觉也不行 直觉需要通过严格的数学模型和计算方法,对棋感直觉进行验证 AlphaGo使用蒙特卡洛树搜索,对落子棋感和胜负感进行计算验证。,蒙特卡洛树
29、搜索:搜索验证,基于数学期望的胜负评估模型(胜率) 基于蒙特卡洛模拟进行胜负结果采样(模拟采样比直觉更可靠) 根据模拟采样结果验证盘面胜负的数学期望 可靠程度与采样规模相关(采样越大,离真理会更近些),蒙特卡洛模拟采样:胜负棋感验证,智能围棋与神经网络,谷歌的AlphaGo是深度学习算法的标志性成果; 深度卷积神经网络 (Deep Convolutional Neural Network,DCNN),是近年发展起来,并引起广泛重视的一种高效识别方法。 围棋算法具有高度的复杂性和代表性(10808,两个30年)。由于天文数字的状态空间和搜索空间,蛮力计算无法解决围棋问题(注:解决国际象棋的IBM
30、深蓝是用蛮力方法,就是靠计算,这种方法在围棋这么大的计算与搜索空间是无法进行的) 从围棋算法可以推广到深度学习应用的一般情形。 围棋职业棋手的解决方法:棋感直觉+搜索验证 AlphaGo的核心方法完全类似于完全职业棋手的解决方法 AlphaGo的优势:完全以胜率为目标,不受任何其它因素影响,直觉:不经过思考过程,很快就能出现的直接想法、感觉、信念或者偏好(这个非常重要,其强大的力量。如:落子的直觉,胜负的直觉、棋盘的直觉、棋形的直觉) 通过深度神经网络和大数据的训练而获得,人工智能的核心方法:直觉获取,验证:为直觉建立真实性、准确性和可靠性的检验过程 验证是核实直觉不存在偏差的一个充分条件 由
31、于廉价并行计算和大数据的支持,直觉可以通过搜索计算来验证,人工智能的核心方法:搜索验证,人类生活面临一系列的抉择问题(注:有了直觉和验证就可以找一个最好的) A.手里的股票是持有还是抛售 B.驾驶员到交通灯前是左拐还是右拐 直觉获取和搜索验证的结合使用,可以提供优化选择,人工智能的核心方法:优化选择,AI技术的新特征,AI走向3.0,认知计算,AI3.0面对的挑战,Q1:什么领域AI能够超过人?,(完全信息博弈)充分的数据:需要有超级大的数据量,它不能举一反三,它要举多反三 (完全信息博弈)信息具有确定性:数据是要有标注的,不是到网上弄一堆数据 (完全信息博弈)完全信息:应用一定是单一领域,这
32、个领域越垂直、越细越好。一个人工智能客服的应用不可以用来做导游,应用单一、一定要非常清晰不跨领域 有懂行的专家去选择有效的神经网络模型,调整各种网络参数 需要超大计算量,机器容易甩开人类,一只乌鸦的启示,图b:找到了坚果,砸不开。它就发现一个诀窍,把果子放到路上让车轧过去 图c:靠近红绿路灯的路口,车子和人有时候停下了。 图d:选择了一根正好在斑马线上方的一根电线蹲下来 图e:把坚果抛到斑马线上,等车子轧过去,然后等到行人灯亮了,日本新喀乌鸦,一个完全自主的智能。感知、认知、推理、学习、和执行。远远超过任何机器人,乌鸦向我们证明了,这个解存在。 无大数据学习,无人工标注好的训练数据,没人教它
33、乌鸦头不到人脑的1%大小。人脑功耗大约是10-25瓦,它就只有0.1-0.2瓦,启示,Q2:AI+ 还是 +AI?,在AI技术成熟之前,这个行业、产品从未存在过。比如自动驾驶,亚马逊的Echo智能音箱、苹果的Siri语音助手。在人工智能技术未突破前,不存在这样的产品。因为AI,创造出了一条全新的产业链。,AI+行业:从0到1,行业本身一直存在,产业链条成熟;以前完全靠人工,效率比较低,现在加入AI元素后,使得行业效率有了明显提高。比如安防、医疗等领域。 行业数据控制比AI技术更重要,例如医疗+AI,最重要的是大量准确的被医生标注过的数据。在国内,医疗数据拿出来非常困难。,行业+AI:从1到n,
34、AI应用需要积累足够的数据和经过充分的学习才两个起作用 当一个AI应用找到第一批用户时,他们使用的行为和记录被后台记录下来;开发者再对这种行为和记录进行迭代的改进,当再把该应用投向第二批用户的时候,其行为已经比第一代提升了,涟漪效应,应用场景相对闭可控,数据比较便宜,且容易获取,犯错误的影响不太大的场景,辅助人类完成重复性的具体工作,真正能够提高社会生产力,相关技术成熟,具备可实现的切入点,Q3:什么AI项目容易成功?,新特征1:深度学习+自我博弈进化技术,4,与传统博弈人工知识不同,AlphaGo深度强化学习初步具备了“直觉感知(下一步在哪)”,“棋局推理(全局获胜机会如何)”,和“新颖落子
35、(想人所不敢想)”等能力。将记忆人类棋局和自我博弈积累棋局结合起来。,DeepMind算法减少了40%用于冷却 的电量,即整体用电量效率提升15%,2010年全球数据中心电力消耗为2355 亿度,约占全球电力消耗1.3%(美2%, 中1.8%)。谷歌公司电力消耗低于全 球数据中心的1%,DeepMind已为谷歌挣钱,DeepMind的软件控制着数据中心的风扇、制冷系统和窗户等120个变量,使谷歌的用电效率提升了15%,几年内共为谷歌节约电费数亿美元。 据ICTResearch统计:2015年我国数据中心能耗高达1000亿度,相当于整个三峡水电站一年发电量。,5,Science2016年1月1日
36、发表 “群智之力量(The Power of Crowds,Vol.351,issues 6268)”的论文认为:结合群体智慧与机器性能来解决快速增长难题。其将群智计算按难易程度分为三种类型:实现任务分配的 众包模式(Crowdsourcing)、较复杂支持工作流模式的群(Complex workflows)以及最复杂的协同求解问题的生态系统模式(Problem solving ecosystem ).,新特征2:基于网络的群体智能已经萌芽,6,大规模个体通过互联网构架的参与, 可以表现出超乎寻常的智慧能力,是解决开放复杂问题的新途径,美国普林斯顿大学Connetome项目开发了EyeWire
37、游戏,玩家对显微图像中单个细胞及其神经元连接按功能进行涂色。第一次提供了哺乳动物视网膜的神经元结构和组织如何产生 检测运动的功能。145个国家的165000多名科学家(玩家)参与,成功的还有:苹果AppStore(130万个应用程序)、Wiki百科(4000万词条)等等,美国普林斯顿大学Connetome项目 通过群体参与来探讨大脑结构和功能 之间映射的神经通路 http:/www.humanconnectomeproject.org/,(继续),7,各种穿戴设备、人车共驾、脑控或肌控外骨骼机器人、人机协同手术等实现生物智能系统与机器智能系统的紧密耦合。,新特征3:人机一体化技术导向混合智能,
38、8,精灵宝可梦GO : AR : 图形+视频谷歌:VR绘画应用Tilt BrushFacebook:视频描述生成,架构跨媒体间桥梁,新特征4:跨媒体推理已经兴起,在语言、视觉、图形和听觉之间语义贯通,是实现联想、推理、概括等智能的重要关键,9,新特征5:无人系统迅速发展,机械手在工业装配线上发展迅速 在灵活运动的领域中,无人系统迅猛发展的速度远快于机器人因为人类或类动物的机器人,往往不如对机械进行智能化和自主化升级来得高效,10,AI技术的新特征,AI走向3.0,认知计算,AI3.0面对的挑战,我们正在进入AI3.0时代,人工智能基础理论和基础学科建立的阶段,AI的具体学科,比如语音识别、机器
39、翻译、自然语言处理、视觉等被建立起来,并形成了人工智能从业的方法论及学派,AI1.0时代: 1945-2005年,以2006年谷歌翻译上线为标志的AI2.0时代,人工智能的发展从学术界到谷歌这样的公司主导,从以前的军用到民用,产品从ToB到大规模的ToC的过程 人工智能技术被广泛用于各类智能产品之中 算法(深度学习)+数据(大数据)+基础设施(计算能力),AI2.0时代: 2006-2016年,从软件到AI芯片,走向软硬结合 从信息到服务 崭新的、群雄逐鹿、百花齐放的时代,AI3.0时代: 2017-20xx年,浅层次动因:需求、环境和技术,社会新需求爆发:智能城市、智能医疗、智能交通、智能游
40、戏、无人驾驶、智能制造等等,AI的基础和目标巨变:大数据、多媒体、传感器网、增强实现(AR)、 虚拟实现(VR)等等 计算机模拟人的智能 人机智能 群体智能,信息环境巨变:互联网、移动计算、超级计算、穿戴设备、物联网、云计算、网上社区、万维网、搜索引擎等等,人工智能迈向新一代,AI走向3.0的原因分析,14,P,H,C,P,H,深层次分析:世界正从原来的二元空间进入新的三元空间,世界原来是二元空间:人类社会空间(H)和物理空间(P)。但近年来,信息力量的迅速壮大,已长成除P、H两极之外的新一极:信息空间(C)。,15,信息来自于人类社会:书籍、交流、媒体、计算机 信息开始互联:互联网、移动通讯
41、和搜索 信息绕过人类,直接来自于物理世界:传感器和物联网 产生大数据:信息快速膨胀,人类已无法单独处理 从大数据必然会走向大知识,并推动人类认识与控制能力的大变化,近50年来,信息空间成长壮大的历程,从AI落后人类的原因看大知识(智能大数据)面临的挑战,强在记忆能力和计算能力,但是自我学习、举一反三的能力还不如5岁孩子 面对未知环境的变化,未知的任务,决策能力很弱,AI智能,学习与创新的能力:理解尤其是对整体环境的理解能力,可以通过经验来学习新事物,获得新知识,并具备触类旁通的能力 对于信息(不完全信息,模糊信息)的分析和决策能力,人类智慧,大知识需要结合大数据资源和AI的神经网络、符号智能、
42、知识挖掘、人机交互等技术结合起来,不仅解决可解释性、通用性问题,而且形成新技术,实现新应用,技术融合,依靠大数据的深度学习和增强学习是AI当前最普遍成功的技术之一。但是,深度学习需要大量的标注数据,又是黑箱算法,其结果难以解释,而且只能专用,因为它和人类使用的知识形式差距太大,AI技术现状,从PH到CPH的人类空间演变并未结束,而正在深化。AI走向3.0正是这种深化演变为的一个结果,AI2.0,互联网,多媒体、传感器,人机交互,自主装备,大数据,新一代 人 工 智 能,自主智能系统,群体智能,智能大数据,跨媒体智能,人机混合增强智能,AI走向3.0,认知智能,能理解会思考,感知智能,能听会说、
43、能看会认,计算智能,能存会算,新一代AI的技术方向,空间变化带来了认知的新门类、新通道、新计算,P 物理空间,C 信息空间,H 人类社会,自然科学,工程技术,多媒体与传感信息大数据,自主装备,大数据、互联网社区,VR AR,人机交互,学习、预测、创造,社会科学,新认知,17,新门类:认识复杂巨系统:城市运行系统、环境生态系统、健康医疗系统(科学+工程+社会+影响) 新通道:给自然科学、工程技术、社会科学提供了新途径、新方法 新计算:AI2.0:建立在新老空间的互动CH、CP之上的AI,知识表达,神经网络也可以认为是一类新的知识表达,可标记为NN+W(权) W是数据表达的,可由学习自动生成 NN
44、是结构,由软件或硬件生成 AI使用的知识表达还有另两类: 符号型:可表达为概念、命题、推理(逻辑、归纳、联想) 形象型:可表达为形象(图形、动画、图像、视频、声音)、结构、情景 其中,形象型还可分为两类: 图形形象类:图形、动画(人工表达) 图像形象类:图像、视频、声音(传感器表达),23,知识表达面临的挑战,上表中x处,就是大数据智能需对付的挑战 图像形象类:机器不可理解模式识别技术 ?机器不能推理跨媒体技术 ? NN+W: 人不可理解跨知识表达 ?机器不可推理跨知识推理 ? 图形形象类的表达只用于图形学,能与其他表达跨越使用吗? 知识能综合上述技术而表达吗?,汇总四种表达的优缺点如右,大知
45、识的关键:新知识生成,问题求解的目标与模式识别的目标有较大差异。 模式识别目标:分类(如对、错) 问题求解目标:方案(如规划、处方、设计等)。往往还需说明方案如何解决问题。 因此,自动生成新知识是问题求解的关键。 各种生成新知识的工具: 传统工具:逻辑推理、范例推理(CBR) 新工具:自动博弈的(如AlphaGo)、知识图谱推理(如股权发现)、综合推理、统计推理(IBM Watson) 新进展:MIT AI Lab:自主浏览网页进行空白知识填补的能力;DeepMind:开发新AI技术利用外部记忆来解决需要逻辑推理才能完成的任务,26,AI技术的新特征,AI走向3.0,认知计算,AI3.0面对的
46、挑战,认知计算,认知计算是指一种能够规模化学习、有目的推理、并与人类自然交互的系统。它们不需要事先精确地编程,而是从它们与我们之间的交互和与环境之间的互动中学习和推理 认知系统是概率性的。认知系统不仅能回答大量的问题,还能对更加复杂(且有意义)的数据提出假说、推理论述和建议 认知系统还能理解非结构化的数据(全世界数据的80% ),这使得它们能够跟上现代世界巨量、复杂和不可预测的信息 认知计算的成功并不以图灵测试或模拟人类的能力作为判断标准。它的标准更加实际,例如投资报酬率、新的市场机会、治疗疾病和拯救生命 新的人-机共生的人机关系让人与计算机能够协作决策,控制复杂情况,综合了机器的数据分析、统
47、计推断能力,以及人类特殊能力,比如自我引导的目标、常识和价值观,认知的定义,认知(cognition)是人们推测和判断客观事物的心理过程,是在过去的经验及有关线索进行分析的基础上形成的对信息的理解、分类、归纳、演绎和计算 认知活动包括思维、语言、定向和意识4部分 认知反映个体的思维能力,是制定和执行护理计划的依据,认知计算系统,Watson Services API Catalog,语言类 Language 语音类 Speech 视觉类 Vision 数据洞察类 Data Insights,2011年2月16日,第一个认识系统IBM计算机Watson在美国热门的电视智力问答节目“危险边缘”(J
48、eopardy!)中战胜了两位人类冠军选手,最终勇夺冠军宝座!Jeopardy!以其复杂、微妙的文字游戏而著称,真实世界中所产生的各种问题都能在其中有所体现。这也是对于高级认知系统的一次公开实验:这种系统不是简单地程序化运行,而是能通过训练进行自主学习,理解、推理以及学习的能力,知识图谱+搜索,主搜索,答案源,假设与证据 评分,深度证据 打分,支持证据 查询,候选答案 生成,软过滤,假设生成,问题分解,问题分析,假设生成,最终合并于 排序,合成,假设与证据 评分,软过滤,问题,训练 模型,证据源,答案与置信度,DeepQA的工作原理,拿到问题后进行一系列的计算,包括语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合等等。综合运用了自然语言处理、知识表示与推理、机器学习等技术。主要技术原理是通过搜寻很多知识源,从多角度运用非常多的小算法,对各种可能的答案进行综合判断和学习。这就使得系统依赖少数知识源或少数算法的脆弱性得到了极大的降低,从而大大提高其性能。,知识库:包含了各种百科全书、词典、新闻等知识库 DeepQA:问题分析、分类、分解,推理。牛成假说,融合排序 以统计推理为主 不同的评价函数,例如关键字匹配程度、时间关系的匹配程度、地理位置匹配的程度、类型匹配程度,等等,