1、1 高 盛 人 工 智 能 报 告 中 文 版 目录 高盛人工智能报告中文版 . 1 高管概述 . 2 人工智能是什么? . 3 什么是神经网络? . 3 为什么现在人工智能加速发展? . 4 价值创造的主要驱动力 . 5 主要影响 . 6 AI和生产力的矛盾:采访 Jan Hatzius . 7 生态系统:云服务,AI的下一个投资周期开源的关键受益人 . 9 AI三个方向:自建,咨询服务和 AI服务化 . 9 自建:云平台和开源系统正在成为 AI的左膀右臂 10 咨询服务 . 11 AI服务化 13 中国人工智能现状 . 15 机器人:用户界面的未来 17 行业应用 . 21 农业 . 21
2、 零售 . 27 能源 . 34 人工智能创新:GOOGL(谷歌), AMZN(亚马逊) . 40 人工智能创新:AAPL(苹果), MSFT(微软) 41 人工智能创新:FB(Facebook), CRM 42 人工智能创新:NVDA(英伟达), INTC(英特尔) 43 人工智能创新:Uber,IBM 44 人工智能创新:百度 . 45 2 高 管 概 述 人工智能是信息时代的尖端科技。计算的飞跃建立在人类告知计算机如何表现的基础上,计 算建立在计算机学习如何表现能够对每个行业有意义的基础上。 虽然目前可能被视作在下一 个 AI 冬天(图 8)之前的最新承诺和失望循环,这些投资和新技术至少
3、将给我们带来机器 学习产品的实实在在的经济利益。 与此同时,人工智能、机器人和自动驾驶已成为流行文化的前沿,甚至是政治表述。但 是,我们去年的研究让我们相信这不是一个失败的开端,而是一个拐点。我们将在这个报告 里看到,宏观(更多更快的计算和更多数据的爆炸式增长)和更加微观方面(在深度学习方 面的有益进展,智能硬件和开源方面的增长)的拐点的原因。 关于人工智能拐点的更多令人兴奋的方面之一是真实应用案例的增加。 例如深度学习促进计 算机视觉的发发展,这些技术做为自然处理语言引人注目地提升了苹果 Siri、亚马逊 Alexa 和谷歌图片识别的质量,人工智能不是为了技术而技术。大数据和强力技术相结合,
4、创造价 值,获得竞争优势。 例如,在医疗领域,图像识别技术可以促进癌症诊断的准确性。在农业领域,农民和制 种者可以利用深度学习促进产量增长。 在制药行业, 深度学习被用于发现新药。 在能源行业, 勘探效率和装备可靠性提升。在金融服务行业,同以前可能的相比,成本降低,新数据应用 于更快速的分析,返回结果。人工智能在应用案例发掘的非常早的阶段使用,同时做为基于 云服务共享的必要的科技,我们相信一波革新将到来,为每个行业创造新的冬天和失业者。 人工智能广泛的适用性也让我们认识到它是全球经济的针移技术、 提升效率和结束美国经济 增长停滞的驱动。利用 GS首席经济学家 Jan Hatzius 的研究,我
5、们设计了当前的深度资本 不景气指数和它对美国生产力的相关影响。我们相信人工智能技术驱动生产力提升的可能, 就像 1990 年一样,驱动更多的资本合作和人力效率提升项目,促进增长,促进盈利,扩大 股票价值。 我们发现人工智能实实地影响着每个公司、行业和经济因素,对投资者有四个方面值得 注意。 生产力。人工智能和机器学习有引发生产力增长的潜力,有益于经济增长,公司盈利,资本 回收和资产估值。根据 GS 首席经济学家 Jan Hatzius“原则上,人工智能看起来的确比上 一波革新在统计学上有表现更好的潜力,人工智能降低成本和人力需求,更高的产品附加值 类型。 ”例如,同 iPhone应用的多样性和
6、可靠性相比,统计学家可能更好的建立并获得这些 商业部门的费用节减革新。广义的人工智能对商业部门的费用结构有广泛的基础性影响,我 由衷相信人工智能将被统计学家采纳,并在整体生产力数字中有所展现。 ” 优质科技。 人工智能和机器学习的速度价值有扭转更便宜的数据中心和网络硬件的趋势的潜 力。我们相信这将驱动硬件、软件和服务领域市场费用的大量变化。例如,1条运行在标准 数据中心上的AWS 工作量,同在人工智能优化后的 GPU上运行所需的 0.9美元相比,每小时 实际计算成本只要0.0065美元。 竞争优势。我们看到人工智能和机器学习在改造各行业竞争订单方面的潜力。那些失败于投 资和平衡这些科技风险的管
7、理团队被竞争者超越,这些竞争者受益于他们创建的战略情报、 获得的生产力和资本效率。在 41 页插图中,我们论证了这些竞争优势是如何应用于医疗、 能源、零售、金融和农业。 新公司创建。近 10 年来(图 6975)在人工智能和机器学习领域,我们已经识别出有超过 150 家私营公司.我们相信人工智能的大部分价值将由拥有资源、数据、投资能力的大公司 获得。我们希望风险投资家、企业家和技术专家继续驱动新公司的创建,反过来,驱动实质3 性的创新和价值创造,至少是,M 识别异常行为的集群。 预测。 基于网络活动和其他元数据预测客户或员工流失的可能性; 基于可穿戴数据预测 健康问题。 什么是通用,强大或真实
8、的人工智能? 通用,强大或真实人工智能是,机器智能算法 完全复制人类智慧,包括人类的独立学习和决策能力。虽然像全脑模拟这样的技术被用于实4 现通用 AI 的目标,但是其所需的计算能力数量,仍然远远超出了当前的技术,使得通用的 人工智能基本只存在于理论层面。 为 什 么 现 在 人 工智 能 加 速 发 展 ? 请记住,我们并不关注于重复独立人类智能且在流行文化中常见的真实、强壮或普遍的人工 智能。必然存在潜在突破点,例如谷歌深度思维 AlphaGo系统,不仅击败了世界冠军,而且 使用了没有人曾经做过的行为,我们关注人工智能即刻可触达的经济发展领域。 深度学习能力方面的主要飞跃成为当前进行中的
9、AI 拐点的催化剂。神经网络,深度学习之 后潜在的科技架构,已经存在了几十年,但是过去的 5到10年,三件事发生了改变。 1.数据。通过分布于全球持续增长无所不在的互相联系的设备、机器和系统产生的非结构化 数据的数量呈现巨大的增长。拥有的数据越多,神经网络就变得越有效率,意味着随着数据 量的增长,机器语言可以解决的问题的数量也在增长。移动手机、物联网、低耗数据存储的 成熟和处理技术(通常在云端)已经在数量、大小、可靠数据结构方面创造了大量的成长。 例如,特斯拉至今已经搜集了 780mn英里的驾驶数据,并且每 10 小时通过它连接的汽车增 加百万公里的数据。Jasper(2016 年2 月被思科
10、以 14亿美元收购)拥有一个平台驱动机器 和机器的沟通, 服务于多种汽车制造商和电话公司。 Verizon在8月进行了一次类似的投资, 宣布收购 Fleetmatics,它通过快速增长的无线网络,连接运输工具上的远程传感器到云端 软件。5G 的首次展示将最适当地加速数据可被获取和转移的机率。根据 IDC 的数字领域报 告,到2020年,每年数据量将达到44ZB(万亿G) ,5 年内年复合增长率达到141%,暗示我 们刚开始看到这些科技可以达到的应用场景。 2. 更快的硬件。GPU 的再次使用、低成本计算能力的普遍化,特别是通过云服务,以及建 立新的神经网络模型,已经极大的增加了神经网络产生结果
11、的速度与准确率。GPU 和并行架 构要比传统的基于数据中心架构的 CPU 能更快的训练机器学习系统。通过使用图像芯片, 网络能更快的迭代,能在短期内进行更准确的训练。同时,特制硅的发展,比如微软和百度 使用的 FPGA,能够用训练出的深度学习系统做更快的推断。另外,从 1993 年开始超级计算 机的原计算能力有了极大发展(图2) 。在2016 年,单张英伟达游戏显卡就有了类似于2002 年之前最强大的超级计算机拥有的计算能力。 成本也有了极大的降低。 英伟达GPU (GTX 1080) 有9 TFLOPS 的性能,只要 700 美元,意味着每 GFLOPS 只要8 美分。在1961 年,要提供
12、 1GFLOPS,需要足够多的 IBM 1620s 串联在一起,计算下来费用要超过 9 万亿美元(根据通 货膨胀调整) 。 3. 更好、更普遍可用的算法。更好的输入(计算和数据)使得更多的研发是面向算法,从 而支持深度学习的使用。例如伯克利的Caffe、谷歌的 TensorFlow 和 Torch 这样的开源框 架。比如,刚开源一周年的 TensorFlow,已经成为最大的开发人员协作网站GitHub 上最多 分支(或活动)的框架。虽然不是所有的人工智能都发生于普遍可用的开源框架中,但开源 确实在加速发展,而且也有更多先进的工具正在开源。 方向 虽然本报告的重点是人工智能的发展方向以及公司如何
13、把握这个方向, 但是了解人工智 能对我们生活的影响程度也是很重要的。 在线搜索。 就在一年多以前, 谷歌透露, 它们已经开始将大量的搜索工作移植到了RankBrain (一个人工智能系统) ,使其与链接(links)以及内容(content)成为了谷歌搜索算法的 三个最重要的标志。 推荐引擎。 Netflix, 亚马逊和 Pandora 都在使用人工智能来确定推荐什么样的电影和歌曲, 突出哪些产品。 5 月, 亚马逊开源了它们的深度可扩展稀疏传感网络引擎 (the Deep Scalable 5 Sparse Tensor Network Engine(DSSTNE) ,简称Destiny )
14、 ,它被用于产品推荐,同时可 以被扩展,以实现超越语言和语言理解的目的。 人脸识别。Google(FaceNet)和Facebook(DeepFace)都投入了大量的技术,来确定照片 中的脸和真实的脸是不是完全吻合。1 月,苹果采取了进一步措施,购买了 Emotient(一 个致力于通过读取人的面部表情来确定其情绪状态的 AI 创业公司)显然,这些技术远远不 止于对照片进行标记。 虽然个人助理应用产品有无数的用户,比如苹果的 Siri,信用贷,保险风险评估,甚至天 气预测。在接下来的篇幅中,我们探讨企业该如何使用这些技术来加速增长,降低成本和控 制风险。从这些技术及其使用这些技术的应用的发展速
15、度来看,它们充其量不过可以为公司 和投资者提供一些方向,以保持他们的竞争力。 价 值 创 造 的 主 要驱 动 力 经过深入分析,我们认为与 AI 主题相关的利润创造(和损失)可以分解为四个关键输入: 人才,数据,基础设施和硅。这些投入也同时也是进入的壁垒。 人才 AI(特别是深度学习)难度很大。根据我们与领域中的风险投资公司和公司的对话,这 种困难造成了人才短缺,以及大型互联网和云计算供应商对这类人才的竞争(见图5) 。 对 于AI人才的高度需求意味着获取必要的AI 人才。随着技术和工具的成熟,人才可能变得不 再是瓶颈。然而,我们相信人才会迁移到有趣的,差异化的数据集。因此,我们认为,当我
16、们进入一个以AI 为中心的世界时, 大的差异化数据集是最可能的提高和增加利润的驱动力。 数据:数据是 AI 的关键输入。深度学习效果与大数据集紧密相关,因为更大的数据集会阻 碍模型过度拟合。例如,来自马萨诸塞州总医院和哈佛医学院放射科的研究人员使用卷积神 经网络来识别CT 图像, 基于训练数据大小来评估神经网络的准确性。 随着训练规模的增大, 精度将被提高(图 6) 。 今天的大多数深度学习是监督的或半监督的, 意味着用于训练模型的所有或一些数据必 须由人标记。无监督的机器学习是AI 中当前的“圣杯” ,因为可以利用原始未标记的数据来 训练模型。广泛采用深度学习可能与大数据集(这是由于移动互联
17、网和物联网产生)的增长 以及无人监督的机器学习的发展有关。然而,我们认为大型差异化数据集(电子健康记录, 组学数据,地质数据,天气数据等)可能是未来十年企业利润创造的核心驱动力。 参考IDC报告,全世界创造的信息量预计到 2020年将以 36的复合年增长率增长,达 到 44 泽字节(440 亿 GB) 。连接的设备(消费者和工业领域) ,机器到机器通信和远程传感 器的增加和组合可以创建大型数据集, 然后可以挖掘洞察和训练自适应算法。 在过去十年中, 数据的可用性也大大增加,人口普查,劳动力,天气,甚至基因组数据可大量的免费在线查 询。 我们还留意到卫星图像的可用性增加,这需要大量的计算来支撑全
18、方位的分析。美国地 质调查局的 Landsat 7 和 Landsat 8 卫星每 8 天对整个地球进行成像,USGS 使这些图像可 以免费使用 - 即使是在压缩时,超高清图像的文件大小也各为 1GB 左右。其他公司,如 Orbital Insights,正在汇总图像数据并在多个行业创建商业解决方案。 基础设施:硬件和基础设施软件是开展 AI工作所必需的。我们认为支持AI 的基础设施将被 迅速商品化。这个观点基于两个现象观察:1)云计算供应商能够将他们的产品扩展到 AI 基础设施中,2)开源(TensorFlow,Caffe,Spark 等)已经成为 AI 中软件创新的主要驱 动力。为了促进
19、AI 技术的应用,我们认为大型云供应商将继续开放基础架构资源,这将限 制利润创造的潜力。 6 硅技术:GPU 在深度学习领域的新用途成为我们目前 AI 春天的核心驱动力之一。在人工智 能、机器学习生态系统中,存在二个主要应用来决定神经网络的表现,每个神经网络需要不 同的资源。首先是学习算法的构造和使用。学习算法借助大数据(通常更大、更好)发现相 互联系,并且创建模型,提供新输入,可以决定输出的可能性。学习是资源密集型,并且大 多数现代学习通过GPU 驱动的系统来运行。 一旦经过学习, 模型和算法的使用将被称为推论。 推论需要更少的计算资源,经常通过更小增量数量输入进行梳理。一些GPU被优化用于
20、推论 (例如英伟达 P4系列和 M4 系列) ,给出单目标的自然推论。硅谷有针对性地发展用于该应 用的专业技术,例如FPGAs(现场可编程门阵列)和 ASICs(专用集成电路) 。这种类型的集 成电路被独创地用于原型机CPU中,但是逐渐地被应用于人工智能推论。谷歌的张量处理单 元就是ASIC应用于AI和机器学习的一个例子。 微软也在将FPGA应用于推论。 英特尔在2015 年收购了 FPGA 制造商 Altera,有观点认为,到 2020 年,三分之一的数据中心将在特殊定 制化应用中使用FPGA。赛灵思在 1980年开发了可商业化的 FPGA,领先提出了云和大数据将 做为有价值的增长途径,宣布
21、和百度达成战略协作关系。数据中心业务大概占赛灵思 5%的 营业收入。 主 要 影 响 促进未来生产力 在经历了 90 年代中后期的高速发展和过去十年的平缓增长后,美国的劳动生产力近几年已 经进入了增长停滞的阶段。 我们相信实用的机器学习和人工智能的蓬勃发展可以将生产力典 范作用广泛推广至全球各产业领域。 人工智能和机器学习带来的自动化及效率提升在普遍各领域都缩减了约 0.5%-1.5%的 劳动工时,预计到 2025年将带来 51-154比特/秒的生产力提升。 在期待未来人工智能和机器学习得以同时提升生产效率的分子和分母 (标准工时和实际投入 工时) ,最重要的是它带来的早期影响将会体现在低薪工
22、作的自动化层面,用更少的工时驱 动同比产出增长。我们基本认为人工智能和机器学习提速 97 比特/秒意味着在 2025 年 IT 将为生产率增长贡献 1.16%效能,也即比1995-2004提高 11 比特/秒. 技术与生产力增长 90 年代掀起的科技热潮伴随着生产力、资本深化和多因素生产力被异常放大,并与飞涨的 股票估值紧密关联。 资本深化 高盛的经济学家 Jan Hazius 提供了他近期就资本深化(每工时资本量)反周期性趋势的分 析,在扩张时期没有同等水平股本增长的情况下历史劳动工时一般趋于增长(参见 Jan的报 告: “生产率悖论 2.0版本再探” 2016 年2月9日发表)90 年代资
23、本深化急剧增长,其中 最显著的是非典型资本投资的增长超越了劳动力市场的增长。 多因素生产力 (MFP) 2013 年 3 月,美联储研究的大卫 伯恩等研究后发现,90 年代在IT 生产和一般操 作流程中同时推广技术有助于促进增长呈三倍激增 (每劳动工时的产出) ,其中从科技热 潮前到1995至2004之间, 年生产率平均每年增长中不超过49%的部分来自于IT 生产部门。 (展示 10) 千禧年后停滞期 在过去的十年中,有关 IT 应用 (计算机硬件、 软件和电信) 的资本深化增长已经停滞 了。IT资本,与更广泛的市场资本类似,带来IT 部分整体增长相比科技浪潮甚至其之前的 时期内还低。 总劳动
24、时间一直在增加, 但资本强度对生产力的贡献已经远远落后于上世纪 90 7 年代。 日益精细且可利用的机器学习和人工智能可能成为一剂催化剂将资本密集度带回最前 沿,在我们看来,将会带来类似90年代所看到的周期阶段,极大增加劳动生产率。 对于方程另一侧的MFP,我们更乐观些。高盛经济学家强调 ( “生产率悖论 2.0 再探” 2016 年 2 月 9 日发表) ,ICT 价格的正偏差,非货币产出的输入增长 (免费的在线内容、 后端 流程等) 也在一定程度上反映了实际 GDP 和生产力增长。Facebook 和谷歌等互联网巨头 的发展充分说明了复杂输入的劳动力和资本并不必然将标准生产力指标中的传统消
25、费品转 换为货币。 人工智能/机器学习激发的生产力可以影响投资 我们认为人工智能/机器学习所带来日益增长的生产力产生的潜在影响之一可能是公司 资本分配方式的转变。自 2011 年中期,股息和股票回购的增长大大超过了资本支出增长, 然而管理层对于投资资本项目的冷淡依然保持了经济衰退后期的状态。 生产率的提高有可能恢复管理层的信心, 并鼓励公司像上世纪 90 年代一样投资于生产性资 本。根据高盛资本支出追踪,90 年代资本支出同比增长,持续性高于耶鲁大学教授罗伯 特 希勒的 S 预测请求:每 1k 请求 0.05$到 0.10$;另外,基于请求数量,每 个节点每小时另收0.40$ Speech A
26、PI 将语音转换成文 本 1 分钟之内免费; 1分钟以上每 15 秒收取 0.006$ Cloud Natural Language API 无结构化文本数 据的分析 0 到5k 数据免费;超过5k 数据, 基于特征数量和月使用量,每 1k 数据收取 0.125$到 1$ Translate API 超过 90 种语言的 翻译 每 1百万字符 20$ Prediction API 机器学习及预测 分析工具 6mo 内免费使用;每个项目每 mo 收取 10 美元;若每天免费预测或 流式训练超过 10000,每 1k 预测 另外收取 0.50$,每 1k 流式数据 更新收取 0.05$;训练数据每
27、 M 收取 0.002$ 微 软 (MSFT) Computer Vision API 数据可视化分析 工具 根据月使用量, 1千调用收取0$到 1.50$ Emotion API 图像情感识别 根据使用量,1k 事务收取 0$到 0.25$;视频免费 Face API 人脸检测及人脸 识别 根据月使用量,1k事务收取 0$到 1.50$ Text Analytics API 非结构化文本分 析 根据使用量,每月0$到2500$ Video API 从视频中进行人 脸跟踪、移动检 测、图像稳定和创 建缩略图的高级 算法 每月每种特征 300事务免费 Bing Speech API 语音转换成文本 及文本转换成语 音;可以与用户进 行对话 根据类型和用法, 每 1k事务 0$到 4$或每小时 5.5$到 9$ Custom Recognition Intelligence Service 可定制语言识别 工具 受邀使用 Speaker Recognition API 语言及说话者识 别,用于安全验证 基于用法和采用的特征,每1k事 务 0$到 10$ Bing Spell check API 拼写检查 根据月使用量,每月收取 0$到