1、2017年 6月36氪研究院人工智能行业研究报告( 2017年)2报告摘要人工智能( Artificial Intelligence)是指使用机器代替人类实现认知、识别、分析、决策等功能,其本质是对人的意识与思维的信息过程的模拟。 在 AI发展的不同阶段,驱动力各有侧重,我们可以将 AI的发展划分为三个阶段:技术驱动阶段、数据驱动阶段和场景驱动阶段。其中技术驱动阶段集中诞生了基础理论、基本规则和基本开发工具。在此阶段,算法和计算力对 AI的发展起到主要推动作用,其中计算力主要 包含芯片、 超级计算机、云计算等三个维度。 在市场规模方面,综合考虑我国人工智能的爆发节点、技术成熟度以及全球 AI市
2、场规模等因素, 我们保守 估计最迟至 2019年我国 AI的市场规模将突破百亿元,而 2022年这一数字 应在 700亿元左右。人工智能目前仍处于发展的早期阶段,整体看来技术的发展将先于应用层面,但技术层面仍存在瓶颈需要突破;应用场景将不断丰富,它的扩充将会反过来驱动支撑 技术的持续 发展, AI的整体市场规模将继续扩大。 相比应用场景层面的发展,基础应用层的技术将会是 AI中较早发展的部分。不过,从 AI整体发展阶段来讲,我们认为 AI仍处于早期,虽然语音识别、计算机视觉等感知层的技术目前已经取得了一定成就,但语义识别等认知层的技术仍不甚完善,即使是像计算机视觉这样的感知层技术也存在发展不均
3、衡的问题。 随着 AI支撑技术的不断发展, AI将持续拓展 更多的应用场景;而愈发多样化的应用场景需求又会反过来驱动支撑技术,从而带动整个 AI行业的持续发展。但各应用场景的发展并非均衡,整体看来将从垂直领域 AI逐渐过渡到通用型 AI。 总体来说, AI最重要的还是要将技术与应用场景相结合,无法落地的技术很难得到资本青睐和市场认可,而有闭环、垄断性的数据,并且其技术能够与实际应用场景结合的公司将有望产生难以被替代的商业价值。36kr-人工智能行业研究报告( 2017年)2017.6目 录 Contents一 . 人工智能综述 AI是使用机器代替人类实现认知、分析、决策等功能的综合学科 计算力
4、、算法、数据量与应用场景是 AI爆发的主要驱动力 国内外巨头在 AI领域纷纷布局 资本扶持下,未来 AI的市场规模应在百亿元以上 人工智能产业链图二 . 人工智能的技术支持层 AI产业链综述 AI技术支撑层:数据标注、语音识别、语义识别与计算机视觉三 . 人工智能的应用场景层 AI+安防 AI+医疗 AI+金融 AI+家居、 AI+教育与其他应用场景四 . 人工智能行业总结 AI行业总结 AI未来发展 &投资机会简析人工智能综述CHAPTER I AI是使用机器代替人类实现认知、分析、决策等功能的综合学科 计算力、算法、数据量与应用场景是 AI爆发的主要驱动力 国内外巨头在 AI领域纷纷布局
5、资本扶持下,未来 AI的市场规模应在百亿元以上 人工智能产业链图536kr-人工智能行业研究报告( 2017年)2017.6 人工智能( Artificial Intelligence)是指使用机器代替人类实现认知、识别、分析、决策等功能,其本质是对人的意识与思维的信息过程的模拟,是一门综合了计算机科学、生理学、哲学的交叉学科。凡是使用机器代替人类实现认知、识别、分析、决策等功能,均可认为使用了人工智能技术。 作为一种基础技术,理论上讲人工智能能够被应用在各个基础行业(如 AI+金融、 AI+医疗、 AI+传统制造业等),同时也有其如机器人这样具体应用行业的概念。 本报告将以 2017年上半年
6、为时间节点,对包括发展驱动力、巨头布局、投融资情况、预测的市场规模等在内的人工智能行业到目前为止的整体发展情况做简要分析,并对包括数据标记、语音识别、语义识别、计算机视觉等技术领域以及安防、医疗、金融等应用场景在内的细分领域及其典型企业进行简析,探索人工智能领域未来发展趋势和可能的投资 /创业机会。行业概述AI是使用机器代替人类实现认知、分析、决策等功能的综合学科1.1 行业概述1.2 行业驱动力1.3 巨头布局1.4 行业市场规模自然语言处理计算机视觉语音识别智慧家居 智慧工业关键硬件 算法模型路径规划GPU NPU传感器 深度学习( CNN、 RNN等)CPU基础应用技术产品技术支撑层基础
7、应用层方案集成层图片来源: 36氪研究院注释:结合了物联网与人工智能的智能制造行业也是 AI的重要应用场景之一,关于该领域的详细研究讨论请见36氪研究院系列报告 新制造研究报告 。6 在 AI发展的不同阶段,驱动力各有侧重,我们可以将 AI的发展划分为三个阶段:技术驱动阶段、数据驱动阶段和场景驱动阶段。 技术驱动阶段集中诞生了基础理论、基本规则和基本开发工具。 在此阶段,算法和计算力对 AI的发展起到主要推动作用。现在主流应用的基于多层网络神经的深度算法,一方面不断加强从海量数据库中自行归纳物体特征的能力,一方面不断加强对新事物多层特征提取、描述和还原的能力。 对算法来说,归纳和演绎同样重要
8、,最终目的是提高识别效率。最新 ImageNet测试结果显示, AI错误率低达3.5%,而人类对同一数据库识别错误率在 5.1%1,理想情况下,计算机图像识别能力已超越人类。技术驱动:算法和计算力是主要驱动力行业驱动力28.20%25.80%16.40%11.70%7.30% 6.70%3.50%0501001502000%5%10%15%20%25%30%2010-2016年 ImageNet 图像识别错误率2010年NEC美国2011年Xerox2012年AlexNet2013年Clarifi2014年VGG2015年GoogleNet2016年ResNet8层神经网络8层神经网络19层神
9、经网络22层神经网络152层神经网络来源:公开资料整理 如上图所示,每年在 ImageNet测试中错误率最低的算法模型都不尽相同(从 NEC到 ResNet),这也反映了人们对于算法的不断探究、更迭过程。1根据公开资料整理定位 测试优化技术驱动数据驱动预测分析精准画像场景驱动决策支持场景模型1.1 行业概述1.2 行业驱动力1.3 巨头布局1.4 行业市场规模36kr-人工智能行业研究报告( 2017年)2017.67 提高识别效率除依靠算法之外,也离不开计算力的支持。计算力可以分三个维度展开:芯片、超级计算机、云计算。 芯片: 人工智能领域作为一个数据密集的领域,传统的数据处理技术难以满足高
10、强度并行数据的处理需求。为解决此问题,继 CPU之后,相继出现了GPU、 NPU、 FPGA、 DSP等“ AI”芯片。 1999 年, Nvidia公司发布了全球首款图片处理芯片 GPU;2016年,寒武纪发布了全球首款深度学习专用处理器芯片 NPU,芯片的更迭、进步可从根本上提高计算性能。计算力的三驾马车:芯片、超级计算机、云计算行业驱动力Nvidia GPUGeForce 256 寒武纪 NPU1A 超级计算机 :其基本组成组件与个人电脑的概念无太大差异,但规格与性能则强大许多,是一种超大型电子计算机。我国自主超级计算机“神威 太湖之光”,其处理器为众核 CPU“申威 26010” ,整
11、台“神威 太湖之光”共包含 40960块处理器;打败李世石的 AlphaGo共包含 1202个 CPU和 176个 GPU;打败柯洁的升级版 AlphaGo使用到了 TPU,但数量只有 4 颗。(未完接下页)36kr-人工智能行业研究报告( 2017年)2017.61.1 行业概述1.2 行业驱动力1.3 巨头布局1.4 行业市场规模8 可以发现,真正用于人工智能的超级计算机芯片还只是处于 CPU、 GPU层, 如何将更适用于网络神经算法的 NPU、 FPGA等芯片量产化并融合入超级计算机芯片矩阵, 是在人工智能发展的第一阶段 技术驱动阶段应该重点努力的方向之一。计算力的三驾马车:芯片、超级计
12、算机、云计算行业驱动力 云计算 :与主要应用于密集型计算的超级计算机不同,云计算依靠其灵活的扩展能力主要应用于社交网络、企业 IT建设和信息化等数据密集型、 I/O密集型的领域。 我们分析认为,当 AI跨越入第二阶段 数据驱动阶段后,算法和计算力将变成人工智能领域的基础设施 “水、电、煤”。就目前看来,多项算法开源平台已将 AI算法引入统一、公用阶段,运算力也必将向同样的趋势发展。云计算则是一个初步尝试,未来,计算力的发展方向或将是云计算和超级计算机技术结合,为企业提供既可密集运算又可灵活扩展的计算服务,将人工智能赋能全行业。众核 CPU“申威 26010神威 太湖之光36kr-人工智能行业研
13、究报告( 2017年)2017.61.1 行业概述1.2 行业驱动力1.3 巨头布局1.4 行业市场规模9 人工智能发展的第二个阶段,算法和计算力已基本不存在壁垒,数据将成为主要驱动力,推动人工智能更迭。此阶段,大量结构化、可靠的数据被采集、清洗和积累,甚至变现。例如,大量的数据基础上可以精确地描绘消费者画像,制定个性化营销方案,提高成单率,缩短达到预设目标的时间,推动社会运行效率提升。 到了人工智能发展的第三个阶段,场景驱动作为主要驱动力,不仅可以针对不同用户做个性化服务,而且可在不同的场景下执行不同的决策。此阶段,对数据收集的维度和质量的要求更高,并且可实时根据不同的场景,制定不同的决策方
14、案,推动事件向良好的态势发展,帮助决策者更敏锐的洞悉事件根本,产生更精准更智慧的决策。数据驱动:描绘个性化画像;场景驱动:给予决策支持行业驱动力 “场景驱动”不仅会驱动人类决策,也会驱动机器的自我进化和升级。 “场景驱动”的基础是经过治理的数据。 “场景驱动”的“场景“对应的是有应用价值的场景。用户基本信息LBS数据挖掘社交网络数据其他用户画像建模标签 A标签 B标签 C来源: 36氪研究院图示:“场景驱动”三要素来源:互联网36kr-人工智能行业研究报告( 2017年)2017.61.1 行业概述1.2 行业驱动力1.3 巨头布局1.4 行业市场规模10公司 人工智能领域布局百度 2016年
15、,百度发布了人工智能平台级解决方案“天智”,这是继“天算”“天像”和“天工”之后的第四大平台级解决方案。至此,百度云实现了人工智能、智能大数据、智能多媒体和智能物联网全方位的智能平台服务。 2016年 8月,投资激光雷达公司 Velodyne LiDAR。 2017年以来,百度收购了 xPerception、渡鸦科技,参与投资了蔚来汽车、 8i等 AI公司。腾讯 2016 年 4 月,腾讯成立人工智能实验室,基于计算机视觉、语音识别、自然语言处理和机器学习四个垂直领域,围绕内容、社交、游戏和平台工具四大特色业务场景,腾讯 AI致力于将人工智能工具以 API形式开放出去。 2016年,碳云智能完
16、成近 10亿元的 A轮融资,腾讯为主要投资方之一。 2017年,腾讯买入电动汽车制造商特斯拉 (Tesla)5%股权,腾讯成为特斯拉的第五大股东。阿里巴巴 阿里云面向人工智能的布局 ,核心爆点就三个: ET医疗大脑、 ET工业大脑和机器学习平台 PAI2.0 2017年 3月,阿里宣布开始推动“ NASA” 计划,着重发力机器学习、芯片、 IoT、操作系统和生物识别。Apple 2017年 5月,苹果收购了人工智能公司 Lattice Data。该公司使用人工智能推理引擎去处理非结构化的“暗数据”,将其变成结构化信息,从而发挥更大的作用。Google 2014年 1月,收购 Deepmind、
17、收购后, DeepMind仍保持独立运营的,目标是开发能够“独立思考”的软件。 2016年 9月,收购 api.ai,能够协助谷歌指导开发者持续开发优秀的自然语言界面。 2016年 3月 与海尔达成战略合作,共同推动智能家居发展 。Microsoft 2017年 6月, Element AI完成了 1.02亿美元 A轮融资,微软是主要投资方之一。 2017年 6月,收购了以色列初创公司 Hexadite,以便将 AI支持的安全功能整合到企业版Windows 10中。Facebook 2015年 1月,收购语音指令创业公司 Wit.AI,帮助 Messenger创建语音输入模式。36kr-人工智
18、能行业研究报告( 2017年)2017.6巨头布局国内外科技巨头在 AI领域的布局1.1 行业概述1.2 行业驱动力1.3 巨头布局1.4 行业市场规模信息来源:根据公开资料整理1122 37 61 96 144 77.4% 68.7% 62.7% 57.2% 51.1%-300%-100%100%0501001502002502018e 2019e 2020e 2021e 2022e2020-2025年 全球 AI市场规模 (亿美元)市场规模(亿美元) 同比增长36kr-人工智能行业研究报告( 2017年)2017.6 来自 Venture Scanner的数据显示, 2011-2016年
19、AI行业的融资额年复合增长率为 49%,而 2017年仅第一季度 AI行业全球融资额度就超过 20亿美元,因此Venture Scanner预测 2017年 AI融资额将超过 2016,成为近年来融资额度最高的年份。行业市场规模资本扶持下, AI有望于 2022年达到约 700亿元的市场规模 来自 Statista的数据显示, 2025年全球 AI的市场规模预计为 368亿美元。综合考虑了我国人工智能的爆发节点、技术成熟度等因素,我们认为保守估计最迟至2019年我国 AI的市场规模将突破百亿元,而 2022年这一数字应在接近 700亿元左右。1.1 行业概述1.2 行业驱动力1.3 巨头布局1
20、.4 行业市场规模数据来源: 36氪研究院0100200300400500600010203040506070获投公司(个)融资额(亿美元)全球人工智能各细分领域获投金额获投公司数目数据来源: Venture Scanner, 36氪研究院0102030402012 2013 2014 2015 2016 20172012-2016年 与 2017年 Q1人工智能行业融资额(单位:亿美元)74 143 253 428 696 108.0% 93.8%77.4% 68.7% 62.7%-100%0%100%05001,0001,5002018e 2019e 2020e 2021e 2022e20
21、20-2025年我国 AI市场规模 (亿人民币)市场规模(亿元) 同比增长数据来源: Statista, 36氪研究院人工智能的技术支持层CHAPTER II AI产业链综述 AI技术支撑层 数据标注 语音识别 语义识别 计算机视觉1336kr-人工智能行业研究报告( 2017年)2017.6 正如报告开头所述,人工智能是指使用机器代替人类实现认知、识别、分析、决策等功能,是一门综合了计算机科学、生理学、哲学的交叉学科。完整的人工智能产业链可以分为技术支撑层、基础应用层和方案集成层,或者说应用场景层。 技术支撑层 主要由 AI芯片、传感器等硬件和算法模型(软件)和两部分构成。其中传感器与 Io
22、T的感知层相似,包括 GPU、 FPGA、 NPU等在内的 AI芯片负责运算,算法模型则负责训练数据。 基础应用层 的技术则是为了让机器完成对外部世界的探测,主要由计算机视觉、语音识别等感知层和语义识别等认知层构成,这些技术是机器能够做出分析判断的基础。此外,在感知与认知技术之下还有数据标注作为其底层支撑。 方案集成层 是集成了某种或多种基础应用技术的、面向如工业、自动驾驶、家居、仓储物流、金融、医疗等不同应用场景的产品或方案。 本篇报告将主要围绕 AI中基础应用层和方案集成层,即应用场景层进行分析。人工智能产业链综述AI产业链主要包括技术支撑层、基础应用层和方案集成层2.1 AI产业链综述2
23、.2 AI技术支撑层14产业链图人工智能 产业链图2017.636kr-人工智能行业研究报告( 2017年)技术圈计算机视觉语义识别语音识别语料采集场景圈家居金融医疗安防教育2.1 AI产业链综述2.2 AI技术支撑层1536kr-人工智能行业研究报告( 2017年)2017.6 数据是人工智能行业的燃料,虽然互联网存在发展的近 50年来积攒了海量数据,但非结构化和难以融合两大特点一直是数据应用过程中的行业痛点。由此便出现了专门负责数据标注的公司来完成数据结构化的初步工作。目前专注于该领域的公司国外有Appen,国内有海天瑞声等。本报告将以海天瑞声为例介绍数据标注在 AI领域的作用。 海天瑞声
24、主要针对 B端客户提供数据采集及标注服务,其资源库覆盖语音、文本、图像、视频等多个领域。其中语音库利用手机、座机、车载以及其他特殊麦克风和嵌入式设备等语音终端获取语料,结合人工、隐马算法、拼接算法等对语音数据进行语义、语法、音素等多种层次的标示,让机器从中学习规律,以便实现人机语音交互技术的实现。另外还可根据特别情况,提供定制开发语音转写 /标注辅助工具和软件。专注做淘金路上的卖水者,为语音、语义识别企业提供语料服务对话语句 段落常见物体名称关键词人名、地名 数字 动词语音手机 座机 车载 PC iPad终端资源库 文本 图像 视频语音识别数据采集语音合成数据采集 语音数据标注服务语音识别数据
25、采集服务图示:海天瑞声资源及数据标注服务一览数据标注2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉1636kr-人工智能行业研究报告( 2017年)2017.6 在语料数量方面,海天瑞声的语音库目前包含 110+种语言,覆盖全球 75个地区,其中包括多种稀有语种数据资源;场景丰富,包括车载语音、中英混读、儿童语音库、远场识别库等。目前,共储备超过 50万个小时录音时长; 60多种语言的发音词典,850万词条;拥有超过 600个可授权使用的人工智能数据资源类产品。数据标注专注做淘金路上的卖水者,为语音、语义识别企业提供语料服务 当大量的非结构化数据被 Appen、
26、海天瑞声这样的公司标注成为结构化数据之后,就能够为其他 AI公司所用了。这些结构化的数据将主要被用来训练算法模型,然后应用到语音、语义、图像识别等技术领域以及安防、自动驾驶等应用场景。 但由于目前的数据标注公司多数还是采用人工标注的方法,因此国外很多大公司选择自建团队完成数据标注的工作以保证准确度。此外,还有类似Amazon Mechanical Turk这样的众包平台也可以帮助 AI公司完成数据标注的工作,但是这样通过众包方式完成的数据标注往往无法保证其准确性。*以上数据来源:海天瑞声110+语言类别50w+录音时长60+发音词典600+可授权资源2.1 AI产业链综述2.2 AI技术支撑层
27、数据标注语音识别语义识别计算机视觉1736kr-人工智能行业研究报告( 2017年)2017.6 语音识别是将语音转换为文本的技术,是自然语言处理的一个分支。前台主要步骤分为信号搜集、降噪和特征提取三步,提取的特征在后台由经过语音大数据训练得到的语音模型对其进行解码,最终把语音转化为文本,实现达到让机器识别和理解语音的目的。根据公开资料显示,目前语音识别的技术成熟度较高,已达到 95%的准确度。然而,需要指出的是,从 95%到 99%的准确度带来的改变才是质的飞跃,将使人们从偶尔使用语音变到常常使用。医疗 卫宁健康语音识别过程虽存在难点,但目前技术已趋于成熟语音识别技术 - 行业概述 语音识别
28、作为一种一维时域信号,在实际操作中主要有两个难点。首先是数据的获取、清洗。语音识别需要大量细分领域的标准化语料数据作为支撑,尤其是各地方言的多样性更是加大了语料搜集的工作量。据媒体消息,苹果 iOS 10.3版本中 Siri已支持上海话。 第二个难点是语音特征的提取,目前主要通过具备多层神经网络的深度学习来解决,多层的神经网络相当于一个特征提取器,可对信号进行逐层深化的特征描述,最终从部分到整体,从笼统到具象,做到最大程度地还原信号原始特征。语音数据库 训练 语音模型语音信号 前端识别 降噪 特征提取数据挖掘 信号处理 统计建模模型匹配识别结果图示:语音识别技术架构2.1 AI产业链综述2.2
29、 AI技术支撑层数据标注语音识别语义识别计算机视觉1836kr-人工智能行业研究报告( 2017年)2017.6医疗 卫宁健康语音识别虽市场庞大但已出现领航者,留给创业公司的机会不多语音识别技术 - 行业概述 据 Research and Markets研究报告显示,全球智能语音市场将持续显著增长,预计到 2020年,全球语音市场规模预计将达 191.7亿美元。根据 Capvision报告显示,从语音行业市场份额角度来看,全球范围内,由 Nuance领跑,国内则是科大讯飞占据主导地位。Nuance31.60%谷歌28.40%苹果15.40%微软8.10%科大讯飞4.50%IBM4.10%其他8
30、.00%全球智能语音企业市场份额科大讯飞44.20%百度27.80%苹果6.90%Nuance3.00%小 i机器人2.70%捷通华声2.20%海天瑞声2.00%中科信利1.60%其他9.60%中国智能语音企业市场份额来源: Capvision, 36氪研究院2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉1936kr-人工智能行业研究报告( 2017年)2017.6 科大讯飞创办于 1999年,主要从事智能语音及语言技术、人工智能技术研究,软件及芯片产品的开发,而应用集成则由下游的开发商或客户自己完成。根据公开资料显示,科大讯飞是目前我国少数掌握核心技术的语音领
31、域企业之一,已于 2008年 5月在深圳证券交易所挂牌上市。医疗 卫宁健康科大讯飞专注于 To B的语音识别技术,目前已领跑中文语音市场语音识别企业案例 - 科大讯飞 科大讯飞拥有六大核心技术,分别是语音识别、语音合、自然语言处理、语音评测、声纹识别和手写识别。其中更重要的是其同时拥有语音合成和语音识别,能够把“听”和“说”组合起来。此外科大讯飞还提出讯飞超脑计划,瞄准语音理解力市场。图示:科大讯飞核心技术简介来源:科大讯飞官网, 36氪研究院技术 说明语音识别技术 让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。语音合成技术 让机器将文字信息转化为声音信息,即让机器像人一
32、样开口说话。自然语言处理技术基础研究 对自然语言内在规律的研究,主要包括词典编撰、分词断句、词性分析、语言模型、语法分析、语义分析、语用分析等。应用研究 面向不同的应用,研发相关的自然语言处理技术,主要包括拼音输入法、信息检索、信息抽取、自动摘要、机器翻译、语音合成、语音识别、文本匹配等。语音评测技术 又称计算机辅助语言学习,机器自动对用户发音进行评分、检错并矫正。声纹识别技术 通过语音信号提取相关特征,进而识别出说话人身份等,广泛应用于信息安全、电话银行、智能门禁以及娱乐增值等领域。手写识别技术 让计算机能够“认识”用户在手写设备上书写的文字信息。1来源于科大讯飞官网硬件研发 软件研发 语音
33、方案研发 集合方案后的产品制作面向 C端软件研发C端用户使用讯飞负责开发引擎、语音合成和语音识别芯片图示:科大讯飞在语音生态链中所处的环节2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉2036kr-人工智能行业研究报告( 2017年)2017.6 科大讯飞以讯飞超脑、 AIUI 为内核,积极打造基于讯飞开放平台的 AI 生态,面对不同场景,推出覆盖全行业的语音产品及服务,深耕智慧教育、智慧城市、智慧汽车、智慧医疗以及智慧家居五个行业,全方位挖掘 G 端、 B 端及 C 端客户。医疗 卫宁健康随着人工智能热度高涨,科大讯飞等企业技术得以规模性落地语音识别企业案例
34、- 科大讯飞5.6 7.8 12.5 17.8 25.0 33.2 1.3 1.8 2.8 3.8 4.3 4.8 0102030402011 2012 2013 2014 2015 2016科大讯飞 2011-2016年营业总收入 净利润营收总收入 /亿元 净利润 /亿元图示:科大讯飞主要客户举例 随着全球范围内人工智能热度的高涨,语音识别作为其中重要的技术应用层落地项目也愈加多元化。科大讯飞在智慧教育、智慧城市、智能家居、智能汽车、机器人等领域规模化的应用,促进了其营收近几年内持续稳定走高, 尤其是在教育行业,科大讯飞构建了智慧考试、智慧校园、智慧课堂、智慧学习等一体化的智慧教育产品体系
35、, 2017年智慧课堂产品有望成为其在教育行业收入和毛利的重要增长点。2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉21 从世界范围来看, Nuance是全球最大的独立语音识别公司之一。 Nuance于 1994年成立于美国麻省伯灵顿,并于 2000年 4月在纳斯达克上市。 Nuance曾为苹果、三星提供语音支持服务,在语音识别领域一度处于垄断地位,后随深度算法的普及,各巨头逐渐开始自主研发语音识别技术,差距逐渐缩小。但直到今天,其发布的 Dragon Drive(声龙驾驶) 互联汽车语音和内容平台,仍为众多知名车企提供着车载语音技术支持,如梅赛德斯 -奔驰、戴
36、姆勒、宝马、丰田、雷克萨斯、荣威等汽车品牌。 此外,还有重点布局家居领域的语音企业 云知声。云知声于 2012年 6月创办于北京,目前融资轮次为 B+,是智能语音领域新锐玩家。据官方数据显示,云知声目前已覆盖了 476个城市,覆盖用户超过1.8亿,代表客户有网易易信、锤子手机、乐视超级电视等。智能设备互联家居跨平台信息娱乐个性化内容情景感知车辆传感器信息用户档案行为偏好驾驶历史声纹验证图示:声龙驾驶平台DragonDrive个性化情景化无缝连接物联网智能化汽车级自然语言理解情景化推理大数据持续学习混合解决方案(本地嵌入及云端服务)为卓越性能而设计无缝连接稳健可靠Nuance领衔全球市场,云知声
37、重点布局家居领域语音识别企业案例 - Nuance云知声36kr-人工智能行业研究报告( 2017年)2017.62.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉22应用系统基础资源 语义识别是自然语言处理 (NLP)技术的重要组成部分。 NLP在实际应用中最大的困难还是语义的复杂性,此外,深度学习算法也不是语义识别领域的最优算法。但随着整个 AI行业发展进程加速,将为 NLP带来长足的进步。 语义识别是人工智能的重要分支之一,解决的是“听得懂”的问题。其最大的作用是改变人机交互模式,将人机交互由最原始的鼠标、键盘交互转变为语音对话的方式。此外,我们认为目前的语义
38、识别行业还未出现绝对垄断者,新进入的创业公司仍具备一定机会。鼠标键盘交互PagePC时代触摸交互App移动时代语音交互APIIoT时代人机交互的发展智能交互 对话聊天 深度问答 机器翻译 机器人知识挖掘词典 语料 网页 日志 知识库基本方法 规则方法 统计与机器学习方法 基础架构/平台图示: NLP通用架构示意图形态分析 组块分析 语义表示 对话理解 句子生成分词 /词性 主干分析 语义计算 观点提取 摘要生成专名识别 储存分析 逻辑推理 情感分析 篇章生成用户行为预测用户建模词法语言分析文本理解句法 语义 篇章语音生成解决“听得懂”的语义识别领域中,新进入者仍具有一定机会语义识别技术 - 行
39、业概述36kr-人工智能行业研究报告( 2017年)2017.62.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉23 我们认为,基于语音识别和语义识别的智能语音交互技术在车载场景中存在刚需,也会成为最先爆发的领域之一。并且,随着车联网的纵深化发展,相关硬件趋于免费,依靠语音交互天然流量入口,做个性化增值服务将是未来车载领域的主要盈利点。图示:语音交互各场景主要玩家智能家居 智能车载 虚拟助理 无人驾驶机器人智能客服 从 1996年至今,国内至今仍在运营的人工智能公司接近 400家 1。从下图可看出,自然语言处理( NLP)无论在创业热度、获投数量还是获投金额都处于
40、细分领域的前三。据 Global Market Insights数据,预计到2024年市场规模达到 110亿美元。96 92 77 38 26 15 10 020406080100120人工智能主要细分领域公司数量单位: /个 58 53 48 22 18 12 8 020406080 人工智能主要细分领域获投数量单位:个28 20 16 8 7 6 020406080 人工智能主要细分领域获投金额单位:亿元人民币来源: 36氪研究院语义识别技术拥有多样性的应用领域 以及 行业参与者语义识别技术 - 行业概述1数据来自 36氪研究院36kr-人工智能行业研究报告( 2017年)2017.62.
41、1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉2436kr-人工智能行业研究报告( 2017年)2017.6 科技巨头尤其是微软早在 2008年就已开始布局语义技术领域。对于巨头来说,自主研发耗时久、投入高,同时效果也是未知的,直接收购是多数巨头选择的最快方式。医疗 卫宁健康科技巨头乐衷于收购,小而美的企业更偏好细分场景语义识别技术 - 行业概述公司 语义识别领域布局微软 2008年,收购语义搜索公司 Powerset,开始步入智能语音交互领域2014年,微软推出全球首款语音助手 Cortana2016年 6月,收购语义分析公司 Wand Labs,以提升 Cort
42、ana智能语音体验2017年 1月,收购了 Maluuba,强化了 Cortana语义和文本理解能力苹果 2010年,收购 Siri语音助手; 2014年 4月,收购 Novauris; 2015年 10月,收购 VocallQ百度 2017年 2月,收购渡鸦科技,渡鸦团队并入度秘事业部 关于语义识别领域的创业公司,国内代表企业有出门智能 360、出门问问、三角兽、蓦然认知等。其中,三角兽的智能语音交互功能已被应用在 Rokid、锤子手机、威马汽车等产品上。此外,由于自然语境和细分行业语境下,同一名词可能具备不同含义,因此除了行业通用型的语义识别公司之外,还存在一些深耕细分场景的公司,例如律师
43、行业国外有基于 IBM Watson的 ROSS,国内有无讼、法律谷等。来源:公开资料收集2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉2536kr-人工智能行业研究报告( 2017年)2017.6 计算机视觉( computer vision,简称 CV)是指用计算机来模拟人的视觉系统,实现人的视觉功能,以适应、理解外界环境和控制自身运动。主要解决的是物体识别、物体形状和方位确认以及物体运动判断这三个问题。计算机视觉识别系统通常需要三个过程:目标检测、目标识别、行为识别,分别解决了“去背景”、“是什么”、“干什么”的问题。医疗 卫宁健康计算机视觉主要研究如何使
44、机器具备“看”的能力计算机视觉 - 行业概述 计算机视觉在技术流程上,首先要得到实时数据,此步骤可通过一系列传感器获取,少部分数据可直接在具备 MEMS功能的传感器端完成处理,大部分数据会继续传输至大脑平台,大脑由运算单元和算法构成,在此处进行运算并给出决策支持。目标检测 图像预处理 图像分割目标识别 行为识别 模型建立 行为预断 特征提取 目标分类 判断匹配摄像头类单目摄像头双目摄像头TOF摄像头雷达类激光雷达红外雷达毫米波雷达图像获取图像传感器产生数据 运算单元硬件 云端CPUGPUNPUTPU云计算雾计算流计算结果输出 决策支持算法 开源平台CNNRNNGNNGoogleFacebook
45、IBM百度图示:计算机视觉技术流程2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉2636kr-人工智能行业研究报告( 2017年)2017.6 计算机视觉应用场景可分为两大类:图像识别和人脸识别,每类又可继续划分为动、静共四个类别,基本覆盖了目前计算机视觉的各项应用场景。其中动态人脸识别技术是目前创业热度最高的细分领域,尤其是金融和安防场景,是其重点布局场景。医疗 卫宁健康动态人脸识别是最热领域,金融和安防是最热场景计算机视觉 - 行业概述 国内,计算机视觉领域的企业最早出现在 1997年,2014年出现创业高潮,企业平均年龄在 3.9岁 1。下表格为该领域目前
46、存续的具备代表性的创业公司。公司名称 成立时间 融资信息 核心业务 合作企业 未来发展预期商汤科技 20142017年 4月,获赛领资本战略投资 6000万美元投资人脸识别华为、小米、英伟达、京东、银联、科大讯飞等继续深入金融、商业、安防、互联网+等领域旷视科技 20112016年 12月,获鸿海集团、建银国际 C轮 1亿美元投资人脸识别 蚂蚁金服、万科、美图秀秀、世纪佳缘等 或将进军机器人视觉技术领域格林深瞳 2013 2014年 6月,获红杉资本 A轮数千万美元投资 人脸识别 北京新天地、中国农业银行等 或将进军无人驾驶行业依图科技 20122017年 5月,获高瓴资本 ,云锋基金等 C轮
47、 3.8亿人民币人脸识别、车辆识别招商银行、浦发银行、贵州省 /福建省交通厅、江苏省 /厦门市公安厅等做强金融和安防领域的人像和车辆识别技术触景无限 20102017年 3月,获清控银杏、正和岛 A+轮 5000万人民币投资嵌入式人脸识别、双目深度英特尔、中科院深耕安防与无人机市场,并将进军机器人与智能家居领域计算机视觉图像识别 人脸识别动态 静态 动态 静态辅助驾驶鉴黄 /暴工业视觉监控分析以图搜图商品识别医疗影像诊断文字识别金融 /安防物业 /社保金融教育人像美颜 /娱乐聚类分析安防图像编辑1数据来源于 36氪研究院2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机
48、视觉2736kr-人工智能行业研究报告( 2017年)2017.6 计算机视觉作为一种人工智能的基础技术应用,使用场景多样,市场潜力巨大。其中人脸识别领域在2016年已接近百亿规模,中国市场在全球范围扮演着十分重要的角色。医疗 卫宁健康各细分领域成熟度相差大,其中人脸识别未来几年市场潜力巨大计算机视觉 - 行业概述0501001502002503003504004505002014 2015 2016 2017E 2018E 2019E 2020E人脸识别市场规模(亿元人民币)中国 全球来源: Capvision, 36氪研究院 由此可见,计算机视觉各细分领域的成熟度目前相差较大。人脸识别、指
49、纹识别等所在的生物特征识别领域相对来说技术成熟度、工业化程度较高。在物体和场景识别方面,由于识别的物体种类繁杂,表现形态多样,技术成熟度较低。 对于计算机视觉而言,其主要瓶颈在于受图片质量、光照环境的影响,现有图像识别技术较难解决图像残缺、光线过爆、过暗的图像。此外,受制于被标记数据的体量和数量,若无大量、优质的细分应用场景数据,该特定应用场景的算法迭代很难实现突破。2.1 AI产业链综述2.2 AI技术支撑层数据标注语音识别语义识别计算机视觉2836kr-人工智能行业研究报告( 2017年)2017.6 商汤科技创办于 2014年 11月,位于北京, 2017年 4月完成了赛领资本领投的战略投资 6000万美元。商汤科技专注于核心算法开发,通过视觉技术赋予计算机视觉感知和认知的能力,业务覆盖金融、商业、安防、互联网 +等行业,意图为企业提供低门槛的计算机视觉技术,打造“商汤驱动”的人工智能商业生态。医疗 卫宁健康专注计算机视觉算法研发,推动视觉技术融入各行各业计算机视觉企业案例 商汤科技 商汤科技的核心能力在于其