资源描述
4663100528 Copyright 2020CN-203X30-20200421-BR-SD-V1.0 新华三人工智能发展报告白皮书2020年4月AI研究院&2029战略研究院纵观人类的发展历史,每一次重大变革,都会使一些组织或行业产出成指数级增长。改良蒸汽机促进了工业时代的到来,而计算机的发明则引领了信息时代的到来,两个时代的技术革命都使生产力实现了革命性提高。在国家层面,早就提出:加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手,是推动我国科技跨越发展、产业优化升级、生产力整体跃升的重要战略资源。2020年3月4日,在强调加快新型基础设施建设进度的中央会议上,人工智能更是作为重点领域被再次提及和关注。在企业数字化转型过程中,AI技术将承载更多重任。打通从感知智能到认知智能的道路上,需要融合传统机器学习、知识图谱、自然语言处理、语音识别、图像识别、深度学习等多种AI技术。紫光旗下新华三集团通过打造包含了AI中台与数据中台的智能计算平台,促进认知智能的发展,并与ICT产业协同演进,让AI与工业、医疗、教育、政务、安防等行业深度融合,帮助传统行业客户走向AI化。如今我国在人工智能技术应用方面,已经走在了世界前列。新华三在ICT领域中深耕多年,面对新兴的人工智能技术,新华三将借助ICT产业与人工智能协同发展契机,全面推动人工智能的跨层级布局,进一步提高企业的综合实力,与云、网、端协同共进,构建灵活高效的数字化IT体系,让“智能+”深入百行百业。未来世界科技产业将以人工智能为基础进行转型与升级,与各行业高效协同、生态融合,在这个过程中,新华三将全力加码行业AI发展,引领产业智能迈向新阶段。 新华三集团联席总裁、首席技术官 尤学军编委顾问刘新民 / 陈旭盛 / 敖襄桥 / 李飞 /黄世标 / 谢莉 / 丁杰飞主编杨新安副主编林涛 / 朱仕银 / 袁智编辑雷昭燕 / 王俊 / 程作品 / 常向青 / 王典 /时帅兵 / 汪云龙序REPORT目 录CONTENTS人工智能商业化加速,将深刻改变人类社会人工智能从学术研究走向商业应用人工智能将对人类社会产生深远影响人工智能面临的挑战01引言0107081112人工智能产业化落地,ICT技术是关键支撑算力仍然是人工智能的核心支撑算力突破推动算法创新,促成第三次AI浪潮异构计算集群实现算力横向扩展,支撑大规模AI运算AI芯片“井喷”式发展,满足多样化的算力需求大规模AI训练场景,对网络和存储提出挑战云边端协同,满足多样化的AI应用场景多样化的应用场景对云端AI提出挑战智能下沉是对云端AI能力的延伸云边端协同将进一步拓展AI应用边界人工智能应用普及,安全备受关注021516161718192222222326293030323535383939404142424344ICT产业与人工智能协同发展,共创智慧生态AI基础设施智能计算平台智能网络方案企业大脑方案介绍适用场景及成效工业互联网方案介绍适用场景应用成效社区安防方案介绍适用场景应用成效03把握机遇积极布局,迎接智能化时代到来附录:缩略词表044444484849495050515154545557政务服务方案介绍适用场景应用成效医院管理方案介绍适用场景应用成效智慧校园方案介绍适用场景应用成效引 言INTRODUCTION随着人工智能技术的普及,人类社会正在从信息化时代步入智能化时代。我们在生活中已经能切身感受到人工智能带来的便利,从虚拟语音助手到自动驾驶汽车,很多场景中能够找到人工智能的身影。国家层面也极其重视这项变革性的技术,围绕各个领域的智能化制定发展战略。人工智能作为新一轮产业变革的核心驱动力之一,对社会和经济将产生深远影响。人工智能与行业场景深度结合,会产生显著的效益:行业场景拥有第一手数据资源,拥有丰富的场景需求,人工智能可以助力传统行业实现跨越式升级,同时人工智能技术本身也得以持续进化。目前安防、金融等行业的人工智能变革已经取得了较好的成果。人工智能技术如火如荼的发展得益于信息与通信技术(ICT)的有力支撑。当前的人工智能技术是以海量数据驱动的学习算法为主,需要强大的算力来支撑。近几年高性能GPU服务器、计算集群、大数据技术以及高性能的网络和存储等基础设施为人工智能的迅猛发展提供了得天独厚的条件。紫光旗下新华三集团作为数字化解决方案领导者,拥有计算、存储、网络、安全等全方位的数字化基础设施整体能力,可提供包括人工智能在内的一站式数字化解决方案。基于新华三在人工智能领域多年的探索整理本报告,旨在阐明新华三对人工智能技术的理解与认知,分享新华三在人工智能应用方面的实践。01 02 新华三人工智能发展报告白皮书在人类近代发展历史上,经历了三次重大科技革命。每一次科技革命都带来了人类社会的巨大变革。科技作为第一生产力,已经成为人类社会发展进步的关键要素。前两次科技革命,分别使人类社会迈进“机械时代”、“电力时代”。始于上世纪中期的第三次科技革命,主要起源于美国、前苏联和欧洲各国,以原子能、电子计算机、空间技术和生物工程的发明和应用为主要标志,涉及信息、新能源、新材料等诸多领域的一场信息技术革命,人类社会从此进入“信息化时代”。第三次科技革命极大地推动了人类社会政治、经济、文化领域的变革,同时也很大程度上改变了人类的生活方式和思维方式。当下,我们正在进入以人工智能、物联网、5G通信、机器人、新能源、新型工业材料等前沿技术为代表的第四科技革命,可以预见这次科技革命在规模、影响力方面都将远远超过前几次,并且会改变当前国家竞争格局。因此美、日、韩以及欧洲各国政府竞相出台政策加大对前沿技术的投入,以抢占这轮科技革命的领先优势,而且人工智能作为这轮科技革命中的头雁技术,更是备受关注。 2018年5月,习近平总书记在两院院士大会强调:“新一轮科技革命和产业变革正在重构全球创新版图、重塑全球经济结构,科学技术从来没有像今天这样深刻影响着国家前途命运,从来没有像今天这样深刻影响着人们生活福祉”,“现在,我们迎来了世界新一轮科技革命和产业变革同我国转变发展方式的历史性交汇期,既面临着千载难逢的历史机遇,又面临着差距拉大的严峻挑战”。到2020年,人工智能技术和应用与世界先进水平同步,人工智能产业成为新的重要经济增长点,人工智能核心产业规模超过1500亿元,带动相关产业规模超过1万亿元;到2025年,人工智能基础理论实现重大突破,部分技术与应用达到世界领先水平,人工智能成为带动我国产业升级和经济转型的主要动力,核心产业规模超过4000亿元,带动相关产业规模超过5万亿元;到2030年,人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心,核心产业规模超过1万亿元,带动相关产业规模超过10万亿元。连续三年相继出台了很多人工智能相关的政策。2017年7月,国务院印发了新一代人工智能发展规划,明确了我国发展人工智能的战略目标,并进行了总体部署,设立了“三步走”目标:新一轮科技变革来临智能化浪潮势不可挡每次科技变革都推动人类社会跨越式发展顶层政策支持,国家战略地位03 04新华三人工智能发展报告白皮书2017年12月份,工业和信息化部印发了促进新一代人工智能产业发展三年行动计划(2018-2020年),从推动产业发展角度出发,以三年为期限明确了多项任务的具体指标,对新一代人工智能发展规划相关任务进行了细化和落实,以信息技术与制造技术深度融合为主线,推动新一代人工智能技术的产业化与集成应用。同时,大力鼓励和支持传统产业向智能化升级,陆续出台智能制造发展规划(2016-2020)、产业结构调整指导目录(2019年)等重要文件,为产业升级提供了有力的政策保障。近期,人工智能又被纳入新型基础设施建设,成为“新基建”七大方向之一,属于信息化领域的通用基础技术。概括来讲,“人工智能新基建”是指围绕提供基础智慧能力的一系列芯片、设备、算法、软件框架、平台等的统称。推动“人工智能新基建”有助于加速传统产业智能化升级,反过来也促使人工智能技术的升级进化。表1 近三年我国政府出台的人工智能相关政策人口老龄化趋势加重,智能化升级迫在眉睫政策2017年政府工作报告国务院关于印发新一代人工智能发展规划的通知十九大报告促进新一代人工智能产业发展三年行动计划(2018-2020年)2018年政府工作报告高等学校人工智能创新行动计划新一代人工智能产业创新重点任务揭榜工作方案2019年政府工作报告关于促进人工智能和实体经济深度融合的指导意见新一代人工智能治理原则发展负责任的人工智能时间2017年3月2017年7月2017年10月2017年12月2018年3月2018年4月2018年11月2019年3月2019年3月2019年6月我国上世纪末进入老龄化社会,从2000年到2018年,60岁及以上老年人口从1.26亿增加到2.49亿,老年人口占比从10.2%上升到17.9%,提升幅度是世界平均水平的2倍多。而且未来较长一段时期内,老龄化的趋势还将持续下去。相应地,随着人口老龄化带来的劳动力资源短缺以及劳动力成本的增加,将会对我国经济和社会发展产生一定的阻力。2019年底,国务院正式印发的国家积极应对人口老龄化中长期规划明确指出,充分发挥科技创新引领带动作用,把技术创新作为积极应对人口老龄化的第一动力和战略支撑。利用人工智能、机器人等作为劳动力替代及增强技术来应对劳动人口减少的挑战,产业智能化升级,用科技手段从根本上对冲人口老龄化对经济发展所带来的不利影响是必然选择。基础条件已渐趋成熟,人工智能应用将进入爆发阶段近几年来,随着数字化基础设施的不断完善,再加上以深度学习为代表的算法上的突破,人工智能技术日渐成熟,已经在安防、金融、客服、工业制造等领域,取代了大量重复性高、繁琐枯燥或者大量使用人工并不经济的工作,不仅降低成本,而且生产效率提升也十分显著。人工智能技术在京津冀、长三角、珠三角地区已经初步带来产业规模效益。据IDC报告显示,预计到2023年中国人工智能市场规模将达到979亿美元(包含软件、硬件、服务等),2018-2023年复合增长率为28.4%,我国人工智能关联产业将进入了快速发展阶段。随着5G商用落地,高带宽、低延迟、大接入的特性将会进一步拓宽人工智能应用场景的边界,未来3-5年,为人工智能技术在产业智能化的爆发奠定坚实的基础。05 06新华三人工智能发展报告白皮书PART1人工智能商业化加速将深刻改变人类社会 人工智能从学术研究走向商业应用人工智能将对人类社会产生深远影响人工智能面临的挑战人工智能从学术研究走向商业应用人工智能发展历史2016年,谷歌AlphaGo以4:1的成绩战胜了人类顶尖围棋选手李世石,让人工智能走进了大众的视野。人工智能如今已不再停留在学术研究阶段,开始大规模的应用到商业环境中。人工智能最早可追溯到上世纪的四五十年代,被誉为“人工智能之父”的艾伦图灵,在其论文计算机器与智能中,提出了非常著名的图灵测试,即被测试的机器是否能够表现出与人类等价或无法区分的智能。人工智能概念正式提出是在1956年,在美国达特茅斯学院举办的夏季学术研讨会上,约翰麦卡锡、马文闵斯基、克劳德香农等学者参与讨论“让机器像人一样认知、思考和学习”,这次会议上首次使用了“人工智能”这一术语。因此,业内也一般都认为1956年是人工智能元年。在过去的六十多年里,人工智能发展跌宕起伏,经历了三次大的浪潮:1950 1980 2000 未来信息系统早期专家系统专家系统广泛应用神经网络初步发展统计机器学习、深度学习、类脑计算萌芽时期 探索时期 高速发展时期1956达特茅斯会议提出人工智能概念1982Hopfield神经网络模型提出2006Hinton提出深度学习算法模型2012深度学习算法在语音、图像识别上取得重大突破2016AlphaGO战胜人类顶级围棋选手李世石90年代日本的第五代计算机失败1986Hinton等提出反向传播算法1957心理学家罗森布拉特发明感知机的模型图1 人工智能发展的三次浪潮第一次浪潮 第二次浪潮 第三次浪潮07 08新华三人工智能发展报告白皮书第一次浪潮(20世纪5080年代):人工智能的起步阶段,期间提出了人工智能的概念,取得了一些突破性的研究成果,如机器定理证明、跳棋程序、LISP编程语言、首个聊天机器人等,但当时的算法理论、计算机的性能等因素,无法支持人工智能应用的推广。第二次浪潮(20世纪8090年代):这阶段主要以专家系统和日本的第五代计算机为代表。专家系统促使人工智能从理论研究走向实际应用,并在医疗、气象、地质等领域取得成功。但随着人工智能应用范围的扩大,专家系统的缺点也逐渐显现:应用领域狭窄、推理方法单一、缺乏常识性知识等,人工智能的发展又进入了停滞状态。在这阶段也出现了神经网络算法,但是由于当时计算机的性能限制,最终也没有较好的落地效果。第三次浪潮(2000年现在):随着信息技术蓬勃发展,为人工智能的发展提供了基础条件。这阶段人工智能的理论算法也在不断的沉淀,以统计机器学习为代表的算法,在互联网、工业等诸多领域取得了较好的应用效果。2006年,多伦多大学Hinton教授提出了深度学习的概念,对多层神经网络模型的一些问题给出了解决方案。标志性事件是在2012年,Hinton课题组参加ImageNet图像识别大赛,以大幅领先对手的成绩取得了冠军,使深度学习引起了学术界和工业界的轰动。近几年,以深度学习为代表的人工智能算法,在图像分类和识别、语音识别、自然语言处理等领域取得了巨大的进步。究其原因,一方面计算机的性能得到了极大的提升,新型人工智能芯片、云计算技术都为大规模神经网络计算提供了基础平台;另一方面是互联网、大数据技术的发展,积累了大量的数据资源。算法、算力和数据三者的结合,直接促成了这次浪潮,将人工智能再次推向繁荣期。根据人工智能的研究领域、周边技术和涉及的产业,可以将人工智能的技术体系分为三个层次,如图2所示,具体包括:基础层、技术层和应用层。应用层:人工智能技术与行业深度结合,针对具体的场景来实现智能化的方案,目前主要的应用行业领域包括安防、金融、医疗、交通、教育、制造、互联网、电力等,未来将会拓展到更多的领域。当前,人工智能产品种类也比较多,比如机器人方面,包括家用机器人(扫地、陪伴、教育等用途)、工业机器人等;再如自动驾驶汽车,其中就使用到了大量的人工智能技术,包括通过计算机视觉技术来识别车道线、交通标志、信号灯等,进一步利用人工智能算法进行决策分析,做出正确的动作指令。未来将会有更多的人工智能产品进入生产生活当中。技术层:产业界和学术界都比较关注的层面。底层包括各种机器学习/深度学习的开源框架等。以学术界为代表,对人工智能的底层理论算法的研究,包括近年来比较主流的深度神经网络算法、传统机器学习算法,正是因为这些基础理论取得突破,才使得当下人工智能技术在产业化方面取得突飞猛进的发展。应用算法层主要的研究领域包括计算机视觉、语音识别、自然语言处理、决策规划等,涉及感知、认知、决策不同的智能方向。在每个研究领域中,又有很多细分技术研究领域,比如计算机视觉领域,包括图像识别、目标跟踪、视频理解、行为分析、图像超分、多维特征识别等等。技术层是人工智能中最为令人关注的,也是最具挑战的,其优劣直接决定了行业应用落地的成效。基础层:作为人工智能产业的底座支撑,包括硬件、软件和数据的技术支持。硬件主要是为人工智能应用提供强大的算力支撑,包括计算资源如GPU、FPGA、ASIC等加速芯片,网络资源,存储资源,以及各种传感器件;系统平台包括操作系统、云计算平台、大数据平台等;数据资源是人工智能技术(尤其是深度学习)获得长足发展不可或缺的组成部分,犹如为发动机提供充足的“燃料”。图2 人工智能技术体系层级这三个层级的技术,彼此依赖,相互促进。人工智能技术只有在实践中解决了具体的问题,才能产生价值。因此合适的商业场景是人工智能技术落地的关键。当前人工智能技术主要是以深度学习方法为主,通过大规模数据驱动的机制,挖掘数据中蕴含的潜在规律。这种方法,机器并没有真正的推理和思考的能力,并没有人类所具有的高阶智能,一般只能解决特定领域内的问题。目前取得较好成效的主要在单任务、单领域的视觉感知方面上,有些已经做到了非常极致,甚至超越人类,比如图像识别技术在安防、交通流量监测、闸机身份验证等特定场景中,可以代替人工完成这些重复性的工作,取得了很好的效果。但在认知方面目前效果不尽人意,还达不到像视觉感知领域的效果。随着谷歌BERT等算法的突破,对于自然语言语义的理解和认知方面,也渐有起色。由于目前人工智能算法机制对数据集的重度依赖,需要有足够的数据,而数据都是在行业场景中积累产生的,比如医疗影像数据、金融交易数据等。因此,将人工智能技术与行业场景结合才能发挥人工智能的价值。并且只有在场景历练通过不断的反馈机制,使数据形成闭环,才能持续不断迭代优化和提升算法精准度。场景化是人工智能商业落地的关键应用层技术层基础层智能产品 机器人 自动驾驶汽车 智能客服安防、金融、医疗、交通、教育、制造、互联网、电力智能音箱解决方案应用算法 计算机视觉 智能语音传统机器学习(线性回归/SVM/GBDT等) 深度学习(CNN/RNN) 强化学习自然语言处理 决策规划 推荐搜索Tensorlow Caffe PytorchMxNet网络设备 存储设备 传感器理论算法平台框架数据资源 通用数据 行业数据 数据采集、标注操作系统计算资源(GPU/FPGA/ASIC)云计算平台 大数据平台系统平台细分方向图像识别目标跟踪视频理解声纹识别语音合成语音助理情感分析机器翻译内容推荐自动驾驶自主机器人硬件设施09 10新华三人工智能发展报告白皮书图3 IDC中国人工智能软件及应用市场半年度研究报告,2019H1市场调研人工智能将对人类社会产生深远影响 人工智能面临的挑战人工智能对企业变革影响巨大,在未来15年内,人工智能和自动化技术将取代40-50岗位,同时也带来效率的提升。例如,在工业制造领域,AI技术将深度赋能工业机器,将会带来生产效率和质量的极大提升。采用AI视觉检测替代工人来识别工件缺陷,带来的益处:识别精度,基于图像数字化,可以达到微米级的精度;无情绪影响,可以长时间保持稳定工作;检测速度,毫秒级就能完成检测任务。人工智能带来生产效率提升人工智能改变人们的生活方式 人工智能改善人类的生存环境随着人工智能技术的普及,人们的居住、健康、出行、教育、娱乐等多方面的生活方式都将从中受益。智能家居将会是人工智能技术应用的一个重要突破口。未来,智慧家居助理会统筹管理所有智能家居设备,使其协同工作,根据不同的活动场景,为人们营造更加舒适和安全的居住环境。人们不再是通过双手去操作使用各种电器,而是通过更加自然的方式与智慧家居助理交流,轻松地让各种电器完成任务。医疗也将是人工智能大展身手的领域。AI技术的推广,可以很大程度缓解当下的医疗资源紧缺、医护人员工作强度大等问题,使更多的民众受益。另外,通过健康穿戴设备,监测人们的生理数据,对人们的日常健康状况进行检测管理,做到疾病的提前预防。人工智能在粮食保障、能源利用、气象预测、环境污染、自然资源保护等领域上应用,可有效改善人类生存环境,促进人与自然和谐共生。农业是人类赖以生存的基础,为人类提供每天所需的食物。据2019年全球粮食危机报告显示,全球仍有1亿多人处于重度饥饿状态。自然灾害和气候变化是导致粮食不安全的部分关键因素。人工智能在一定程度上可以改善农业所面临的问题。例如2019年底在全球较大范围内发生的非洲蝗虫自然灾害,造成部分地区粮食大幅减产。有些机构组织开始着手研究如何利用人工智能技术结合卫星遥感地理信息,对类似的自然灾害进行预警,减少农业损失。另外,利用人工智能技术对小地域范围内实时、精准的气象预测,可以指导农业实施过程,在什么时间适合进行播种、施肥、灌溉、采摘等。人工智能还可以用于筛选优良种子,达到粮食增产的目的。正因为人工智能技术能够对人类社会产生巨大效益,国家政策、资本等方面也大力支持,企业积极布局人工智能战略,增加研发投入、加快商业落地。人工智能产业一片向好的景象。但在繁荣的背后,人工智能也面临诸多挑战。据IDC中国人工智能软件及应用市场半年度研究报告,2019H1显示,面临的挑战主要有缺乏人工智能技术人员、缺乏高质量数据集、应用场景、成本等多个方面。面对这些挑战,我们应该理性对待,寻找合适的解决方法,打造有利于人工智能健康发展的良好环境。缺乏技术人员 51.7%51.7%45.5%32.9%23.1%22.4%15.4%2.1%Q:您觉得采用人工智能的挑战有哪些?缺乏数据质量高的数据集应用场景不明确投资AI项目的成本业务方的参与和支持算法的可解释性AI安全,伦理与合规问题其他11 12新华三人工智能发展报告白皮书目前,人工智能商业落地效果比较好的是安防、金融等行业领域,在其他领域的部分场景中,落地效果并不是太理想。究其原因,一方面是安防、金融等落地效果好的领域,都是有良好的数字化基础的,多年来积累了大量有价值的数据,利用人工智能技术来挖掘数据价值自然是水到渠成。另一方面,是对当前人工智能算法所能解决问题的边界没有厘清,与用户期望的有偏差,用户期待的效果,可能当前AI算法还达不到成熟标准,而AI算法能解决问题的场景,还有待进一步挖掘。对此,建议各行业领域的企业,在实施人工智能应用落地过程中,优先完成数字化改造,积累行业数据,然后再实施合理的智能化业务。人工智能技术是一把双刃剑,一方面能推动社会进步和经济发展,另一方面也会带来法律、隐私保护、伦理等的风险。人工智能技术的运作效率极高,如果被不法分子利用了,发起网络攻击或者窃取机密信息,将会产生巨大的危害。另外,深度学习依赖于数据,在数据采集过程中,不可避免的会收集到用户的一些隐私数据,涉及个人的生活习惯、健康等数据,如果这些数据不加以监管被乱用,势必会造成隐私侵犯。针对这方面风险,国家也在研究应对措施。在新一代人工智能发展规划中明确指出,到2025年,我国初步建立人工智能法律法规、伦理规范和政策体系,形成人工智能安全评估和管控能力。在2019年6月,新一代人工智能治理原则发展负责任的人工智能发布,提出了人工智能治理的框架和行动指南。相信随着技术上的进步,法律、社会规范的出台,人工智能将会朝着安全可靠、公平、保护隐私等正向发展,促进人类福祉。当前算法严重依赖有标注的数据数据在人工智能商业化落地中有着不可替代的作用,目前人工智能算法以有监督的深度学习为主,即需要标注数据对学习结果进行反馈,在大量数据训练下,算法才能取得预期的效果。算法从大量数据中进行学习,挖掘数据中蕴含的规律。数据决定了人工智能模型精度的上限,而算法则是不断逼近这个上限。高质量数据需求导致数据成本高昂为了提高数据的质量,原始数据需要经过数据采集、清洗、信息抽取、标注等处理环节。得益于大数据技术的快速发展,当前采集、存储海量数据已经不再是难事。在时间和成本上,数据标注成了制约环节。目前数据标注主要是人工标记为主,机器自动化标注为辅助。但是人工标注数据的效率并不能完全满足算法的需求,研究提升机器自动化标注的精度,是提高效率的重要思路,也是数据标注的一个重要趋势。数据噪声、数据污染会带来人工智能安全问题人工智能训练模型时用到的训练数据,如果数据本身有较大的噪声,或者数据受到人为破坏,都可能会导致模型决策出现错误。由于一些客观因素,训练数据中不可避免含有噪声,如果算法模型处理的不得当,可能会导致模型漏洞,模型不够健壮,给黑客有了可乘之机。另外,也存在黑客故意在训练数据中植入恶意数据样本,引起数据分布的改变,导致训练出来的模型决策出现偏差,进而按照黑客的意图来执行。从数据源角度进行攻击,会产生严重的后果。例如在无人驾驶车辆上,会诱使车辆违反交通规则导致事故。场景化落地面临的挑战当前深度学习算法有一定局限性深度学习算法通过构建大规模多层次的神经网络模型,从大量数据中学习经验规则,从而达到拟合复杂的函数来解决实际问题。深度学习模型的学习能力强,效果也非常好,但在实际应用过程中依然面临资源消耗、可解释性、安全等方面的挑战。模型计算量大,对硬件要求高深度学习训练的时候需要处理大量的数据,模型单元也会做大量的计算,所以会耗费大量的存储和计算资源,成本高昂。即使是在模型推理阶段,计算量相对较小,但在边缘、端侧部署深度学习模型,仍然需要对模型经过压缩、剪枝等出来,来进一步降低计算量。目前国内很多企业在研究端侧的AI芯片,提升边缘侧的计算能力,相信未来计算力的问题会得到解决。模型复杂,存在不可解释性人工智能模型的可解释性,是指人类能够理解机器做出决策原因的程度。由于深度神经网络模型异常复杂,参数量巨大,导致模型成为“黑箱”,我们很难获知模型预测结果的准确原因,也不知道模型会在什么时候或条件下会出错。这就导致了在一些如医疗、无人驾驶等关键场合中,使用深度学习都比较谨慎。当然在学术界,也在积极研究可解释性的人工智能,包括如何改善用户理解、信任与管理人工智能系统。模型鲁棒性弱,易受对抗攻击深度神经网络非常容易受到对抗样本的攻击的。一些图像或语音的对抗样本,仅有很轻微的扰动,以至于人类无法察觉这种扰动。但对于模型却很容易觉察并放大这个扰动,进而处理后输出错误的结果。这个问题对于在一些关键场合下危害非常大。对抗与攻击也是深度学习研究领域的一个热点,已经有很多防范攻击的方法来降低风险。在人工智能技术层面上,也面临一定程度的风险,主要表现在数据和算法上。技术方面的挑战社会规范方面的挑战13 14新华三人工智能发展报告白皮书在2012年,Hinton课题组参加ImageNet图像识别大赛,其AlexNet模型以大幅领先对手的成绩取得了当年的冠军,使得深度学习算法一时间轰动整个学术界和工业界。深度学习算法本质上也是神经网络,早在上世纪80年代就已经诞生。AlexNet模型使用了比以前更加深层的网络,参数量高达千万级,使用了大规模的图像样本进行训练,当然也有一些细节上的算法创新。当时支撑AlexNet模型的实现,是基于两块英伟达GTX 580的GPU,完成了当时CPU难以短时间完成的任务。从此,业内普遍认同了两方面的事实:一方面是神经网络的模型规模增大有助于提升识别效果;另一方面,GPU卡可以提供非常高效的算力,用来支撑大规模神经网络模型的训练。近几年,业内各厂家意识到算力的重要性,分别推出多种加速卡如GPU、谷歌的TPU等,用于加速人工智能计算,直接推动了人工智能算法飞跃式的创新。从2012年到2018年期间,以计算机视觉为主的感知类智能取得了突飞猛进的发展,有些领域如多维特征识别等,其识别率远远超越了人类水平。在2018年末,谷歌发布的BERT模型,在11项不同的NLP测试取得最佳成绩,直接推动了NLP认知类智能的突破。在这惊人成绩的背后,是强大算力提供的支撑。跟据作者描述,BERT-Large模型是在33亿词量的数据集上训练的,拥有3亿多的参数。试想一下,如果没有能支撑这么大计算量的算力资源,也许很难验证算法的效果,算法创新也就更加不易。另外,数据的爆发式增长,对算力的依赖也十分强烈。根据IDC报告显示,“数据总量正在以指数形式增长。从2003年的5EB,到2013年的4.4ZB,在2020年将达到44ZB”。面对海量的数据,使用人工智能算法挖掘其中的价值,也必须有强大的算力支撑才能实现,这也直接关系到人工智能应用的创新和发展。算力突破推动算法创新,促成第三次AI浪潮PART2人工智能产业化落地ICT技术是关键支撑算力仍然是人工智能的核心支撑算力突破推动算法创新,促成第三次AI浪潮异构计算集群实现算力横向扩展,支撑大规模AI运算AI芯片“井喷”式发展,满足多样化的算力需求大规模AI训练场景,对网络和存储提出挑战云边端协同,满足多样化的AI应用场景多样化的应用场景对云端AI提出挑战智能下沉是对云端AI能力的延伸云边端协同将进一步拓展AI应用边界人工智能应用普及,安全备受关注算力仍然是人工智能的核心支撑从人工智能概念的提出,半个世纪以来,其发展一直都比较缓慢。究其原因,主要是以前的人工智能应用效果并不理想,不能得到大规模推广和应用。决定着人工智能应用成效的关键因素很多,算力是其中之一,算力对人工智能的发展起到支撑作用。15 16新华三人工智能发展报告白皮书提升算力的另一条途径,就是从芯片层面去实现。相对于传统程序,AI计算有着明显的特征,导致传统处理器无法满足:当前很大一部分AI应用,处理的是视频、语音、图像等非结构化数据,计算量巨大且多数为矩阵运算,非常适合并行处理;另外,深度学习模型参数量非常多,对存储单元访问的带宽和时延直接决定了其计算的性能。为此,一方面可以通过不断的改进优化现有计算体系芯片的计算能力,从早期的CPU,到专用于并行加速计算的GPU,以及在特定场景应用的FPGA和ASIC芯片,都是在朝着适应AI计算模式的方向优化,加速AI运算过程。这种方式是目前AI计算加速的主流方式。另一方面可以采用新型计算架构,如类脑芯片、量子计算等,从根本上颠覆现有计算模式。2019年8月,清华大学类脑计算研究中心研制的Tianjic芯片登上了自然杂志,展示了类脑芯片的潜力,是未来AI芯片的一个重要方向。在云端/数据中心的训练场景中,更多的关注算力的性能、精度、扩展性、通用性、可编程、能耗效率等;在云端/数据中心的推理场景中,对算力考量的侧重于吞吐率、延时、扩展性、能耗效率等;在边缘端的推理场景中,考虑更多的是延时、能效、成本等。随着市场的强劲需求和国家政策的引导,国内研发AI芯片呈“井喷”趋势,众多厂家加入到了造芯行列当中。针对不同的人工智能应用场景,各个厂家都在打造各具特色的芯片。尤其是随着物联网的普及,端侧应用场景更加繁杂,AI芯片百家争鸣的态势,有助于解决AI多样化的算力需求。当前这种以深度学习训练算法为主的时期,对算力和数据的需求是惊人的。OpenAI对近年来的模型训练和算力需求做过一个分析总结,自2012年以来,最大规模的AI训练运行中使用的计算量呈指数增长,且翻倍时间为3.4个月,远快于芯片工艺的摩尔定律。为了支撑巨大的算力需求,一种行之有效的方法就是采用异构计算集群。在人工智能领域中,异构计算是指联合了通用的CPU和面向AI运算加速的GPU/FP -GA/ASIC等不同计算体系结构处理器的计算系统。另外,单颗芯片的计算能力是有限的,且随着摩尔定律失效,仅从芯片角度来提升算力相对来说比较困难。业界一般采用计算集群的方式来扩展算力,通过把成千上万颗计算芯片,整合在一个系统中,为人工智能异构计算集群实现算力横向扩展,支撑大规模AI运算 AI芯片“井喷”式发展,满足多样化的算力需求待探索模型的训练和推理应用提供支持。目前,鉴于GPU的通用性、性能和生态等因素,面向人工智能的异构计算集群,仍然以CPU+GPU的方式为主流,但在一些特定应用场景中,CPU+FPGA/ASIC的方式也有一定的优势。另外,异构计算集群实现算力的扩展,不单是硬件设备上堆砌。由于人工智能特有的计算模式,设计面向人工智能计算的集群需要区别传统通用计算集群,如在进行模型训练的时候,集群计算节点间需要大量且频繁的周期性数据同步等,都是需要考虑的因素。为了提升性能,需要考虑系统软件和计算框架层面上的优化,如何合理的调度AI任务来最大化地利用计算资源。同时也还需要考虑高性能的网络和存储,来保障集群整体性能。图4 AI加速芯片及应用场景不同的计算场景对算力的需求特点是有差异的:云端/数据中心 边缘/终端训练推理17 18新华三人工智能发展报告白皮书BufferNIC Driver数据、算法、算力是人们常说的AI发展三要素,必然在AI中起着至关重要的作用。那么除了这些,是否还有其他因素关系其发展呢?我们试想,AI是一辆火车,数据、算法、算力、好比其燃料、发动机,有更多,更好质量的燃料,才能让火车跑的更远,更先进的发动机才能使火车跑的更快。不过,在实际火车运营中,仅仅这些是不够的。火车要在铁轨上运行,也就是有了更好的路,火车才能四通八达、通畅无阻。AI面对实际应用也是如此,其爆棚的数据量和超高的算力要求都不是一台普通的服务器能够完成的,需要大规模的集群,集群中服务器、存储设备间的互联网络就是AI中的“路”,而这些当前的“路”是不能满足大规模AI训练场景需求的。除了“路”之外,火车是用来运输货物或者人,那车厢本身的存储容量以及装卸车的速度也是火车运营的重要指标。对应到AI应用中就是存储容量及数据读写访问技术。大规模AI训练场景对网络之“路”要求很高,有多方面原因。首先,AI相关业务通常包含大量的图像、视频等非结构化数据,数据量上有一个指数级的增长,需要保证这些海量非结构化数据顺畅、快速通过才能使AI系统平稳运行。其次,AI运算相比以往运算更加复杂,一次智能化业务背后要几百个模型计算,每次计算并非一台服务器能完成的,需要庞大算力和复杂的异构计算,背后实现往往是通过大规模集群并行处理的,那么集群中的服务器快速通信就成为完成一次计算任务的关键要素之一。第三,AI业务很多需要实时学习,算法在框架层和应用层需要保持高精度一致。这些要求都是现存以太网所不具备的,其中千分之一的网络丢包对AI的影响都是巨大的。这个如同以前的马车走土路,压过一块小石头,或许就是有个小颠簸,不会发生什么大问题,但是如果铁轨上有一块小石头,可能就会造成火车的出轨,后果不堪设想。当前铺设的这条网络“路”主要技术有TCP/IP及以太网,这是最常用的网络传输技术,其优点是应用范围广,成本低,兼容性好,缺点也很大,网络利用率低,传输速率不稳定等。InfiniBand是一个用于高性能计算的网络标准,服务器间、服务器与存储设备间、存储设备之间均可以使用其进行传输。它的优点就是传输性能好,可惜在大规模应用中支持不好,而且需要特定网卡和交换机的支持,成本相对高昂。还有诸如Intel提出的Omni-Path等技术,都是为了优化网络性能,不过均存在各种兼容、成本等问题。要满足AI的大规模训练需求,我们需要一种综合的网络解决方案,既能广泛大规模使用 ,价格低廉、成本可控,又能够完成高性能AI计算的需求。这首先要保证网络达到90%以上的带宽有效利用率的同时,网络中无丢包,并确保低时延。通过RoCEv2、Lossless无损网络流控技术综合方案可以实现上述需求。RoCEv2即RoCE(RDMA over Converged Ethernet,基于以太网的远程直接内存访问)的第二个版本,较第一个版本支持跨IP子网的通信能力。该技术主要解决两大问题:大规模AI训练场景,对网络和存储提出挑战图5 传统TCP/IP与RDMA方式数据移动对比RoCEv2解决了成本、延时、吞吐等问题,这样还是不够的,上面提到面对大规模AI计算,网络中是不能出现丢包。这就需要Lossless无损网络流控技术来保证。如图6所示,无损网络解决方案部署参考。图6 无损网络部署参考通过远程直接的内存访问绕过操作系统内的多次内存拷贝,远程节点的CPU无需介入,降低CPU负载,数据直达对端应用buffer。测试显示数据从CPU到网卡出口时间通过RoCEv2技术可以有效提升8倍,RoCEv2在提高网络吞吐量的同时极大的降低了数据包传输延时。如图5所示,传统TCP/IP与RDMA方式的数据移动对比。RoCEv2是RDMA在以太网上传输的实现,部署时仅两端点需要采用专用的网卡硬件,中途路径采用原有以太网线路及设备即可,相较InfiniBand等技术大大降低了成本。其实现包括如下几个方面:需要支持PFC流控能力,当某一优先级报文发送速率超过接收速率时,通过向上一跳发Pause帧通知上一跳设备暂停发送本优先级报文,实现不丢包机制;开启快速ECN能力,向服务端快速进行通告反压,保证流量将要出现丢包时,快速通知发送端进行降速;用户可选择开通ETS将网络中的流量优先级分成不同的优先级组,为每组分配一定带宽,如果一个组未消耗完为其分配的带宽其他组可以使用这些未使用的带宽,达到资源的合理分配及充分使用;交换机与服务器网卡之间,通过开启LLDP协议的DCB X TLV,其报文中携带ETS/PFC配置状态,实现全网的DCBX能力通告和协商
展开阅读全文
相关搜索