1、云计算与大数据的关键技术及应用1013010304 何维坤云计算被认为是继个人电脑、互联网之后电子信息技术领域又一次重大变革,其通过虚拟化有效地聚合各类资源,通过网络化按需供给资源,通过专业化提供丰富的应用服务,这种新型的计算资源组织、分配和使用模式,有利于合理配置计算资源并提高利用率、降低成本、促进节能减排,实现绿色计算。云计算发展的技术基础主要包括互联网、网络计算、虚拟化技术、服务计算,以及按需付费机制。其目的是为用户提供基于虚拟化技术的按需服务,提供形式主要分为基础设施即服务(IaaS) ,平台即服务( PaaS)和软件即服务(SaaS) 。依据底层基础设施提供者与使用者的所属关系,云计
2、算平台可以分为公共云、私有云和混合云。对于大数据还没有一个正式的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据” 。大数据具有大量、速度快和多样性三大特征,这些特征是传统数据处理方法和工具所无法胜任的。云计算关键技术主要包括四个方面:1.云平台服务优化管理技术。服务优化管理是提高云平台服务质量和平台性能的关键问题。其关键技术包括:云服务资源管理,研究物理机、虚拟机与虚拟集群的按需管理和分区隔离机制;云任务管理,研究云计算任务的分类、高效调度、负载平衡、功耗管理与容错等;云数据管理,研究大规模结构化、非结构化和多媒体数据的建模、组织、存储、操纵、检索、备份和保护以及数据服务技
3、术;应用行为分析与系统测评,研究云计算负载刻画、云任务运行监控与云系统评测的度量方法和基准程序集合;云安全及隐私保护,研究支持不同用户的功能、性能和故障隔离,支持用户身份和用户数据的隐私保护,提供政府监督管接口等;2.云计算应用构建与集成技术。云计算应用构建与集成技术是为行为用户提供服务的关键。关键技术包括应用服务化、应用虚拟化、应用服务集成技术;3.云计算应用系统持续运行技术。为了支持企业的关键业务,云计算平台应用系统的持续运行是基本需求,因此需要研究云计算应用系统的持续运行 技术,主要研究:云计算平台物理资源和虚拟化资源的动态监控技术、云计算平台服务监控技术、云计算应用和用户活动的监控技术
4、;基于监控的故障评测、异常处理、容错及恢复机制,软件服务无缝迁移技术等;计算系统持续运行技术,研究云计算平台中虚拟机的出错迁移机制、虚拟化集群的容错机制、虚拟机安全机制等;4.云计算多模式客户端技术。网络时代的计算以数据、用户和服务为 3 大中心,云端共存、云端互动是未来计算架构发展趋势。云客户端既包括传统的 PC机、笔记本,也包括手机、PDA、汽车移动终端和家电终端等智能移动设备。主要研究多种形态的云客户端 接入技术、多模式客户端服务环境。面向云计算典型行业应用需求,需要研制多种形态,支持三网融合的轻量级云客户端接入技术,为用户提供简单易用的云计算服务;面向典型行业应用众多用户的个性化需求,
5、研究多模式的客户端自适应云服务软件环境。大数据并非一项技术,其前身是商务智能 BI。大数据是一系列信息技术的集合,包括数据采集、数据管理、计算处理、数据分析和数据展现 5 个关键技术环节。其中,数据管理、计算处理和数据分析 3 个环节的变革较大。数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载。由于数据源不一样,数据采集的技术体系也不尽相同。其面临的挑战主要来自两方面,一是如何自动实现对接收的海量数据按照特定策略进行过滤,从而大幅度降低后续存储和处理的压力;二是如何自动生成元数据,准确描述数据出处,获得途径和环境等背景信息,并且将企业内部的数据与互联网的元
6、数据相关联,进行多维元数据分析。不同行业对于元数据的录制要求不尽相同。大数据对存储管理技术的挑战主要在于扩展性。首先是容量上的扩展,要求底层存储架构和文件系统以低沉本的方式及时按需扩展存储空间。传统的NAS、SAN 等存储架构下,存储和计算分离,进行数据计算时 I/O 容易成为瓶颈,文件系统也存在吞吐量和可扩展性差的问题。新的以谷歌 GFS 和 Hadoop HDFS 为代表的系统中,普遍采用了分布式的存储架构,使得计算和存储节点合一,消除了 I/O 瓶颈,文件系统也采用分布式并行设计。但 GFS/HDFS 主要针对大文件的追加(Append)写入和读取进行了优化。下一步的重点是突破GFS/H
7、DFS 在写操作、小文件存取等方面的性能瓶颈,设计新的文件系统。其次是数据格式可扩展,满足各种非结构化数据的管理需求。对大数据进行分析处理要消耗大量的计算资源,这对计算的速度和成本都提出了更高要求。采用并行计算是应对大计算量的普遍做法。但传统的并行计算系统,一般由专用的性能强大的硬件构成,造价昂贵,若想提高系统性能,需要采取纵向扩展(Scale Up)的方式,即通过提升单机 CPU 性能、增加内存、扩展磁盘等达到性能提升。这种扩展容易达到瓶颈,难以支撑持续的计算能力扩展,而且成本很高。总结起来,下一步大数据计算技术的主要方向将集中在研发实时性高的大规模并行处理技术上,以支撑超大规模机器学习、超
8、大规模流量计算等实时分析需求。当前大数据分析技术面临的挑战,一方面是要对结构化和半结构化数据开展深度分析,另一方面是要开发非结构化数据的宝藏,从而将海量复杂多源的数据转化为有用的知识。数据展现主要是如何以更直观和互动的方式展示分析结果,便于人们理解。大数据的分析系统必须提供数据来源、分析过程、查询机制等一系列信息,并以可视化的方式呈现出来。目前,可视化技术多与 Web 技术相结合,以图形或图像的格式呈现,比如 SVG 一系列的绘图技术和最新的 HTML5 的画布等。未来三维动态呈现是趋势。大数据与云计算相结合所释放出的巨大能力,几乎将波及到所有的行业,而信息、互联网和通信产业将首当其冲。特别是
9、通信业,在传统话音业务低值化、增值业务互联网化的趋势中,大数据与云计算有望成为其加速转型的动力和途径,将在五大领域带来新的机会。1提高网络服务质量。随着互联网和移动互联网的发展,运营商的网络将会更加繁忙,用于监测网络状态的信令数据也会快速增长。通过大数据的海量分布式存储技术,可以更好地满足存储需求;通过智能分析技术,能够提高网络维护的实时性,预测网络流量峰值,预警异常流量,有效防止网络堵塞和宕机,为网络改造、优化提供参考,从而提高网络服务质量,提升用户体验。2更加精准的客户洞察客户洞察是指在企业或部门层面对客户数据的全面掌握并在市场营销、客户联系等环节的有效应用。通过使用大数据分析、数据挖掘等
10、工具和方法,电信运营商能够整合来自市场部门、销售部门、服务部门的数据,从各种不同的角度全面了解自己的客户,对客户形象进行精准刻画,以寻找目标客户,制定有针对性的营销计划、产品组合或商业决策,提升客户价值。判断客户对企业产品、服务的感知,有针对性的进行改进和完善。通过情感分析、语义分析等技术,可以针对客户的喜好、情绪,进行个性化的业务推荐。3提升行业信息化服务水平智慧城市的发展以及教育、医疗、交通、环境保护等关系到国计民生的行业,都具有极大的信息化需求。目前,电信运营商针对智慧城市及行业信息化服务虽然能够提供一揽子解决方案,但主要还是提供终端和通信管道,行业应用软件和系统集成尚需要整合外部的应用
11、软件提供商,对于用户的价值主要体现在网络化、自动化等较低水平。而随着社会、经济的发展,用户及用户的用户对于智能化的要求将逐步强烈,因此运营商如能把大数据技术整合到行业信息化方案中,帮助用户通过数据采集、存储和分析更好地进行决策,将能极大提升论文集 宽带中国战略与创新学术研讨会信息化服务的价值。4基于云的数据分析服务大数据和云计算相结合,使得数据分析也可以作为一种服务进行提供。电信运营商目前的云计算服务,主要还是以提供数据中心等资源为主。下一步,电信运营商可以在数据中心的基础上,搭建大数据分析平台,通过自己采集、第三方提供等方式汇聚数据,并对数据进行分析,为相关企业提供分析报告。5保障数据安全大
12、数据也有大风险,其中之一就是用户隐私泄露及数据安全风险。由于大量的数据产生、存储和分析,数据保密和隐私问题将在未来几年内成为一个更大的问题,企业必须尽快开始研究新的数据保护措施。而电信运营商在网络安全、数据中心安全等方面具有优势,如能以此为基础,建立整个大数据领域的安全保障优势,必将从大数据的发展中获益匪浅。云计算大数据时代的到来使得全社会日益成为一个整体,在这一体系中个人隐私的保护已经成为社会信用体系建设的重要基础。我们在鼓励创新和进步的同时必须清醒地看到,无论美国还是任何国家对云计算大数据的使用和公开都是有选择、有目的的,不是无原则地开放,这不仅是受到法律和规则的限制,也与一个国家的整体发展规划和全球战略密切相关。我们在保护个人隐私方面所做的努力不仅是对每个社会成员的保护,更是对国家安全和社会长期持续健康发展的保护。