1、2018/4/12,深入浅出云计算 -课程小结,-吴维俊,我学到了什么?,1 ,什么是云计算,云计算的特点,分类,发展,实现,发展环境和成本优势2,云计算服务类型3,大数据4,分布式文件系统5, 物联网,2018/4/12,我们先来复习复习吧!,首先我懂了云计算是什么?,云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务,云计算分为并行计算,分布式计算,网格计算.,云计算特点,超大规模 虚拟化高可靠性 通用性 高可伸缩性 按需服务 极其廉价,云计算服务类型,IaaS(基础设施即服务)PaaS(平台即服务)SaaS(软件
2、即服务),3 大数据,大数据是神马?大数据应用实例大数据相关技术大数据发展方向,大数据的 4V 特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据 的超大规模和增长总数据量的8090%比结构化数据增长快1050倍是传统数据仓库的1050倍,大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析 而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效,10,发展方向,11,最新报道:
3、4月9日上海新增确诊2例人感染H7N9禽流感病例,浙江新增2例;全国共发现确诊病例28例,共8人死亡。一个好消息是,上海4岁感染H7N9禽流感男童康复;一个坏消息是,农业部称不排除更大范围检出H7N9禽流感。人们很习惯遗忘,政府尤其健忘,可现实逼着政府去反思SARS事件10年后自己在提升信息公开和改善突发事件应对上到底做了什么,流感信息的发现、统计和发布,关键是数据的处理。这一次的禽流感,尤其考验着政府的“大数据”能力。,“大数据”是近来很流行的一个概念,是面对信息爆炸时代产生的海量数据,对这种庞大的数据资源的处理能力和统计技术。谁率先具备从各种各样类型的数据中快速获得有价值信息的能力,谁就是
4、赢家,舍恩伯格在大数据时代开篇中就讲了这个故事:2009年甲型H1N1这种结合了导致禽流感和猪流感的病毒出现时,全球的公共卫生机构都担心一场致命的流行病即将来袭,可各国疾病和预防中心在发现和统计流感信息方面又很滞后,因为人们在以为自己患了普通流感的情况下一般不会去医院,病重时才会去,医院才会搜集到这个信息,而且这种信息传到疾控中心也需时间,所以通告新流感病例时往往会有一两周的延迟。对于一种可能飞速传播的疾病,信息滞后两周的后果将是致命的,而一家知名互联网公司的工程师发表的论文则让公共卫生官员们感到震惊,文章解释了这家公司为什么能够预测到冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的
5、地区和州。这家公司是通过观察人们在网上的搜索记录来完成这个预测的。他们每天都会收到来自全球超过30亿条的搜索指令,他们希望通过分析人们的搜索记录来判断这些人是否患上了流感。他们不是简单地以“哪些是治疗咳嗽和发热的药物”之类检索词条来判断,而是通过检索词条的组合建立了一个数学模型。所以,这一年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,这家公司建立了一个更有效、更及时的指示标,舍恩伯格是想通过这个故事说明,大数据深刻地改变了公共卫生,改变了人们的思维方式。当今天H7N9禽流感成为问题时,我们的政府部门有必要反省自身的“大数据能力”:政府有没有告别那种滞后的统计方式,有没有能力对海量数
6、据进行有效的分析,从而让政府的判断走在疾病传播的前面,不仅能预测,更能在流感传播前进行有效的预防。“大数据”能力不仅是一种统计技术和数据分析能力,更考验着政府在信息上的开放和透明。首先,政府能不能获得真数据?现在很多政府部门最缺乏的就是获得真数据的能力,层层虚报,层层造假,“知情权”被层层说谎的体制所剥夺,没有能力获得反映真实情况的数据信息,海量数据都是垃圾数据。然后,信息能不能自由流动?在一个信息被垄断和被操纵的空间中,信息是很不完整的,碎片化零散的信息自然难以进行大数据分析。最后,信息能不能透明公开?以“担心影响社会稳定”、“公开会引起恐慌”的理由封锁信息,那是最愚蠢的。,分布式文件系统,
7、HDFSGlusterFSCeph,分布式文件系统,在整个分布式系统体系中处于最低层最基础的地位,存储嘛,没了数据,再好的计算平台,再完善的数据库系统,都成了无水之舟了。那么,什么是分布式文件系统,顾名思义,就是分布式+文件系统。它包含这两个方面的内涵,从文件系统的客户使用的角度来看,它就是一个标准的文件系统,提供了一系列API,由此进行文件或目录的创建、移动、删除,以及对文件的读写等操作。从内部实现来看,分布式的系统则不再和普通文件系统一样负责管理本地磁盘,它的文件内容和目录结构都不是存储在本地磁盘上,而是通过网络传输到远端系统上。并且,同一个文件存储不只是在一台机器上,而是在一簇机器上分布
8、式存储,协同提供服务,正所谓分布式。因此,考量一个分布式文件系统的实现,其实不妨可以从这两方面来分别剖析,而后合二为一。首先,看它如何去实现文件系统所需的基本增删改查的功能。然后,看它如何考虑分布式系统的特点,提供更好的容错性,负载平衡,等等之类的。这二者合二为一,就明白了一个分布式文件系统,整体的实现模式。,15,基本架构服务器介绍,与单机的文件系统不同,分布式文件系统不是将这些数据放在一块磁盘上,由上层操作系统来管理。而是存放在一个服务器集群上,由集群中的服务器,各尽其责,通力合作,提供整个文件系统的服务。其中重要的服务器包括:主控服务器(Master/NameNode),数据服务器(Ch
9、unkServer/DataNode),和客户服务器。HDFS和GFS都是按照这个架构模式搭建的。个人觉得,其中设计的最核心内容是:文件的目录结构独立存储在一个主控服务器上,而具体文件数据,拆分成若干块,冗余的存放在不同的数据服务器上。存储目录结构的主控服务器,在GFS中称为Master,在HDFS中称为NameNode。这两个名字,叫得都有各自的理由,是瞎子摸象各表一面。Master是之于数据服务器来叫的,它做为数据服务器的领导同志存在,管理各个数据服务器,收集它们的信息,了解所有数据服务器的生存现状,然后给它们分配任务,指挥它们齐心协力为系统服务;而NameNode是针对客户端来叫的,对于
10、客户端而言,主控服务器上放着所有的文件目录信息,要找一个文件,必须问问它,由此而的此名。主控服务器在整个集群中,同时提供服务的只存在一个,如果它不幸牺牲的话,会有后备军立刻前赴后继的跟上,但,同一时刻,需要保持一山不容二虎的态势。这种设计策略,避免了多台服务器间即时同步数据的代价,而同时,它也使得主控服务器很可能成为整个架构的瓶颈所在。因此,尽量为主控服务器减负,不然它做太多的事情,就自然而然的晋升成了一个分布式文件系统的设计要求。每一个文件的具体数据,被切分成若干个数据块,冗余的存放在数据服务器。通常的配置,每一个数据块的大小为64M,在三个数据服务器上冗余存放(这个64M,不是随便得来的,
11、而是经过反复实践得到的。因为如果太大,容易造成热点的堆叠,大量的操作集中在一台数据服务器上,而如果太小的话,附加的控制信息传输成本,又太高了。因此没有比较特定的业务需求,可以考虑维持此配置.)。数据服务器是典型的四肢发达头脑简单的苦力,其主要的工作模式就是定期向主控服务器汇报其状况,然后等待并处理命令,更快更安全的存放好数据。此外,整个分布式文件系统还有一个重要角色是客户端。它不和主控服务和数据服务一样,在一个独立的进程中提供服务,它只是以一个类库(包)的模式存在,为用户提供了文件读写、目录操作等APIs。当用户需要使用分布式文件系统进行文件读写的时候,把客户端相关包给配置上,就可以通过它来享
12、受分布式文件系统提供的服务了。,分布式支持,1、服务器的错误恢复2、数据的正确性保证3、负载均衡4、垃圾回收,深入阅读http:/ Internet of things”。由此,顾名思义,“物联网就是物物相连的互联网”。这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。物联网就是“物物相连的互联网”。物联网通过智能感知、识别技术与普适计算、泛在网络的融合应用,被称为继计算机、互联网之后世界信息产业发展的第三次浪潮。物联网是互联网的应用拓展,与其说物联网是网络,不如说物联网是业务和应用。因此
13、,应用创新是物联网发展的核心,以用户体验为核心的创新2.0是物联网发展的灵魂。,技术及架构,物联网架构可分为三层:感知层、网络层和应用层。感知层由各种传感器构成,包括温湿度传感器、二维码标签、RFID标签和读写器、摄像头、GPS等感知终端。感知层是物联网识别物体、采集信息的来源。 物联网网络层由各种网络,包括互联网、广电网、网络管理系统和云计算平台等组成,是整个物联网的中枢,负责传递和处理感知层获取的信息。应用层是物联网和用户的接口,它与行业需求结合,实现物联网的智能应用1。,用途范围,物联网用途广泛,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、环境监测、老人护理
14、、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域,与云计算的结合,物联网的智能处理依靠先进的信息处理技术,如云计算、模式识别等技术,云计算可以从两个方面促进物联网和智慧地球的实现:首先,云计算是实现物联网的核心。 其次,云计算促进物联网和互联网的智能融合。,2018/4/12,云存储,云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。 当云计算系统运算和处理的核心是大量数据的存储
15、和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统,2018/4/12,云存储系统的结构模型由 4层组成。,一、存储层存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备,可以是NAS和 iSCSI等IP存储设备,也可以是 SCSI或SAS等 DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者 FC光纤通道网络连接在一起。存储设备之上是一个统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。二、基础管
16、理层基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。三、应用接口层应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘
17、引用平台,远程数据备份应用平台等。四、访问层任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。,2018/4/12,2018/4/12,前提,一、宽带网络的发展二、 WEB2.0技术三、应用存储的发展四、集群技术、网格技术和分布式文件系统五、 CDN内容分发、P2P技术、数据压缩技术六、存储虚拟化技术、存储网络化管理技术七、云存储完整性监测方法和标准,二、 WEB2.0技术,2018/4/12,架构,架构方法分为两类:一种是通过服务来架构;另一种是通过软件或硬件设备来架构。,2018/4/12,功能,云存储提
18、供的诸多功能和性能旨在满足伴随海量非活动数据的增长而带来的存储难题: 随着容量增长,线性地扩展性能和存取速度。 将数据存储按需迁移到分布式的物理站点。 确保数据存储的高度适配性和自我修复能力,可以保存多年之久。 确保多租户环境下的私密性和安全性。 允许用户基于策略和服务模式按需扩展性能和容量。 改变了存储购买模式,只收取实际使用的存储费用,而非按照所有的存储系统,包含未使用的存储容量,来收取费用。 结束颠覆式的技术升级和数据迁移工作。,2018/4/12,2018/4/12,分类,1.公共云存储2.内部云存储3.混合云存储,2018/4/12,隐患,从功能实现上来讲,异地文件存取与文件分享共步
19、技术早上互联网形成之初就已经得到应用,上个世纪初互联网刚刚进入国内时就有厂商提供过网盘服务,当时所谓的网盘并不是现在大家所熟知的网络虚拟磁盘,当时的网盘更像是一个SVN 或FTP 的客户端,而今十多年的发展以后,融入了移动互联网营销理念与新技术的“网盘”被包装成了“云存储”高调的出现在大众面前,据相关统计数据显示国内一线的云存储服务商每天的用户数据新增量已经达PB为单位,可见每天都有数以亿计的用户正在向自己云存储空间中上传下载着各种文件,在这种环境下排除网络带宽消耗之外,我们是否应该反思一下云存储下的未来隐患,2018/4/12,版权风险,有关版权问题目前已经大范围的出现在了国内的网盘服务中,
20、一些个人或团体会将以影视音乐为主体的文件通过云存储的客户端上传至网盘中,然后通过分享的方式对圈子内提供下载,大量的有版权的视频音乐被这种特殊盗版方式进行传播,而且这种传播方式暂时属于监管的空白,部分云存储提供商在版权单位的压力下开始限制链接分享的范围,加强文件的过滤。但是这些手段目前不能从根本上解决云存储中用户上传文件的盗版传播。而要建立起一整套影视文件数字指纹签名检验系统除了庞大的研发的运维成本外,各个利益团体之间的技术标准统一也是短期内难以统一的,但是在问题得到解决之前,此刻这种分享还在进行中,面临侵权问题不仅是用户还是云存储的提供商,2018/4/12,优势,1、节约成本2、更好的备份本
21、地数据并可以异地处理日常数据3、更多的访问和更好的竞争公司员工不在需要通过本地网络来访问公司信息。这就可以让公司员工甚至是合作商在任何地方访问他们需要的数据。因为中小企业不需要花费上千万美元来打造最新技术和最新应用来创造最好的系统,所以云存储为中小企业和大公司竞争铺平道路。事实上,对于很多企业来说,云存储利于小企业比大企业更多,原因就是大企业已经花重金打造自己的数据存储中心,2018/4/12,云存储的发展趋势,(1)安全性(2)便携性(3)性能和可用性(4)数据访问,- 34 -,宽带的发展为云计算提供了硬件基础,0,512 Kbps,1 Mbps,5 Mbps,10 Mbps,100 Mb
22、ps,Hong Kong,South Korea,Singapore,Taiwan,Australia,China,India,Germany,U.K.,France,Canada,U.S.A.,主流速度,高速网络,2 Mbps,1 Gbps,Japan,最大下载速度,- 35 -,当你想把一个大容量的文件上传到网络上,允许35000个用户使用2个月的时间,可使用Amazon的Cloud Front。当你想在网络上存储大量的文档,但是你没有足够的存储空间,可使用Amazon的S3。,个人感觉云计算的云存储更应该发展手机等移动终端方面云就是为了方便用户但是中国的网速确实限制了云计算的发展太慢了,
23、2018/4/12,Dropbox的免费空间只有2GB,但我们可以通过邀请来增加免费空间。Google Drive默认空间有5G。SkyDrive自4月24日起已经把免费储存空间从25GB降至7GB。,2018/4/12,* 收费存储空间大小和价格Dropbox:50GB: $9.99/月:$99/年100GB: $19.99/月:$199/年1TB 以上: 五名使用者 $795 起Google Drive:25GB: $2.49/月100GB: $4.99/月1TB: $49.99/月16TB: $799.99月SkyDrive:20GB: $10/年50GB: $25/年100GB: $5
24、0/年,2018/4/12,云计算趋于服务细分化及安全务实化,近期IBM宣布利用其软件服务的领先技术帮助西部转型、助力营销行业迁移到云平台;另外,赛门铁克为中小企业提供基于SaaS的网络备份方案,使用户方便地备份数据和预防灾难。从以上两家厂商的举措来看,海比研究认为,这揭示了当前云计算应用两个重要的发展趋势,即云服务更加细分化特色化,云安全也走向务实的阶段。,其次,随着云计算服务的应用具体化,云安全解决方案已经拓展到了具体的领域,走入务实的阶段研究认为,未来需求安全解决方案提供商重点考虑的安全解决方案发展方向包括: 第一、 数据安全。包括数据传输安全、数据隔离、数据残留等;第二、 应用安全。包括终端用户安全、三层应用安全等;第三、 技术安全。包括实现资源池建设的虚拟化软件安全、虚拟服务器安全等。,首先,当前云计算服务商为用户提供特色应用,将带给他们带来更多生存空间。,总的来说,上云计算这门课让我收获了很多以前都没听闻过的知识虽说很多我都不懂(这个后来可以再问度娘)但是很多事情一旦有人带你进入了这个领域带入了这个世界那就是你最大的收获闻所未闻那是最大的悲哀知道这世界存在这东西是你去探索的开始,总之,谢谢老师!带我进入了云计算的世界!,