1、第一章1.硬件驱动力 网络驱动力2. 西摩克雷(Seymour Cray)3.约翰麦卡锡4.蒂姆博纳斯李5.吉姆格雷6.Java7.基础设施即服务 平台即服务 软件即服务8. (1) 超大规模“云”具有相当的规模,Google 云计算已经拥有 100多万台服务器, Amazon、IBM、微软、Yahoo 等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。 “云”能赋予用户前所未有的计算能力。(2) 虚拟化云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云” ,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运行的具体位
2、置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。(3) 高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。(4) 通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。(5) 高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6) 按需服务“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。(7) 极其廉价由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中式管
3、理使大量企业无需负担日益高昂的数据中心管理成本, “云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。(8) 潜在的危险性云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人
4、机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息) ”的重要性挟制整个社会。对于信息社会而言, “信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的前提。9.MPI、Hadoop、HPCC、StormKVM、VMware10.(1)数据查询分析计算系统 HBase:开源、分布式、面向列的非关系型数据库模型,是 Apache的 Hadoop项目的子项目,实现了
5、压缩算法、内存操作和布隆过滤器。(2)批处理系统:MapReduce 是被广泛使用的批处理计算模式。MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想,讲数据记录的处理分为 Map和 Reduce两个简单的抽象操作,提供了一个统一的并行计算框架。(3)流式计算机系统:流式计算机具有很强的实时性,需要对应用源源不断产生的数据实时进行处理,是数据不积压、不丢失,常用于处理电信、电力等行业应用以及互联网行业的访问日志等。(4)迭代计算系统:针对 MapReduce不支持迭代计算的缺陷,人民对 Hadoop进行了大量改进。(5)图计算系统:社交网络、网页链接等包含具有
6、复杂关系的图数据,这些图数据规模巨大,可包含数十亿顶点和上百亿条边,图数据需要有专门的系统进行存储和计算。(6)内存计算系统:随着内存价格的不断下降、服务器可配置内存容量的不断增长,使用内存计算完成高速的大数据处理已成为大数据处理的重要发展方向。11. 大数据处理需要有三个基本的环节和五个方面的工作。首先要有“数据采集”的方法和途径(采集) ;其次要用符合教育原理的数据处理方法(建模) ;另外,还要有“数据还原现象”综合方法(还原) 。其中,还有“数据清理” 、 “数据汇聚”等技术处理工作。在整个大数据处理过程中,还需要考虑“数据安全”和“隐私保护”等问题。第二章1. 对 key值首先用 MD
7、5算法将其变换为一个长度 32位的十六进制数值,再用这个数值对 2的 32次方取值,将其映射到 2的 32次方个值构成的环状哈希空间,对节点也以相同的方法映射到环状哈希空间中找到大于它的最小节点值作为路由值。2. 思辨研究范式批判研究范式行动研究范式实证研究范式3. 物联网产业链可细分为标识、感知、处理和信息传送 4 个环节4. Column-Oriented、Key-Value、Document-Oriented第三章1.统一性 高效性 受控性2.指令集架构级虚拟化 硬件抽象层虚拟化 操作系统性虚拟化 编程语言上的虚拟化 库函数层的虚拟化3.VirtualBox VMware Worksta
8、tion KVM4.硬件无关性 隔离线 多实例 特权功能5.服务虚拟化 桌面虚拟化 网络虚拟化6.CPU虚拟化 内存虚拟化 I/O虚拟化7.虚拟化技术就是一种逻辑简化技术,实现物理层向逻辑层的变化。采用虚拟化技术能实现对物理层运动复杂性的屏蔽,使系统对运行呈现出简单的逻辑运行状态。8.虚拟化技术的优势:虚拟化技术可以提高资源利用率提供相互隔离、高效的应用执行环境虚拟化技术可以简化资源和资源的管理虚拟化技术实现软件和硬件的分离虚拟化技术的劣势:可能会使物理计算机负载过重升级和维护引起的安全问题物理计算机的影响第六章1. GFS MapReduce 大表(BigTable)2. 1)Client(
9、客户端)使用固定大小的块(GFS 中文件分块大小为64 MB)将应用程序指定的文件名和字节偏移转换成文件的一个块索引(Chunk Index) ,Client 缓存文件名和块索引信息,并向 Master发送一个包含文件名和块索引的请求。2)Master 收到客户端发来的请求,Master 向 Chunkserver发出指示,并实时监控众多 Chunkserver的状态。Chunkserver 缓存Master从客户端收到的文件名和块索引等信息。3)Master 通过与 Chunkserver的交互,向客户端发送 chunk-handle(块句柄)和副本位置。其中文件被分成若干个块,而每个块都是由一个不变的、全局唯一的 64位的 chunk-handle标识。chunk-handle是由 Master在块创建时分配的。为了保证数据的可靠性,每一个文件块都要被复制到多个 Chunkserver上。默认情况下,保存 3个副本,但这可以由用户指定。4)客户端向其中的一个副本发出请求,很可能是最近的一个副本。请求指定了 chunk-handle和块内的一个字节区间。5)若是读取数据,客户端从 Chunkserver获得块数据,任务完成。3.图片完整版: