云计算Google的技术构架new.doc-道客多多

资源描述

1、云计算 Google 的技术构架一、前言计算无疑是今年 IT 技术界最热点的关键词之一。从谷歌趋势分析来看，国际上Cloud computing 是从 2007 年中期开始成为整个业界关注的重点，在中国云计算是从 2008 年开始成为中国 IT 界和通信界关注的核心。特别是，当中国移动 2008 年开始关注计算，并推动中国移动相关的业务支撑系统、业务软件平台开始向计算的平台迁移。使得整个中国 IT 界、通信界的相关产业力量更加关注计算，同时大家也开始意识到了计算确实可以大大的节省海量计算的总体拥有成本。 cloud computing 云计算当业界谈到计算的时候，都会第一个想

2、到谷歌 Google。我们日常在使用的 Google Search，Google Earth，Goolge Map，Google Gmail，Google Doc 等等业务都是 Google 基于自己计算平台来提供的。Google 也是通过云计算的方式，大量的降低计算成本，使之业务更具有竞争力。 Google 原先企业初期阶段，获得的投资有限，只能自己攒机，但是很差的机器不可能发挥服务器的性能和稳定性，于是只有去想该如何提高可靠性，如何利用很多“破烂“ 机器获得更高的性能。这就有了云计算的雏形。今天我们都知道 Google 的规模，而如果我们不去认清计算的强大，我们就不知道互 -

3、 Page 2-联网的未来和规则。Google 在 98 年的时候被迫发现了这一规则，然后我们看到了聚合的力量，今天微软、IBM、雅虎、百度、亚马逊这些企业看到了规则，于是开始进入计算领域。所以我们研究计算，可以系统剖析一下 Google 的技术构架，这对于我们搭建自己自身的计算平台有比较好的借鉴意义和标杆意义！二、Google 的整体技术构架说明由于 Google 没有官方发布一个自身的技术构架说明。本文主要的信息都来自互联网中对于 Google 网络技术构架的分析，大量信息来自。 Google 最大的 IT 优势在于它能建造出既富于性价比( 并非廉价)又能承受极高负载的高

4、性能系统。因此 Google 认为自己与竞争对手，如亚马逊网站(Amazon) 、电子港湾(eBay)、微软(Microsoft)和雅虎 (Yahoo)等公司相比，具有更大的成本优势。其 IT 系统运营约为其他互联网公司的 60%左右。同时 Google 程序员的效率比其他 Web 公司同行们高出 50%100%，原因是 Google 已经开发出了一整套专用于支持大规模并行系统编程的定制软件库。从整体来看，Google 的计算平台包括了如下的技术层次。 1）网络系统：包括外部网络(Exterior Network) ，这个外部网络并不是指运营商自己的骨干网，也是指在 Googl

5、e 计算服务器中心以外，由 Google 自己搭建的由于不同地区/ 国家，不同应用之间的负载平衡的数据交换网络。内部网络（Interior Network），连接各个Google 自建的数据中心之间的网络系统。 2）硬件系统：从层次上来看，包括单个服务器、整合了多服务器机架和存放、连接各个服务器机架的数据中心（IDC）。 3）软件系统：包括每个服务器上面的安装的单机的操作系统经过修改过的 Redhat Linux。 Google 计算底层软件系统（文件系统 GFS、并行计算处理算法 Mapreduce、并行数据库 Bigtable，并行锁服务 Chubby Lock，计算消息队列

6、GWQ ） 4）Google 内部使用的软件开发工具 Python、Java 、C+ 等 - Page 3-5）Google 自己开发的应用软件 Google Search 、Google Email 、Google Earth 三、Google 各个层次技术介绍 1、 Google 外部网络系统介绍当一个互联网用户输入的时候，这个 URL 请求就会发到Google DNS 解析服务器当中去，那么 Google 的 DNS 服务器就会根据用户自身的 IP 地址来判断，这个用户请求是来自那个国家、那个地区。根据不同用户的 IP 地址信息，解析到不同的 Google 的数据中心。进入

7、第一道防火墙，这次防火墙主要是根据不同端口来判断应用，过滤相应的流量。如果仅仅接受浏览器应用的访问，一般只会开放 80 端口 http，和 443 端口 https （通过 SSL 加密）。将其他的来自互联网上的非 Ipv4 /V6 非 80/443 端口的请求都放弃，避免遭受互联网上大量的 DOS 攻击。据说 Google 使用了思杰科技（Citrix Systems）的 Netscaler 应用交换机来做 web 应用 - Page 4-的优化。NetScaler 可将 Web 应用性能加速高达 5 倍。使用高级优化技术如动态缓存时，或者当网络延迟或数据包丢失增大时，性能增益会

8、更高。这里提到的 http multiplexting 技术是可以是进行 http 的每个 session 分解开。从不同的后端服务器（缓存）来获取内容，这样可以大大提升 web http 性能，同时有效降低后端 web 应用服务器的处理和联接压力。在大量的 web 应用服务器（Web Server Farm）前，Google 使用反向代理（Reverse Proxy ）的技术。反向代理（Reverse Proxy ）方式是指以代理服务器来接受 internet 上的连接请求，然后将请求转发给内部网络上的服务器，并将从服务器上得到的结果返回给 internet 上请求连接的客户

9、端，此时代理服务器对外就表现为一个服务器。 Google 使用的是 Squid Cache 的软件方式来实现反向代理应用的，Squid Cache 一个流行的自由软件（GNU 通用公共许可证）的代理服务器和 Web 缓存服务器。Squid 有广泛的用途，从作为网页服务器的前置 cache 服务器缓存相关请求来提高 Web 服务器的速度。在 Google web 应用服务器需要调用 Google 内部存储的信息和资源的时候，在通过一个防火墙进入内部的网络，来访问其他的基于自身 GFS II 系统的应用服务和数据库。 2、 Google 内部网络架构介绍 Google 自己已经建设了跨国的

10、光纤网络，连接跨地区、跨国家的高速光纤网络。内部网络已经都是 Ipv6 的协议在运行。网络中的路由交换设备主要还是来自 Juniper, Cisco, Foundry, HP 这四家公司。内部网关协议（IRP）是基于 OSPF(开放式最短路径优先)进行修改 - Page 5-的。在每个服务器机架内部连接每台服务器之间网络是 100M 以太网，在服务器机架之间连接的网络是 1000M 以太网。在每个服务器机架内，通过 IP 虚拟服务器（IP Virtual Server）的方式实现传输层负载Linux 内核内的平衡，这个就是所谓四层 LAN 交换。IPVS 使一个服务器机架中的众多服务成

11、为基于 Linux 内核虚拟服务器。这就像在一堆服务器前安装一个负载均衡的服务器一样。当 TCP/UDP 的请求过来后，使一服务器可以使用一个单一的 IP 地址来对外提供相关的服务支撑。 3、 Google 的大规模 IDC 部署战略 Google 应该是目前世界上存储信息最多的企业了。而且还在一直不断的致力于将传统信息仅可能的数字化。将这样海量的信息进行存储、进行处理。就需要大量的计算机服务器。为了满足不断增长的计算需求。Google 很早就进行了全球的数据中心的布局。由于数据中心运行后，面临的几个关键问题的就是充足电力供应、大量服务器运行后的降温排热和足够的网络带宽支持。所以

12、 Google 在进行数据中心布局的时候，就是根据互联网骨干带宽和电力网的核心节点进行部署的，尽快考虑在河边和海边，想办法通过引入自然水流的方式来降低降温排热的成本。达拉斯（Dalles）是美国俄勒冈州北部哥伦比亚河（Columbia river）岸上的一个城市，Google 在 Dalles 的边上拥有的 30 英亩土地，他们在这里建立了几乎是世界上最大，性能最好的数据中心。四个装备有大空调设施的仓库内，放置着数万台 Internet 服务器，这些服务器每天处理着数十亿条 Google 网站传递给世界各个角落的用户的数据。 - Page 6-Google 达拉斯这个数据中心占用

13、了附近一个 180 万千瓦（1.8GW）水力发电站的大部分电力输出。对比来看目前中国长江三峡水电站的额定功率是 1820 万千瓦。目前 Google 已经在全球运行了 38 个大型的 IDC 中心，超过 300 多个 GFSII 服务器集，超过 80 万台计算机。从服务器集部署的数量来看美国本地的数量第一，欧洲地区第二，亚洲地区第三，在南美地区和俄罗斯各有一个 IDC 数据中心。目前 Google 在中国的北京和香港建设了自己的 IDC 中心，并部署了自己的服务器农场。其中目前还在进行建设的第 38 个 IDC 是在奥地利的林茨市（Linz ）附近的 Kronstorf 村。未来

14、，Google 还准备在中国台湾地区、来西亚、立陶宛等地区来进行部署。从目前的 Google 数据中心部署的情况来看，中东和非洲地区目前 Google 还没有建设计划。下图是 Google 的 IDC 中心/服务器农场（Google Server Farm）的全球分布图。 - Page 7-Google 自己设计了创新的集装箱服务器，数据中心以货柜为单位，标准谷歌模块化集装箱装有 30 个的机架，1160 台服务器，每台服务器的功耗是250KW。（Google2009 年公布的信息）。下图是 Google 模块化集装箱的设计示意图。这种标准的集装箱式的服务器部署和安装策略可以是

15、 Google 非常快速的部署一个超大型的数据中心。大大降低了对于机房基建的需求。 4、 Google 自己设计的服务器机架构架 Google 的服务器机架有两种规格 40U/80U 的。这主要是因为原来每个服务器刀片是1U - Page 8-高，新的服务器刀片都是 2U 高的。据说 Google 后期使用的服务器主板是台湾技嘉，服务器主板可以直接插入到服务器机架中。 5、 Google 自己设计的 PC 服务器刀片绝大部分企业都会跟诸如戴尔、惠普、IBM 或 Sun 购买服务器。不过 Google 所拥有的八十万台服务器都是自己设计打造来的，Google 认为这是公司的核心技术之一。G

16、oogle 的硬件设计人员都是直接和芯片厂商和主板厂商协作工作的。 2009 年，Google 开始大量使用 2U 高的低成本解决方案。标准配置是双核双通道CPU，据说有 Intel 的，也有 AMD 的在使用。8 个 2GB 的 DDR3，支持 ECC 容错的高速内存，采用 RAID 1 的磁盘镜像，来提升 I/O 效率。磁盘采用 SATA，单机存储容量可以达到 1-2TB 。每个服务器刀片自带 12V 的电池来保证在短期没有外部电源的时候可以保持服务器刀片正常运行。Google 的硬件设计人员认为，这个自带电池的方式，要比传统的使用 UPS 的方式效率更高。一般数据中心多倚赖称

17、为不间断电源系统(UPS)的大型中控机型，这基本上算是大电池，- Page 9-会在主电力失效而发电机还来不及启动时，暂时协助供电。Google 的硬件设计人员表示，直接把电力内建到服务器比较便宜，而且成本能直接跟服务器数量相符合。 “这种作法比使用大型 UPS 节省得多，如此也不会浪费多余的容量。 ” 效率也是另一个财务考量因素。大型 UPS 可达 92-95%的效率，这意味着许多电力还是被浪费掉了。但 Google 采用的内建电池作法却好很多，Google 相关人员表示， “我们测量的结果是效率超过 99.9% 。年份 Google 服务器刀片硬件配置 1999/2000 PII

18、/PIII 128MB+ 2003/2004 Celeron 533, PIII 1.4 SMP, 2-4GB DRAM, Dual XEON 2.0/1-4GB/40-160GB IDE - SATA Disks via Silicon Images SATA 3114/SATA 3124 2006 Dual Opteron/Working Set DRAM(4GB+)/2x400GB IDE (RAID0?) 2009 2-Way/Dual Core/16GB/1-2TB SATA 6、 Google 服务器使用的操作系统 Google 服务器使用的操作系统是基于 Redhat Linux

19、2.6 的内核，并做了大量修改。修改了 GNU C 函数库（ glibc），远程过程调用（RPC），开发了自己的 Ipvs，自己修改了文件系统，形成了自己的 GFSII，修改了 linux 内核和相关的子系统，是其支持 IPV6。采用了 Python 来作为主要的脚本语言。下表是一些大型互联网公司使用的操作系统对比。网站操作系统 Web 应用服务器 Google Linux Google Web Server - Page 10-微软 Windows server IIS ebay Windows server IIS 阿里巴巴 Linux Apache 新浪 Free BS

20、D Apache 百度 Linux Apache 163 Linux Apache 搜狐 Sco Unix Apache 7、 Google 计算文件系统 GFS/GFSII GFSII cell 是 Google 文件系统中最基础的模块。任何文件和数据都可以利用这种底层模块。GFSII 通过基于 Linux 分布存储的方式，对于服务器来说，分成了主服务器（Master Servers）和块存储服务器（Chunk Servers），GFS 上的块存储服务器上的存储空间以 64MB 为单位，分成很多的存储块，由主服务器来进行存储内容的调度和分配。每一份数据都是一式三份的方式，将同样的数

21、据分布存储在不同的服务器集中，以保证数据的安全性和吞吐的效率提高。当需要对于文件、数据进行存储的时候，应用程序之间将需求发给主服务器，主服务器根据所管理的块存储服务器的情况，将需要存储的内容进行分配，并将可以存储的消息（使用那些块存储服务器，那些地址空间），有应用程序下面的 GFS 接口在对文件和数据直接存储到相应的块存储服务器当中。块存储服务器要定时通过心跳信号的方式告知主服务器，目前自己的状况，一旦心跳信号出了问题，主服务器会自动将有问题的块存储服务器的相关内容进行复制。以保证数据的安全性。数据被存储时是经过压缩的。采用的 BMDiff 和 Zippy 算法。BMDif

22、f 使用最长公共子序列进行压缩, 压缩 100MB/s, 解压缩约 1000MB/s.类似的有 IBM Hash Suffix Array Delta Compression.Zippy 是 LZW 的改进版本, 压缩比不如 LZW, 但是速度更快. - Page 11-8、 Google 并行计算构架 Mapreduce 有了强大的分布式文件系统，Google 遇到的问题就是怎么才能让公司所有的程序员都学会些分布式计算的程序呢？于是，那些 Google 工程师们从 lisp 和其他函数式编程语言中的映射和化简操作中得到灵感，搞出了 Map/Reduce 这一套并行计算的框架。Map/R

23、educe 被 Google 拿来重新了 Google Search Engine 的整个索引系统。而 Doug Cutting 同样用 Java 将这一套实现和 HDFS 合在一起成为 Hadoop 的 Core。 MapReduce 是 Google 提出的一个软件架构，用于大规模数据集（大于 1TB）的并行运算。概念“Map （映射） ”和“Reduce （化简） ”，和他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。映射和化简简单说来，一个映射函数就是对一些独立元素组成的概念上的列表（例如，一个测试成绩的列表）的每一个元素进行指定的操作（比如前面的

24、例子里，有人发现所有学生的成绩都被高估了一分，他可以定义一个“减一”的映射函数，用来修正这个错误。）。事实上，每个元素都是被独立操作的，而原始列表没有被更改，因为这里创建了一个新的列表来保存新的答案。这就是说，Map 操作是可以高度并行的，这对高性能要求的应用以并行计算领域的需求非常有用。而化简操作指的是对一个列表的元素进行适当的合并（继续看前面的例子，如果有人想知道班级的平均分该怎么做？他可以定义一个化简函数，通过让列表中的元素跟自己的相 - Page 12-邻的元素相加的方式把列表减半，如此递归运算直到列表只剩下一个元素，然后用这个元素除以人数，就得到了平均分。）

25、。虽然他不如映射函数那么并行，但是因为化简总是有一个简单的答案，大规模的运算相对独立，所以化简函数在高度并行环境下也很有用。分布和可靠性 MapReduce 通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间，主节点（类同 Google File System 中的主服务器）记录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突；当文件被改名的时候，系统可能会把他们复制到任务名以外的另一个名字上去。

26、（避免副作用）。化简操作工作方式很类似，但是由于化简操作在并行能力较差，主节点会尽量把化简操作调度在一个节点上，或者离需要操作的数据尽可能进的节点上了；这个特性可以满足 Google 的需求，因为他们有足够的带宽，他们的内部网络没有那么多的机器。在 Google，MapReduce 用在非常广泛的应用程序中，包括“分布 grep，分布排序，web 连接图反转，每台机器的词矢量，web 访问日志分析，反向索引构建，文档聚类,机器学习，基于统计的机器翻译.”值得注意的是，MapReduce 实现以后，它被用来重新生成 Google 的整个索引，并取代老的 ad hoc 程序去更新索引。M

27、apReduce 会生成大量的临时文件，为了提高效率，它利用 Google 文件系统来管理和访问这些文件。 - Page 13-9、 Google 并行计算数据库 Bigtable 有了强大的存储，有了强大的计算能力，剩下的 Google 要面对的是：它的应用中有很多结构化、半结构化的数据，如何高效地管理这些结构化、半结构化的数据呢？Google 需要的是一个分布式的类 DBMS 的系统，于是催生了 BigTable 这个东西 Google 的 BigTable 从 2004 年初就开始研发了， BigTable 让 Google 在提供新服务时的运行成本降低，最大限度地利用了计算能力

28、。BigTable 是建立在 GFS ，Scheduler ，Lock Service 和 MapReduce 之上的。每个 Table 都是一个多维的稀疏图 sparse map。Table 由行和列组成，并且每个存储单元 cell 都有一个时间戳。在不同的时间对同一个存储单元 cell 有多份拷贝，这样就可以记录数据的变动情况。数据存储的结构是(row:string, column:string, time:int64) string 行：表中的行键（目前任意字符串至 64KB 的大小）。每一个读取或写入的数据下单行的关键是原子（不论数目不同的列被读取或行中写的），更容易

29、为客户的原因关于系统中的行为同时存在对同一行的更新。列： - Page 14-列项分为集合称为列的家族，它们形成了访问控制的基本单位。所有数据在一列中存储的家族通常是同一类型。当数据以这个列键值被存储之前，列的家族必须被创建。家族内的任何列键值可以使用。因为，重叠的列键值比较少，与此相反，一个表可能有无限的列数。时间戳： Bigtable 的每一个细胞中可以包含多个版本同样的数据，这些版本的时间戳索引。Bigtable 的时间戳 64 位整数。它们可以被分配由 Bigtable 的，在这种情况下，他们真正代表联聪以微秒的时间，或明确指定的客户端应用程序。应用程序需要避免冲突必须创造自

30、己独特的时间戳。不同一个单元格的版本都存储在时间戳顺序递减，因此，最近的版本可以首先阅读。为了管理大的 Table，把 Table 根据行分割，这些分割后的数据统称为：Tablets 。每个 Tablets 大概有 100-200 MB，每个机器存储 100 个左右的 Tablets 。底层的架构是：GFS。由于 GFS 是一种分布式的文件系统，采用 Tablets 的机制后，可以获得很好的负载均衡。比如：可以把经常响应的表移动到其他空闲机器上，然后快速重建。Tablets 在系统中的存储方式是不可修改的 immutable 的 SSTables，一台机器一个日志文件。 BigTa

31、ble 中最重要的选择是将数据存储分为两部分，主体部分是不可变的，以 SSTable 的格式存储在 GFS 中，最近的更新则存储在内存（称为 memtable）中。读操作需要根据SSTable 和 memtable 还综合决定要读取的数据的值。 - Page 15-Google 的 Bigtable 是不支持事务，只保证对单条记录的原子性。事务是好东西，但事务也是导致数据库实现复杂化、性能下降最主要的根源。BigTable 的开发者通过调研后发现其实大家对事务都没什么需求，只要保证对单条记录的更新是原子的就可以了。这样，为了支持事务所要考虑的串行化、事务的回滚等、死锁检测（一般认为，分布

32、式环境中的死锁检测是不可能的，一般都用超时解决）等等复杂问题都不见了。系统实现进一步简化。 10、 Google 并行锁服务 Chubby lock 在 Google 这种的分布式系统中，需要一种分布式锁服务来保证系统的一致性。于是 Google 有了 Chubby lock service。而同样是 Yahoo ！Research 向开源贡献了Zookeeper，一个类似 Google Chubby 的项目。在 Google File System(GFS)中，有很多的服务器，这些服务器需要选举其中的一台作为 master server。Value 就是 master server 的

33、地址，GFS 就是用 Chubby 来解决的这个问题，所有的 server 通过 Chubby 提供的通信协议到 Chubby server 上创建同一个文件，当然，最终只有一个 server 能够获准创建这个文件，这个 server 就成为了 master，它会在这个文件中写入自己的地址，这样其它的 server 通过读取这个文件就能知道被选出的 master 的地址。 Chubby 首先是一个分布式的文件系统。Chubby 能够提供机制使得 client 可以在 Chubby service 上创建文件和执行一些文件的基本操作。说它是分布式的文件系统，是因为一个 Chubby cel

34、l 是一个分布式的系统。但是，从更高一点的语义层面上， Chubby 是一个 lock service，一个针对松耦合的分布式系统的 lock service。所谓 lock service，就是这个 service 能够提供开发人员经常用的“锁” ， “解锁”功能。通过 Chubby，一个分布式系统中的上千个 client 都能够对于某项资源进行“加锁” ， “解锁” 。 Chubby 中的“锁”就是建立文件，在上例中，创建文件其实就是进行“加锁”操作，- Page 16-创建文件成功的那个 server 其实就是抢占到了“锁” 。用户通过打开、关闭和读取文件，获取共享锁或者独占锁；

35、并且通过通信机制，向用户发送更新信息。 11、 Google 消息序列处理系统 Google Workqueue GWQ （Google Workqueue）系统是负责将 Mapreduce 的工作任务安排各个各个计算单位的（Cell/Cluster）。仲裁（进程优先级）附表，分配资源，处理故障，报告情况，收集的结果- 通常队列覆盖在 GFS 上的。消息队列处理系统可以同时管理数万服务器。通过API 接口和命令行可以调动 GWQ 来进行工作。 12、 Google 的开发工具。除了传统的 C+ 和 Java。还开始大量使用 Python。 Python 是一种面向对象、直译式计算机程

36、序设计语言，也是一种功能强大而完善的通用型语言，已经具有十多年的发展历史，成熟且稳定。这种语言具有非常简捷而清晰的语法特点，适合完成各种高层任务，几乎可以在所有的操作系统中运行。 Python 可能被粗略地分类为“脚本语言” （Script Language），但实际上一些大规模软件开发计划例如 Zope、Mnet BitTorrent，Google 也广泛地使用它。 Python 的支持者较喜欢称它为一种高级动态编程语言，原因是“脚本语言”泛指仅作简单编程任务的语言，如 shell script、JavaScript 等只能处理简单任务的编程语言，并不能与 Python 相提并论。

37、此外，由于 Python 对于 C 和其他语言的良好支持，很多人还把 Python 作为一种“ 水语言” （Glue Language）使用。使用 Python 将其他语言编写的程序进行集成和封装。在 Google 内部的很多项目使用 C+ 编写性能要求极高的部分，然后用 Python 调用相应的模块。 Sawzall，为了是内部的工程师和程序人员可以更方便的适应并行计算的方式，Google 自己开发的一种查询语言，Sawzall 是一种类型安全的脚本语言。由于 Sawzall 自身处理了很多问题，所以完成相同功能的代码就简化了非常多-与 MapReduce 的 C+代码相比简化了10 倍

38、不止。 - Page 17-四、借鉴与总结从 Google 的整体的技术构架来看，Google 计算系统依然是边做科学研究，边进行商业部署，依靠系统冗余和良好的软件构架来低成本的支撑庞大的系统运作的。大型的并行计算，超大规模的 IDC 快速部署，通过系统构架来使廉价 PC 服务器具有超过大型机的稳定性都已经不在是科学实验室的故事，已经成为了互联网时代，IT 企业获得核心竞争力发展的基石。 Google 在应对互联网海量数据处理的压力下，充分借鉴了大量开源代码，大量借鉴了其他研究机构和专家的思路，走了一条差异化的技术道路，构架自己的有创新性的计算平台。从 Google 这样互联网企业可以看到，基于 Linux 系统的开源代码的方式，让企业可以不收到商业软件系统的限制，可以自主进行二次、定制开发。而这种能充分利用社会资源，并根据自己的能力进行定制化的系统设计最终将会成为互联网企业之间的核心竞争力。

展开阅读全文