Hadoop基本原理与入门实践.ppt-道客多多

资源描述

1、Hadoop基本原理与入门实践,网络文化与数字传播中心北京市重点实验室,讲述内容,干货奉上第1章 Hadoop 的起源第2章 hadoop 环境配置第3章 Hadoop 实战(wordcount与倒排索引) 更多内容第4章 Hadoop 细节,什么是大数据,一个交易系统中的大数据是什么看看现在公司核心业务是什么；并由此产生了多少数据，又有多少数据是公司要处理的。但是一个传统平台并没有这么高的成本效益来处理大数据；企业需要一个很好的平台能够搜集所有有效的数据：有效地处理大量数据，与系统进行交互和通信这就是Hadoop。那么小型数据平台和大型数据平台又有什么区别？首先水平扩展性，这

2、是一个很有挑战性的问题；必须能够方便的使用并且能够非常灵活在一些不同的应用中使用，也能在虚拟的云计算中使用的平台。这就是企业所期待的平台大数据平台。,hadoop的起源,Hadoop 开始时时nutch的一个子项目，而nutch又是Apache Lucene的子项目。这三个项目都是由Doung Cutting创立，每个项目都是上一个项目的演进。 Lucene是搜索引擎开发工具包，提供了一个纯Java的高性能全文检索，他可以方便嵌入实际应用中实现全文搜索、索引功能。 Nutch项目始于2002年，是以Lucene为基础的实现的搜索引擎应用。Lucene为nutch提供了文本搜索和索引API，N

3、utch不光有搜索功能，还有数据抓取功能。很快，Doug Cutting和Mike(Hadoop和Nutch的另一位创始人)就意识到，他们的架构无法扩展支持数以十亿的网页。这时候，Google的研究人员在2003 ACM会议上发表描述了谷歌的分布式文件系统，即GFS的论文，即时为他们提供了帮助，解决了网络抓取和索引过程中产生大量文件存储的需求，于是，他们开始写GFS的一个开源实现，即Nutch的分布式文件系统，NDFS。 2004年,2004年，google发表论文介绍了他们的MapReduce系统。 2005年，Nutch开发人员在Nutch上实现了第一个MapReduce系统，并在年中实

4、现了算法完全移植。这样，Nutch的NDFS和MapReduce实现不只是适用于搜索领域。 2006年2月，开发人员将NDFS和MapReduce移出了Nutch形成了Lucene的一个子项目，称为Hadoop。与此同时，创始人Doung加入了yahoo，yahoo将Hadoop发展成一个能够处理Web数据的系统。 2008年2月，Yahoo！宣布其搜索引擎使用的索引是在一个拥有1万个内核的Hadoop集群上构建的。 2008年1月，Hadoop称为Apache的顶级项目。至今，除了Yahoo！外，还有 Facebook等其他公司使用Hadoop架构。 2008年4月，Hadoop打破世界纪录

5、，成为最快的TB级别排序系统。通过一个910个节点的集群，Hadoop在209秒内完成对1TB的数据的排序。 2008年11月，Google的报告中声称，它的MapReduce对1TB排序只用了68秒。 2009年5月，Yahoo！的团队排序用了62秒。,什么是hadoop？它能干什么？,诞生背景：谷歌面对的数据和计算难题,1.大量的网页怎么存储？2.搜索算法,什么是hadoop？,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop D

6、istributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。 Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。,Hadoop 体系结构,HDFS（Hadoop Dist

7、ributed File System）和Mapreduce是hadoop的两大核心HDFS(文件系统)实现分布式存储的底层支持Mapreduce(编程模型)实现分布式并行任务处理的程序支持,Hadoop 子项目家族,Hadoop HDFS,HDFS：采用Master/Slave结构模型,Master NameNode JobTracker,DataNodeTaskTracker,DataNodeTaskTracker,DataNodeTaskTracker,DataNodeTaskTracker,Secondary NameNode,HDFS术语,HDFS主要组件的功能,NameNode

8、DataNode 存储元数据存储文件内容元数据保存在内存中文件内容保存在磁盘,Hadoop MapReduce 也采用了 Master/Slave（ M/S）架构,MapReduce术语,MapReduce,第二章 hadoop环境配置,孩儿们操练起来！,实验环境,1.PC:linux环境：vmware虚拟机下unbuntu 14.042或windows环境：windows+Cygwin2.java环境：java version “1.7.0_75“ 3. Apache官网下载 hadoop 2.6.0 4.SSH：windows下可以使用SecureCRT或putty等ssh cli

9、ent程序，作用是用来远程连接linux服务器，linux下可以直接使用ssh命令,下载Hadoop,Hadoop目录结构,为什么要配环境变量,1.告诉计算机Hadoop来了：例如输命令调用Hadoop时告诉计算机hadoop的位置，配置PATH路径。 2.告诉Hadoop计算机的信息：将Hadoop部署到计算机上，并用hadoop完成一项工作时需要计算机的一些资源，例如登陆HDFS时需要用到计算机端口。 3.Hadoop工作时需要按需求配置一些参数，例如告诉Hadoop做分布式运算时有多少个节点。,演出开始 Hadoop三种运行模式,单机模式:只有一个JVM进程, 没有分布式,不使用HDFS

10、,伪分布式模式:只有一台机器,每个Hadoop守护进程都是一个独立的JVM进程,通常用于调试。,完全分布式模式:运行于多台机器上,真实环境。,Hadoop三种运行模式,1.单机模式：安装简单，几乎不用作任何配置，但仅限于调试用途2. 伪分布模式：在单节点上同时启动namenode、 datanode、 jobtracker、 tasktracker、 secondary namenode等5个进程，模拟分布式运行的各个节点3. 完全分布式模式：正常的Hadoop集群，由多个各司其职的节点构成,Hadoop配置有关文件,Hadoop伪分布环境搭建步骤：1.配置系统环境变量：/etc/prof

11、ile2.配置hadoop环境变量：修改hadoop目录以下文件hadoop-env.sh、mapred-site.xml、core-site.xmlhdfs-site.xml、yarn-site.xml3.SSH免密码登陆,Hadoop伪分布环境搭建 1.配置 etc/profile 添加： export JAVA_HOME=/home/flamingo/jdk1.7.0_75 export HADOOP_HOME=/home/flamingo/hadoop-2.6.0 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

12、 export PATH=$PATH:$JAVA_HOME/bin;$PATH:$HADOOP_HOME/bin2.配置 hadoop-env.sh 添加： export JAVA_HOME=/home/flamingo/jdk1.7.0_75,3.修改hadoop-2.6.0文件权限为用户权限：默认没有mapred-site.xml文件，复制mapred-site.xml.template一份，并把名字改为mapred-site.xml4.配置下面4个重要文件： mapred-site.xml core-site.xml hdfs-site.xml yarn-site.xml, mapre

13、d-site.xmlmapred.job.trackerMaster.hadoop:9001Host or IP and port of JobTracker. ,core-site.xmlhadoop.tmp.dir /home/flamingo/hadoop-2.6.0/tmp Abase for other temporary directories.fs.default.name hdfs:/Master.hadoop:9000,hdfs-site.xmldfs.replication1 dfs.name.dir/home/flamingo/hadoop-2.6.0/dfs/name

14、dfs.data.dir/home/flamingo/hadoop-2.6.0/dfs/data ,yarn-site.xml：yarn.nodemanager.aux.servicesmapreduce_shuffle ,SSH免密码登陆 1、安装SSH：sudo apt-get install ssh生成公钥与私钥：ssh-keygen -t rsa 2. ls -al /home/flamingo看是否创建好.ssh目录 3. 创建.ssh目录: mkdir /home/flamingo/.ssh 4.将公钥加入到用于认证的公钥文件中: 进入.ssh目录：cd .ssh cp id_rs

15、a.pub authorized_keys 5.免密码登陆：ssh localhost配置完成！,登陆HDFS 格式化NameNode： bin/hadoop namenode -format 启动HDFS: start-dfs.sh ,start-yarn.sh 或者直接 sbin/start-all.sh 查看web页面信息：localhost：50070,Eclipse下搭建Hadoop2.6.0开发环境,1.安装eclipse 2.下载hadoop对应版本的eclipse插件。 3.把插件放到eclipse/plugins目录下 4.重启eclipse，打开WindowsPrefere

16、nces后，在窗口左侧会有Hadoop Map/Reduce选项，点击此选项，在窗口右侧设置Hadoop安装路径。 5.配置Map/Reduce Locations。在WindowShow View中打开Map/Reduce Locations.在Map/Reduce Locations中新建一个Hadoop Location。在这个View中，右键New Hadoop Location。在弹出的对话框中你需要配置Location name，如Hadoop，还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、cor

17、e-site.xml中配置的地址及端口。,第三章 Hadoop 实战(wordcount),先来说说mapreduce编程模型,从 MapReduce 自身的命名特点可以看出，MapReduce由两个阶段组成： Map 和Reduce。用户只需编写 map()和 reduce() 两个函数，即可完成简单的分布式程序的设计。map() 函数以 key/value 对作为输入，产生另外一系列key/value 对作为中间输出写入本地磁盘。 MapReduce 框架会自动将这些中间数据按照 key 值进行聚集，且 key 值相同（用户可设定聚集策略

18、，默认情况下是对 key 值进行哈希取模）的数据被统一交给 reduce() 函数处理。reduce() 函数以 key 及对应的 value 列表作为输入，经合并 key 相同的 value值后，产生另外一系列 key/value对作为最终输出写入 HDFS。,MapReduce核心功能,Mapreduce版“Hello World”WordCount功能：统计输入文件中的每个单词出现的次数在mapreduce中，可以这样编写（伪代码）：,HDFS的上传和下载,通过ecplipse 通过命令行 bin/hadoop fs -put /本地路径 /hdfs路径 bin/hadoop

19、fs -get /hdfs路径 /本地路径,Mapreduce能处理哪些问题？,MapReduce 能够解决的问题有一个共同特点：任务可以被分解为多个子问题，且这些子问题相对独立，彼此之间不会有牵制，待并行处理完这些子问题后，任务便被解决。谷歌在论文中提到了 MapReduce 的一些典型应用包括分布式 grep、 URL 访问频率统计、 Web 连接图反转、倒排索引构建、分布式排序等，稍微复杂一些如K-means 聚类、朴素贝叶斯分类问题，都可以用mapreduce的模型建立分布式运算来解决。,Mapreduce不能处理哪些问题？,不能划分为多个任务的问题，如： 1.Fib

20、onacci 数值计算:Fibonacci 数值计算时，下一个结果需要依赖于前面的计算结果，也就是说，无法将该问题划分成若干个互不相干的子问题，因而不能用 MapReduce 解决。 2. 层次聚类法。层次聚类法是应用最广泛的聚类算法之一。其主要思想是，开始时，将每个对象归为一类，然后不断迭代，直到所有对象合并成一个大类（或者达到某个终止条件）；在每轮迭代时，需计算两两对象间的距离，并合并距离最近的两个对象为一类。该算法需要计算两两对象间的距离，也就是说每个对象和其他对象均有关联，因而该问题不能被分解成若干个子问题，进而不能用 MapReduce 解决。,倒排

21、索引,1.现有一批电话清单，记录了用户A拨打给用户B的记录 2.需要做一个倒排索引，记录拨打给B用户所有A的用户,13264595857 10086 12342523423 10086 12312312123 132642039823123321312 12052352535344 1008614232423212 120,10086 13264595857丨12342523423丨52352535344 1326420398 12312312123 丨 120 23123321312丨14232423212丨,输出格式：,算法思路,源文件,分割原始数据以被叫作为key 以主叫作为value

22、,拥有相同被叫的主叫号码们把主叫号码汇总输出倒排索引,输出到HDFS,10086 13264595857 12342523423 52352535344,12342523423 10086 12312312123 132642039823123321312 120,10086 13264595857 1326420398 12312312123 120 23123321312,10086 13264595857丨12342523423丨52352535344 1326420398 12312312123 丨 120 23123321312丨14232423212丨,第四章关于hadoop

23、的更多细节,Hadoop名字的起源,Hadoop这个名字不是一个缩写，它是一个虚构的名字。该项目的创建者 Doug Cutting如下解释Hadoop这一名称的来历： “这个名字是我的孩子给一头吃饱了的棕黄色大象取的。我的命名标准是简短，容易发音和拼写，没有太多的含义，并且不会被用于别处。小孩子是这方面的高手。Googol就是小孩子起的名字。“,Hadoop 子项目家族,Hadoop 子项目家族,Hadoop家族成员介绍 Hadoop Common Hadoop体系最底层的一个模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。 Avro Avro是doug cutting主

24、持的RPC项目，有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC，使hadoop的RPC模块通信速度更快、数据结构更紧凑。（RPC：Remote Procedure Call Protocol远程过程调用协议） Chukwa Chukwa是基于Hadoop的大集群监控系统，由yahoo贡献。 HBase 基于Hadoop Distributed File System，是一个开源的，基于列存储模型的分布式数据库。,Hive hive类似CloudBase，也是基于hadoop分布式计算平台上的提供data warehouse的sq

25、l功能的一套软件。使得存储在hadoop里面的海量数据的汇总，即席查询简单化。hive提供了一套QL的查询语言，以sql为基础，使用起来很方便。（数据库是面向事务的设计，数据仓库是面向主题设计的。） Tip：还记得数据仓库和数据库的区别吗？传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的。这一点，类似于传统农贸市场与超市的区别市场里面，白菜、萝卜、香菜会在一个摊位上，如果它们是一个小贩卖的;而超市里，白菜、萝卜、香菜则各自一块。也就是说，市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的，超市里面则是按照菜的类型(同主题)归

26、堆的。,Pig Pig是SQL-like语言，是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。 ZooKeeper Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。,现实应用中的Hadoop,现在互联网、世界50

27、0强、中小创新企业都在某些地方、某些程度上或者在适应平台上都会用到Hadoop，而且会跨越多个不同纵向的层面。现在通过ETL(Extract Transform and Load)可以从其他的新闻中搜集数据进行处理，把它放在系统上。挖掘数据，这是一个非常普遍的用途。其关注点是，探究数据；用观测数据找到未来的形式，丰富数据的使用。这点经常用于Web应用程序，也是雅虎经常用到的特性。现在Hadoop在4.2多万个电脑上使用了。,Hadoop平台的特点,特点可扩展性；其次，可控制性；第三是可靠性。 Hadoop在整个的空间不间断的运行，可以存储各种各样的数据尤其对于大多数的数据特别是很多公司投资的

28、新数据（非传统传统结构的数据），而且它必须具有经济效益这更是不能低估和忽视的一点。在此需要强调一下，大数据意味着高成本，特别是平台扩展和维护时产生的花费。如果想有效的缩减成本，就需要关注Hadoop的应用和部署。以交易系统为例，包括了网站、网址、数据系统和与客户的交流，下面还有业务情报和分析，这里会用到很多这样的系统。这样的系统在成千上万的公司中都会用到，价值非常之高，也需要用Hadoop(角色)。这其中会用到一些新技术，而由此产生的数据与传统的数据结构不会很匹配，这样会影响到其他的应用上的空间或性能和容量，所以就需要Hadoop来高效地把数据搜集起来对它进行处理和精炼。,云计算主要特点

29、,是数据密集型计算方式，同时还具有移动计算的特点，即移动计算到数据，而不是移动数据到计算，因为将CPU移动到数据的代价更小。关键技术虚拟化技术、并行计算、分布式存储、分布式数据管理,Hdoop源于Google,GFS (Google File System):是一个分布式文件系统，隐藏下层负载均衡、冗余复制等细节，对上层程序提供一个同一的分布式文件系统API接口。 MapReduce：通过把大部分的分布式运算抽象为Map Reduce操作，Map是把输入分解为中间的Key/Value对，Reduce是把Key/Value合并最终输出Output，这两个函数有程序员提供个系统，下层设置把Ma

30、p和Reduce操作分布在集群上运行，并把结果存储在GFS上。BigTable：是一个大型的分布式数据库，这个数据库不是关系型数据库，而是一个巨大的表格，来存储结构化数据。,GFS设计上主要有八个特点,大文件和大数据块：数据文件的大小普遍在GB级别，而且其每个数据块默认大小为64MB，这样做的好处是减少了元数据的大小，能使Master节点能够非常方便地将元数据放置在内存中以提升访问效率。操作以添加为主：因为文件很少被删减或者覆盖，通常只是进行添加或者读取操作，这样能充分考虑到硬盘线性吞吐量大和随机读写慢的特点。支持容错：首先，虽然当时为了设计方便，采用了单Master的方案，但是整个系统会保

31、证每个Master都会有其相对应的复制品，以便于在 Master节点出现问题时进行切换。其次，在Chunk层，GFS已经在设计上将节点失败视为常态，所以能非常好地处理Chunk节点失效的问题。,GFS设计上主要有八个特点,高吞吐量：虽然其单个节点的性能无论是从吞吐量还是延迟都很普通，但因为其支持上千的节点，所以总的数据吞吐量是非常惊人的。保护数据：首先，文件被分割成固定尺寸的数据块以便于保存，而且每个数据块都会被系统复制三份。扩展能力强：因为元数据偏小，使得一个Master节点能控制上千个存数据的Chunk节点。支持压缩：对于那些稍旧的文件，可以通过对它进行压缩，来节省硬盘空间，并且压缩率

32、非常惊人，有时甚至接近90%。用户空间：虽然在用户空间运行在运行效率方面稍差，但是更便于开发和测试，还有能更好利用Linux的自带的一些OSIX API。,Hadoop 诞生于大搜索应用,Doug Cutting,MapReduce | GFS | BigTable,名词解释,Hadoop, Apache开源的分布式框架。源自Google GFS,BigTable,MapReduce 论文。 HDFS HDFS (Hadoop Distributed File System),Hadoop 分布式文件系统。NameNode,HDFS命名服务器,负责与DataNode文件元信息保存。DataN

33、ode,HDFS数据节点，负责存储数据存储并汇报给NameNode。SecondaryNamenode,NameNode的镜像备份节点 Map Reduce JobTracker，hadoop的Map/Reduce调度器，负责与TackTracker通信分配计算任务并跟踪任务进度。TaskTracker,启动和管理Map和Reduce子任务的节点。,典型部署,5-4000 台服务器 (8-core, 8-24GB RAM, 4-12 TB, gig-E)；两层网络架构；每个机柜20-40节点,Hadoop的版本,0.20.x是历史稳定版 0.23.x是根据0.20.x的稳定版引入了federa

34、tion和yarn,但缺少NN和HA 1.0.x是当前稳定版，但和0.20.x系列差不多，只不过有些优化改进 1.1.x是beta版 2.0.x 现在是alpha版，有yarn和federation的引入这点是和0.23.x是一样，但是它是基于1.x的稳定版,Hadoop HDFS,Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。 HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的

35、。 HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。,HDFS作用,存储并管理PB级数据处理非结构化数据注重数据处理的吞吐量(latency不敏感）应用模式 (一次写多次读）,NameNode,Namenode是一个中心服务器，单一节点（简化系统的设计和实现），负责管理文件系统的名字空间(namespace)以及客户端对文件的访问文件操作，NameNode负责文件元数据的操作，DataNode负责处理文件内容的读写请求，跟文件内容相关的数据流不经过NameNode，只会询问它跟那个DataNode

36、联系，否则NameNode会成为系统的瓶颈,DataNode,一个数据块在DataNode以文件存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳 DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode 的心跳，则认为该节点不可用。集群运行中可以安全加入和退出一些机器,数据完整性,存储在某个DataNode上的数据很可能会被损坏

37、，可能是由于存储设备故障，网络故障或者软件漏洞所致。HDFS客户端应用实现了对文件内容的校验和。客户端创建HDFS文件时它会计算每个文件的每个block的校验和并在相同的命名空间下的单独隐藏的文件中保存这些值当客户端接收文件数据时，会首先验证校验和。如果校验失败，客户端会向其他拥有同样复本的 DataNode重新获取数据。,文件,文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3） NameNode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的D

38、ataNode等 DataNode在本地文件系统存储文件块数据，以及块数据的校验和可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容,安全模式,集群启动期间，NameNode节点会进入一个成为安全模式(Safemode)的特殊状态。这种状态下不会做数据的备份，而NameNode会从DataNodes接收Heartbeat和Blockreport信息。一个Blockreport包含了该DataNode所存储的block列表。每个block指定了一个最少副本数量值。当数据block副本的最小序号通过NameNode核对时，我们认为该block是能安全复制的。在经过Name

39、Node核对数据block的备份配置完成后(另外等待30秒)，NameNode退出Safemode状态。然后NameNode会判断并列出副本数仍然少于配置要求的份数的block列表，如果列表不为空，那么它就会将这些block拷贝到其他DataNode.,在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。 SafeModeException 异常 org.apache.hadoop.dfs.SafeModeException: Cannot delete/user/hadoop/input. Name node is in safe mode.

40、那我们来分析下这个错误，从字面上来理解：“Name node is in safe mode.” 现在就清楚了，那现在要解决这个问题，我想让Hadoop不处在safe mode 模式下，能不能不用等，直接解决呢？答案是可以的，只要在Hadoop的目录下输入： $bin/hadoop dfsadmin -safemode leave,File System元数据持久化,HDFS的命名空间数据保存在NameNode中。NameNode使用了名为EditLog的事务日志来持续记录了文件系统元数据所发生的每一个变化。例如，在HDFS中创建新文件时，NameNode会往EditLog插入一条记录来说

41、明此操作。同样地，修改文件的副本系数时也会在EditLog记录这样的操作。NameNode将EditLog存储在本地操作系统的文件系统的一个文件中。整个文件系统的命名空间，包括block到file和file system property之间的映射关系, 保存在一个成为FsImage的文件中。此FsImage也是作为一个文件形式存储在NameNode本地文件系统中。,File System元数据持久化,DataNode在本地文件系统中保存了HDFS数据，但它并不知道HDFS保存的具体内容，只是把HDFS数据保存在本地的独立的block中。DataNode在同一目录不会创建所有的文件，相反它会

42、启发式的决定每个目录创建最合适的文件数和子目录数。一开始就在同一目录下初始化所有文件是不推荐的，因为本地文件系统可能不支持一个目录中创建过多数量的文件。当一个DataNode启动时，它会扫描本地文件系统，生成所有HDFS数据块的一个列表，然后向NameNode发送一个报告(这个报告称为blockreport)。,HDFS关键运行机制-保障可靠性的措施,一个名字节点和多个数据节点数据复制（冗余机制）存放的位置（机架感知策略）故障检测数据节点心跳包（检测是否宕机）块报告（安全模式下检测）数据完整性检测（校验和比较）名字节点（日志文件，镜像文件）空间回收机制,通信协议,所有HDFS的通信协

43、议都基于TCP/IP协议，客户端会与 NameNode机器上的TCP端口建立连接，并通过 ClientProtocol协议与NameNode进行会话。而 DataNode节点则通过DataNode Protocol与NameNode 进行通信。远程过程调用(RPC)同时封装了Client Protocol和DataNode Protocol。而NameNode从不启动任何RPC，相反它会响应来自DataNode或客户端的 RPC。,数据磁盘故障, 心跳及重新复制,每个DataNode会定期向NameNode发送一个心跳信息。如果一部分DataNode与NameNode断开了连接，NameN

44、ode会根据心跳信息来觉察到。NameNode会将最近没有发送心跳信息的DataNode标记为dead状态，并且不会再像它们发送任何的IO请求。一个节点被标记为dead，此时所有它那里注册过的任何信息对HDFS来说都不起作用了，这也引起了部分 block的拷贝数量少于指定值。NameNode会不断跟踪需要备份的block并且启动复制。必须进行重新复制的理由是：一个 DataNode可能因为故障而不可用, 拷贝过程可能失败, DataNode上的磁盘可能坏掉, 或者副本数量会被增加。,集群的重新均衡,HDFS架构会兼容数据重新均衡的策略。其设想是当节点 A的剩余空间明显低于某一阈值时，

45、HDFS会自动选择从其他节点移动数据到节点A；当对某个特定文件有紧急高优先级的需求时, HDFS将会动态增加文件拷贝及重新均衡数据。但目前这些设想还没有实现。,数据组织,流水线复制当客户端向HDFS文件写入数据时，一开始是写到本地临时文件中。假设该文件的副本系数为3，当本地临时文件累积到一个数据块的大小时，客户端会从Namenode获取到一份Datanode列表用于存储副本，接着客户端开始向列表中第一个Datanode传输数据。此Datanode会分多个小块(4 KB)来接收数据，将每一部分写入本地目录的同时传输该部分到列表中第二个Datanode。第二个Datanode也像前一个节点一样接收

46、数据和存储，并传给第三个节点。最后第三个Datanode接收数据并存储在本地。因此Datanode可以流水线地从前一个节点接收数据，然后转发给下一个节点。这样数据便以流水线的方式从前一个Datanode复制到下一个。,数据组织,可访问性HDFS向应用提供了多种访问方式。用户可以通过原生的 FileSystem Java API接口来访问，也可以通过C语言的封装API访问，甚至还可以通过浏览器的方式访问HDFS中的实例文件。目前正在开发通过WebDAV协议来访问HDFS。 FS Shell HDFS支持以文件和目录的形式组织用户数据。它提供了一个命令行接口(FS Shell)让用户与HDFS中的

47、数据进行交互。命令的语法类似于用户熟悉的其他shell(例如 bash, csh)工具,回收存储空间,文件的删除及恢复当一个文件被用户或应用删除时，它并不会立即从HDFS中移除，相反它会先被重命名到目录/trash下的一个文件。因此该文件只要还在/trash下，就可以快速的还原。目录/trash下的文件的保存时长是可以配置的，超过了这个时限后NameNode将会把它从HDFS命名空间中删除。文件的物理删除会引起对应block空间的释放。可以注意到，从用户删除一个文件到HDFS空闲空间的增加会有一定的延迟。,只要被删除的文件还在/trash目录中，用户就可以还原它。如果用户想还原被删除的文件，

48、可以通过浏览/trash目录找回该文件，而/trash目录仅保存被删除文件的最后版本。/trash目录与其他的目录几乎一样，除了HDFS会应用一个特殊策略来自动删除该目录下的文件。目前默认策略是删除/trash中保留时间超过6小时的文件。以后这个策略可以通过一个被定义的接口来配置。减少副本系数当副本系数被降低时，NameNode会选择删除多余的副本，决定好后的下次Heartbeat检查会传递这个信息给DataNode. DataNode接收命令后即删除相应的block，这样HDFS集群对应的空闲空间便会增大。同样，从调用setReplication API到集群空间的回收会有一段时间的延迟

49、。,元数据磁盘故障,FsImage及 EditLog文件是HDFS系统的重要数据结构，这些文件的异常会导致HDFS无法正常工作。因此NameNode可以配置拥有FsImage和EditLog的多份拷贝。对FsImage或EditLog文件的更改会引起所有复本的同步更新，这同步更新的过程会降低NameNode可以支持的命名空间每秒事务处理的频率。但这是可以接受的，因为即使HDFS应用对数据很敏感，也不会对元数据敏感。当NameNode重启时，它会选择使用最新版本的FsImage和EditLog文件。 NameNode在HDFS集群中属于单点故障。如果NameNode宕掉了，必须要经过人工来处理和修复，目前还不支持NameNode的自动重启和运行NameNode服务于备份服务器。快照(Snapshot)支持在某个时间点拷贝并保存一份数据。一种应用场景是快照用于将HDFS实例回滚到故障之前某个合适的状态(HDFS目前不支持Snapshot,但会在以后的版本中实现)。,

展开阅读全文