收藏 分享(赏)

Hadoop大数据平台的搭建与测试.doc

上传人:weiwoduzun 文档编号:2892476 上传时间:2018-09-29 格式:DOC 页数:6 大小:327.57KB
下载 相关 举报
Hadoop大数据平台的搭建与测试.doc_第1页
第1页 / 共6页
Hadoop大数据平台的搭建与测试.doc_第2页
第2页 / 共6页
Hadoop大数据平台的搭建与测试.doc_第3页
第3页 / 共6页
Hadoop大数据平台的搭建与测试.doc_第4页
第4页 / 共6页
Hadoop大数据平台的搭建与测试.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、山 东 农 业 大 学 学 报 ( 自 然 科 学 版 ) , 2013, 44 ( 4) : 550 555Journal of Shandong Agricultural University ( Natural Science)Hadoop 大 数 据 平 台 的 搭 建 与 测 试 崔 文 斌 , 牟 少 敏 * , 王 云 诚 , 浩 庆 波 , 昌 腾 腾( 山 东 农 业 大 学 农 业 大 数 据 研 究 中 心 , 山 东 泰 安 271018)摘 要 : 大 数 据 处 理 平 台 Apache? Hadoop 是 一 个 开 源 的 分 布 式 系 统 框 架 , 可 以

2、 运 行 分 布 式 应 用 程 序 。 在 大 数 据 时 代 Hadoop 有 着 良 好 的 发 展 前 景 。 本 文 简 要 介 绍 了 Hadoop 的 发 展 史 , 分 析 了 Hadoop 集 群 的 构 造 模 块 和 组 件 , 搭 建 了 Hadoop 集 群 并 进 行 了 测 试 。关 键 词 : 大 数 据 ; Hadoop; 分 布 式 应 用 程 序 ; 分 布 式 系 统中 图 分 类 号 : F301 2 文 献 标 识 码 : A 文 章 编 号 : 1000 2324( 2013) 04 0550 06THE BUILDING AND TESTING

3、PLATFO M FO HADOOP DIST IBUTED A CHITECTU ECUI Wen bin, MU Shao min, WANG Yun cheng, HAO Qing bo, CHANG Teng teng( Agricultural Big Data esearch Center, Shandong Agricultural University, Taian 271018, China)Abstract: Big Data Processing Platform Apache Hadoop is an open source distributed system fra

4、mework, can run distributed application programs In the era of Big Data Hadoop has good development prospects This paper briefly introduces the history of Hadoop, analyzes the structure of the Hadoop cluster modules and components, building the Hadoop cluster and testedKey words: Big Data; Hadoop; D

5、istributed Applications Program; The Distributed System自 2008 年 Nature 发 表 有 关 大 数 据 ( Big Data) 的 专 刊 以 来 , 大 数 据 的 处 理 和 分 析 已 经 成 为 人 们 关 注 的 焦 点 。 大 数 据 具 有 四 个 特 点 ( 4V) : 多 样 化 ( Variety) , 海 量 性 ( Volume) , 快 速 性 ( Velocity) 和 灵 活 性 ( Vi- tality) 1 。 这 四 个 特 点 要 求 我 们 对 当 前 分 布 式 架 构 的 理 念 做

6、出 新 的 理 解 , 在 数 据 处 理 和 数 据 整 合 上 使 用 新 的 方 法 。 Hadoop 就 是 在 此 环 境 下 成 功 应 用 于 大 数 据 处 理 和 分 析 的 一 个 分 布 式 架 构 平 台 , 它 具 有 方 便 、 健 壮 性 、 可 扩 展 性 、 搭 建 对 硬 件 要 求 较 低 等 优 点 2 , 在 大 数 据 领 域 内 的 分 布 式 处 理 上 占 有 较 大 的 优 势 。本 文 结 构 安 排 如 下 : 第 一 节 介 绍 了 Hadoop 的 发 展 史 , 阐 述 了 Hadoop 集 群 的 构 造 模 块 、 组 件 ;

7、第 二 节 就Hadoop 大 数 据 平 台 的 搭 建 和 测 试 做 出 了 详 细 的 介 绍 和 说 明 ; 第 三 节 对 全 文 进 行 了 总 结 和 展 望 。1 Hadoop 简 介Hadoop 是 一 个 开 源 的 分 布 式 架 构 平 台 , 数 据 的 理 念 与 传 统 的 分 布 式 系 统 不 同 , 它 强 调 将 代 码 向 数 据 迁 移 , 而 不 是 传 统 的 将 数 据 向 代 码 迁 移 。 避 免 了 因 为 传 输 数 据 而 耗 费 大 量 的 时 间 。1 1 Hadoop 的 发 展 史Hadoop 是 2005 年 作 为 Nut

8、ch 的 一 个 子 项 目 引 入 的 , Nutch 则 是 Apache Lucene 的 一 个 子 项 目 , 这 三 个 项 目 都 是 由 Doug Cutting 所 创 立 的 , 每 个 项 目 都 是 在 前 一 个 项 目 的 基 础 上 发 展 而 来 的 3 。Lucene 是 一 个 文 本 索 引 和 查 询 库 , 而 Nutch 则 是 Lucene 的 一 个 扩 展 , 它 试 图 以 Lucene 为 核 心 建 立 一 个 完 整 的 Web 搜 索 引 擎 。 Doug Cutting 所 设 想 的 Nutch 是 开 放 和 民 主 的 , 可

9、 以 代 替 Google 等 商 业 产 品 的收 稿 日 期 : 2012 07 05基 金 项 目 : 山 东 省 自 然 基 金 ( Z 2012FM024) 资 助作 者 简 介 : 崔 文 斌 ( 1992 ) , 男 , 本 科 。* 通 讯 作 者 : Author for correspondence E mail: msm sdau edu cn 551崔 文 斌 等 : Hadoop 大 数 据 平 台 的 搭 建 与 测 试第 4 期垄 断 技 术 。 在 完 成 Nutch 后 , Doug Cutting 的 团 队 又 面 临 着 一 个 比 较 严 峻 的 挑

10、战 : 如 何 解 决 软 件 的 可 扩 展性 的 问 题 , 即 要 在 Nutch 建 立 一 个 层 , 来 负 责 分 布 式 处 理 、 冗 余 、 自 动 故 障 恢 复 和 负 载 均 衡 等 。2004 年 Google 发 表 了 两 篇 论 文 来 论 述 Google 的 文 件 系 统 ( GFS) 4 和 Map educe 框 架 5 。 Google 认 为 使 用 这 两 项 技 术 可 以 扩 展 完 善 自 己 的 搜 索 系 统 。 Doug Cutting 看 到 了 这 些 技 术 适 用 于 自 己 的 Nutch, 其 团 队 便 设 计 了 一

11、 个 专 门 的 项 目 可 以 充 实 这 两 种 网 络 扩 展 技 术 , 于 是 就 有 了 Hadoop。 在 2008 年 2 月 19 日 雅 虎 宣 布 其 搜 索 网 页 的 生 产 系 统 在 采 用 了 10000 多 个 核 的 Linux 集 群 上 运 行 Hadoop。1 2 Hadoop 集 群 的 构 造 模 块Hadoop 集 群 有 5 个 构 造 模 块 : 名 字 节 点 ( NameNode) , 数 据 节 点 ( DataNode) , 次 名 字 节 点 ( SecondaryNameNode) , 作 业 跟 踪 节 点 ( JobTrack

12、er) , 任 务 跟 踪 节 点 ( TaskTracker) , 现 分 别 介 绍 如 下 。1 2 1 名 字 节 点 、 数 据 节 点 和 次 名 字 节 点 名 字 节 点 的 守 护 进 程 是 Hadoop 中 最 重 要 的 一 个 , 它 位 于 Ha- doop 的 文 件 分 布 系 统 的 主 端 , 指 导 从 端 的 数 据 节 点 执 行 I / O 任 务 , 跟 踪 文 件 如 何 被 分 配 以 及 分 配 在 哪 一 个 数 据 节 点 下 , 还 可 以 监 测 整 个 文 件 系 统 是 否 正 常 运 行 。 Hadoop 集 群 上 的 每 个

13、 数 据 节 点 都 有 一 个 守 护 进 程 , 用 来 执 行 分 布 式 系 统 的 工 作 , 即 將 文 件 分 布 式 系 统 上 的 数 据 块 写 入 到 本 地 文 件 系 统 的 实 际 文 件 中 。次 名 字 节 点 的 守 护 进 程 是 一 个 用 于 监 测 文 件 系 统 运 行 状 态 的 辅 助 进 程 , 由 于 名 字 节 点 在 集 群 中 只 有 一 个 节 点 , 当 发 生 故 障 时 对 整 个 集 群 的 损 失 是 非 常 大 的 , 次 名 字 节 点 的 存 在 可 以 大 大 的 减 少 因 名 字 节 点 失 效 恢 复 所 需

14、的 时 间 , 并 降 低 了 数 据 丢 失 的 风 险 。1 2 2 作 业 跟 踪 节 点 和 任 务 跟 踪 节 点 作 业 跟 踪 节 点 的 守 护 进 程 是 Hadoop 与 应 用 程 序 之 间 的 纽 带 , 当 代 码 提 交 到 集 群 上 后 , 作 业 跟 踪 节 点 就 会 确 定 执 行 的 计 划 , 如 果 任 务 失 败 , 作 业 跟 踪 节 点 將 自 动 重 启 任 务 。 每 个 集 群 只 有 一 个 守 护 进 程 , 它 通 常 运 行 在 集 群 的 名 字 节 点 上 。任 务 跟 踪 节 点 的 守 护 进 程 负 责 执 行 作 业

15、 跟 踪 节 点 分 配 的 任 务 , 它 通 常 运 行 在 集 群 的 数 据 节 点 上 , 每 个 数 据 节 点 只 有 一 个 任 务 跟 踪 守 护 进 程 , 但 是 它 可 以 生 成 多 个 Java 虚 拟 机 来 并 行 的 处 理 多 个 Map 或 educe 任 务 。 任 务 跟 踪 节 点 的 守 护 进 程 的 另 一 个 任 务 则 是 不 停 的 与 作 业 跟 踪 节 点 进 行 通 信 , 如 果 一 段 时 间 内 作 业 跟 踪 节 点 没 有 收 到 来 自 任 务 跟 踪 节 点 的 通 信 , 作 业 跟 踪 节 点 则 认 为 该 节

16、点 已 经 死 亡 , 将 该 节 点 的 任 务 重 新 分 配 到 其 他 的 节 点 上 去 。1 3 Hadoop 组 件Hadoop 项 目 中 有 两 个 非 常 重 要 的 部 分 , 分 别 是 HDFS( Hadoop 的 文 件 分 布 式 系 统 ) 和 Map educe 并 行 计 算 框 架 。1 3 1 HDFS HDFS 是 为 Map educe 的 大 规 模 分 布 式 数 据 处 理 框 架 设 置 的 , 可 以 存 储 一 个 普 通 的 文 件 存 储 系 统 无 法 存 储 的 大 文 件 , 在 物 理 空 间 上 它 將 一 个 大 文 件

17、分 为 若 干 个 比 较 小 的 数 据 块 ( 通 常 为 64MB) , 存 放 在 集 群 中 每 一 个 节 点 上 , 在 逻 辑 空 间 上 则 是 以 一 个 文 件 存 储 。 在 读 取 数 据 时 HDFS 可 以 实 现 并 行 操 作 , 所 以 提 高 了 其 在 读 取 数 据 时 的 吞 吐 量 。1 3 2 Map educe 并 行 计 算 框 架 Map educe 程 序 通 过 操 作 键 / 值 对 来 处 理 数 据 , 一 般 形 式 如 下 :Map: ( K1 , V1 ) list( K2 , V2 ) educe: ( K2 , list

18、( V2 ) ) list( K3 , V3 )Map educe 將 数 据 处 理 任 务 抽 象 为 一 系 列 的 Map 和 educe 过 程 , Map 主 要 是 完 成 数 据 的 过 滤 工 作 , educe 主 要 完 成 数 据 的 聚 集 工 作 。 用 户 在 使 用 这 种 编 程 模 型 时 , 可 以 根 据 相 对 应 的 编 程 规 则 来 实 现 Map 函 数 和 educe 函 数 , 然 后 Map educe 会 自 动 对 任 务 进 行 划 分 以 做 到 并 行 执 行 5 。Map educe 工 作 流 程 如 图 1 所 示 。 5

19、52 山 东 农 业 大 学 学 报 ( 自 然 科 学 版 ) 第 44 卷图 1 Map educe 工 作 流 程Fig 1 Mapreduce werk flow通 过 HDFS 將 输 入 的 数 据 集 分 割 后 , 分 布 到 集 群 中 的 每 一 台 机 器 上 , 然 后 由 作 业 跟 踪 节 点 确 定 Map 的 任 务 , Map 的 任 务 结 束 后 产 生 中 间 结 果 存 放 在 本 地 的 磁 盘 上 , 为 了 节 省 educe 过 程 的 时 间 , 在 洗 牌 ( Shuffling) 阶 段 之 前 对 结 果 进 行 一 下 “ 本 地 的

20、 educe” 即 Conbiner 过 程 。 在 HDFS 將 数 据 分 配 到 每 个 节 点 后 , 洗 牌 阶 段 是 节 点 间 唯 一 的 通 信 的 时 间 。 经 过 洗 牌 阶 段 后 进 行 educe 阶 段 , 將 最 终 的 结 果 输 出 。2 Hadoop 平 台 的 搭 建Hadoop 有 三 种 安 装 模 式 : 本 地 ( 单 机 ) 模 式 、 伪 分 布 模 式 和 全 分 布 模 式 。 本 地 模 式 主 要 是 用 于 开 发 调 试 Map educe 程 序 的 应 用 逻 辑 。 伪 分 布 模 式 在 单 机 模 式 之 上 添 加

21、了 代 码 的 调 试 功 能 , 可 以 运 行 HDFS, 可 以 与 其 他 的 守 护 进 程 交 互 等 功 能 。 Hadoop 集 群 的 运 行 采 用 的 全 分 布 模 式 , 下 面 详 细 的 介 绍 安 装 过 程 :安 装 环 境 包 括 Linux 操 作 系 统 , 远 程 登 录 协 议 ( SSH) , JDK 和 Hadoop 分 布 式 框 架 等 。 本 文 中 大 数 据 平 台 搭 建 的 实 验 用 机 的 基 本 配 置 : CPU( Intel( ) Core( TM) i5 3470 CPU 3 20GHz) , 内 存 ( 4G) , 硬

22、 盘 ( 1T) ; 开 源 软 件 有 : Hadoop( Hadoop 1 2 0) , Linux( Ubuntu 13 04 64 位 ) , JDK1 7。2 1 安 装 配 置 环 境Hadoop 可 以 在 Windows 和 Linux 两 种 操 作 系 统 下 安 装 , 在 Window 系 统 下 安 装 之 前 要 先 安 装 Cygwin软 件 , 来 模 拟 Unix 操 作 系 统 的 环 境 , 安 装 完 成 后 需 配 置 环 境 变 量 CYGWIN 为 Cygwin 的 安 装 路 径 。 本 文 主 要 介 绍 在 Linux 下 安 装 , 为 了

23、 搭 建 Hadoop 集 群 更 加 的 方 便 , 在 安 装 Linux 操 作 系 统 时 需 要 所 有 机 器 的 用 户名 保 持 一 致 , 本 文 使 用 的 用 户 名 为 Bigdata。 下 面 详 细 介 绍 安 装 的 主 要 步 骤 。2 1 1 配 置 各 节 点 的 Hosts 文 件 本 文 以 七 个 节 点 为 例 介 绍 Hadoop 大 数 据 平 台 搭 建 的 过 程 , 为 了 方 便 节 点 间 通 过 节 点 名 称 来 访 问 , 分 别 在 每 个 节 点 的 / etc / hosts 文 件 中 添 加 如 下 信 息 :maste

24、r 192 168 211 14slave1 192 168 211 13 slave2 192 168 211 16 slave3 192 168 211 17第 4 期 崔 文 斌 等 : Hadoop 大 数 据 平 台 的 搭 建 与 测 试 553slave4 192 168 211 10slave5 192 168 211 15 backup 192 168 211 2master 表 示 集 群 名 字 节 点 的 名 称 , backup 为 集 群 次 名 字 节 点 的 名 称 , slave1 到 slave5 为 集 群 数 据 节 点 的 名 称 。2 1 2 配 置

25、 无 密 码 的 远 程 登 录 协 议 Hadoop 在 运 行 过 程 中 名 字 节 点 的 守 护 进 程 需 要 与 数 据 节 点 的 守 护 进 程 进 行 通 信 , 为 了 实 现 名 字 节 点 与 数 据 节 点 之 间 通 信 , 不 需 要 输 入 密 码 , 需 要 配 置 无 密 码 的 远 程 登 录 协 议 。 具 体 配 置 如 下 :首 先 在 集 群 的 每 个 节 点 上 创 建 ssh 隐 藏 文 件 夹 , 并 更 改 文 件 夹 的 权 限 为 755( 文 件 所 有 者 可 读 可 写 可 执 行 , 属 组 内 和 其 他 用 户 组 的

26、用 户 可 读 可 执 行 ) , 然 后 在 名 字 节 点 上 进 入 ssh 文 件 夹 , 配 置 远 程 登 录 协 议 的 私 钥 和 公 钥 :cd sshssh keygencp id_rsa pub / authorized_keys 最 后 將 配 置 好 的 公 钥 通 过 下 面 命 令 分 布 到 集 群 中 的 其 它 节 点 上 。 scp authorized_keys * : / home / 用 户 名 / ssh /* 为 在 hosts 中 配 置 的 节 点 的 名 称 或 节 点 的 IP 地 址 。为 了 验 证 无 密 码 的 远 程 登 录 协

27、 议 是 否 配 置 成 功 , 从 名 字 节 点 向 所 有 的 节 点 发 起 连 接 命 令 : ssh * 为 在 hosts 中 配 置 的 节 点 的 名 称 或 节 点 的 IP 地 址 。在 首 次 连 接 其 它 节 点 时 , 会 提 示 输 入 密 码 , 此 时 输 入 目 的 节 点 的 密 码 会 显 示 本 次 登 录 该 节 点 的 时 间 和IP 地 址 , 若 不 显 示 则 表 示 无 密 码 的 远 程 登 录 协 议 配 置 失 败 。2 1 3 安 装 配 置 Java Hadoop 是 基 于 Java 语 言 开 发 的 开 源 框 架 , 因

28、 此 运 行 它 时 需 要 有 Java 的 支 持 , 必 须 在 每 台 机 器 上 安 装 JDK, 安 装 配 置 JDK 的 过 程 如 下 :首 先 在 usr 下 建 立 一 个 名 为 java 的 文 件 夹 作 为 JDK 的 安 装 目 录 , 然 后 把 下 载 的 jdk 7u25 linux x64 tar gz 移 动 到 安 装 目 录 下 并 解 压 下 载 到 的 安 装 包 :sudo tar zxvf jdk 7u25 linux x64 tar gz配 置 环 境 变 量 : sudo gedit / etc / profile?, 在 文 件 最

29、后 添 加 如 下 语 句 ( 确 认 好 自 己 的 路 径 ) :JAVA_HOME = / usr / java / jdk1 7 0_25PATH = $ JAVA_HOME / bin: $ PATHCLASSPATH = : $ JAVA_HOME / lib / dt jar: $ JAVA_HOME / lib / tools jar export JAVA_HOMEexport PATHexport CLASSPATH环 境 变 量 配 置 完 成 后 , 重 启 电 脑 后 使 用 java version 命 令 验 证 安 装 的 JDK, 若 显 示 版 本 信 息

30、则 证 明 安 装 正 确 , 否 则 安 装 失 败 。 为 了 方 便 Hadoop 集 群 的 搭 建 , 每 个 节 点 的 JDK 安 装 目 录 要 尽 量 保 持 一 致 , 否 则 需 要 在 每 个 节 点 上 修 改 Hadoop 的 配 置 文 件 。2 2 安 装 配 置 Hadoop在 http: / / mirror bit edu cn / apache / hadoop / common / 上 下 载 Hadoop 安 装 包 。 在 名 字 节 点 上 將 下 载 的 安 装 包 解 压 到 用 户 根 目 录 下 , 进 行 如 下 的 配 置 :2 2

31、1 配 置 名 字 节 点 上 的 / etc / profile 为 了 方 便 直 接 使 用 Hadoop 命 令 , 在 名 字 节 点 上 的 / etc / profile 配 置 如 下 :export HADOOP_HOME = / home / bigdata / hadoop 1 2 0export HADOOP_CONF_DI = $ HADOOP_HOME / conf 554 山 东 农 业 大 学 学 报 ( 自 然 科 学 版 ) 第 44 卷export PATH = $ HADOOP_HOME / bin: $ PATH2 2 2 配 置 conf / had

32、oop env sh 文 件 添 加 export JAVA_HOME = / usr / java / jdk1 7 0_25( 这 里 修 改 为 你 的 JDK 的 安 装 位 置 ) 。2 2 3 配 置 conf / core site xml 文 件 配 置 HDFS 文 件 系 统 的 端 口 和 路 径 。 configuration property name fs default name / name value hdfs: / / master: 49000 / value / property property name hadoop tmp dir / name v

33、alue / home / bigdata / hadoop_home / var / value / property / configuration 2 2 4 配 置 conf / mapred site xml 文 件 配 置 JobTracker 的 端 口 和 地 址 configuration property name mapred job tracker / name value master: 49001 / value / property property name mapred local dir / name value / home / bigdata / had

34、oop_home / var / value / property / configuration 2 2 5 配 置 conf / hdfs site xml 文 件 配 置 HDFS 备 份 的 副 本 的 数 目 , 要 小 于 目 前 集 群 中 节 点 的 个 数 。 configuration property name dfs replication / name value 3 / value / property / configuration 2 2 6 配 置 masters 和 slaves 主 从 结 点 配 置 conf / masters 和 conf / sla

35、ves 来 设 置 主 从 结 点 , 需 要 注 意 的 是 最 好 使 用 节 点 名 称 , 并 且 保 证 机 器 之 间 通 过 节 点 名 称 可 以 互 相 访 问 , 每 个 节 点 的 名 称 占 一 行 。在 masters 配 置 文 件 中 输 入 :master backup在 slaves 配 置 文 件 中 输 入 slave1 到 slave5 节 点 的 名 称 , 每 个 节 点 的 名 称 占 一 行 。通 过 如 下 命 令 :scp r / home / bigdata / hadoop 1 2 0 bigdata * / home / bigdata

36、 /* 表 示 节 点 的 IP 地 址將 Hadoop 分 布 到 集 群 中 的 其 他 节 点 上 。 至 此 大 数 据 平 台 的 搭 建 已 完 成 。 下 面 将 要 完 成 对 搭 建 的 大 数 据 平 台 的 测 试 工 作 。2 3 Hadoop 集 群 的 测 试先 格 式 化 一 个 新 的 分 布 式 文 件 系 统 : hadoop namenode format。然 后 启 动 服 务 。 Hadoop 集 群 有 两 种 启 动 服 务 的 方 式 , 第 一 种 方 式 是 在 名 字 节 点 上 通 过 命 令 :start all sh 同 时 启 动

37、HDFS 和 Map / educe;另 一 种 则 是 分 别 启 动 HDFS 和 Map / educe。 在 分 配 的 名 字 节 点 上 , 运 行 下 面 的 命 令 启 动 HDFS:第 4 期 崔 文 斌 等 : Hadoop 大 数 据 平 台 的 搭 建 与 测 试 555start dfs sh( 单 独 启 动 HDFS)start dfs sh 的 脚 本 会 参 照 名 字 节 点 上 的 slaves 文 件 的 内 容 , 在 所 有 列 出 的 数 据 节 点 上 启 动 守 护 进 程 。 在 分 配 的 作 业 跟 踪 节 点 上 , 运 行 下 面 的

38、 命 令 启 动 Map / educe:start mapred sh( 单 独 启 动 Map / educe)start mapred sh 的 脚 本 会 参 照 作 业 跟 踪 节 点 上 的 slaves 文 件 的 内 容 , 在 所 有 列 出 的 任 务 跟 踪 节 点 上 启 动 守 护 进 程 。若 需 要 关 闭 所 有 的 节 点 则 在 配 置 的 名 字 节 点 上 运 行 下 面 的 命 令 :stop all sh。最 后 输 入 JDK 提 供 的 一 个 显 示 当 前 所 有 的 Java 进 程 的 Pid 命 令 JPS( Java Virtual

39、Machine Process Sta- tus Tool) , 出 现 下 面 六 个 进 程 : SecondaryNameNode、 DataNode、 NameNode、 TaskTracker、 Jps 和 JobTracker 则 表 示 平 台 已 经 安 装 正 确 。 若 需 要 停 止 所 有 的 服 务 则 运 行 下 面 的 命 令 否 则 平 台 安 装 失 败 。 平 台 测 试 通 过 后 , 可 以 运 行 分 布 式 的 应 用 程 序 来 处 理 和 分 析 大 数 据 。3 总 结 展 望Hadoop 分 布 式 架 构 平 台 是 大 数 据 的 一 个

40、 非 常 重 要 的 开 源 架 构 平 台 , 与 其 他 并 行 化 架 构 平 台 相 比 有 着 非 常 大 的 优 势 , 本 文 主 要 对 它 的 组 成 , 构 建 模 块 及 安 装 过 程 进 行 了 部 分 介 绍 , 并 且 成 功 的 搭 建 了 Hadoop 分 布 式 架 构 平 台 , 为 以 后 对 大 数 据 的 研 究 提 供 了 一 个 科 研 的 平 台 。 我 们 下 一 步 的 工 作 是 在 大 数 据 平 台 下 进 行 有 关 算 法 的 研 究 , 将 其 中 的 一 些 算 法 实 现 并 行 化 运 行 。参 考 文 献 1 中 国 电

41、 子 科 学 研 究 院 学 报 编 辑 部 大 数 据 时 代 J 中 国 电 子 科 学 研 究 院 学 报 , 2013, 1: 27 31 2 ( 美 ) 拉 姆 Hadoop 实 战 M 韩 冀 中 译 , 北 京 : 人 民 邮 电 出 版 社 , 2011: 3 4 3 Sanjay Ghemawat Howard Gobioff Shun Tak Leung, The Google file system D USA: Google 2003: 29 43 4 Jeffrey Dean Sanjay Ghemawat, Map educe: Simplified Data Processing on Large Clusters D USA: San Frcmcisco, cakfcrnia 2004: 137 150 5 王 珊 , 王 会 举 , 覃 雄 派 , 等 架 构 大 数 据 : 挑 战 、 现 状 与 展 望 J 计 算 机 学 报 , 2011, 10: 1741 1752

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报