1、山 东 农 业 大 学 学 报 ( 自 然 科 学 版 ) , 2013, 44 ( 4) : 550 555Journal of Shandong Agricultural University ( Natural Science)Hadoop 大 数 据 平 台 的 搭 建 与 测 试 崔 文 斌 , 牟 少 敏 * , 王 云 诚 , 浩 庆 波 , 昌 腾 腾( 山 东 农 业 大 学 农 业 大 数 据 研 究 中 心 , 山 东 泰 安 271018)摘 要 : 大 数 据 处 理 平 台 Apache? Hadoop 是 一 个 开 源 的 分 布 式 系 统 框 架 , 可 以
2、 运 行 分 布 式 应 用 程 序 。 在 大 数 据 时 代 Hadoop 有 着 良 好 的 发 展 前 景 。 本 文 简 要 介 绍 了 Hadoop 的 发 展 史 , 分 析 了 Hadoop 集 群 的 构 造 模 块 和 组 件 , 搭 建 了 Hadoop 集 群 并 进 行 了 测 试 。关 键 词 : 大 数 据 ; Hadoop; 分 布 式 应 用 程 序 ; 分 布 式 系 统中 图 分 类 号 : F301 2 文 献 标 识 码 : A 文 章 编 号 : 1000 2324( 2013) 04 0550 06THE BUILDING AND TESTING
3、PLATFO M FO HADOOP DIST IBUTED A CHITECTU ECUI Wen bin, MU Shao min, WANG Yun cheng, HAO Qing bo, CHANG Teng teng( Agricultural Big Data esearch Center, Shandong Agricultural University, Taian 271018, China)Abstract: Big Data Processing Platform Apache Hadoop is an open source distributed system fra
4、mework, can run distributed application programs In the era of Big Data Hadoop has good development prospects This paper briefly introduces the history of Hadoop, analyzes the structure of the Hadoop cluster modules and components, building the Hadoop cluster and testedKey words: Big Data; Hadoop; D
5、istributed Applications Program; The Distributed System自 2008 年 Nature 发 表 有 关 大 数 据 ( Big Data) 的 专 刊 以 来 , 大 数 据 的 处 理 和 分 析 已 经 成 为 人 们 关 注 的 焦 点 。 大 数 据 具 有 四 个 特 点 ( 4V) : 多 样 化 ( Variety) , 海 量 性 ( Volume) , 快 速 性 ( Velocity) 和 灵 活 性 ( Vi- tality) 1 。 这 四 个 特 点 要 求 我 们 对 当 前 分 布 式 架 构 的 理 念 做
6、出 新 的 理 解 , 在 数 据 处 理 和 数 据 整 合 上 使 用 新 的 方 法 。 Hadoop 就 是 在 此 环 境 下 成 功 应 用 于 大 数 据 处 理 和 分 析 的 一 个 分 布 式 架 构 平 台 , 它 具 有 方 便 、 健 壮 性 、 可 扩 展 性 、 搭 建 对 硬 件 要 求 较 低 等 优 点 2 , 在 大 数 据 领 域 内 的 分 布 式 处 理 上 占 有 较 大 的 优 势 。本 文 结 构 安 排 如 下 : 第 一 节 介 绍 了 Hadoop 的 发 展 史 , 阐 述 了 Hadoop 集 群 的 构 造 模 块 、 组 件 ;
7、第 二 节 就Hadoop 大 数 据 平 台 的 搭 建 和 测 试 做 出 了 详 细 的 介 绍 和 说 明 ; 第 三 节 对 全 文 进 行 了 总 结 和 展 望 。1 Hadoop 简 介Hadoop 是 一 个 开 源 的 分 布 式 架 构 平 台 , 数 据 的 理 念 与 传 统 的 分 布 式 系 统 不 同 , 它 强 调 将 代 码 向 数 据 迁 移 , 而 不 是 传 统 的 将 数 据 向 代 码 迁 移 。 避 免 了 因 为 传 输 数 据 而 耗 费 大 量 的 时 间 。1 1 Hadoop 的 发 展 史Hadoop 是 2005 年 作 为 Nut
8、ch 的 一 个 子 项 目 引 入 的 , Nutch 则 是 Apache Lucene 的 一 个 子 项 目 , 这 三 个 项 目 都 是 由 Doug Cutting 所 创 立 的 , 每 个 项 目 都 是 在 前 一 个 项 目 的 基 础 上 发 展 而 来 的 3 。Lucene 是 一 个 文 本 索 引 和 查 询 库 , 而 Nutch 则 是 Lucene 的 一 个 扩 展 , 它 试 图 以 Lucene 为 核 心 建 立 一 个 完 整 的 Web 搜 索 引 擎 。 Doug Cutting 所 设 想 的 Nutch 是 开 放 和 民 主 的 , 可
9、 以 代 替 Google 等 商 业 产 品 的收 稿 日 期 : 2012 07 05基 金 项 目 : 山 东 省 自 然 基 金 ( Z 2012FM024) 资 助作 者 简 介 : 崔 文 斌 ( 1992 ) , 男 , 本 科 。* 通 讯 作 者 : Author for correspondence E mail: msm sdau edu cn 551崔 文 斌 等 : Hadoop 大 数 据 平 台 的 搭 建 与 测 试第 4 期垄 断 技 术 。 在 完 成 Nutch 后 , Doug Cutting 的 团 队 又 面 临 着 一 个 比 较 严 峻 的 挑
10、战 : 如 何 解 决 软 件 的 可 扩 展性 的 问 题 , 即 要 在 Nutch 建 立 一 个 层 , 来 负 责 分 布 式 处 理 、 冗 余 、 自 动 故 障 恢 复 和 负 载 均 衡 等 。2004 年 Google 发 表 了 两 篇 论 文 来 论 述 Google 的 文 件 系 统 ( GFS) 4 和 Map educe 框 架 5 。 Google 认 为 使 用 这 两 项 技 术 可 以 扩 展 完 善 自 己 的 搜 索 系 统 。 Doug Cutting 看 到 了 这 些 技 术 适 用 于 自 己 的 Nutch, 其 团 队 便 设 计 了 一
11、 个 专 门 的 项 目 可 以 充 实 这 两 种 网 络 扩 展 技 术 , 于 是 就 有 了 Hadoop。 在 2008 年 2 月 19 日 雅 虎 宣 布 其 搜 索 网 页 的 生 产 系 统 在 采 用 了 10000 多 个 核 的 Linux 集 群 上 运 行 Hadoop。1 2 Hadoop 集 群 的 构 造 模 块Hadoop 集 群 有 5 个 构 造 模 块 : 名 字 节 点 ( NameNode) , 数 据 节 点 ( DataNode) , 次 名 字 节 点 ( SecondaryNameNode) , 作 业 跟 踪 节 点 ( JobTrack
12、er) , 任 务 跟 踪 节 点 ( TaskTracker) , 现 分 别 介 绍 如 下 。1 2 1 名 字 节 点 、 数 据 节 点 和 次 名 字 节 点 名 字 节 点 的 守 护 进 程 是 Hadoop 中 最 重 要 的 一 个 , 它 位 于 Ha- doop 的 文 件 分 布 系 统 的 主 端 , 指 导 从 端 的 数 据 节 点 执 行 I / O 任 务 , 跟 踪 文 件 如 何 被 分 配 以 及 分 配 在 哪 一 个 数 据 节 点 下 , 还 可 以 监 测 整 个 文 件 系 统 是 否 正 常 运 行 。 Hadoop 集 群 上 的 每 个
13、 数 据 节 点 都 有 一 个 守 护 进 程 , 用 来 执 行 分 布 式 系 统 的 工 作 , 即 將 文 件 分 布 式 系 统 上 的 数 据 块 写 入 到 本 地 文 件 系 统 的 实 际 文 件 中 。次 名 字 节 点 的 守 护 进 程 是 一 个 用 于 监 测 文 件 系 统 运 行 状 态 的 辅 助 进 程 , 由 于 名 字 节 点 在 集 群 中 只 有 一 个 节 点 , 当 发 生 故 障 时 对 整 个 集 群 的 损 失 是 非 常 大 的 , 次 名 字 节 点 的 存 在 可 以 大 大 的 减 少 因 名 字 节 点 失 效 恢 复 所 需
14、的 时 间 , 并 降 低 了 数 据 丢 失 的 风 险 。1 2 2 作 业 跟 踪 节 点 和 任 务 跟 踪 节 点 作 业 跟 踪 节 点 的 守 护 进 程 是 Hadoop 与 应 用 程 序 之 间 的 纽 带 , 当 代 码 提 交 到 集 群 上 后 , 作 业 跟 踪 节 点 就 会 确 定 执 行 的 计 划 , 如 果 任 务 失 败 , 作 业 跟 踪 节 点 將 自 动 重 启 任 务 。 每 个 集 群 只 有 一 个 守 护 进 程 , 它 通 常 运 行 在 集 群 的 名 字 节 点 上 。任 务 跟 踪 节 点 的 守 护 进 程 负 责 执 行 作 业
15、 跟 踪 节 点 分 配 的 任 务 , 它 通 常 运 行 在 集 群 的 数 据 节 点 上 , 每 个 数 据 节 点 只 有 一 个 任 务 跟 踪 守 护 进 程 , 但 是 它 可 以 生 成 多 个 Java 虚 拟 机 来 并 行 的 处 理 多 个 Map 或 educe 任 务 。 任 务 跟 踪 节 点 的 守 护 进 程 的 另 一 个 任 务 则 是 不 停 的 与 作 业 跟 踪 节 点 进 行 通 信 , 如 果 一 段 时 间 内 作 业 跟 踪 节 点 没 有 收 到 来 自 任 务 跟 踪 节 点 的 通 信 , 作 业 跟 踪 节 点 则 认 为 该 节
16、点 已 经 死 亡 , 将 该 节 点 的 任 务 重 新 分 配 到 其 他 的 节 点 上 去 。1 3 Hadoop 组 件Hadoop 项 目 中 有 两 个 非 常 重 要 的 部 分 , 分 别 是 HDFS( Hadoop 的 文 件 分 布 式 系 统 ) 和 Map educe 并 行 计 算 框 架 。1 3 1 HDFS HDFS 是 为 Map educe 的 大 规 模 分 布 式 数 据 处 理 框 架 设 置 的 , 可 以 存 储 一 个 普 通 的 文 件 存 储 系 统 无 法 存 储 的 大 文 件 , 在 物 理 空 间 上 它 將 一 个 大 文 件
17、分 为 若 干 个 比 较 小 的 数 据 块 ( 通 常 为 64MB) , 存 放 在 集 群 中 每 一 个 节 点 上 , 在 逻 辑 空 间 上 则 是 以 一 个 文 件 存 储 。 在 读 取 数 据 时 HDFS 可 以 实 现 并 行 操 作 , 所 以 提 高 了 其 在 读 取 数 据 时 的 吞 吐 量 。1 3 2 Map educe 并 行 计 算 框 架 Map educe 程 序 通 过 操 作 键 / 值 对 来 处 理 数 据 , 一 般 形 式 如 下 :Map: ( K1 , V1 ) list( K2 , V2 ) educe: ( K2 , list
18、( V2 ) ) list( K3 , V3 )Map educe 將 数 据 处 理 任 务 抽 象 为 一 系 列 的 Map 和 educe 过 程 , Map 主 要 是 完 成 数 据 的 过 滤 工 作 , educe 主 要 完 成 数 据 的 聚 集 工 作 。 用 户 在 使 用 这 种 编 程 模 型 时 , 可 以 根 据 相 对 应 的 编 程 规 则 来 实 现 Map 函 数 和 educe 函 数 , 然 后 Map educe 会 自 动 对 任 务 进 行 划 分 以 做 到 并 行 执 行 5 。Map educe 工 作 流 程 如 图 1 所 示 。 5
19、52 山 东 农 业 大 学 学 报 ( 自 然 科 学 版 ) 第 44 卷图 1 Map educe 工 作 流 程Fig 1 Mapreduce werk flow通 过 HDFS 將 输 入 的 数 据 集 分 割 后 , 分 布 到 集 群 中 的 每 一 台 机 器 上 , 然 后 由 作 业 跟 踪 节 点 确 定 Map 的 任 务 , Map 的 任 务 结 束 后 产 生 中 间 结 果 存 放 在 本 地 的 磁 盘 上 , 为 了 节 省 educe 过 程 的 时 间 , 在 洗 牌 ( Shuffling) 阶 段 之 前 对 结 果 进 行 一 下 “ 本 地 的
20、 educe” 即 Conbiner 过 程 。 在 HDFS 將 数 据 分 配 到 每 个 节 点 后 , 洗 牌 阶 段 是 节 点 间 唯 一 的 通 信 的 时 间 。 经 过 洗 牌 阶 段 后 进 行 educe 阶 段 , 將 最 终 的 结 果 输 出 。2 Hadoop 平 台 的 搭 建Hadoop 有 三 种 安 装 模 式 : 本 地 ( 单 机 ) 模 式 、 伪 分 布 模 式 和 全 分 布 模 式 。 本 地 模 式 主 要 是 用 于 开 发 调 试 Map educe 程 序 的 应 用 逻 辑 。 伪 分 布 模 式 在 单 机 模 式 之 上 添 加
21、了 代 码 的 调 试 功 能 , 可 以 运 行 HDFS, 可 以 与 其 他 的 守 护 进 程 交 互 等 功 能 。 Hadoop 集 群 的 运 行 采 用 的 全 分 布 模 式 , 下 面 详 细 的 介 绍 安 装 过 程 :安 装 环 境 包 括 Linux 操 作 系 统 , 远 程 登 录 协 议 ( SSH) , JDK 和 Hadoop 分 布 式 框 架 等 。 本 文 中 大 数 据 平 台 搭 建 的 实 验 用 机 的 基 本 配 置 : CPU( Intel( ) Core( TM) i5 3470 CPU 3 20GHz) , 内 存 ( 4G) , 硬
22、 盘 ( 1T) ; 开 源 软 件 有 : Hadoop( Hadoop 1 2 0) , Linux( Ubuntu 13 04 64 位 ) , JDK1 7。2 1 安 装 配 置 环 境Hadoop 可 以 在 Windows 和 Linux 两 种 操 作 系 统 下 安 装 , 在 Window 系 统 下 安 装 之 前 要 先 安 装 Cygwin软 件 , 来 模 拟 Unix 操 作 系 统 的 环 境 , 安 装 完 成 后 需 配 置 环 境 变 量 CYGWIN 为 Cygwin 的 安 装 路 径 。 本 文 主 要 介 绍 在 Linux 下 安 装 , 为 了
23、 搭 建 Hadoop 集 群 更 加 的 方 便 , 在 安 装 Linux 操 作 系 统 时 需 要 所 有 机 器 的 用 户名 保 持 一 致 , 本 文 使 用 的 用 户 名 为 Bigdata。 下 面 详 细 介 绍 安 装 的 主 要 步 骤 。2 1 1 配 置 各 节 点 的 Hosts 文 件 本 文 以 七 个 节 点 为 例 介 绍 Hadoop 大 数 据 平 台 搭 建 的 过 程 , 为 了 方 便 节 点 间 通 过 节 点 名 称 来 访 问 , 分 别 在 每 个 节 点 的 / etc / hosts 文 件 中 添 加 如 下 信 息 :maste
24、r 192 168 211 14slave1 192 168 211 13 slave2 192 168 211 16 slave3 192 168 211 17第 4 期 崔 文 斌 等 : Hadoop 大 数 据 平 台 的 搭 建 与 测 试 553slave4 192 168 211 10slave5 192 168 211 15 backup 192 168 211 2master 表 示 集 群 名 字 节 点 的 名 称 , backup 为 集 群 次 名 字 节 点 的 名 称 , slave1 到 slave5 为 集 群 数 据 节 点 的 名 称 。2 1 2 配 置
25、 无 密 码 的 远 程 登 录 协 议 Hadoop 在 运 行 过 程 中 名 字 节 点 的 守 护 进 程 需 要 与 数 据 节 点 的 守 护 进 程 进 行 通 信 , 为 了 实 现 名 字 节 点 与 数 据 节 点 之 间 通 信 , 不 需 要 输 入 密 码 , 需 要 配 置 无 密 码 的 远 程 登 录 协 议 。 具 体 配 置 如 下 :首 先 在 集 群 的 每 个 节 点 上 创 建 ssh 隐 藏 文 件 夹 , 并 更 改 文 件 夹 的 权 限 为 755( 文 件 所 有 者 可 读 可 写 可 执 行 , 属 组 内 和 其 他 用 户 组 的
26、用 户 可 读 可 执 行 ) , 然 后 在 名 字 节 点 上 进 入 ssh 文 件 夹 , 配 置 远 程 登 录 协 议 的 私 钥 和 公 钥 :cd sshssh keygencp id_rsa pub / authorized_keys 最 后 將 配 置 好 的 公 钥 通 过 下 面 命 令 分 布 到 集 群 中 的 其 它 节 点 上 。 scp authorized_keys * : / home / 用 户 名 / ssh /* 为 在 hosts 中 配 置 的 节 点 的 名 称 或 节 点 的 IP 地 址 。为 了 验 证 无 密 码 的 远 程 登 录 协
27、 议 是 否 配 置 成 功 , 从 名 字 节 点 向 所 有 的 节 点 发 起 连 接 命 令 : ssh * 为 在 hosts 中 配 置 的 节 点 的 名 称 或 节 点 的 IP 地 址 。在 首 次 连 接 其 它 节 点 时 , 会 提 示 输 入 密 码 , 此 时 输 入 目 的 节 点 的 密 码 会 显 示 本 次 登 录 该 节 点 的 时 间 和IP 地 址 , 若 不 显 示 则 表 示 无 密 码 的 远 程 登 录 协 议 配 置 失 败 。2 1 3 安 装 配 置 Java Hadoop 是 基 于 Java 语 言 开 发 的 开 源 框 架 , 因
28、 此 运 行 它 时 需 要 有 Java 的 支 持 , 必 须 在 每 台 机 器 上 安 装 JDK, 安 装 配 置 JDK 的 过 程 如 下 :首 先 在 usr 下 建 立 一 个 名 为 java 的 文 件 夹 作 为 JDK 的 安 装 目 录 , 然 后 把 下 载 的 jdk 7u25 linux x64 tar gz 移 动 到 安 装 目 录 下 并 解 压 下 载 到 的 安 装 包 :sudo tar zxvf jdk 7u25 linux x64 tar gz配 置 环 境 变 量 : sudo gedit / etc / profile?, 在 文 件 最
29、后 添 加 如 下 语 句 ( 确 认 好 自 己 的 路 径 ) :JAVA_HOME = / usr / java / jdk1 7 0_25PATH = $ JAVA_HOME / bin: $ PATHCLASSPATH = : $ JAVA_HOME / lib / dt jar: $ JAVA_HOME / lib / tools jar export JAVA_HOMEexport PATHexport CLASSPATH环 境 变 量 配 置 完 成 后 , 重 启 电 脑 后 使 用 java version 命 令 验 证 安 装 的 JDK, 若 显 示 版 本 信 息
30、则 证 明 安 装 正 确 , 否 则 安 装 失 败 。 为 了 方 便 Hadoop 集 群 的 搭 建 , 每 个 节 点 的 JDK 安 装 目 录 要 尽 量 保 持 一 致 , 否 则 需 要 在 每 个 节 点 上 修 改 Hadoop 的 配 置 文 件 。2 2 安 装 配 置 Hadoop在 http: / / mirror bit edu cn / apache / hadoop / common / 上 下 载 Hadoop 安 装 包 。 在 名 字 节 点 上 將 下 载 的 安 装 包 解 压 到 用 户 根 目 录 下 , 进 行 如 下 的 配 置 :2 2
31、1 配 置 名 字 节 点 上 的 / etc / profile 为 了 方 便 直 接 使 用 Hadoop 命 令 , 在 名 字 节 点 上 的 / etc / profile 配 置 如 下 :export HADOOP_HOME = / home / bigdata / hadoop 1 2 0export HADOOP_CONF_DI = $ HADOOP_HOME / conf 554 山 东 农 业 大 学 学 报 ( 自 然 科 学 版 ) 第 44 卷export PATH = $ HADOOP_HOME / bin: $ PATH2 2 2 配 置 conf / had
32、oop env sh 文 件 添 加 export JAVA_HOME = / usr / java / jdk1 7 0_25( 这 里 修 改 为 你 的 JDK 的 安 装 位 置 ) 。2 2 3 配 置 conf / core site xml 文 件 配 置 HDFS 文 件 系 统 的 端 口 和 路 径 。 configuration property name fs default name / name value hdfs: / / master: 49000 / value / property property name hadoop tmp dir / name v
33、alue / home / bigdata / hadoop_home / var / value / property / configuration 2 2 4 配 置 conf / mapred site xml 文 件 配 置 JobTracker 的 端 口 和 地 址 configuration property name mapred job tracker / name value master: 49001 / value / property property name mapred local dir / name value / home / bigdata / had
34、oop_home / var / value / property / configuration 2 2 5 配 置 conf / hdfs site xml 文 件 配 置 HDFS 备 份 的 副 本 的 数 目 , 要 小 于 目 前 集 群 中 节 点 的 个 数 。 configuration property name dfs replication / name value 3 / value / property / configuration 2 2 6 配 置 masters 和 slaves 主 从 结 点 配 置 conf / masters 和 conf / sla
35、ves 来 设 置 主 从 结 点 , 需 要 注 意 的 是 最 好 使 用 节 点 名 称 , 并 且 保 证 机 器 之 间 通 过 节 点 名 称 可 以 互 相 访 问 , 每 个 节 点 的 名 称 占 一 行 。在 masters 配 置 文 件 中 输 入 :master backup在 slaves 配 置 文 件 中 输 入 slave1 到 slave5 节 点 的 名 称 , 每 个 节 点 的 名 称 占 一 行 。通 过 如 下 命 令 :scp r / home / bigdata / hadoop 1 2 0 bigdata * / home / bigdata
36、 /* 表 示 节 点 的 IP 地 址將 Hadoop 分 布 到 集 群 中 的 其 他 节 点 上 。 至 此 大 数 据 平 台 的 搭 建 已 完 成 。 下 面 将 要 完 成 对 搭 建 的 大 数 据 平 台 的 测 试 工 作 。2 3 Hadoop 集 群 的 测 试先 格 式 化 一 个 新 的 分 布 式 文 件 系 统 : hadoop namenode format。然 后 启 动 服 务 。 Hadoop 集 群 有 两 种 启 动 服 务 的 方 式 , 第 一 种 方 式 是 在 名 字 节 点 上 通 过 命 令 :start all sh 同 时 启 动
37、HDFS 和 Map / educe;另 一 种 则 是 分 别 启 动 HDFS 和 Map / educe。 在 分 配 的 名 字 节 点 上 , 运 行 下 面 的 命 令 启 动 HDFS:第 4 期 崔 文 斌 等 : Hadoop 大 数 据 平 台 的 搭 建 与 测 试 555start dfs sh( 单 独 启 动 HDFS)start dfs sh 的 脚 本 会 参 照 名 字 节 点 上 的 slaves 文 件 的 内 容 , 在 所 有 列 出 的 数 据 节 点 上 启 动 守 护 进 程 。 在 分 配 的 作 业 跟 踪 节 点 上 , 运 行 下 面 的
38、 命 令 启 动 Map / educe:start mapred sh( 单 独 启 动 Map / educe)start mapred sh 的 脚 本 会 参 照 作 业 跟 踪 节 点 上 的 slaves 文 件 的 内 容 , 在 所 有 列 出 的 任 务 跟 踪 节 点 上 启 动 守 护 进 程 。若 需 要 关 闭 所 有 的 节 点 则 在 配 置 的 名 字 节 点 上 运 行 下 面 的 命 令 :stop all sh。最 后 输 入 JDK 提 供 的 一 个 显 示 当 前 所 有 的 Java 进 程 的 Pid 命 令 JPS( Java Virtual
39、Machine Process Sta- tus Tool) , 出 现 下 面 六 个 进 程 : SecondaryNameNode、 DataNode、 NameNode、 TaskTracker、 Jps 和 JobTracker 则 表 示 平 台 已 经 安 装 正 确 。 若 需 要 停 止 所 有 的 服 务 则 运 行 下 面 的 命 令 否 则 平 台 安 装 失 败 。 平 台 测 试 通 过 后 , 可 以 运 行 分 布 式 的 应 用 程 序 来 处 理 和 分 析 大 数 据 。3 总 结 展 望Hadoop 分 布 式 架 构 平 台 是 大 数 据 的 一 个
40、 非 常 重 要 的 开 源 架 构 平 台 , 与 其 他 并 行 化 架 构 平 台 相 比 有 着 非 常 大 的 优 势 , 本 文 主 要 对 它 的 组 成 , 构 建 模 块 及 安 装 过 程 进 行 了 部 分 介 绍 , 并 且 成 功 的 搭 建 了 Hadoop 分 布 式 架 构 平 台 , 为 以 后 对 大 数 据 的 研 究 提 供 了 一 个 科 研 的 平 台 。 我 们 下 一 步 的 工 作 是 在 大 数 据 平 台 下 进 行 有 关 算 法 的 研 究 , 将 其 中 的 一 些 算 法 实 现 并 行 化 运 行 。参 考 文 献 1 中 国 电
41、 子 科 学 研 究 院 学 报 编 辑 部 大 数 据 时 代 J 中 国 电 子 科 学 研 究 院 学 报 , 2013, 1: 27 31 2 ( 美 ) 拉 姆 Hadoop 实 战 M 韩 冀 中 译 , 北 京 : 人 民 邮 电 出 版 社 , 2011: 3 4 3 Sanjay Ghemawat Howard Gobioff Shun Tak Leung, The Google file system D USA: Google 2003: 29 43 4 Jeffrey Dean Sanjay Ghemawat, Map educe: Simplified Data Processing on Large Clusters D USA: San Frcmcisco, cakfcrnia 2004: 137 150 5 王 珊 , 王 会 举 , 覃 雄 派 , 等 架 构 大 数 据 : 挑 战 、 现 状 与 展 望 J 计 算 机 学 报 , 2011, 10: 1741 1752