1、数据立方云计算一体机产品白皮书1 / 18南京云创存储科技有限公司 2012-8-21数 据 立 方 云 计 算 一 体 机 产 品 白 皮 书数据立方云计算一体机产品白皮书2 / 18南京云创存储科技有限公司 2012-8-21 版权声明本文中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属南京云创存储所有,受到有关产权及版权法保护。任何个人、机构未经南京云创存储的书面授权许可,不得以任何方式复制或引用本文的任何片断。 数据立方云计算一体机产品白皮书3 / 18南京云创存储科技有限公司 2012-8-21目 录一. 前言 .4二. 产品介绍 5三. 功能特
2、性 7四. 配置参数 8五. 测试环境及结果 9六. 使用说明 11七. 产品应用 15八. 成功案例 16数据立方云计算一体机产品白皮书4 / 18南京云创存储科技有限公司 2012-8-21一. 前言全 球 在 2010年 正 式 进 入 ZB 时 代 , 根 据 IDC监 测 , 全 球 数 据 量 大 约 每 18 个 月 翻 一 番 ,意 味 着 人 类 在 最 近 18个 月 产 生 的 数 据 量 相 当 于 之 前 产 生 的 全 部 数 据 量 , 预 计 到 2020 年 ,全 球 将 总 共 拥 有 35ZB的 数 据 量 , 相 较 于 2010年 , 数 据 量 将
3、增 长 近 30倍 。 我 们 正 处 于 大 数据 时 代 的 边 缘 。随 着 信 息 化 的 发 展 , 企 业 需 要 处 理 的 数 据 呈 爆 炸 式 的 增 长 , 数 据 量 都 达 到 了 TB级 、PB级 , 由 此 带 来 了 一 系 列 的 问 题 。 数 据 量 的 增 多 , 系 统 的 负 载 越 来 越 大 , 数 据 的 入 库 和 查 询性 能 随 之 下 降 。 在 不 增 加 硬 件 成 本 的 情 况 下 , 如 何 发 挥 系 统 的 最 大 性 能 , 使 入 库 , 查 询 速 度最 快 , 是 许 多 企 业 面 临 的 难 题 。云 计 算
4、的 出 现 为 海 量 数 据 处 理 提 供 了 有 效 地 解 决 途 径 , 在 通 常 的 云 计 算 解 决 方 案 中 , 通过 Hadoop( 一 种 分 布 式 系 统 基 础 架 构 ) 的 HDFS( 一 种 分 布 式 文 件 系 统 ) 可 以 方 便 的 实 现海 量 数 据 存 储 , 同 时 有 效 防 止 单 点 故 障 , 避 免 不 必 要 的 损 失 。 但 是 , 在 HDFS 上 进 行 数 据检 索 时 , 常 用 的 方 法 是 开 启 全 局 搜 索 MapReduce( 大 规 模 数 据 并 行 运 算 ) , 这 需 要 完 整 过滤 一
5、遍 HDFS 上 存 储 的 所 有 数 据 。 在 云 计 算 中 , 尤 其 是 在 海 量 数 据 情 况 下 , 这 样 做 会 对 系 统资 源 造 成 巨 大 的 浪 费 , 耗 费 大 量 的 时 间 , 这 显 然 不 是 一 个 适 合 投 入 现 实 生 产 环 境 的 方 式 。本 产 品 克 服 现 有 云 计 算 解 决 方 案 中 常 用 数 据 处 理 方 法 会 造 成 系 统 资 源 浪 费 , 数 据 处 理 时间 长 的 缺 点 , 提 供 一 种 有 效 的 海 量 数 据 实 时 处 理 设 备 , 最 大 限 度 的 利 用 了 计 算 机 的 硬
6、件 设备 , 通 过 一 种 高 效 地 并 行 执 行 方 式 , 使 查 询 达 到 了 实 时 完 成 、 简 单 易 用 、 高 可 靠 安 全 的 效能 , 成 功 解 决 了 海 量 数 据 的 快 速 索 引 和 查 询 问 题 , 使 得 百 亿 条 记 录 级 的 数 据 能 够 秒 级 处 理 ,极 大 地 提 高 用 户 执 行 查 询 操 作 后 的 使 用 效 率 。数据立方云计算一体机产品白皮书5 / 18南京云创存储科技有限公司 2012-8-21二. 产品介绍 产 品 概 述数 据 立 方 云 计 算 一 体 机 是 一 种 处 理 海 量 数 据 高 效 分
7、布 式 的 、 软 硬 件 集 合 的 云 处 理 平 台 ,该 平 台 可 以 从 TB 乃 至 PB 级 的 数 据 中 挖 掘 出 有 用 的 信 息 , 并 对 这 些 海 量 信 息 进 行 快 捷 、 高效 的 处 理 。 平 台 支 持 100GBps 以 上 量 级 的 数 据 流 实 时 索 引 , 1s 内 响 应 客 户 请 求 , 秒 级 完成 数 据 处 理 、 查 询 和 分 析 工 作 。 平 台 可 以 对 入 口 数 据 进 行 实 时 索 引 , 经 过 数 据 立 方 对 数 据 进行 分 析 、 清 理 、 分 割 后 , 将 这 些 数 据 存 储 在
8、 云 存 储 系 统 上 , 不 仅 在 查 询 和 检 索 这 部 分 数 据 的时 候 具 有 非 常 高 的 性 能 优 势 ,还 可 以 支 持 数 据 仓 库 存 储 、 数 据 深 度 挖 掘 和 商 业 智 能 分 析 等 业务 。 产 品 优 势全 业 务 支 持 : 采 用 NoSQL+关 系 数 据 库 混 合 模 式 , 不 仅 支 撑 查 询 、 统 计 、 分 析 业 务 , 还可 支 撑 深 度 数 据 挖 掘 和 商 业 智 能 分 析 业 务 。对 任 意 多 关 键 字 实 时 索 引 : 利 用 数 据 立 方 存 储 索 引 结 构 , 将 任 意 不 同
9、 的 关 键 字 字 段 分别 建 立 索 引 , 可 方 便 快 捷 的 在 海 量 数 据 云 计 算 系 统 中 准 确 检 索 定 位 数 据 。支 持 类 SQL 复 杂 并 行 组 合 查 询 : 专门针对地面数据传输的高性能可靠文件传输协议,采用并行流水线方式、将传输与存储作联合优化,并支持多点中继高效传输。分 布 式 万 兆 实 时 数 据 流 秒 级 处 理 : 高效索引算法,智能化调度任务系统,满足秒级查询速度。提 高 客 户 体 验 : 能 够 支 撑 千 万 级 并 发 访 问 , PB 级 数 据 存 储 、 秒 级 数 据 处 理 能 力 , 提 高了 客 户 体
10、验 感 。 用 户 访 问 时 , 系 统 通 过 负 载 均 衡 与 队 列 模 式 , 做 到 资 源 公 平 原 则 加 强 客户 体 验 。数据立方云计算一体机产品白皮书6 / 18南京云创存储科技有限公司 2012-8-21超 高 可 靠 性 : 任 意 节 点 宕 机 , 系 统 不 停 止 服 务 ; 任 意 硬 盘 、 网 卡 等 部 件 损 坏 , 不 影 响 系统 服 务 , 系 统 能 够 自 动 容 错 , 将 数 据 分 散 在 各 个 节 点 上 , 不 会 出 现 丢 失 数 据 的 现 象 。 任务 处 理 过 程 中 , 节 点 宕 机 , 任 务 自 动 切
11、 换 并 保 留 现 有 进 度 , 保 障 任 务 继 续 执 行 下 去 。可 伸 缩 性 : 在 不 停 机 的 情 况 下 , 增 加 节 点 , 平 台 的 处 理 能 力 自 动 增 加 ; 减 少 节 点 , 平 台的 处 理 能 力 自 动 缩 减 。 这 样 , 可 以 做 到 与 资 源 池 的 无 缝 对 接 , 根 据 计 算 和 存 储 任 务 动 态地 申 请 或 释 放 资 源 , 最 大 限 度 地 提 高 资 源 利 用 率 。高 性 价 比 : 采 用 X86 架 构 超 高 性 价 比 的 英 特 尔 E5 家 族 CPU 及 英 特 尔 服 务 器 组
12、件 构 建云 计 算 平 台 , 用 软 件 容 错 替 代 硬 件 容 错 , 大 大 节 省 成 本 。 在 目 标 性 能 和 可 靠 性 条 件 下 ,可 比 传 统 的 小 型 机 加 商 用 数 据 库 方 案 节 省 10 倍 左 右 的 成 本 。数据立方云计算一体机产品白皮书7 / 18南京云创存储科技有限公司 2012-8-21三. 功能特性项 目 内 容可管理的数据总量 可高效管理超过万亿条的记录。实时索引的数据流量支持 100Gbps 以上量级的数据流实时索引,单节点数据入库索引速度可达 10MB-20MB/S。任意关键字段实时创建索引根据提供的表结构解析元数据,并根据
13、提供的任意关键字段实时创建索引。可移植性 Java 语言实现,具有跨平台性,一次编程,任意操作系统都可运行。查询效率 百亿条记录秒级响应,可支持对万亿条记录进行实时查询。支持简答 SQL 组合查询采用与关系数据混合模式,绝大部分海量数据存放于分布式平台并进行分布式处理,少量实时性要求很高的数据存放于关系数据库,可支撑各种类型的业务。不仅支撑查询、统计、分析业务,还可支撑深度数据挖掘和商业智能分析业务。负载均衡性根据机器负载自动进行负载均衡。拔掉或者增加一台节点后,仍能均匀的向各处处理节点分布数据。支持并发查询 支持并发查询,查询要求都能正常下发执行、且都能正常返回结果。数据准确性 查询条件相同
14、情况下,每次查询结果相同。稳定性系统连续运行 7*24 小时,无任何故障,所有周期任务均正常执行,且执行结果正确。可靠性没有单点故障,任意节点宕机,系统工作正常,可以继续进行数据处理和应用查询,不会影响分布式系统运行和查询结果的准确性。扩展性既可以在很小规模的机器上运行,也可以在成千上万台的机器上运行,经过很简单的操作就可以把规模扩展到成千上万台服务器,可靠性随着节点的增加成线性上升。分布式计算能力集群能增加节点、并且能正常执行查询任务,在流量不变、资源增加的情况下,增加机器后,查询任务耗时按比例降低。支持对外接口 提供专用 API、Web 访问和 Web Services 接口进行对外数据交
15、互操作。数据立方云计算一体机产品白皮书8 / 18南京云创存储科技有限公司 2012-8-21监控功能 提供 Web 界面对分布式文件进行监控,支持查看、下载索引文件和元数据文件。四. 配置参数 配 置 参 数配 置 参 数 设备型号 部件清单 100TB 200TB 320TB主板 Intel5600 芯片组 Intel 芯片组 Intel 芯片组CPU 双路四核,主频 2GHz 以上 Intel E5 系列*2 Intel E5 系列*2内存 32GB DDR3 32GB DDR3 32GB DDR3硬盘 3.5 寸 2TB SATA 企业盘*1 3.5 寸 SATA 企业盘*1 3.5
16、寸 SATA 企业盘*1电源 625W 冗余电源 1+1 750W 高效冗余电源 1+1 750W 高效冗余电源 1+1控制节点服务器机箱 2U 机架式服务器机箱 1U 机架式服务器机箱 1U 机架式服务器机箱主板 Intel5600 芯片组 Intel 芯片组 Intel 芯片组(高温主板)CPU 双路四核,主频 2GHz 以上 Intel E5 系列*2 Intel E5 系列 8 核*2内存 16GB DDR3 48GB DDR3 48GB DDR3硬盘 3.5 寸 3TB SATA 企业盘*12 3.5 寸 3TB SATA 企业盘*12 3.5 寸 3TB SATA 企业盘*12高速
17、内置接口 SAS 端口 6Gb/sIntel RAID ExpanderRES2SV240Intel RAID ExpanderRES2SV240扩展卡4 端口进阶型 SerialATA 3G 1.5G电源 625W 冗余电源 1+1 750W 高效冗余电源 1+1 750W 高效冗余电源 1+1处理节点服务器机箱 2U 机架式服务器机箱 2U 机架式服务器机箱 2U 机架式服务器机箱数据立方云计算一体机产品白皮书9 / 18南京云创存储科技有限公司 2012-8-21交换机 千兆交换机冗余 千兆交换机冗余 InfiniBand 交换机配套设施 机柜 42U 高通风率六角弧形网 SPCC 优质
18、冷扎钢板制42U 高通风率六角弧形网 SPCC 优质冷扎钢板制42U 高通风率六角弧形网 SPCC 优质冷扎钢板制五. 测试环境及结果 测 试 环 境硬 件 环 境编号 机种 IP 地址 CPU 内存 硬盘控制台1Intel Server System H2000系列(H2312JF) 192.168.0.12680*2pcs 8GB 1TB控制台2Intel Server System H2000系列(H2312JF) 192.168.0.22680*2pcs 8GB 1TB1Intel Server Product R2000系列(R2312IP) 192.168.0.32620*2pcs
19、 4GB*12pcs=48GB3TB*3pcs+2TB*5pcs=19TB (3.5“)2Intel Server Product R2000系列(R2312IP) 192.168.0.42620*2pcs 4GB*12pcs=48GB3TB*3pcs+2TB*5pcs=19TB (3.5“)3Intel Server Product R2000系列(R2312IP) 192.168.0.52620*2pcs 4GB*12pcs=48GB3TB*3pcs+2TB*5pcs=19TB (3.5“)4Intel Server Product R2000系列(R2312IP) 192.168.0.6
20、2620*2pcs 4GB*12pcs=48GB3TB*3pcs+2TB*5pcs=19TB (3.5“)5Intel Server Product R2000系列(R2312IP) 192.168.0.72620*2pcs 4GB*12pcs=48GB3TB*1pcs+2TB*7pcs=17TB (3.5“)6Intel Server Product R2000系列(R2208GZ) 192.168.0.82620*2pcs 8GB*8pcs=64GB 1TB*8pcs=8TB (2.5“)7Intel Server Product R2000系列(R2208GZ) 192.168.0.92
21、620*2pcs 4GB*12pcs=48GB 1TB*8pcs=8TB (2.5“)8Intel Server Product R2000系列(R2208GZ) 192.168.0.102620*2pcs 4GB*12pcs=48GB 1TB*8pcs=8TB (2.5“)软 件 环 境数据立方云计算一体机产品白皮书10 / 18南京云创存储科技有限公司 2012-8-211 OS redhat6.2、datacube v1.0 测 试 结 果入库速度表查询响应时间图数据立方云计算一体机产品白皮书11 / 18南京云创存储科技有限公司 2012-8-21查询响应时间表六. 使用说明DataC
22、ube平 台 提 供 CMS后 台 管 理 系 统 方 便 用 户 的 管 理 、 监 控 和 操 作 。 登 录输 入 用 户 名 和 密 码 , 进 入 后 台 管 理 系 统 。 初 始 用 户 名 和 密 码 为 : admin/admin数据立方云计算一体机产品白皮书12 / 18南京云创存储科技有限公司 2012-8-21 文 件 监 控通 过 文 件 监 控 , 一 目 了 然 的 观 察 到 集 群 中 的 所 有 文 件 , 同 时 可 以 下 载 一 些 源 文 件 进行 测 试 操 作 , 支 持 文 件 路 径 访 问 、 下 载 、 在 线 查 看 等 操 作 。数据
23、立方云计算一体机产品白皮书13 / 18南京云创存储科技有限公司 2012-8-21集 成 hdfs 自 带 的 文 件 管 理 功 能 , 提 供 hdfs 上 文 件 夹 与 文 件 的 查 看 , 并 且 可 以 下 载 文 件 。 数 据 立 方数 据 立 方 功 能 主 要 是 对 表 、 索 引 和 数 据 的 管 理 和 查 询 , 通 过 表 管 理 可 以 定 义 表 和 索 引的 结 构 , 生 成 索 引 功 能 可 以 在 线 上 传 数 据 文 件 创 建 索 引 , 而 在 线 查 询 提 供 实 时 的 数 据查 询 功 能 。包 括 : 表 管 理在 线 查 询
24、生 成 索 引 集 群 监 控数据立方云计算一体机产品白皮书14 / 18南京云创存储科技有限公司 2012-8-21集成了 Ganglia,对整个 hadoop 集群进行监控。 任 务 监 控通 过 任 务 监 控 模 块 能 看 到 当 时 集 群 中 工 作 的 任 务 , 观 察 任 务 进 度 以 及 状 态 , 并 能 删 除任 务 。 用 户 管 理用 户 管 理 功 能 主 要 是 对 系 统 帐 号 的 管 理 , 可 以 增 加 和 删 除 用 户 帐 号 , 也 可 以 修 改 当 前用 户 帐 号 的 密 码 。数据立方云计算一体机产品白皮书15 / 18南京云创存储科
25、技有限公司 2012-8-21包 括 : 用 户 列 表创 建 用 户修 改 密 码 日 志 管 理数据立方云计算一体机产品白皮书16 / 18南京云创存储科技有限公司 2012-8-21七. 产品应用 安 防 工 程 ( 平 安 城 市 ) 移 动 网 络 优 化 娱 乐 行 业 媒 体 大 中 型 企 业 整 体 信 息 化 服 务 中 小 型 企 业 门 户 网 站 商 业 智 能 系 统 集 成 应 用 软 件 开 发数据立方云计算一体机产品白皮书17 / 18南京云创存储科技有限公司 2012-8-21八. 成功案例 智 能 交 通 云 平 台按 照 省 级 公 安 机 关 信 息
26、化 系 统 , 为 交 通 管 理 、 治 安 管 控 、 侦 查 破 案 、 巡 逻 防 范 、 反 恐 处突 等 各 项 公 安 工 作 提 供 服 务 保 障 。 实 现 对 重 点 车 辆 的 自 动 比 对 和 动 态 管 控 、 对 异 常 车 辆 行踪 的 自 动 研 判 预 警 、 对 特 定 车 辆 行 车 轨 迹 的 自 动 生 成 、 对 重 要 节 点 道 路 交 通 信 息 的 远 程 再现 、 对 基 层 单 位 和 执 勤 民 警 的 勤 务 实 施 管 理 等 建 设 目 标 。该 系 统 主 要 有 下 面 几 个 功 能 模 块 : 实 时 监 控 、 报
27、警 监 控 、 车 辆 轨 迹 查 询 与 回 放 、 电 子 地 图 、报 警 管 理 、 布 控 管 理 、 设 备 管 理 、 事 件 检 测 报 警 、 流 量 统 计 和 分 析 、 系 统 管 理 等 。 系 统 实数据立方云计算一体机产品白皮书18 / 18南京云创存储科技有限公司 2012-8-21施 阶 段 , 应 客 户 要 求 通 过 短 信 、 串 口 等 传 输 方 式 将 监 控 报 警 信 息 传 输 展 示 到 PC 客 户端 、 浏 览 器 、 手 机 、 监 控 指 挥 台 、 道 路 上 的 大 屏 幕 等 多 种 载 体 上 。 cVideo 云 转 码
28、 系 统由 于 视 频 片 源 需 求 的 多 样 化 , 对 于 视 频 节 目 也 有 着 不 同 格 式 、 不 同 分 辨 率 的 需 求 , 因 此根 据 不 同 需 求 , 需 要 准 备 与 之 相 应 的 数 据 。 然 而 转 码 是 十 分 消 耗 计 算 机 CPU 的 一 项工 作 , 传 统 模 式 上 依 靠 单 台 机 器 进 行 转 码 工 作 本 身 性 能 就 已 经 不 高 , 况 且 需 求 路 数 一 多势 必 会 严 重 影 响 整 体 性 能 , 对 于 大 规 模 的 使 用 显 然 不 适 合 。 而 基 于 cVideo 的 云 端 转码 技 术 , 可 以 很 方 便 地 做 到 分 布 式 高 效 转 码 , 负 载 均 衡 , 统 一 管 理 , 任 务 分 发 等 工 作 。基 于 cStor 云 存 储 系 统 , 提 供 网 页 形 式 的 交 互 界 面 , 实 现 对 视 频 数 据 的 存 储 、 管 理 、调 阅 、 按 需 转 码 、 系 统 监 控 、 状 态 查 看 等 功 能 。