1、 阿里云 大数据开发平台 运维指南 产品版本: V2.0.0 文档版本: 20160601 阿里云 大数据开发平台 : 运维指南 20160516 法律声明 阿里云 提醒 您在阅读或使用本 文档 之前仔细阅读、充分理解本法律声明各条款的内容。如果您阅读或使用本 文档 的,您的 阅读或 使用行为将被视为对本声明全部内容的认可。 1、您应当通过阿里云网站或阿里云提供的其他授权通道下载、获取本 文档 ,且仅能用于自身的合法合规的业务活动。本 文档 的内容视为阿里云的保密信息,您应当严格遵守保密义务;未经阿里云事先书面同意,您不得向任何第三方披露本 文档 内容或提供给任何第三方使用。 2、 未经阿里云
2、事先书面许可,任何单位、公司或个人不得擅自摘抄、翻译、复制本 文档 内容的部分或全部,不得以任何方式或途径进行传播和宣传。 3、 由于产品版本升级、调整或其他原因,本 文档 内容有可能变更。 阿里云 保留在没有任何通知或者提示下对本 文档 的内容进行修改的权利,并在阿里云授权通道中不时发布更新后的用户 文档 。您应当实时关注用户 文档 的版本变更并通过阿里云授权渠道下载、获取最新版的用户 文档 。 4、本 文档 仅作为用户使用阿里云 产品及服务 的参考性指引, 阿里 云 以 大数据集成服务平台 的 “现状”、 “有缺陷” 和“当前功能”的状态提供 本 文档 。 阿里云在现有技术的基础上尽最大努
3、力提供相应的操作指引,但 阿里 云 在此明确声明对 本文档 内容的准确性、完整性、适用性、可靠性等 不作 任何明示或暗示的保证 。 任何单位、公司或个人因为下载、使用或信赖本 文档 而发生任何差错或经济损失的,阿里云不承担任何法律责任。 在任何情况下,阿里 云 均不对任何间接性、后果性、惩戒性、偶然性、特殊性或刑罚性的损害,包括用户使用 或信赖本 文档 而遭受 的阿里云 大数据开发平台 : 运维指南 20160516 利润损失,承担责任(即使阿里 云 已被告知该等损失的可能性)。 5、阿里云 网站上所有内容,包括但不限于著作、 产品、 图片、档案、资讯、资料、网站架构、网站画面的安排、网页设计
4、,均由 阿里云和 /或其关联公司 依法拥有其知识产权,包括但不限于商标权、专利权、著作权、商业秘密等。非经 阿里云和 /或其关联公司 书面同意,任何人不得擅自使用、修改、复制、公开传播、改变、散布、发行或公开发表 阿里云 网站 、产品 程序或内容。此外,未经阿里 云事先书面同意, 任何人 不得为了任何营销、广告、促销或其他目的使用、公布或复制 阿里云的名称 (包括但不限于单独为或以组合形式包含 “阿里云”、“ Aliyun”、“AliCloud”、 “万网” 等阿里 云 和 /或其关联公 司品牌,上述品牌的附属标志及图案或任何类似公司名称、商号、商标、产品或服务名称、域名、图案标示、标志、标识
5、或通过特定描述使第三方能够识别 阿里云 和 /或其关联公司)。 6、如若发现本 文档 存在任何错误,请与阿里云取得直接 联系。目录 I 阿里云 大数据开发平台 : 运维指南 20160516 目 录 法律声明 2 1. 前言 . 1 1.1 关于本文档 . 1 1.2 阅读对象 . 1 1.3 文档约定 . 1 1.3.1 排版约定 1 1.3.2 符号约定 2 2. 术语与缩略词 . 3 2.1 基本术语 . 3 2.1.1 数据集成( Data Integration) . 3 2.1.2 DataX . 3 2.1.3 Alisa . 3 2.2 缩略词 . 4 2.2.1 MaxCom
6、pute 4 2.2.2 Analytic DB . 4 2.2.3 RDS( Relational Database Service) . 4 2.2.4 DRDS( Distribute Relational Database Service) . 4 2.2.5 OCS( Open Cache Service) . 5 2.2.6 OSS( Object Storage Service) . 5 3. 产品 架构 . 6 目录 II 阿里云 大数据开发平台 : 运维指南 20160516 3.1 系统框架 . 6 3.2 组件及作用 . 6 3.2.1 Commonbase 7 3.2.
7、2 baseapi 7 3.2.3 phoenix(调度) . 7 3.2.4 Tenant . 7 3.2.5 Meta . 8 3.2.6 DQC . 8 3.2.7 workbench 8 3.2.8 CDP 9 3.2.9 Alisa . 9 3.3 部署方案 . 10 3.4 查询服务器信息及应用信息 . 10 3.4.1 查询服务器相关信息 11 3.4.2 登陆服务器 12 3.4.3 查 询应用信息 13 3.4.4 重启应用服务 16 4. 运维与故障排查 . 19 4.1 应用运维 . 19 4.1.1 Alisa 运维帮助 19 4.1.2 CDP 运维帮助 . 28 4
8、.1.3 常见故障处理 49 前言 1 阿里云 大数据开发平台 : 运维指南 20160516 1. 前言 1.1 关于本 文档 本 运维 指南 主要针对阿里云 大数据开发 平台 ( 英文 名称 Data IDE) 产品 的 日常运维工作 中 所应包含的内容及版面格式做一个初步的统一规定。由于实际情况千变万化,本规定很难一次做到面面俱到,需要逐步完善。 1.2 阅读对象 本手册 适 用于 阿里云 大数据 开发平台 的运维人员。 1.3 文档 约定 本 运维手册 遵循如下约定: 1.3.1 排版约定 下表主要描述了本手册中常用的排版约定。 表 1-1 排版约定 字体格式或标志 释义 粗体 所有标
9、题和功能点均使用 加粗 字体表示。 斜体 命令行参数(代码示例必须由实际值进行替代的部分)采用 斜体 表示。 【注意】 表示需要读者注意的事项。 前言 2 阿里云 大数据开发平台 : 运维指南 20160516 【提示】 配置、操作或使用此平台的技巧。 【说明】 对正文的补充说明。 注意事项内容 表示需要读者注意的具体事项说明。 1.3.2 符号约定 下表主要描述了本指南 中常用的符号约定。 表 1-2 符号约定 符号 描述 范例 释义 表示在平台中的菜单选项 文件 新建 项目 从“文件”菜单中选择“新建”,然后从“新建”子菜单中选择“项目”。 表示某流程的先后顺序 申请 审批 赋权 此申请流
10、程需先进行“申请”,再进行“审批”,最后“赋权”。 术语 与缩略词 3 阿里云 大数据开发平台 : 运维指南 20160516 2. 术语与 缩略词 2.1 基本术语 2.1.1 数据集成 ( Data Integration) 数据集成 ( Data Integration) 是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,为阿里云大数据计算引擎 ( 包括 MaxCompute、 Analytic DB、 OSPS)提供离线 ( 批量 ) 、实时 ( 流式 ) 的数据进出通道 。 2.1.2 DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具 /平台,实现包括 MyS
11、QL、 Oracle、 PG、 HDFS、 MaxCompute 等各种异构数据源之间高效的数据同步功能。目前已经在集团内部稳定运行了 5 年之久,每天负责同步 7w 多道作业,共计传输数据量达 200T/天 。 2.1.3 Alisa Alisa 的 定位是分布式离线任务执行平台,主要目标是管理离线任务执行集群并为离线任务提供运行容器。目前 Data IDE 本身的任务实际执行容器都是Alisa。 术语 与缩略词 4 阿里云 大数据开发平台 : 运维指南 20160516 2.2 缩略词 2.2.1 MaxCompute 大数据计算服务 ( MaxCompute, 原 ODPS) 是阿里巴巴
12、自主研 发 的海量数据离 线 数据 处 理平台。主要服 务 于 实时 性要求相 对 不高的批量 结 构化数据的存 储和 计 算,可以提供海量数据 仓库 的解决方案以及 针对 大数据的分析建模服 务 。 2.2.2 Analytic DB 分析型数据库 ( Analytic DB, 原 ADS),是阿里巴巴自主研发的海量数据实时高并发在线分析( Realtime OLAP)云计算服务,使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。 2.2.3 RDS( Relational Database Service) 云数据库( Relational Database Service
13、,即关系型数据库服务,简称 RDS)是阿里云提供的一种稳定可靠、可弹性伸缩的在线数据库服务。 RDS 采用即开即用方式 , 支持 MySQL、 SQL Server、 PostgreSQL 和 PPAS( 高度兼容 Oracle)引擎 并提 供了数据库在线扩容、备份回滚、性能监控及分析等功能。 2.2.4 DRDS( Distribute Relational Database Service) 分布式关系型数据库服务( Distribute Relational Database Service,简称 DRDS)是一种水平拆分、可平滑扩缩容、读写分离的在线分布式数据库服务。 术语 与缩略词
14、5 阿里云 大数据开发平台 : 运维指南 20160516 2.2.5 OCS( Open Cache Service) 开放缓存服务 ( Open Cache Service,简称 OCS)是基于内存的缓存服务,支持海量小数据的高速访问。 2.2.6 OSS( Object Storage Service) 对象存储( Object Storage Service,简称 OSS),是阿里云对外提供的海量,安全,低成本,高可靠的云存储服务。 产品 架构 6 阿里云 大数据开发平台 : 运维指南 20160516 3. 产品架构 3.1 系统框架 大数据 开发平台由 多个 组件 系统 架构 而成
15、, 系统框架 如 图 3-1: 应 用 层应 用 层B a s e - b i z - c o m m o n s e ( I D E )B a s e - b i z - b a s e a p i ( A P I )B a s e - b i z - p h o e n i x ( 调 度 中 控 )B a s e - b i z - a l i s a ( 任 务 资 源 管 控 )B a s e - b i z - g a t e w a y( 执 行 节 点 )M a x C o m p u t eB a s e - b i z - g a t e w a y( 执 行 节 点 )B
16、 a s e - b i z - w o r k b e n c h ( 任 务 管 理 )B a s e - b i z - d q c ( 数 据 质 量 检 测 )B a s e - b i z - m e t a ( 元 数 据 管 理 )A p i 层A p i 层调 度 控 制 层调 度 控 制 层执 行 层执 行 层计 算 引 擎计 算 引 擎任 务 管 控 控 制任 务 管 控 控 制B a s e - b i z - t e n a n t ( 租 户 管 理 )账 号 管 理 层账 号 管 理 层图 3-1 Data IDE 框架 图 3.2 组件 及作用 文档 中描述 D
17、ata IDE总共 有 9大 组件 组成 ,包括原生组件: commonbase、baseapi、 phoenix、 Alisa、 workbench、 Tenant; 以及集成组件 Meta、 DQC以及 CDP 构成 ; 产品 架构 7 阿里云 大数据开发平台 : 运维指南 20160516 3.2.1 Commonbase commonbase 为整个 Data IDE 的应用层,也即为用户进入 Data IDE 开发的首要入口。 commonide 是 Data IDE 对外的门户 ,为大数据开发提供可视化设计的通用组件。其主要功能包括任务开发、脚本开发、资源管理、函数管理、发布管理等
18、; 3.2.2 baseapi baseapi 为 Data IDE 的 API 层,封装了各个组件 的接口;主要是封装了调度 、 租户 组件 的接口,提供 Data IDE 内部各个组件之间的对接; 同时 也提供部分 外部用户可调用的接口; 3.2.3 phoenix( 调度 ) phoenix( 调度 系统) 为整套 Data IDE 的 调度 控制层, 实现 了一套完整的、可实现百万级任务量的调度量,支持任务上下层依赖、用户自定义时间调度、跨周期依赖 等 功能;用户在任务开发过程 中 发布后、冒烟测试都经过调度层统一调度执行。 3.2.4 Tenant Tenant( 租户 ) , 为
19、Data IDE 的租户管理系统, 维护 了 整套 平台的账户管理、执行权限管理、角色管理; 产品 架构 8 阿里云 大数据开发平台 : 运维指南 20160516 3.2.5 Meta Meta( MetaService、 元数据 服务 ) , 是 Base 的基础元数据服务模块。为上层应用提供诸如 MaxCompute 建表、表权限修改、表授权等等功能性接口。同时, MetaService 会对表血缘、字段血缘、表及项目存储量等 Data IDE 平台基础元数据进行定时加工,为上层应用提供相关元数据信息 3.2.6 DQC DQC( Data Quality、 数据质量 检测 ) , 是
20、术语 Data IDE 的集成组件。 其作用是 致力于数据质量体系建设,是贯穿数据生命周期的全链路数据质量解决方案,覆盖质量评估、样本去噪、数据监控、数据探查、数据清洗、数据诊断等方面。 3.2.7 workbench workbench(运维 中心 ), 运维中心是日常运维的主要工具,可对已提交工作流及其节点任务进行管理与维护,同时也可针对节点来添加监控报警。主要分为运维概览、任务管理、任务监控三个模块。 运维 概览 主要针对平台的全局任务进行查看与管理,包括任务完成情况、任务运行情况、任务执行时长排行、调度任务数量趋势、近一月出错排行以及当前项目空间中任务类型分布。 任务管理 任务管理包括
21、:任务管理视图、任务运维视图、任务管理列表、任务运维列表四大部分。可通过工作流可视化视图及工作流列表视图两种方式来进行管理。工作流可视化视图可对节点的运行状态及上下游依赖关 系等产品 架构 9 阿里云 大数据开发平台 : 运维指南 20160516 进行维护与管理,可对单个任务进行补数据、重跑等操作;列表视图则以图表形式列出任务的运行状态,可进行批量杀任务及批量重跑、批量修改任务属性、配置监控报警等操作。 监控报警 主要包括报警记录和自定义提醒两部分。运维人员可在监控报警模块中查看历史报警记录,并对已自定义的报警提醒进行修改等操作 。 3.2.8 CDP CDP 是阿里集团对外提供的稳定高效、
22、弹性伸缩的数据集成平台,为阿里云大数据计算引擎 (包括 MaxCompute、 ADS)提供离线 (批量 )的数据进出通道。集成 到了 Data IDE 中, 目前 CDP 支持数据通道包括 (不限于) : 关系型数据库( RDS(MYSQL、 SqlServer、 PostgreSQL)、 DRDS、 Oracle)、 NoSQL 数据存储( OCS) 、 数据仓库 ( MaxCompute、 ADS)、 非结构化存储 ( OSS、 FTP) ; CDP 为任务数据来源的重要通道,在 Data IDE 使用中会占用较大的使用量, 其中 的主要内部逻辑 对用户 的感知会比较 广 ,在后续的文档
23、 4.1.2 章节 中 详细 介绍该组件。 3.2.9 Alisa Alisa( 调度 执行引擎) , 是一套 独立 分布式执行引擎 , 其 支持热启动 、高可用性 以及 可扩展 等 特性。是 整套 Data IDE 所有任务 类型 的执行层, 可支持 shell、 sql 任务、 MR 任务 、 同步数据任务等 等 ; Alisa 本身系统的可运维性以及稳定性是直接影响了 整套 Data IDE 的稳定性 、可运维 性 的 ,相对于其它组件,该组件的稳定性 要求 比较高,在后续产品 架构 10 阿里云 大数据开发平台 : 运维指南 20160516 的文档 4.1.1 章节 中会 详细 介绍
24、 该组件 。 3.3 部署方案 Data IDE 常规应用均部署在两台机器上,通过 VIP( SLB)做负载均衡以及高可用。请求通过域名调用该应用时,请求落到域名下挂载的 VIP, VIP 将请求随机下发到其中一台机器上。 而在每台机器上,应用均启动在本地 7001 端口,通过 nginx 转发,将来自外部的域名访问请求转发到本地 7001 端口。 其部署方案如图 3-2 所示: 域 名S L BN g n i x N g n i x端 口端 口域 名8 08 07 0 0 17 0 0 1图 3-2 Data IDE 部署方案 3.4 查询服务器 信息及应用信息 整套 Data IDE 是
25、基于 曙光 化部署,应用信息和相关的数据库信息 可以在 相应的曙光地址中查询到 。 下面 指导如何查询服务器信息以及如何登陆到 相应 的服务器上 。 产品 架构 11 阿里云 大数据开发平台 : 运维指南 20160516 3.4.1 查询服务器相关信息 1) 使用 chrome 浏览器,确保 当前 网络环境可以访问到内部服务; 2) 打开 网址: http:/ 注 :如果打不开该网址,表示您机器网络环境不通,或者需要绑定一下 hosts。 3) 再输入 用户名、密码 , 见 图 3-3: 图 3-3 cmdb 登陆界面 4) 选择“运维树 实例管理 ”, 然后逐层打开进入到 “base”,
26、如 图 3-4: 产品 架构 12 阿里云 大数据开发平台 : 运维指南 20160516 图 3-4 cmdb 应用查询界面 5) 基于上述步骤后,找到了 Data IDE 对应的信息存储栏, “base”目录 下的所有子目录即为 Data IDE 的所有 组件 系统名称,可以通过选择相应的 组件 名称,然后到右边的界面匡中寻找相应的信息。 6) 查找某个 应用所在的服务器信息 , 如 : 查找 组件 base-biz-alisa 所在 的服务器信息: 图 3-5 cmdb 应用 机器查询界面 注 :点击 “DB”可以 查询该服务器连接的数据库信息;如果为空,则表示该应用 不 直接依赖数据库
27、 。 3.4.2 登陆服务器 基于 章节 3.1.1 查询 到了相关的服务器 地址 , 每个 应用部署在两台 机器 上,应用包、配置信息都是相同的 ;基于 服务器 ip 登录到 后台服务器 进行 操作,具体登陆 服务器 步骤: 产品 架构 13 阿里云 大数据开发平台 : 运维指南 20160516 1) 确保网络 环境可通,以及查询到跳板机的 机器 ip; 注 : 1) 如果不知道跳板机的 ip 地址,可以通过 该 命令查询 : ping 2) 如果 发现 ping 不同,则说明 网络环境 不对; 3) 登录服务器 可以使用 xshell 或其他的软件使用 。 2) 登陆 跳板机 ; 3)
28、 在 cmdb 中找到对应应用的 ip,然后 ssh ip (这些 ip 应该和 ag 是免密登陆的,就是可以直接 ssh 上去 ) 4) 成功 登陆机器后,都需要切换到 admin 账户下 : su - admin 5) 应用所在的目录: cd /home/admin/ 注 :需要到 base-biz-alisa 的 目录下: cd /home/admin/base-biz-alisa 3.4.3 查询应用信息 基于 3.1.1 登陆 到了 各个 应用所在的服务器上, 以及 找到相应应用所在的目录;找到了目录后可以查询相关的应用信息。 1) 查询应用包的配置信息 为了 方便运维管理, Dat
29、a IDE 的所有应用都是统一由 base-biz 开头 ,配置 文件 名称为 config.properties; 对应 的目录是 : 除了 gateway 和 cdp 之外,其余 10 个应用的配置文件均为: /home/admin/APPNAME/target/APPNAME.war/WEB-INF/classes/config.properties gateway 的配置文件为: 产品 架构 14 阿里云 大数据开发平台 : 运维指南 20160516 /home/admin/alisatasknode/target/alisatasknode/conf/config.properti
30、es cdp 的配置文件为: /home/admin/cdp_server/conf/config.properties 注 : APPNAME 表示各个具体的 组件 的名称,如 base-biz-alisa。 2) 查看应用日志 为了 方面运维管理, Data IDE 中 除了 gateway 和 cdp 之外,其余 10 个应用的日志文件均为: /home/admin/APPNAME/logs/APPNAME.log gateway 的日志文件为: /home/admin/alisatasknode/logs/alisatasknode.log cdp 的日志文件为: /home/admi
31、n/cdp_server/logs/cdp_server.log 注 : APPNAME 表示各个具体的 组件 的名称,如 base-biz-alisa。 3) 如何登陆数据库 Data IDE 中用 到 的数据库是 mysql 和 postgresql(简称 pg)两种 ,其中只有base-biz-phoenix 这个 应用使用了 postgresql 数据库 ; 其中 数据库的信息 从 cmdb上找到 包括 :( db_host,db_name,db_user,db_password) 各个应用对应的数据库: 应用 数据库 数据类型 base-biz-alisa dpbizalisa rd
32、s base-biz-commonbase dpbizide rds 产品 架构 15 阿里云 大数据开发平台 : 运维指南 20160516 base-biz-dfs dpbizdfs rds base-biz-dqcsupervisor dpbizdqc rds base-biz-metaservice dpbizmeta rds base-biz-tenant dpbiztenant rds base-biz-wkbench dpbizworkbench rds base-biz-dfs dpbizdfs rds base-biz-phoenix dpphoenix postgre(pg
33、) 各个 RDS 信息的查看: Postgre( PG)数据库信息的查看: mysql: 1) 登陆到 ag 上 ; 2) mysql h db_host P db_port u db_user D db_name p 产品 架构 16 阿里云 大数据开发平台 : 运维指南 20160516 db_password -default-character-set=utf8 pg: 1) 需要登陆 到 ag 上; 2) 登陆 pg 命令 : /u01/pgsql/bin/psql -h $db_host -p$db_port -U$db_user -d$db_name 注 :可以在跳板机上执行命令
34、 : history | grep mysql 可以 查询历史 命令 信息,复制执行即可 。 3.4.4 重启 应用服务 某些情况下,重启应用,是一种行之有效的解决方法。各个应用的启动、停止、重启都是通过应用自带的脚本实现的,但各个应用脚本名称和存放路径却略有差别。 3.4.4.1 一般应用 重启 除 base-biz-gateway 和 base-biz-cdp 外,其它应用启动( start)、停止( stop) 、重启(重启)方式均为: $/home/admin/APPNAME/bin/jbossctl start( stop/restart) APPNAME 换成需要操作的应用,例:重
35、启 base-biz-alisa 服务 $/home/admin/base-biz-alisa/bin/jbossctl restart 监测应用启动(停止)是否成功,首先需要 ps -xf 查看进程是否存在,其次 curl本地 80 端口 checkpreload.htm 文件,查看服务是否 OK。 图 3-1 表明 alisa 重启成功。 产品 架构 17 阿里云 大数据开发平台 : 运维指南 20160516 图 3-6 查看 alisa 进程 3.4.4.2 base-biz-cdp 重启 base-biz-cdp 的启动( start)、停止( stop) 、 重启(重启)方式为:
36、$/home/admin/cdp_server/bin/appctl.sh start( stop/restart) base-biz-cdp 启动验证方式同上。 3.4.4.3 base-biz-gateway 重启 base-biz-gateway 的启动( start)、停止( stop) 、 重启(重启)方式为: $/home/admin/alisatasknode/target/alisatasknode/bin/serverctl start( stop/restart) 监测 base-biz-gateway 正常启动的方式时: $ tail -f /home/admin/ali
37、satasknode/logs/heartbeat.log 如图 3-2,心跳汇报正常则应用服务正常,否则服务不正常。 图 3-7 gateway 心跳日志 产品 架构 18 阿里云 大数据开发平台 : 运维指南 20160516 故障 处理 19 阿里云 大数据开发平台 : 运维指南 20160516 4. 运维 与 故障 排查 4.1 应用 运维 Data IDE 的 有 多个 组件 系统组成, 主要的 Data IDE 任务 操作 运维可以参考 使用 手册 , 这部分主要 描述 针对 Data IDE 平台 中比较独立的两个 组件 的 运维帮助: Alisa 运维 帮助 和 CDP 运维
38、 帮助; 4.1.1 Alisa 运维 帮助 4.1.1.1 Alisa 部署架构 Alisa 是一套 支持 多种任务类型、 可水平 扩展、 高可用性 的分布式执行引擎系统,整个 系统 主要分为两个模块: ALISA_DRIVER 和 ALISA_NODE,整体 的架构如图 4-1。 A L I S A _ D R I V E R _ A( m a s t e r )A L I S A _ D R I V E R _ B( s l a v e )A L I S A _ N O D E( G W )A L I S A _ N O D E( G W )D B. . .O d p sA P Ib a
39、 s e - b i z - a l i s ab a s e - o d p s g a t e w a y故障 处理 20 阿里云 大数据开发平台 : 运维指南 20160516 图 4-1 ALISA 架构 ALISA_DRIVER: 控制 模块 ,主要负责任务的资源管理,内部依赖于数据库的方式实现了主备机制 ,一个 环境只允许一个 master;内部 实现了 一套内 资源 管理模型, 负责 将任务合理的分配到 指定 的节点上执行 ,可以 水平扩展; 主备 机制保证了应用的可用性 , 图 4-2 中 三台 ALISA_DRIVER,中间一台 master,两台follower,位于不同的
40、 服务器 cm3, cm4, cm5。 如果 cm3 出现 异常,则 其余 两台可以 正常工作。 D r i v er M a s t ercm 3D r i v e r F o l l o w e rcm 4D r i v e r F o l l o w e rcm 6D r i v e r F o l l o w e rcm 6D r i v er M a s t ercm 4Mas t er 宕机,sla v e 可监听到事件,自动升级为 mas t er图 4-2 主备 机制 注 : ALISA_DRIVER 对应到 cmdb 上的应用 服务器 是 base-biz-alisa ALI
41、SA_NODE: 俗称 gateway,系统的任务执行节点, 部署 在 服务器 上的一个 agent,负责接收任务 、 执行任务、 收集 任务执行日志 及 查询日志等功能; 对应的服务器可 基于 任务量扩容 , 一台 服务器 部署一个 agent 包 。 注 : ALISA_NODE 对应到 cmdb 上的应用服务器是 base-biz-gateway 4.1.1.2 Alisa 的资源管理模型 Alisa 是整个 Data IDE 平台的最底层, gateway 成为 任务真正执行的所在服故障 处理 21 阿里云 大数据开发平台 : 运维指南 20160516 务器, 每个 任务都会占用物理
42、资源( cpu、 内存 、磁盘等) , 如果一台机器上任务并发数过大,可能会导致机器无法正常使用,甚至宕 机的风险; Alisa 实现了一套完整的资源管理 模型: 资源组 -集群 -gateway 模型 ; Gr o upA100Gr o upB200Gr oup C100Gr o upD50Gr o upE150Gr o upF100集群 A集群 BGat ew ay构成集群资源量集群资源组gat eway槽位集群 A资源 组虚拟 共享集群容量集群 Bga t ew ay A (1 0 0 )ga t ew ay B (1 0 0 )ga t ew ay C (1 0 0 )gat e w
43、ayE (10 0 )ga t ew ay F (1 0 0 )gat e w ayG (10 0 )ga t ew ay D (1 0 0 )图 4-3 资源组 -集群 -gateway 管理模型 引入概念 : 槽位( slot) ;作为 衡量 一个 任务所占资源大小 的 单位 ;设定 每个 sql 任务 占用 1slot, 同步 任务占用 10slot; Gateway: 可以指一台部署了 ALISA_NODE 服务 的服务器,一台服务器目前只允许部署一个 agent 包 , 任务 真正 执行 所使用 的服务器。 使用 槽位设置一台gateway 运行并发执行的任务数; 集群 (gatew
44、ay): Alisa 将 gateway 使用集群管理模式,一台 gateway 只能从属于一个集群, 利用 集群 隔离 不同的 gateway; 一个 集群下可允许有多个 gateway,多个资源组。 资源组( group): 虚拟资源隔离概念, 可以 理解为调度资源 ;主要的 目的是故障 处理 22 阿里云 大数据开发平台 : 运维指南 20160516 做到项目之间的隔离,每个项目一个资源,不同的资源组从属于不同的集群,所以最后执行任务的 gateway 也不同,做到相应的隔离。 使用 槽位作为一个资源组允许执 行的并发数; 通过 资源 模型,可以做到资源的管控和一些 场景 需求 : 任务物理 隔离: 不同的项目可以使用不同的资源组 和 不同的集群,项目A 使用资源组 A,对应的集群 A, 任务真正执行到 gatewayA 上; 项目 B则使用资源组 B,则这样做到了两个项目之间 物理上 的完全隔离。 实现该方式的前提是必须有两 台 服务器作