1、基于 ETL 技术的指标数据监控平台的搭建和应用 陆庭辉 广东电网有限责任公司江门供电局 摘 要: 首先结合在企业指标数据监控方面遇到的问题, 指出建设统一的指标数据监控平台的必要性;然后针对指标数据监控平台的系统功能定位, 从系统架构、数据集成技术、数据存储结构、数据展示方式等方面来进行详细阐述。实际应用表明, 指标数据监控平台能有效支撑指标数据集中监控、工作进度跟踪分析等需求, 能在可比的基础上客观衡量各层级的工作业绩, 减轻了指标数据人工统计收集的工作负担。关键词: ETL; 指标数据监控; 数据仓库; 作者简介:陆庭辉 (1984) , 男, 广东江门人, 硕士研究生, 电气高级工程师
2、, 从事信息系统建设与维护工作。收稿日期:2017-10-23Received: 2017-10-230 引言随着信息系统应用的深入, 日积月累的业务数据已成为企业核心资源。通过数据来实现业务监控, 驱动管理提升, 已成为企业管理的新方向。目前, 江门供电局对各项指标数据的监控, 仍停留在人工收集阶段, 采集难度大、耗时耗力, 并且无法在可比的基础上衡量各层级的工作业绩。如何整合分散在各系统中的数据, 以常态化的数据监控来跟踪业务开展及满足各层级的统计分析需求, 成为企业运营监控的重要研究课题。为解决以上问题, 采用 ETL 技术和数据仓库技术, 建设统一的指标数据监控平台, 将各业务系统的数
3、据进行整合, 以满足企业运营监控的需求。1 系统设计与实现1.1 系统功能定位通过数据采集工具整合营销系统、资产系统、人资系统、计量自动化系统等业务系统的数据, 建立起全局的数据中心。同时, 结合江门供电局“十三五”改革发展指标体系, 以数据中心数据为基础, 从企业综合基础数据、县区局和供电所指标监控、主要指标情况 (含安全、经济、可靠、服务、绿色、综合 6 个维度) 等三方面, 构建数据监控展示平台, 实现指标数据的自动统计及纵横向比较, 为衡量各层级、岗位的工作业绩提供手段。1.2 系统架构指标数据监控平台需要将各业务系统所产生的数据, 以增量抽取的方式定时接入至数据中心, 按照上层的指标
4、数据分析需求, 进行数据的逐级计算汇总、分域存放。根据分析主题, 建立相应的数据集市, 基于数据集市, 建立数据监控平台, 提供报表、仪表盘、多维分析、即席查询等功能, 以实现指标数据的自动统计及比较, 支撑企业运营监控的要求1。系统总体架构如图 1 所示。1.3 数据集成技术指标数据监控平台集成的数据涉及到广东电网公司、电科院以及江门供电局部署的系统, 由于网络策略、数据库访问权限限制等原因, 需要综合使用 ETL 工具、网络爬虫工具等技术手段进行数据的获取2。图 1 指标数据监控平台系统架构图 下载原图其中, ETL 工具主要用于抽取广东电网公司企业级管理信息系统回流库的数据及本地系统数据
5、。针对无法读取数据库以及回流数据库数据不齐全的情况, 采用编写组件的方式, 将爬虫功能整合至 ETL 工具中, 从各系统前台页面抓取没有回流的数据以及其他外部数据, 增强了系统对于外部数据的集成能力。借助于 ETL 工具的定时抽取功能, 进行数据的清洗、格式转换、关联, 实现数据中心数据与各信息系统数据的及时同步更新以及数据的集中分级存放。1.4 数据存储结构数据存储区划分为存储层和数据集市区。1.4.1 存储层存储层是数据中心主要数据存储的地方。从业务层面来看, 存储层划分为生产域、营销域、资产域、人资域、准实时数据域。每个域再结合各业务部门职能, 将同类或关联关系较为紧密的数据实体划分形成
6、相同的数据主题。每个数据主题遵从内部数据实体紧耦合, 主题域之间松耦合的原则。存储层具有面向主题、集成、相对稳定、可以保存历史数据的特点3。当业务数据进入存储层时, 先用 ETL 工具对其进行清洗, 按照设计好的数据实体格式, 并遵从统一集成编码规则, 存储在不同的主题下, 从而保证数据的唯一性及一致性。从技术层面来看, 存储层采用分层分级的数据存储方式, 按数据的用途及粒度, 将数据存储区分为 ODS 区、DW 区。ODS 区数据直接来源于各业务系统, 原则上是原库原表。数据与各业务系统每天同步变动, 不保留历史数据, 主要用于满足操作型报表。对于数据量不大的管理类数据采用 ORACLE 数
7、据库进行存放, 对于数据量较大的生产实时类数据采用 Hadoop 分布式数据库进行存放。DW 区数据来源于 ODS 区, 并基于主题进行归集整合, 每天增量更新, 为汇总后的历史数据, 一般保留周期较长, 从技术而言是 3NF 模式, 采用 ORACLE 数据库进行存放。1.4.2 数据集市层数据集市层的数据来源于存储层, 是一种小型的部门级别或某一领域的数据集合, 它根据业务需求和实际应用需要设计而形成多维数据存储。为了满足某些用户的特殊业务或者数据应用需求, 数据中心对该领域相关数据进行汇总和计算, 按照指标计算要求、维度要求, 生成面向决策分析的数据立方体, 形成符合该应用的数据集市。数
8、据集市是基于需求分析驱动的数据集合, 技术人员从存储层不同主题中抽取相关符合用户需求的数据集合, 对数据进行优化、轻量汇总等, 从技术而言是星形模式, 为分析应用提供数据基础。所以, 根据应用设计的不同, 一个集市基本是对应一个上层应用。存储方式上, 采用 ORACLE 数据库进行存放。1.5 数据展示方式基于数据中心的数据, 使用 J2EE 开发框架, 采用 HTML5+Bootstrap 的前台展示技术, 结合 ECharts 等开源图表工具, 建立基于 Web 技术的数据监控平台, 用于展示企业运营相关的各项指标、数据, 实现各层级数据的纵横比较。对于需要进行多维度统计分析的数据, 借助
9、 SMARTBI 工具, 生成多维数据立方体的分析页面, 实现数据的切片、旋转、钻取等操作, 以及定制化的图表及文字展现方式, 并通过界面集成技术加载至数据监控平台中。另外, 向用户提供直接访问数据集市的接口, 供用户使用数据集市中的数据。例如, 用户可通过Excel 连接数据集市, 以数据透视图的方式完成个性化数据统计分析的任务。2 应用效果实际应用证明, 企业指标数据监控平台的建设, 起到了以下三方面的作用:一是为企业员工和决策者从不同的角度、不同的粒度了解企业的关键指标数据提供了有效手段, 有效支撑了指标数据集中监控、工作进度跟踪分析等需求;二是替代了人工采集统计数据的工作方式, 既可提
10、升工作效率, 也可减轻基层单位数据采集负担;三是有效支撑了绩效考核工作, 能在可比的基础上客观衡量各层级的工作业绩。3 结语随着企业信息化进程的深入推进及信息系统的广泛应用, 各领域业务系统产生了大量的数据, 如何实现多系统数据的整合, 破除各系统间的信息孤岛问题, 从中挖掘出有用的信息, 支持企业运营管理, 成为目前信息化建设的新热点。通过搭建统一的指标数据监控平台, 借助 ETL 技术将各业务系统的数据进行整合集成, 实现数据的分级分域存放, 并通过 Web 前台提供报表应用、仪表盘、多维分析等应用功能, 是一个行之有效的解决方案。参考文献1王朝硕, 刘相枪, 高思, 等.南方电网云数据平台的架构设计方法J.计算机与数字工程, 2012, 40 (11) :63-65. 2万歆, 姚晴虹.基于异构系统的数据集成平台的搭建和应用J.医疗卫生装备, 2016, 37 (2) :61-63. 3孟小峰, 慈祥.大数据管理:概念、技术与挑战J.计算机研究与发展, 2013, 50 (1) :146-169.