收藏 分享(赏)

Oracle--SOA-主数据管理解决方案.docx

上传人:weiwoduzun 文档编号:3518765 上传时间:2018-11-11 格式:DOCX 页数:76 大小:4.08MB
下载 相关 举报
Oracle--SOA-主数据管理解决方案.docx_第1页
第1页 / 共76页
Oracle--SOA-主数据管理解决方案.docx_第2页
第2页 / 共76页
Oracle--SOA-主数据管理解决方案.docx_第3页
第3页 / 共76页
Oracle--SOA-主数据管理解决方案.docx_第4页
第4页 / 共76页
Oracle--SOA-主数据管理解决方案.docx_第5页
第5页 / 共76页
点击查看更多>>
资源描述

1、第 1 页Copyright 2011 Oracle CorporationAll rights reserved.Oracle 技术解决方案第 2 页Copyright 2011 Oracle CorporationAll rights reserved.目 录1. 概述 41.1 背景 .41.1.1 南方电网“十一五”信息化现状 .41.1.2 南方电网“十二五”信息化定位 .51.2 项目建设目标 .61.3 项目建设范围 .71.4 项目建设内容 .71.5 需求分析 .82. Oracle 主数据管理方案 .102.1 Oracle 主数据管理设计 .132.1.1 Oracle

2、主数据管理总体架构设计 132.1.2 主数据方案设计 .212.1.3 交换数据方案设计 .262.1.4 数据交换系统功能设计 .283. Oracle 主数据管理设计产品介绍 .463.1 Oracle BPM Suite(业务流程) 463.1.1 BPM 方案总体架构 463.1.2 闭环的 Oracle BPM 解决方案 473.1.2.1 业务流程分析 BPA 阶段 483.1.2.2 业务流程执行 BPE 与业务流程监视 BAM 阶段 .503.1.3 Oracle BPM 平台中主要模块介绍 .513.1.3.1Oracle BPM 服务器 .523.1.3.2Oracle

3、业务规则 523.1.3.3Oracle 流程建模与模拟工具 543.1.3.4Oracle 元数据资料库 543.1.4 Oracle BPM 解决方案的优势 .553.2 Oracle SOA Suite(应用集成) .563.2.1 价值主张 .563.2.2 创建服务 .563.2.3 服务连通与转换 .563.2.4 流程编排和整合 .573.2.5 服务发布与注册 .583.2.6 服务的安全管理 .593.2.7 用户身份管理 .603.2.8 SOA 平台的系统管理 .603.3 Oracle Data Integrator(批量数据抽取 ) 643.3.1 产品概述 .64第

4、 3 页Copyright 2011 Oracle CorporationAll rights reserved.3.3.2 ODI 产品体系结构 653.3.3 数据分发和传输 .663.3.4 数据集成核心 .683.3.5 数据质量核心 .683.3.6 数据连接 .703.3.7 ODI 主要优势 713.4 GoldenGate(实时数据同步方案) .713.4.1 高可用和容灾解决方案 .723.4.2 实时数据整合解决方案 .723.4.3 复制模式 .733.4.4 关键特性 .763.4.5 应用方式 .774. 软件配置及部署方案 794.1 软件配置及硬件推荐 .794.

5、2 部署架构图 .80第 4 页Copyright 2011 Oracle CorporationAll rights reserved.1. 概述1.1 背景1.1.1 南方电网 “十一五”信息化现状Oracle 主数据管理方案南方电网的数据质量管理必须有一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。(1 )数据标准管理数据标准包括各业务域的数据集标准、数据模型标准及信息分类编码标准。这些标准用于指导各业务系统建设与实施。在标准管理上,数据资源管理工具应能有效管控标准的变更与执行。尤其是“十二五”期间,如何管理网省两级、省级集中的业务系统的统一版本

6、问题是关键。(2 )主数据管理通过企业范围内的统一视图,即 ECIM 模型,实现主数据管理,促进业务系统的数据集成与共享。主数据管理需要解决主数据的定义、标识、存储、汇集、清洗、监管与共享。主数据可以为业务系统或数据中心服务。(3 )数据质量管理数据管理的最终的目标是为了提升系统数据质量。在主数据的清洗阶段,通过数据质量管理工作,对数据进行解析、标准化、匹配oracle BPEL 规范制定自动化业务处理流程,支持用户自定义变更类型 确保坚如磐石的安全性和法规遵守证明的完整历史和审计跟踪 纳税人数据认证,支持机构创建数据质量标准,遵守这些标准并提升用户对数据的信心 商务智能基础架构,支持剖析、法

7、规遵守和业务绩效指标 自动化、人工流程,提供良好的用户界面UI,多种通知方式 自动化、人工的审核和批准,逐级审批 易于多组织的协同工作第 13 页Copyright 2011 Oracle CorporationAll rights reserved.主数据发布和共享 面向终端用户和数据管理员的直观GUI,管理主数据的整个生命周期 从创建或导入主数据信息到清理、匹配、增强和发布。使用预建的流程使南方电网更轻松地管理主数据 对所有集成模式实时(紧耦合和松耦合) 、近实时(松耦合)和批量 的严格的多模型支持 提供作为业务服务和Web服务的常用功能 一个内部触发的机制,创建变更信息并向所有相连系统部

8、署 为所有的管理软件和分析系统提供主数据记录和所选属性 在面向服务的架构(SOA)和 /或消息传递总线上的运营管理软件和数据仓库双向交互 通过Oracle应用集成架构 (AIA) 流程集成包 (PIP) 预建的集成 与Oracle商务智能企业版 (OBI EE) 预建的集成为了实现主数据共享,首先全网应该各个分散的业务系统连接起来,实现各个业务系统与主数据存储的互联互通,目前的南网主数据管理解决方案主要采用两种方式来实现:基于 ETL 工具的方式和基于 SOA 体系架构的方式。1. 基于 ODI 的方式第 14 页Copyright 2011 Oracle CorporationAll rig

9、hts reserved.基于 ODI 这样的 ETL 工具设计的架构更适合全网业务系统中的非实时数据量大的主数据共享发布。如上图所示,采用基于 ODI 的 ETL 工具具有连接各种异构数据源和变化捕捉的能力,采用它来实现 MDM 中异构系统的数据触发、整合和发布应该是顺理成章的事情,当某个主数据的源发生变化时,ETL 的 CDC(变化数据捕捉 )功能就会捕获到变化,进而将变化的数据传输到主数据管理系统的临时存储区,然后 ETL 工具根据定义的数据转化规则对数据进行清洗转化,形成主数据,进而 ETL 调用审批监管流程,一旦获得审批, ETL 即可将主数据同步到主数据存储系统,同时分发给各个订阅

10、该主数据的业务系统。同时 ODI 可以支撑流程的设计、运行、监控,否则 ETL 工具必须可以调用其它的工作流引擎, ODI 可以实现与 SOA 的无缝集成,既可以将数据或者转化封装为 Web Service 服务,也可以调用外部的 Web Service 服务。 2. 基于 SOA 架构的方式:在该方案更适合实时的数据量小的主数据共享发布,采用 OSB(企业服务总线)技术构建应用集成平台,采用 web service 方式实现在多个系统间应用集成和互联互通。应用集成平台是数据采集、数据交换及服务提供能力的直接承载。数据的收集和分发采用各种应用和适配器实现,各种应用适配器一般提供变化数据的的轮询

11、或者推送功能。监控管理可以采用 SOA 中的工作流引擎来实现,同时 SOA 中的流程监控系统可以对整个主数据的收集、转化、审批分发提供端到端的监控。采用 SOA 技术设计的主数据管理架构基于 J2EE 的开放架构,会非常灵活,同时便于第 15 页Copyright 2011 Oracle CorporationAll rights reserved.和其它系统集成,系统的扩展性比较好,其问题在于如果主数据同步的量非常大,效率会有一定问题。安全可靠的平台 基于标准的开放平台 多语言和多国家支持 经验证的平台,全球各行业(包括公共部门)数千客户的选择 面向混合的重工作负载Oracle 拥有巨大数目

12、的客户下关键数据访问的高度可用和可伸缩的平台。 安全特性包括全面且灵活的认证、全面的审计和监控以及所有架构级别的加密。Oracle已经获得了17 项独立安全性评估的担保,确立了Oracle在该领域的领导地位。这些评估包括TCSEC 、ITSEC、FIPS和各种通用标准评估。2.1.2 主数据方案设计主数据管理的核心是数据整合、数据管控和数据服务。在横跨这三个层次需要进行数据安全管理、质量管理和元数据管理。下面分别进行介绍:数据整合:数据整合就是将离散于各个业务系统中的数据进行集中化,统一整合集成至数据中心。数据整合将通过 ETL 工具实现数据的抽取、转换和加载等功能。数据管控:主要包含数据中心

13、物理模型、逻辑模型的设计,数据的维护管理以及存储管理等管控功能。数据服务管控:数据服务管控主要是对采集至数据中心的数据进行数据交换和管控,主要包括数据交换服务设计,数据总线交换共享,以及数据交换管理等功能。元数据管理:元数据管理是整个数据共享中心中基础信息的管理,包括 ETL 元数据、接口元数据、模型元数据和数据服务元数据等的管理功能。质量管理:在数据管理的不同阶段,数据管理对数据质量管理的侧重点也有所不同。数据质量管理的目标,逐步从单纯地提高数据准确性,延伸至保障数据的完整性、唯一性、合法性、一致性、及时性等属性;从单纯以技术角度考虑数据质量问题,发展至从用户视第 16 页Copyright

14、 2011 Oracle CorporationAll rights reserved.角衡量数据质量问题,提高用户对数据的满意度;建立数据质量监控机制,及时发现、报告、处理数据共享中心中的数据质量问题。数据质量管理子系统是数据共享中心中数据质量管理体系的重要组成部分。安全管理:主要包括数据存储安全、数据管控安全和数据交换等安全管理。主数据方案设计原则主数据方案设计,遵循以下一般原则: 每类业务数据实体的属性有且仅有一个所有者(Owner) ,零个或多个消费者(Consumer) ; 对数据的维护必须通过所有者进行,消费者对数据只有只读功能;如果消费者需要对数据进行维护,必须调用所有者数据维护

15、服务; 数据有且仅有一个主数据源(Master Location) ,主数据源可以是数据所有者的应用数据库(ADB)或者数据中心数据库。基于性能的考虑,消费者可以在 ADB 保存数据的备份,由主数据源实时或定时发起数据同步; 主数据源提供相应的数据存储和数据服务;主数据集成方案设计根据主数据源位置(Location) 、数据冗余方式(Redundant)和数据维护的归属(Owner) ,一般的主数据集成方案分析如下表:方案 1 2 3 4 5 6主数据源 数据中心 数据中心 数据中心 数据中心 ADB ADBOwner 数据中心 数据中心 ADB ADB ADB ADBConsumer是否有备

16、份 Y N Y N Y N数据维护 Owner 读直接读Owner ADB中的数据备份同 1 调用数据中心数据访问服务调用数据中心数据访问服务直接读Owner ADB直接读Owner ADB第 17 页Copyright 2011 Oracle CorporationAll rights reserved.Owner 写Step 1、在一个交易内写Owner ADB和数据中心;Step 2、通过数据中心启动对Consumer ADB 的数据同步在一个交易内写Owner ADB和数据中心Step 1、调用数据中心数据维护服务;Step 2、通过数据中心启动对Consumer ADB 的数据同步调

17、用数据中心数据维护服务Step 1、写 Owner ADB;Step 2、通过数据中心或主数据源启动对Consumer ADB 的数据同步写 Owner ADB方式Consumer读直接读Consumer ADB 中的数据备份调用数据中心数据访问服务直接读Consumer ADB 中的数据备份调用数据中心数据访问服务直接读Consumer ADB 中的数据备份通过数据中心的统一视图获取数据;第 18 页Copyright 2011 Oracle CorporationAll rights reserved.Consumer写Option1:在一个交易内,Consumer调用Owner 的数据维

18、护服务,同时写Consumer ADB;Option2:集成Owner 的数据维护界面,由数据中心启动同步Consumer ADBOption1:Consumer调用Owner 的数据维护服务;Option2:集成Owner 的数据维护界面同 1 同 2 同 1 同 2下面就各个方案进行分析,对于方案 1 和方案 2:第 19 页Copyright 2011 Oracle CorporationAll rights reserved.这两种方案主要适用于尚无任何系统时,进行一体化系统建设,如应用于已有系统则改造量较大。同时,这两种方案均以数据中心做为主数据的维护中心。对于方案 3、4 和方案

19、5、6:方案 5、6 较适合已有大量系统的情况,带来的系统改造量最小。方案 3、4 适合在主数据维护职能不变的情况下将主数据在数据中心中进行集中,并提供给新建应用。主数据实施方案设计1、主数据创建抽取设计主数据创建抽取过程如下:其一、先对现有业务系统进行解耦,解决目前各业务系统间交叉访问,耦合度过高的问题。通过建设共享数据库,并将目前南方电网各系统交叉访问的共享数据通过数据复制机制同步或异步复制到共享数据库,然后再更改各业务系统现有的共享视图或物化视图定义,将共享访问数据源统一指向共享数据库。通过共享数据库的建设及数据复制机制的建立,可以将目前网状的交叉访问接口平滑过渡到基于共享数据库的星状接

20、口,有效解决各系统依赖度过高的问题,同时也为下一步各系统的升级改造打下基础。第 20 页Copyright 2011 Oracle CorporationAll rights reserved.这里的数据复制产品可以考虑 Oracle 的 GoldenGate 实时复制产品,先将数据复制到共享数据库,完成“系统解耦”工作。其二、是进行数据共享协同平台的建设。在进行系统解耦时,我们会构建共享数据库,但该共享库仅仅是将当前分散到各业务系统的共享数据进行了集中,还缺乏统一的规划,因此还需要对共享库进行重新规划设计,同时也需要对共享协同平台和外部交换库进行规划设计。总体规划设计完成后,即可开始构建数据

21、共享中心和业务协同平台,其中数据共享中心构建完成后,就可以逐步将各系统间原来基于视图和物化视图的数据共享访问调整为基于数据共享中心的访问模式。共享库规划生成主数据管理,可以考虑 Oracle Data Integrator 产品,实现数据 ETL 的工作。2、主数据共享分发流程设计主数据创建生成后,就是对主数据进行有效管理和利用。同其他系统进行可以进行实时或半实时的同步从多个源系统建立统一、完整的记录,再将主数据信息同步到其他系统中。通过内嵌的集成服务同其他系统进行集成,例如丰富的公共 API 和业务事件。通过不断的数据清理和转换规则来确保同步数据的质量。主数据管理功能设计主数据的管理功能基本

22、与内部交换数据、外部交换数据相似。第 21 页Copyright 2011 Oracle CorporationAll rights reserved.2.1.3 交换数据方案设计内部数据、外部数据在数据交换上的业务功能和逻辑,以及技术实现都是相似的,可以采用相同的数据交换方案框架。数据交换方案框架涵盖了数据交换,质量清洗,数据管控和数据使用,解决了如何在核心数据上实现统一的存储,维护和使用的问题。 数据集成:数据集成就是将离散于各个业务系统中的数据进行集中化,统一整合集成至数据共享中心。数据集成需要对南方电网内部系统以及外部系统进行数据集成。对于不同的数据集成场景,有不同的数据集成实现模式,

23、比如有基于Oracle ODI 的“拉”数据集成模式和基于 ESB 总线的“推”数据集成模式等。 质量管理:在数据管理的不同阶段,数据管理对数据质量管理的侧重点也有所不同。数据质量管理的目标,逐步从单纯地提高数据准确性,延伸至保障数据的完整性、唯一性、合法性、一致性、及时性等属性;从单纯以技术角度考虑数据质量问题,发展至从用户视角衡量数据质量问题,提高用户对数据的满意度;建立数据质量监控机制,及时发现、报告、处理数据共享中心中的数据质量问题。数据质量管理子系统是数据共享中心中数据质量管理体系的重要组成部分。Data Quality人工工作流Step-by-step new itemdefini

24、tion andapproval processesProduct change control数据清理Remove unwantedrecords to reduce数据自动校验、格式化Normalize data via item #and description generationrulesApply user-defined匹配 查重引擎Run exhaustive searchesusing customizableengineIdentify duplicates and合并Merge item records toprevent duplicates in数据标准化Extrac

25、t & standardizeattributesClassify in Item Master andalternate catalogs图:数据质量管理 数据管控:数据管控不是纯粹的技术问题,而是由技术、人、信息和流程 4 个方面共同影响的综合管理问题。数据管控的演进思路划分为 4 个步骤:提出管理需第 22 页Copyright 2011 Oracle CorporationAll rights reserved.求、制定管理流程框架、细化具体管理流程、与组织机构具体角色进行对应。 数据使用:存在于数据共享中心中的数据主要有两大方面的使用,一是封装成数据服务,并集成于业务协同平台(服务总

26、线平台)进行数据服务共享,南方电网信息内部系统和其他外部系统统一通过业务协同平台获取所需业务数据;二是基于数据共享中心的集成化数据进行综合查询分析的应用,查询分析统计功能不再基于核心业务数据库,避免造成对核心业务系统的性能影响。模式二 基于WEB SERVICE框架/ESB 适配器集成框架定制开发模式三 基于BPEL 流程引擎进行服务编排模式一 基于服务管理平台配置生成数据服务服 务 配 置ESB 服 务 消 费 者数 据 交 换 中心 数 据 服 务ESB 服 务 消 费 者数 据 交 换 中心定 制 开 发源 端 系 统ESB服务编排服 务 消 费 者数 据 服 务ERP MDB源 端 系

27、 统图:数据服务共享2.1.4 数据交换系统功能设计基于内部数据交换方案框架,并结合南方电网数据共享协同平台总体功能需求分析的基础上,梳理出南方电网共享中心的总体功能组织结构如下图所示:第 23 页Copyright 2011 Oracle CorporationAll rights reserved.数 据 使 用 域数 据 集 成 域 数 据 管 控 域质 量 检 测 域分 析 统 计元 数 据 管 理主 数 据 管 理数 据 维 护 数 据 审 核统 一 视 图数 据 分 发 质 量 检 测个 人 单 位用 户 组 织元 数 据 维 护数 据 统 计 报 告质 量 分 析 报 告版 本

28、控 制实 时 数 据 整 合批 量 数 据 整 合数 据 转 换 清 洗数 据 质 量 检 测综 合 查 询分 析数 据 服 务 共享质 量 管 理质 量 规 则 管 理质 量 事 件 管 理质 量 问 题 处 理实 体 查 询过 程 查 询 影 响 分 析血 缘 分 析 版 本 管 理变 更 通 知 元 数 据 统 计元 数 据 质 量 元 数 据 使 用质 量 检 测服 务 自 动 数 据修 正质 量 监 控引 擎 质 量 规 则引 擎以下将分别对数据共享中心数据集成域、数据管控域、质量检测域和数据使用域的功能规划进行详细介绍:数据集成数据集成引擎(Data Integration Eng

29、ine)面向应用系统,在各个应用系统的数据源中提取数据,是一个跨平台的用于整合异构系统数据的 ETL 工具,在数据共享中心中,数据集成引擎实现了从各业务应用系统的数据源中提取用于整合共享的数据,经过质量检查后,按新的数据模型对数据进行转换和清洗,正确无误后加载到目标数据共享中心中。第 24 页Copyright 2011 Oracle CorporationAll rights reserved.数 据 集 成 引 擎 ( D a t a I n t e g r a t i o n E n g i n e )数据质量检查 ( D a t a Q u a l i t y C h e c k )数

30、据转换清洗 ( D a t a T r a n s f o r m i n g & C l e a n i n g )元数据模型变化数据捕获( C h a n g e D a t a C a p t u r e )数 据接 口t r i g g e r s l o g m i n e r j m s w e b s e r v i c e批量数据提取( B u l k D a t a E x t r a c t )d b l i n k j d b c目标数据加载 ( T a r g e t D a t a L o a d i n g )下面对数据集成引擎中的各个部分的功能进行详细介绍。元数据

31、模型为了可以自动完数据提取、质量检查、数据转换清洗和数据加载这个数据整合过程,数据集成引擎需要知道源数据、目标数据的数据结构,源数据到目标数据的转换及清洗规则,还有源数据的质量检查规则等数据,这些用于描述数据本身的数据被称为数据集成的元数据,而元数据模型是元数据的一个实例集合,描述了具体的数据结构和规则,在数据进行集成前,必须先定义好元数据模型。具体的元数据包括:1) 数据源定义2) 目标库定义3) 数据物理模型4) 数据检查规则5) 数据转换规则6) 数据清洗规则批量数据提取批量数据提取(Bulk Data Extract)从数据源定时批量提取数据进行整合,是数据集成引擎的前端功能,与元数据

32、模型中定义的各个数据源进行连接,获取需要整合的数据,然后存储到中间数据库(Staging Database)进行后续的质量检查、清洗和转换处理。第 25 页Copyright 2011 Oracle CorporationAll rights reserved.批量数据提取因为提取的数据量较多,对于性能的影响也较大,一般用于非实时的数据整合,适用于时效性要求不高并且不希望过多影响源系统数据处理性能的情况。对于关系型数据库的批量数据提取可以使用两种接口方式来进实现:1) ORACLE DB LINK:这种方式适用于目标数据库和数据源数据库都是 Oracle 的情况,直接在目标数据库建立源数据库的

33、 DB LINK,通过 DB LINK 就可以像在一个数据库一样通过 SQL 直接提取数据源的数据。2) JDBC Data Source:这种方式适合源数据库是非 Oracle 并且支持 JDBC 协议的数据库,目前大部分主流数据库都支持 JDBC 协议,在 JDBC 协议上建立 Data Source,通过 JDBC 在源数据库上执行 SQL进行数据提取。使用批量数据提取的方式来提取数据可以用于首次初始化加载全量数据,也可在首次加载数据后通过两种方式实现非实时的增量更新,这两种方式分别是:1) 基于时间戳的增量更新这种方式提取数据速度较快,源数据库通过物理表或者试图的方式暴露数据,但要求数

34、据源的表或者视图必须有时间戳的字段并且不能对数据记录进行物理删除。2) 基于主键比对的增量更新这种方式需要每次都提取全部数据,然后在目标数据库上按主键标识对所有数据进行全量比对来识别增量更新的数据记录,效率低,数据源的压力较大,只适合小数据量的提取,基于主键比对的更新对源数据的表或者视图无特殊要求。变化数据捕获和批量数据提取一样,变化数据捕获(Change Data Capture)同样是数据集成引擎的前端功能,和数据源进行队列;但顾名思义,变化数据捕获只提供增量数据提取的功能,通过对源数据库上变更数据的捕获,数据集成引擎可以实现实时或准实时数据同步,此方式适用于整合有较高时效性要求的数据。变

35、化数据捕获提供多种技术实现方式,包括数据库触发器、数据库日志采集器、基于消息队列的变更数据订阅和基于 Web Service 的数据变化通知,下面对几种方式进行描述:第 26 页Copyright 2011 Oracle CorporationAll rights reserved.集成数据引擎主动捕获数据变化的方式:1) 数据库触发器(Database Triggers):通过在源数据表上创建触发器来获取变化的数据,此方式实时性高,但需要对源数据库进行改动,对高负载应用的性能有一定的影响,此方式支持主流的关系数据库。2) 数据库日志采集器(Log Miner):通过对源数据库日志文件进行分析

36、,实时捕获数据库数据的变化情况,此方式速度较快,对源系统不会造成太大的压力,但需要数据库本身的功能进行实现,目前只支持Oracle 和 DB2 两种数据库类型。上面两种方式是数据集成引擎主动捕获变化数据,而下面的两种方式则是数据集成引擎被动接收源系统的通知:1) 变更数据订阅(Change Data Subscriber):通过消息队列技术,变化数据捕获功能在数据源应用提供的基于 JMS 标准的消息队列上订阅数据的变化消息,通过监听数据变更队列,实时获得数据源应用放到队列中的数据变化消息,此方式的提取速度快,并且 JMS 消息队列提供了消息传输的高可靠性,但实时性取决于数据源应用,并且数据源应

37、用需要开发相应的功能来实现。2) 数据变化通知(Data Change Notification):和变更数据订阅相同的原理,数据变化通知技术是通过暴露数据变化通知的 Web Service 接口给数据源应用,当数据的变化被数据源应用捕获后,数据源应用调用通知接口把变化的数据传递给数据变化捕获功能,此方式提取速度快,并且可通过 ESB 统一暴露服务接口,消息传输可靠性也可以通过 ESB 的获得支持(需要 ESB 的实现支持此功能) ,但实时性同样取决于数据源应用,需要数据源应用做相应的开发。对比主动和被动捕获的几种实现,主动捕获技术更适用于数据源是关系数据库并且数据变化不需要进行逻辑处理的情况

38、;而当数据源不是关系数据库又或者数据的变化后需要进行逻辑处理,不能直接通过数据库触发器或者日志分析进行判断数据是否发生变化的情况下,则需要改造数据源,使用被动捕获技术来实现。第 27 页Copyright 2011 Oracle CorporationAll rights reserved.在数据共享中心中,为减少对数据源的影响和改造,建议主要通过数据库触发器和数据库日志采集这两种方式来实现实时/准实时数据提取。数据质量检查在数据集成引擎中的数据质量检查(Data Quality Check)功能是数据质量的第一道防火墙,在数据的来源入口根据元数据模型中设定的数据检查规则对从数据源中提取的最原

39、始数据进行规则验证,当某条数据记录不符合检查规则,会被数据质量检查工具自动标记为问题数据,同时在质量问题表中对引起质量问题的原因和出现问题的数据记录进行记录。数据质量检查功能实现的检查规则类型可分为数据约束检查和业务规则检查,具体如下:(一)数据约束检查:基本数据约束,如: 人员名称不能为空 唯一性约束,如: 人员身份证号码不能相同有效引用约束等(二)业务规则检查数据约束检查可通过关系数据库约束实现,而业务规则检查需要执行 SQL 查询分析才能完成,而由于数据质量检查功能是在数据整合的过程中执行,只能做到事前控制,并且是使用关系数据库提供的功能进行检查,复杂的数据质量问题检测或者要在多个数据源

40、的数据集成后(事后控制)才能进行检查的问题则需要在数据质量服务器中的质量检测服务中执行或检测。第 28 页Copyright 2011 Oracle CorporationAll rights reserved.数据转换清洗数据集成引擎把各个数据源的数据提取后进行了集中存储共享,并建立唯一的数据标准,使用一致的方式向应用提供数据;实际情况中,集中存储和共享的数据数据模型和数据源的模型大部分情况下都不会完全一致,这就需要在数据源的数据进入到目标数据库前进行转换或被清除掉不需要和无效的数据。数据转换清洗功能根据元数据模型中定义的转换和清洗规则进行数据自动转换清洗。目标数据加载目标数据加载(Targ

41、et Data Loading)把经过了质量检查、数据转换与清洗后的数据加载到目标数据库中进行存储。目标数据存储可以是标准的关系型数据库或者数据文件(如 XML、Excel 等) ,在此方案建议书中使用 Oracle 关系数据库作为数据集成的目标数据存储库。质量检测数据质量检测是数据共享中心数据质量控制的核心,负责数据质量问题的检测与收集,当检测到质量问题时,产生相应的事件并进行事件记录与通知,让用户可以快速和直观的了解到数据产生了质量问题并进行及时处理;对于系统可以按规则设定进行自动修正的质量问题,数据质量管理内置的自动数据修正(Auto Data Correct)功能将自动修正并记录修正日

42、志。数 据 质 量 服 务 器 ( D a t a Q u a l i t y S e r v e r )质量检测服务( Q u a l i t y C h e c k )数据质量规则引擎( D a t a Q u a l i t y R u l e E n g i n e )自动数据修正( A u t o D a t a C o r r e c t )质量监控引擎( Q u a l i t y M o n i t o r E n g i n e )事 件收 集事 件分 析事 件处 理上图中的质量检测服务提供数据质量问题的自动检测功能,通过调用数据质量规则引擎执行预设的规则或者通过定制开发的检

43、测代码,定时扫描检测目标数据库中的数据,当第 29 页Copyright 2011 Oracle CorporationAll rights reserved.发现问题后如果可以进行自动修正则调用自动数据修正功能进行修正,否则直接通知质量监控引擎,告知产生一个质量问题事件。数据质量规则引擎是自动质量检测和自动数据修正的基础运行引擎,可支持通过规则来设定与实现简单问题的检测和数据修正。质量监控引擎除了收集质量检测服务产生的质量事件,同时也会监控其他模块检测到的质量问题记录(如数据集成引擎中的数据质量检查)并转化为统一的质量事件,通过分析后,设定事件的等级、处理人等信息,然后进行事件处理(记录和告

44、警)下面对几部分的功能进行详细描述。质量监控引擎质量监控引擎不负责具体的质量问题检测,而是对分布在各个环节中被检测出来的问题进行统一收集,经过分析处理,封装为统一的质量事件,并对事件进行处理。(1)质量事件收集在整个数据共享中心中有两个环节会产生质量问题,一个是数据集成引擎中的数据质量检查功能,该功能会在检测到质量问题后把问题描述保存在数据库中的错误表中;另外一个事下面提到的同样是在数据质量服务器中内置的功能“质量检测服务” ,该功能根据质量规则引擎的规则定期执行质量检测,发现问题后也会把问题描述存放在质量问题表中。事件收集提供主动监测和被动监听两种模式来收集质量问题并产生质量事件。对于数据集

45、成引擎中的质量问题,事件收集功能使用主动监测模式,准实时的扫描数据库中的错误表,一旦发现新的错误产生,马上捕获并进行处理。对于数据质量服务器中的质量检测服务,事件收集功能使用被动监听模式,接受质量检测服务报告的质量问题,一旦收到信的通知,马上进行处理。除了内置的两种问题收集的实现,质量监控引擎的时间收集模型还提供了可扩展的主动监测开发接口和面向其他模块或者应用的监听接口,主动监测使用 API 的方式进行扩展开发,而监听接口通过准实时扫描标准的质量事件队列表的方式实现,其他模块或者外部第 30 页Copyright 2011 Oracle CorporationAll rights reserv

46、ed.应用如果需要向数据质量服务器报告质量事件,直接通过数据库访问接口在质量事件监听表插入记录即可。(2)质量事件分析事件一旦被收集马上被创建并转到事件分析模块中进行分析,事件分析模块根据事件关联的数据实体找到该数据实体的质量元数据,分析出事件的严重等级、事件的处理人、事件的处理动作(EMAIL 或短信通知等)和处理流程等信息,补充完成事件的详细属性信息并封装为完整的事件消息转交给事件处理模块进行处理。系统内置一条默认规则,如果质量问题是可以被系统自动修正并且已经被质量服务器中的自动修正功能进行修正,那么该事件不需要后续的处理,只产生信息基本的事件记录。其他规则需要用户在数据管理系统中数据管控模块的质量管理功能中进行设置。(3)质量事件处理事件处理模块完成提供两个功能,一个是往数据管理系统中的质量事件通知表中保存事件的详细记录;另外一个是根据事件分析模块中获取到的事件处理动作信息执行事件处理动作。此方案建议实现以下三种类型的事件处理动作:1. 发送邮件2. 发送短信3. 发送代办质量规则引擎质量规则引擎(Quality Rule Engine)中的质量规则分为问题检测规则和数据修正规则,规则引擎能根据配置的规则或简单的编码就可进行自动问题检测和自动数据修正,而无须全部重新开发。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 解决方案

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报