1、贵州大学20070401硕士学位 电信行业运营数据仓储ODS 姓名:引论文;系统的研究及其应用申请学位级别:硕士专业:软件 工程指导教师:王翰虎小人郑i Ti:jin!j:所V .交的位论义,A !:木人在帅的指卜, 独进彳r 研究所収得的成i lk除文中1 1經汴1 11丨川的丨“1 外,木 论义小l ii念任何i C他个人或体已经发:或撰 i过的科研成iV。 M小:文的研究做出飛要W献的个人和银体,均已在文巾以叫确 jj Akm本人完全意识到本声明的法挣 责在山本人承iLu文作者签名:极rf“关于学位论文使用授权的声明本人完全了解责州大学有关保留、使用学位论文的规定,同意学栻保留或向国家有
2、关部门或机构送交论文的复印件和电T“,!.版,九许论文被查阅和借阅;本人授权责州大学可以将本学位论 丈的全部或部分内容编入有关数据库进行检索 )可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。曰期:明 声 性 创 原(保密论文在解密后应遵守此规定)论文作者签名:_夺师签掮要中国电信行业根据发展的需要建设了诸多的支撑系统,这些系统各自独立或 重叠,为有效地解决目前各系统存在的数据孤岛、数据表现形式各异和系统接口 繁杂等问题,现阶段企业迫切需要建立运营数据仓储。本文所描述的内容,主要 将通过对各应用系统的数据进行抽取、转换、装载,同时进行良好的数据质量管 理,实现跨系统的近实时报表和查
3、询统计应用,建立企业统一数据视图,作为数 据中心为各应用系统提供数据共享服务,为企业数据仓库的建立奠定基础。关键词:运营数据仓储企业数据仓库数据集成企业应用整合面向服 务的体系结构AbstractChinese telecom industry has constructed many support according to the need to develop, these systems are respectively independent or overlap. In order to solve the problems existing in the various syst
4、ems at present effectively such as data isolated island, data manifestation each different and system connection numerous and diverse, the enterprises urgently need to construct operation data storage. The content described in this article mainly through abstracting, transacting, loading the data of
5、 these systems with good data quality management to realize the application of near real-time report forms and inquiry statistics crossing systems, so that to build an uniform data view of the enterprise to provide data share service to the application systems as data center, which lays the foundati
6、on of constructing data storage of enterprises.Key words: Operational Data Store, Enterprise Data Warehouse, Extract-TransfomrLoad , Enterprise Application Integration , Service-Oriented Architecture第一章概述经过近二十年的发展,中国电信根据业务和企业发展的需求建设了诸多的业 务支撑系统,如综合业务管理系统、本地计费恢务系统、数据计费系统、经营分 析系统、10000客服系统、渠道支撑系统、大客户管理
7、系统、综合结算系统等, 这些系统各自独立,部分业务支撑系统与运营支撑系统的功能范围也存在着重 叠。由于种种历史原因,业务支撑系统采取的是数据独立分布的策略,即每个系 统建设时都根据实际功能需要进行数据规划,各系统数据分布自成体系,没有对 各系统共有数据进行整合,也没有制订统一的数据视图。这些系统间的业务、功能、数据均存在联系,从企业的端到端功能要求来看, 实现一个功能流程往往需要多个系统在多个时间点协同工作。系统间的功能协同 和信息同步基本均采用接口方式实现,从长期的实践结果来看,这种方法明显体 现出了系统功能及数据只能根据需求被动适应的特点,即系统之间根据业务需要 进行两两接口随着市场和业务
8、的发展,系统间接口必须不断进行调整以满足新 需求的提出,从而导致系统间的接口越来越复杂,接口数量以指数形式增长。由于没有进行统一的数据层基础建设,使得企业系统划分的灵活性大大降 低,如果在没有统一的数据层基础情况下要解决数据不一致的问题,只能通过将 现有系统逐步整合归并,使系统越来越集中,甚至最终将企业涉及的管理支撑系 统、业务支撑系统及运营支撑系统等三大类系统(含目前企业已经建设完成和正 在规划建设的上百个系统)完全整合建立成一个独立的大系统。这不论是在目前 的技术实现能力还是企业的业务发展上都是不可能完成的,系统规模的不断扩大 使系统维护的难度和复杂性同步增长,大量的维护技术问题和业务适应
9、能力问题 随之而来,企业承担的业务发展、投资及运行维护风险极大。随着数据仓库技术的发展以及电信行业自身支撑系统的建设经验,2000年 左右电信行业幵始认识到数据仓库的重要性。当前电信行业支撑系统面临的主要 困难是在没有进行共享数据整合的情况下直接进行应用划分,其接口复杂度和协 调不同系统进行协同的工作量和难度都非常大,从而使应用功能事实上无法按照 需要进行灵活的划分而数据仓库中的面向主题和集成两个重要概念以及具体技 术手段正是解决上述问题的根本之道。ODS的目标是采用先进成熟的计算机技术、数据存储技术和现代通信网络技 术,分阶段完成全省集中的ODS系统建设,建立和完善企业数据架构、确定统一 的
10、企业数据模型、支持对全部企业运营数据的统一集中管控,实现对业务支撑系 统的一致支撑。具体目标如下:(1) 电信企业统一、规范、面向主题的、集成的、可变的、当前细节运营数 据的平台。(2) 作为应用系统的数据同步源和数据交换中心。(3) 实现跨系统的准实时报表和査询统计应用。(4) 实现基于ODS的数据稽核及数据管理。(5) 对运营数据进行清理整合,是EDW的一个主要数据来源。在IT系统和 EDW中的历史数据存储层之间增加一个数据整合层(也叫做数据缓冲层),起到数 据隔离安全的作用。本文主要描述将通过对各应用系统的数据进行抽取、转换、装载,同时进行 良好的数据质量管理,实现跨系统的近实时报表和査
11、询统计应用,建立企业统一 数据视图,作为数据中心为各应用系统提供数据共享服务。第二章企业数据仓库2.1数据仓库和数据集市(即数据仓储)本节对数据仓库和数据集市技术的相关知识进行简要介绍。数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集 成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant) 的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以 理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有 的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集
12、成后按照 主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改根据数据仓库概念的含义,数据仓库拥有以下四个特点1、面向主题,操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是指用户使用数据仓库进行决策时所关心的重点,一个主题通常与 多个操作型信息系统相关。2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的 数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源 数据中的不一致性,.以保
13、证数据仓库内的信息是关于整个企业的一致的全局信3、相对稳定的。操作型数据库中的数据通常实时更新,数据拫据需要及时 发生变化数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据査询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的 加载、刷新。4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如幵始 应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的 发展历程和未来趋势做出定量分析和预测。企业数据仓
14、库的建设,是以现有企业业务系统和大量业务数据的积累为基 础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供 他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息 加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任 务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。数据集市(DataMark)是为了特定的应用目的或应用范围,而从数据仓库中 独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。如果 说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据 仓库的一个子集,他主要面向部门级业
15、务,并且只面向某些特定的主题。数据集 市可以在一定程度上缓解访问数据仓库的瓶颈,但由于各个数据集市之间彼此独 立,从而形成新的“信息孤岛”,也造成了重复投资 。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几 个数据集市组成一个完整的数据仓库。在实际项目中,到底是选择数据仓库,还 是选择数据集市,应取决于该项目的主要商业驱动,如果企业正忍受糟糕的数据 管理和不一致的数据,希望为今后打下良好的基础,则数据仓库的方案比较好。 如果该企业迫切需要给用户提供信息,那么可以先构建一个数据集市。需要注意 的就是在实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后 实施数据仓库
16、时才不会造成大麻烦,而一旦满足了迫切的信息需求后,就应该考 虑包含独立数据仓库的数据体系结构的转换计划。2.2企业数据仓库本节对企业数据仓库的相关知识进行简要介绍, 数据仓库是企业实现数字化管理的基础 (。在企业建立统一数据源、统一数据标准、精细化管理的数字化管理平台的过 程中,数据仓库处于核心地位。企业信息管理、信息分析、信息支持以及决策数 据支持、管理数据支持和营销数据支持等系统的实现都离不开稳定、可靠、可信 的数据仓库环境。数据仓库通过对内部关键业务数据、外围专业决策系统数据以及外部行业数 据的集中存储,为企业管理、决策及营销等活动提供了统一的数据来源,避免了 因业务数据松散化存储而导致
17、的部门间数据无法有效共享的问题。数据仓库以统一的数据定义标准和编码规则为指导,通过对各部分数据的清 洗和转化,有效地提高了数据的质量,避免了因数据缺失及对数据理解的混乱而 导致报表不一致或不准确的问题。数据仓库以面向业务主题的形式对数据进行重新组织,通过打破以部门、以 业务种类为界限的传统的条块化数据划分,形成多层次、多角度、多主题的统一 视图,以实现数据从面向业务应用到面向分析决策的功能转变,并通过有效的数 据展示工具及数据访问权限的安排,在各个不同的观察角度,不同的数据细节上, 满足从高层管理人员到客户经理等各类不同角色人员的数据需求。数据仓库通过对历史交易数据的统一存储,并提供高效地访问
18、机制,为企业 进行经营状况趋势分析提供有效地支持,同时通过记录所关注对象关键属性的变 化情况,在一定程度上保证了在不同时间查询报表时结果的一致性,更为R后建 立动态的客户行为分析,客户流失分析,资金风险检测及防范模型创造条件。数据仓库为整合多方资源,了解业务状况,发现潜在隐患,提高决策效率上, 提供准确、全面、及时的数据支持,为解决企业目甜存在的报表不一致,数字不 准确,报表提供效率底,数据查询反应慢等问题创造条件。 数据仓库在企业经营管理中的作用巨大。企业数据仓库为经营管理的评价和决策的制定提供支持。随着企业经营规模 的扩大,同业市场竞争的日益激烈,产品服务及相关渠道的发展,各机构及部门 对
19、经营管理性报表的需求将越来越多,并以此做为评价决策成效,监控经营状况, 实施绩效考核,制定未来发展方向的依据。这对报表的准确性、及时性提出了更 高的要求,而目前由于统计口径不一致,数据理解不统一,数据质量有问题,数 据不完备,数据来源不一致,报表重复开发等原因导致报表缺乏准确性,报表产 出周期长等问题。这在一定程度上阻碍了业务部门在对客户及市场的变化做出正 确的反应,对产品的成果做出正确评价,对经营风险做出及时判断等三个工作的 把握,同时对人力资源造成了不必要的浪费。而一个健康、完备的数据仓库环境, 通过统一的数据来源,统一的数据模型,统一的数据定义标准,统一的统计口径, 高效易用的数据访问机
20、制及报表展示系统将能对上述问题做很好的解决。数据仓库通过对业务数据的重新整合,形成以客户、产品及服务为主体,面 向並务主题的数据模型,实现企业各部门共享及整合,并以客户为中心,记录客 户交易行为,基本情况变化,帐户变化,对特定产品的使用情况,来电记录等, 为合理划分客户群体,及时发现客户违约风险及流失风险,优化服务质量,实施 个性化营销,从而为有效地规避风险,降低运营成本,提升客户价值,实施交叉 营销创造可能。以客户为中心的数据框架,有助于提髙数据挖掘项目实施的质量 和效率,帮助市场分析人员发现潜在的商业机会,并及时付诸实施。为企业以客 户为中心、以市场为导向的新的经营管理体系的建立创造条件。
21、在企业从规模导向型向效益导向型经营模式转变,从以高资本消耗业务为 主导向以低资本消耗业务为主导的业务结构转变的过程中,数据仓库为经营模 式及业务结构转变提供支持。数据仓库的面向主题、集成、非时变的特点,为 从微观层面准确定位利润增长点及高成本高消耗领域及原因提供了可能性,这 将有助于在经营管理过程中对成本进行有效地控制,对效益做出准确地评估, 从而为经营管理策略的优化提供依据和支持。数据仓库为高效益的产品幵发和 创新提供信息层面的服务。以客户为中心的企业数据视图,帮助产品开发人员 发现不同群体的客户喜好及行为模式,并结合不同群体客户的价值形态,为相 应客户提供个性化营销手段,开发个性化产品和服
22、务,以减少新产品的推广成 本,并最终实现现有客户价值的最大化,一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP月B 务器以及前端工具与应用四个部分 “】 .数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在 RDBMS中)的各种业务数据和办公自动化(0/V )系统包含的各类文档数据, 外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数 据及各类文档等:数据的存储管理:是整个数据仓库系统的核心。在现有各业务系统的基 础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,
23、最终确 定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓 库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等 信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级 数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的 安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持 用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP 和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP
24、基本数据和 聚合数据均存放于多维数据库中:而HOLAP是ROLAP与MOLAP的综合,基本数 据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询 工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据 分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库, 同时也针对OLAP服务器。2.3 EDW与ODS的关系本节对EDW和ODS的特性及其关系进行分析比较。ED支持分析性应用的支撑,O DS支持运营性业务的支撑,两者共同组成服务 于领导层、管理层和作业层的闭环的企业环境;ODS与EDW相互独立;ED
25、W以ODS 作为主要的数据源,从ODS中抽取经过整合的运营数据:ODS系统报表仅作为EDlf 报表功能的有效补充;ODS通过数据视图向网上客服和EDW幵放数据访问:EDW将 分析、汇总和数据挖掘的结果数据应用于操作型作业的日常工作层面中,将分析 接口反馈到ODS中,通过ODS的数据查询和交换功能,提供到各个专业应用系统中 应用i业数据架构如图1所示。urn图1:企业数据架构概念视图工!管力資ft控.A环下面分别从技术和业务两个方面对ODS和EDW的差异进行阐述。 1. ODS和EDff在技术方面的差异:ODS和EDW的区别主要来源于两者的数据量存在极大的悬殊,ODS的配置远 小于EDW的記置,
26、由于数据量和应用模式的差异,ODS数据更新的可靠性、及时 性和数据访问性能都髙于EDW。釆用多节点模式的EDW的数据库针对只读优化。 ODS的数据层次比较少,而EDW则通常包括多层数据粒度的汇总数据层和多 个数据集市。ODS数据获取(数据复制/ETL)的性能和及时性都高于EDW, ODS支持OLTP 类型的数据更新,数据更新时间窗口短;EDW数据的批量加载速度快,但数据实 时更新速度差,在单表结构下批量加载时不可以同时提供数据访问,时间窗口不 足以支持在实际工作中对及时性要求较高的部分报表和事件监控功能:ODS数据 访问的响应速度快于EDW,响应性能差别与数据量相关性极大。两者在数据模型构造时
27、存在区别,为了支持中国电信共享数据模型的应用 模式,ODS的数据模型很接近数据源,而ED由于主要业务目标是支持基于大数 据量历史数据的分析,需要作相对大的调整。ODS支持EAI、Store Procedure和数据库复制方式,而EDW则由于数据库 专用性和数据模型的差异性,难以向应用提供这些服务支持,它们在数据访问接 口上不一致,ODS的数据范围只包括存在系统共享信息数据和运作报表、查询的需求数 据,而EDW还包括ERP、财务等数据,它们的数据范围不一样。ODS与EDW之间在系统架构上有两种实现方式,一种实现方式是EDW的所有 数据来自ODS,另一种是ODS只提供部分EDW数据(由于ODS不涉
28、及ERP等数据): EDW需要一个数据转存区用来集成每次采集的数据,在进行历史数据整合后转入 数据仓库。在系统的可靠性上,ODS因为要参与运营,因此必须保证系统的可靠性,而 数据仓库则可以允许相对较多的脱机时间。最后还要指出的是它们在系统的开放性上也是有区别的。因为ODS系统需 要与大量不同硬件和数据库配置的系统相互交换数据,因此要求系统具有比较高 的系 统幵放性;而EDW般只获取数据,而不提供给其他应用系统以多种模式直 接访问,可釆用相对封闭的数据库、软硬件平台。2.由于技术上的差异,ODS和EDW在业务方面也存在差异: 两者在准实时数据整合的性能上有区别,由于数据模型、系统可靠性、系统 接
29、口、性能的差异,在相同级别的硬件配置下,ODS对数据准实时采集的支持性 能较高,而EDW相对性能较低。ODS和EDW的数据应用不同,ODS可以支持其它系统直接访问ODS数据(如 客户统一视图、标准代码表等),而EDff不支持。ODS的数据与应用源系统在数值上保持一致(同时提供数据检査和稽核), 其它系统可以从ODS获取数据副本,或直接进行基于整合的运营数据查询,它强 调对运营层面的支撑。EDW的数据即使在相同的最细源粒度上,也经过了多次转 换,这些数据多数情况下需通过ODS为其它系统提供数据副本或査询,它主要是 提供分析和报表的支持。ODS比EDW的数据实时性更强,ODS支持准实时的数据质量检
30、査和对不同系 统的数据稽核,强调与源数据的一致型。而EDW为减少不必要的数据更新所导致 的系统幵销,由于数据更新的性能限制需要在入库前进行数据检査,拒绝不必要 的数据入库,因此入库数据与数据源在重新加载合格数据前的固定时间段内的数 据相比可能存在一定差异ODS着重于表现当前现状的报表,并且响应速度高,如反映实时情况的业务 报表和运作型监控报表,很多时候是需要在当天的特定时间内产生,或在提出统 计査询需求后快速响应。从报表的角度考虑,报表应该整合到EDW上实现,但是 由于EDW加载周期长,某些需反映当前状态数据的报表无法提供,所以需要ODS提供部分实时性较强的报表对EDW报表进行补充。另外,数据
31、质量无论对应用系 统或数据仓库的影响都是一致的,报表在应用系统上实现或在EDW上实现可信度 不存在差异。ODS的并发访问用户数比EDW大,由于数据量的差异,ODS可以用相对比较 少的设备资源支持包括运营层面的大并发量用户,而EDW因为大并发量用户的支 持会极大提升对硬件配置的要求,所以在系统定位时只支持管理人员和少量分析 型用户,很少允许最终用户直接访问系统。第三章运营数据仓储ODS系统3.1 ODS的结构ODS的系统结构如图2所示。Mi-immMmcm ons(i) r jeWlNlJBmMM.JlJSMLssmU元数!U il理找系统i lJl架构图2: ODS系统结构图ODS系统主要由数
32、据存储及整合、元数据管理、数据稽核和检查架构、属性 触发机制、安全管理、系统管理等部分组成,下面分别阐述它们的功能。 1.数据存储部分:提供运营数据集成和用户査询支持的ODS数据存储被分为三个主要部分,存 储前端定制生成的査询结果文件的前端数据存储空间,提供后台数据整合过程支 持的阶段工作区,用于数据归档使用的归档数据存储。ETL I金战1=(ft 据 luft实时政批获取-ftaaiw“ ri数据存储的主体是ODS, ODS主要目的是实现对企业准实时运营数据按主题 进行集成,作为支撑基于O DS应用的数据基础,其数据模型在考虑数据查询的效 率的同时主要强调数据的集成性和一致性。ODS要求的数
33、据整合环境是准实时 的,提供对时效性要求比较高、支撑FI常业务运营和管理的应用功能。数据源拷识层提供对原始数据源的访问支持能力,包括对系统间共享数据不 一致的稽核支持能力。数据视图层为外部数据用户提供稳定的数据接口,并尽量 缩小数据接口受数据源和数据整合层的变更而带来的影响。ODS存储除了通过数 据整合层实现运营数据统一视图的目标外,还需要汇总数据层,以提高统计报表 和查询的性能。前端数据存储主要是为提高报表性能而设定的缓冲模式。主要包括报表、设 计文件、审计文件、前端应用程序、前端应用配置信息等。因为大多数固定报表 或预定义查询的访问不需要每次都进行数据库查询,它可以基于预先已经生成的 结果
34、集进行。阶段工区存放的是在ETL过程中产生的关键数据,包括源数据、抽取数据、 整理数据、转化中间结果、待加载数据等。阶段工作区将采用关系数据库和文本 文件两种存储模式。归档数据存储是将数据转移到其它存储中分离进行保存。用于存储ODS中产 生的历史归档数据、未来可能入库的数据抽取文件的归档数据、其它应用系统 下线后需要归档到ODS进行査询支持的归档数据。ODS根据需要会保持一定时间 的历史数据,但在满足需求的情况下,时间长度应该尽可能短,简化数据整合和 维护的复杂性,以保障ODS的数据访问和加载性能。从业务系统获得的所有源数据,通过整合后放到ODS存储中,它包括数据获 取、数据转换、数据加载、作
35、业调度、异常处理等过程。为保证ODS系统数据准 实时性同步要求的及时加载和更新,通常采用数据复制、EAI和短运行周期的ETL 来实现。鉴于目前电信对数据复制的应用较多,具备一定的实践经验,而EAI 的相关技术在电信尚未大规模应用,ODS的数据同少主要采用数据复制和ETL相 结合的方式实现。2.元数据管理部分:元数据(Metadata)是关于数据的数据,是对数据的含义、功能、来源等进 行描述。ODS系统元数据内容包括在ODS系统建设过程中所产生的有关数据源定 义、目标定义、转换规则等相关的关键数据。元数据管理对于数据应用具有非常 大的重要性,但在目前技术实现上比较薄弱,现阶段元数据强调的主要是管
36、理过 程、规则,在有条件的情况下作一定技术支撑。按照元数据的使用情况和面向对 象的不同,可以将元数据分为业务元数据、技术元数据。业务元数据用业务名称、定义、描述和别名来表示数据仓库和业务系统中的 各种属性,直接供业务分析人员使用。业务元数据是系统使用人员的业务向导, 它使数据仓库或ODS系统使用人员能够更好理解、使用系统。电信行业的业务元 数据在数据仓库中的体现是全方位的,系统使用人员通过浏览元数据可以清晰地 了解各指标具体代表什么业务、以什么为转换单位、如何计算得出的结果等相关 描述信息。技术元数据描述了对数据源、数据抽取及转换过程、数据加载方式以及目标 数据库的定义等。技术元数据主要供系统
37、技术人员进行影响分析、数据库优化、 任务调度和安全管理等工作。由于业务系统和ODS系统之间存在多方面的区别, 数据在业务系统和ODS系统之间的处理、加载也涉及多方面,技术元数据需要对 数据在系统间处理和加载的规则、过程、相关策略等进行描述。在实际应用中业务元数据和技术元数据是相互参照和关联的,对业务元数据 正确且全面的描述、表达、理解,能够使ODS系统使用人员真下了解系统,从而推动ODS的应用。对技术元数据正确且及时的描述、获取、应用,能够使系统数 据的应用和维护水平得到较大提升,从而提高工作效率。元数据管理涉及到数据仓库构造、运行、维护的整个生命周期,是ODS构建 过程中十分重要的一环。元数
38、据管理方法包括以下几个关键部分:制定标准的方 针、流程和程序用以支持元数据生成、应用和持续管理;建立一个元数据存储库, 用以存储企业重要元数据;通过一系列的集成,由一种或较固定的几种工具进行 管理和应用。元数据管理需要满足从元数据中发现任何变化给全局带来的影响,通过影响 分析确定某个实体的用途和与其它实体的关联:元数据的存储支持数据库存储技 术,这样便于管理、维护和扩展;元数据为整个数据仓库系统的信息资源提供记 录,通过元数据集中控制以确保信息的一致性和准确性;对于数据库、ETL、OLAP 服务器和前端展现工具等各个数据仓库组件的元数据能够实现集成管理;通过应 用编程接口(API)接入为元数据
39、管理提供较大的灵活性;支持以XML等标准进 行数据交换。元数据管理的具体实施主要通过以下几点来完成,建立联邦式元数据管理存 储库(Federated Metadata Repository),确保元数据在企业内部的统一和关联, 在定义与业务相关性较强的元数据时要求相应业务人员积极参与;采取技术及程 序合成的手段,如元数据桥接器(Metadata Bridge)来获取并导入来自各个系 统的元数据建立一个通用元模型作为基础,以便集中存放各类元数据,从而实 现信息共享:选择与数据仓库架构兼容的且被主要供应商所支持的技术工具,建 立在开放式标准之上,经过集成后进行使用:提供元数据管理工具,制定元数据
40、管理的用户及权限控制,包括:完全Full (授予读収、集合、创建、写和删除访 问权限),修改Update(授予读取、集合、写和删除访问权限),集合Collection(授 予读取和集合访问权限),读R eacK授予读访问权限)a1. 数据稽核和检查架构部分-电信行业的支撑系统点多面广,由于历史原因,各系统之间不相隶属, 来源不一致,造成在逻辑上本应是相同结果的数据在各系统中实际各异。 过对与原始拷贝数据的检查和比对工作,在报表系统中形成数据质量检查结果, 通过强化日常管理工作,推动数据质量的改进。数据稽核需要被稽核的所有系统的数据都己经加载到ETL后才能执行,所以 即使其中某个系统的数据是实时
41、加载的,它也需要以后台批处理方式执行数据稽 核。数据检査由ETL作业调度模块进行统一调度,部分对于属性和记录本身的检 査在ETL过程中被同时调用执行,而对数据表关联性检査根据检查的特点在ETL 完成后再批量执行。对于准实时数据的检査如果在ETL过程中被执行,则检查结 果也同时被插入到问题数据记录文件中。2. 属性触发机制部分-属性触发机制不是被动的等待,它是一种主动事件触发的机制,当一个实体 的属性发生改变时主动通知数据链上的下一个环节,下一个数据处理环节收到属 性触发事件后立刻根据预先设定的处理规则提取变化的实体记录属性进行处理 和加载。ODS系统定位于企业数据交换中心,支持跨系统共享数据交
42、换和跨系统数据13应用,大多数应用系统均存在数据实时性的要求,如10000号、网上营业厅、渠 道系统等对ODS而言均需要提供准实时数据的查询-这就要求ODS必须保证数据 采集的时效性、准确性和稳定性,而属性触发机制可以解决数据釆集的时效性和 高效性。属性触发的实现机制采用专门的属性触发控制通道,以区别于业务数据存储 通道。属性触发控制通道仅存放变化的实体属性,它的特点是实时性高、数据量 小,被触发端可以迅速获取属性触发通道上存储的信息。属性触发通道主要采用 数据库表的方式进行实现,通道上存放的内容包括:实体类型,表示哪种实体的 属性发生了变化,比如客户、帐户、用户等;实体标识,表示发生属性变化
43、的实 体标识,比如客户ID、帐户ID、用户ID等:动作类型,表示属性变化的类型是 增加、删除还是修改;变化时间,表示实体属性发生变化的时间:写入时间,表 示实体变化属性写入通道的时间;处理标识,表示通道中的实体变化信息是否己3. 安全管理部分:ODS作为运营数据支撑平台,由于整合了整个企业不同系统的运营数据,需 要对不同的用户进行访问权限、访问数据范围等必要的安全管理。从ODS目前的 规划看,主要分为4种情况进行管理:其它应用系统中基于ODS的业务应用,由 应用系统来控制具体客户的访问权限:即席査询操作需要在数据库和查询工具层 面相互配合进行权限控制:综合报表在报表展现层面进行权限控制;对系统
44、开发、 维护等技术人员在进行数据交换工作时的管理控制。4. 系统管理部分:除了强调传统的数据备份、数据恢复等技术支持能力外,系统管理还需要针 对ODS的运营特点,进行系统监控管理,加强对系统运行的保障能力。下面就ODS系统的技术定位和业务功能定位进行一些简略的汇总,ODS具有 梳理系统间网状数据交换接口的作用,这是目前应用系统最为迫切的需要:ODS 通过数据稽核、数据检查、标准数据字典以及相应的控制流程支持企业的数据管 理;整合现有ODS和EDW功能的査询和报表系统,ODS与EDW互补支持综合报表 的模式,ODS对企业级综合查询逐步提供支持。ODS系统的实施是分阶段按模块逐渐进行的,需要根据项
45、目的周期和资源情 况逐步实现整体架构:融合于电信技术环境,随企业架构同步发展的ODS三层 系统技术架构;面向企业数据整合环境,解决数据源的数据差异性和相关性,支 持灵活扩展的数据需求,进行数据整合、提高查询性能、减少目前系统交互接口 变更量大的情况以实现ODS数据架构。数据ETL架构所具有的特点是高性能、易管理、易扩展、实时性强的作业调 度,从源到ODS的数据转换重点在于整合数据,实行作业调度和管理,利用数据 复制和远程数据视图实现实时数据采集,实现ETL与复制相结合的复杂实时数据 转换,同时保证大数据量交换的ETL数据加载模式。采用前端工具支持数据报表和查询可以兼顾不同用户的需要,满足复杂和
46、不 断变化的客户需求;它根据用户使用量可以灵活扩展,是高可用性的集群架构; 增强了系统的易用性,使操作人员能在接受较少的培训后进行日常的操作。3.2 ODS的数据模型14本节对数据模型的设计方法和现阶段ODS主要包含的参与人、 K、事件五大主题域的数据模型进行描述。 ODS的系统数据模型如图3所示。ODS数据模型分为源层、汇总层、转换层、视图层4个层次。源层与应用系 统源数据结构保持一致保证ODS系统数据与源系统数据的完整性和一致性:汇 总层在源层基础上按业务、性能的不同需求进行汇总形成粗粒度数据:转换层 将源层数据按一定的规则清洗和规整转换成标准ODS数据模型格式;视图层负责 向外提供数据。
47、简要的ODS系统数据模型图系统 主题域 参考资源综合营业系统 参与人、产品、事件 中国电信企业数据模型2.0、营业系 统数据模型集中计费系统 参与人、产品、帐务 中国电信企业数据模型2.0、集团计 费模型、计费系统数据模型网间结算系统 参与人、帐务 电信行业模型10000号系统 事件 中国电信企业数据模型2.0、电信行 业模型112故障系统 事件 中国电信企业数据模型2.0、电信行 业模型12ODS数据模型的设计方法分概念模型设计、逻辑模型设计及具体的物理建模【 n,下面分别阐述它们的具体实现方法。2. 概念模型设计:概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统收 集信息而
48、服务的一个概念性的工具。具体到计算机系统来说,概念模型是客观世 界到机器世界的一个中间层次。人们首先将现实世界抽象为信息世界,然后将信 息世界转化为机器世界,信息世界中的这一信息结构,即是我们所说的概念模型。概念数据模型的设计是在较高的抽象层次上的设计,因此在建立概念模型时 不必考虑具体技术条件的限制。进行概念数据模型设计要完成界定系统边界、确 定主要主题域及其内容两个工作。鉴于E-R图具有良好的可操作性,形式简单,易于理解,便于与用户交流, 对客观世界的描述能力较强,在数据库设计上得到了广泛的应用,故ODS系统采 用E-R图作为概念数据模型设计工具。3. 逻辑模型设计:逻辑数据模型是系统体系
49、结构大厦的一块基石,它主要包含实体、属性、.实 体与实体之间的关系、实体与属性之间的关系。在项目实施过程中模型会被定制、 修改、加入新的实体,任何对逻辑模型的更改都将影响到逻辑数据模型设计人员、 数据库管理员、应用开发人员、系统操作人员。因此逻辑数据模型包含的实体、 属性名称、属性格式、实体与实体之间的关系、实体与属性之间的关系应当加入 元数据库中。逻辑数据模型设计要进行分析主题域、确定当前要装载的主题、确定粒度层 次划分、确定数据分割策略、关系模式定义、记录系统定义等六个工作由于ODS系统最终将涉及整个企业的所有数据,数据量大、数据涵盖面广, 初期物理建模时就需要在性能上考虑对部分表进行合并或分拆、对部分表引入个 别冗余字段信息、合理建立索引,以提高系统性能;在数据存储策略上需要考虑 对于数据量多的表釆用数据分表及数据分区的技术,将数据在物理上分开存储, 这样可以有效地防止表存储的数据量过大后导致的系统性能严重下降。采用数据分表技术时需要先设计好模板表,然后在数据载入的时候进行数据 分割存放。系统在运行的时候,可以依据需要处理的相应信息读取相应的数据分 割表进行数据处理(如帐期、地域信息等),也可以根据需要按照时间进行数据 分表分割,这样能够方便、快捷地进行业务数据片断提取、索引建立等工作,同