1、数据管控交流,Agenda,数据管控元数据管理数据质量管理数据标准,我们通常提到数据管控数据综合治理 能够想到的数据质量问题,源系统业务人员录入正确性问题。 工行案例:企业财务报表录入日期 源系统多系统之间数据不一致的问题。 工行案例:对公企业行业分类问题 光大案例:客户证件类别 操作性业务系统规范对后台分析系统的影响。 工行案例:增量完整性 浦发案例:前台系统的数据质量建议方案 业务统计口径不一致的问题。 信用卡案例:睡眠卡的定义,解决这些数据问题的手段,我们需要有一个尺度作为判断的依据来衡量 数据标准 我们需要有一个侦测、报告、协助分析治理数据问题的平台: 数据质量管理 我们需要对数据问题
2、影响进行分析,我们需要对数据进行统一的版本管理和规范管理控制。 元数据管理我们需要 数据治理是一个工程。,我们需要有侦测、分析、解决方案评估、执行的完整流程。 我们需要有以下人员的参与: 科技部门 业务系统的开发人员 数据治理的专职人员 分析系统的开发人员 业务部门,解决这些数据问题的手段,Governance=People, Processes, Technology,针对数据管控我们还能想到什么?,时效性问题? 数据的安全?隐私问题? 数据的生命周期管理问题? 。,数据管控机制的建立,数据管控的定义 管控结构组成部分 1. 管控任务和指导原则 2. 管控的组织结构 3. 业务改善和结果追踪
3、 4. 数据管理的落地功能 5. 用户的支持和参与 6. SLA,有效的管控6个组件,每个阶段的执行情况覆盖了所有的开发周期,Plan,Analyze,Design,Build,Implement,Manage,Governance Program Structure,User Support & Involvement,Data Certification & Management,Service Level Agreements,Mission, Policies, Guiding Principles,Incremental Project Planning & Implementati
4、on,Opportunity Scoping & Results Tracking,建立数据管控的考核指标和落地功能,DG-KPI,DG-KPI 载体或工具,三大功能和相互关系,管控体系中的数据标准、数据质量和元数据之间有着紧密的关系,三者的关系如下: 数据标准向元数据提供业务元数据的标准定义,并可以通过元数据平台进行维护; 数据标准定义了符合进仓数据的标准和依据,指导数据质量进行有效的质量监测和检查;另一方面,通过数据质量具体的操作来促进数据标准的执行情况; 元数据作为数据质量的数据提供者,向数据质量提供包括表、字段、代码等元数据对象及其属性定义,能够帮助仓库的使用者更好的发现数据的质量问题
5、;,数据管控应用框架,0,数据治理组织架构与,岗位职责,数据治理模板,(,流程、定义、发布,),数据治理认责,与考核办法,元数据分类模式及属性举例,分类,属性,元数据管理的架构,元数据的基础功能,元数据查询浏览:侧重于对元数据的内容展现和查询方式支持元数据数据分析:侧重于基于元数据的分析功能,从数据中提取对技术、业务用户有用的信息元数据管理:元数据平台的管理功能BI元数据和企业级元数据的互动:企业级元数据经ETL平台加工整理进入仓库,形成BI元数据,可通过血缘分析和影响分析功能查看两者的互动关系;,历史 对象,元数据浏览的灵活性,元数据对象关系呈立体网状 看本体查看对象本身定义,例如表的名称、
6、注释等信息。 向上看查看对象所属对象的定义,例如表所归属的数据库。 向下看查看对象包含的对象的定义,例如表所包含的字段、索引等。 向前看查看对象的上游信息对象,例如该表的数据的来源表。 向后看查看对象的下游信息对象,例如该表的数据的目标表。 看历史查看对象的历史变更信息。例如该表在上一个版本中的内容。 看友邻查看与对象有关系的其他对象,例如涉及该表的脚本等信息。,所属 对象,包含 对象,目标 对象,来源 对象,本体 对象,元数据主要分析功能,影响分析 向下分析一个元数据对象对下游对象的影响。 血缘分析 与影响分析的方向相反,向上追溯一个对象的数据来源。 全链分析 从某对象出发,向上下游双方向进
7、行分析。 活力分析 分析一个数据库对象被访问的频度。 孤立对象分析 分析数据准备区(SData)、物理模型区(PData)中的孤立元数据对象。 一致性分析 定期分析元模型中的元数据是否与实际情况一致。 版本比对 选择任意两个时点的版本进行比对。 质量分析 分析数据仓库中的元数据的质量。,如何元数据技术的价值,元数据技术发展方向 任何事物的发展都是从粗放型到精细型,元数据的发展也不例外。 元数据是关于数据属性的管理系统,针对数据属性的管理需要从“定量化”技术指标到“抽象化”的业务指标的管理。 元数据的应用需要从简单的技术应用模式到复杂的分析应用模式的转型。元数据发展目标: 元数据的完整性 元数据
8、的精细化 实现元数据的双向驱动为目标工商银行 业务元数据价值的探讨工商银行元数据应用的价值举例: 基于元数据的数据质量评估模型 基于元数据的数据温度评估模型 基于元数据的数据生命周期管理机制 基于元数据的ETL作业调度优化 基于元数据的物理模型优化,真正发挥元数据的协助数据管理的职能,数据质量维度,必须有一个跨部门以上领导的重视和牵头 必须有一个专门负责解决数据质量问题的组织 必须有一个专门负责解决数据质量问题的平台 必须有一个专门负责解决数据质量问题的流程 必须有一个专门负责侦测数据质量问题的工具,数据质量的5个“一“工程,完整的数据质量解决方案,数据质量改进标准流程,21,数据质量平台功能
9、,管理配置平台:质量规则的管理维护,支持用户界面手工编辑方式进行维护或者文件方式批量导入检查执行平台:数据质量知识库中抽取相关质量规则,以检查脚本为载体,通过ETL服务器任务调度,完成数据检查,并将检查结果保存进数据质量知识库质检报告展示平台:以WEB页面或者文件方式查看质量检查结果,数据标准框架,数据标准定义,数据标准执行,数据标准映射,数据标准管理流程,数据项的主题、分类 数据项的业务属性 数据项的技术属性,数据标准执行的架构 数据仓库差异和改进建议 源系统差异和改进建议,数据标准与源系统的字段级映射 数据标准与数据仓库的字段级映射,日常维护 更新 执行和效果追踪,标准定义,标准映射,标准
10、执行,管理流程,管理工具,业务数据标准的问题,困难 实施难易度 容易,高 实施迫切性 低,公共数据规则示例,电话号码,建议采用正则表达式进行系统固化,例如:/(0+d2,3-)(0d2,3)-)?(d7,8)(-d3,)?$/ 合法范例:010-23412256,021-27765466-201,0731-3445654 非法范例:未以-分隔,以及所有含非数字字段电话号码,例如0a0*11233323,手机号码,建议采用正则表达式进行系统固化,例如:/0*(13|15)d9$/ 合法范例:13933452321,15933442231 非法范例:非13或15开头,长度不为11位以及所有含非数字
11、字符的号码,例如:1300006454a,行政区划(省、市),数字代码采用三层六位层次码结构 省、自治区、直辖市、特别行政区的字母用两位大写字母表示 市、地区、县级市、市辖区的字母用三位大写字母表示,地址,地址信息之不允许包含省份、城市和区县的信息 应该按照下列顺序依次填写街道、门牌号、单元室号等信息,邮编,采用四级六位编码制,前两位表示省、市、自治区,第三位代表邮区,第四位代表县、市,最后两位代表投递邮局 建议采用正则表达式进行固化,例如:/0-96$/,邮件地址,建议采用正则表达式进行固化,例如:/_a-z0-9+(_a-z0-9+.)+a-z0-92,3$,工作目标和重点,产品,客户,渠
12、道,交易,客户资产,机构,财务,协议,营销,地址,公共代码,业务主题,公用,三期(2010/01-2010/06),一期(2008/02-08),建立兼职数据标准小组 建立数据管理流程 建设管理工具,兼职:每部门1人,基础框架 客户、产品主题 公共代码,ECIF的客户模型 相关系统的产品,统一的客户视图 数据标准实施蓝图和路线图,二期(2008/09-2009/12),规划的实施路线图,1.定期复审数据标准,评估前期成果合理及适用性,推动必要修正,保证数据标准的有效性 2.定期审视前、中、后台操作/管理系统有无不符合数据标准指导原则部门,评估修正可能 3.定期审视现有操作流程评估数据标准使用的
13、合理性,作为未来修改、新增操作流程依据,落地建议仅供参考,不作为本项目的交付,标准的维护和更新,一期项目标准定义(1):客户主题,客户定义与分类,客户信息模型,产品定义及原则,一期项目标准定义(2):产品主题,产品清单,产品分层,产品信息模型,产品特征定义,产品与特征的映射,一期项目标准定义(3):标准代码(I),完成199个公共代码的标准定义,分布在客户、产品、协议等多个主题,代码定义原则及分类,代码定义范例,一期项目-标准管理组织架构和角色定义,目前的组织架构:由领导小组、办公室和数据管理员组成三层兼职组织架构,数据标准管理 领导小组,数据管理员,系统管理员,数据标准 业务专家,对数据标准
14、的定义与 变更提供专家意见配合解释数据标准的 业务含义和业务规则配合数据管理员完成 其他数据标准管理事项,数据标准定义变更核准与修改维护数据标准复审标准执行的监督标准的一致性解释金融标准委员会相关 标准的复审和落实,数据标准管理工具的 运营与维护数据标准管理工具的 用户设置与权限管理,数据标准 管理办公室,发起、组织数据标准的新建 协调跨领域变更与重大变更核准 组织数据标准定期复审 监控标准执行项目的进展与效果 数据标准的发布、备案、版本管理 行外数据标准化组织的联系 行业标准发展状况的跟踪,审定数据标准建立方案 审议数据标准重大变更 核准数据标准复审 审定和推行数据标准执行方案 指定标准执行
15、项目的业务牵头部门 推动标准在全行的使用落实 指派数据管理员与业务专家,一期项目-数据标准变更维护流程,二期项目,2008/12 2009/1 2009/2 2009/3 2009/4 2009/5 2009/6 2009/7 2009/8,0 1 2 3 4 5 6 7 8,二期标准定义,渠道主题数据标准 渠道定义 渠道类型/种类 渠道信息模型,渠道主题,交易主题,关键统计指标,交易主题数据标准 交易定义 交易类型 交易核心信息项和使用规范 交易费收入识别规则,关键统计指标数据标准 指标分类及定义原则 指标定义基础框架 关键统计指标标准定义,二期项目数据标准定义(1)-渠道主题,渠道定义:客
16、户获取银行或银行产品信息以及购买或使用银行产品、服务的媒介。,几点解读: 渠道是银行与客户之间的接触点,只有在我行与客户相互接触(直接或间接)的事件中才包含渠道信息。 通过渠道,客户可以主动接触我行,获取我行信息,购买和使用我行产品与服务;通过渠道,我行也可以主动向客户销售产品、提供信息和服务。 以我行视角定义的渠道是我行所提供的、延伸至最外端、可供客户接触我行或我行主动接触客户的媒介。,渠道信息模型 按照信息大类、小类和信息项分层定义 覆盖基本、银行管理、利润、运维、关联、特有、分组信息等七大类,22小类,共计115个信息项 各信息项的业务定义描述、数据类型、数据长度等,二期项目数据标准定义
17、(2) -交易主题,银行为了满足客户的金融服务需求或者自身的经营管理需求,进行的用来实现价值转移、服务提供的活动。,交易核心信息项,交易费收入客户识别,二期项目数据标准定义(3) -关键统计指标,规范定义了265个指标,高度覆盖了现有的关键指标报表类应用 一致粒度的指标:在收集到的原始指标中,按照指标合并拆分原则适当的提取和合并,使所有指标的定义粒度相对一致,也使得指标列表更为简洁,避免重复定义。 重复指标的定义:对其中的45对重复指标进行了核实,统一了这些全行经营战略重点关注的指标定义和描述,消除歧义和冲突。 指标定义的修正:根据命名规范对指标名称的规范;根据业务的发展,对一些原有的指标定义
18、进行了修正,使之更精确描述。,二期项目数据标准定义(3)关键统计指标标准,业务统计口径白皮书,指标信息管理,促进了业务元数据的管理 业务上推动了业务需求标准化管理,为未来统一指标库的建设奠定了基础;作为应用需求和需求分析的参考手册,减少了需求反复,节约了沟通成本 提供统一规范的定义框架,有助于新指标的快速实施 推荐使用而非强制执行,利用使用数据的沉淀,增强可用性,统一指标库,建立一种全新高效、准确开放的数据信息应用管理模式,由业务管理指标库和指标数据库构成 统一的指标加工平台,统一的指标计算口径,解决数据质量问题 全行有效、标准、统一的指标数据采集、存储、管理机制,进而形成全行统一标准规范下指
19、标口径和取数逻辑的统一视图,解决了需求整合的问题,一期标准落地概况,公共代码数据标准使用概况,38 11/2/2018,基础主题数据标准使用概况,公共代码标准:是各系统数据字典设计的重要参照,包括业务与技术属性、取值及含义 基础主题标准:是相关主题业务需求的基础和蓝本 数据映射:可做为系统字典对照与数据整合处理的重要参考 同时标准的新建、变更维护也应与业务需求梳理工作结合进行,不断适应新的需求,逐步完善,议程,他行经验和借鉴,光大数据标准后续改进策略和工作建议,光大数据标准化工作成果,国内银行数据标准化建设情况,数据标准项目是管理信息系统规划的子项目 项目目标: “业务变革与信息技术变革在全行
20、全方位展开,而增强数据定义和使用的一致性将促进系统集成,充分实现信息资源共享。” 项目范围:“通用数据”标准 牵头部门:信息中心数据标准处 参与部门:14个业务部门、21个应用系统,逻辑数据模型LDM 通用数据标准定义(12大信息类) 产品清单 客户数据标准 公共代码定义,项目概况:,主要产出:,国内银行C:基本情况,国内银行C:标准代码的执行,信息中心信息标准划处负责标准制定和维护职能,信息科技部后台系统负责数据标准在后台分析系统的落地执行,国内银行C:经验与教训,数据标准项目由信息中心牵头,该部门由业务人员和IT人员共同组成 数据标准是长期持续的工作,该行成立了数据标准处来专职负责 数据标
21、准项目的成功有赖于各业务部门以及周边项目的鼎力支持和参与 在全行的数据质量检查中纳入数据标准遵循度的考核,并将检查结果与绩效挂钩 该行的数据标准项目仅完成了数据标准定义,数据标准的使用和执行力度较小。除标准代码外,其它主题数据标准均停留在纸面上 产品标准与产品分类目录脱节,造成产品目录、产品数据标准均无法执行和更新维护,议程,他行经验和借鉴,光大数据标准后续改进策略和工作建议,光大数据标准化工作成果,标准落地与标准定义完善工作的相互促进,45,标准编制,标准管理,标准发布,标准执行,信息管控,业务定义 技术/流程定义 规范/口径定义,发布工具 浏览查询 通知机制,执行策略 优先策略 实施策略,
22、变更申请 管理维护 工作流程,数据标准专业团队工作: 标准落地执行 标准监管 标准审核 标准维护 标准定义,在数据标准落地执行的过程中,必须持续对现有标准成果进行有效管理和维护,并在落地执行项目的推进过程中,逐步建立、完善数据标准的管理流程与规范,使数据标准工作纳入各部门的日常工作中。,标准落地执行的复杂性、长期性和综合性,46,数据标准在银行的推广实施,牵涉面广、技术复杂、集成化程度高,在IT层面涉及系统开发、系统改造以及新老系统的衔接。数据标准落地执行是一项复杂的、长期的、综合的工作,必须根据我行的实际情况以分步实施的模式逐步推进。,标准落地执行策略之一:业务驱动,47,业务部门的需求推动
23、标准执行 标准执行的效果体现业务价值 业务现实迫切程度落地执行的前提和重点,有人想用 + 有人用 = 有用,标准落地执行策略之二:项目推进,48,现有系统,以业务价值高的项目或专题为优先 实施前充分沟通,进行可行性研究和业务价值评估,制定详细落地执行方案 涉及多系统、多项目,需要标准专业小组统筹、组织和统一协调管理 保障项目人员、经费、开发时间等资源,新建系统,开发流程中设立检查点来确保数据标准的执行 项目立项 设计评审(需求定义、功能设计、数据库设计等) 上线评审 数据标准执行与项目流程的有机结合 从项目中采标,不断充实、完善数据标准,建立配套的针对数据标准项目开发流程,设计,开发,测试,上
24、线,应用维护,需求分析,数据标准执行内容,责任人,数据标准的参与人分析职能和定位,数据标准工作推进的建议,近期目标 (2010年),配合数据质量管理项目建设,将数据标准管理内容部署到数据质量管理流程中,有效监控数据标准执行状况; 逐步充实数据标准专业团队,继续负责落地项目的统筹、组织协同,以及标准采标和维护管理; 继续完善标准定义、维护、监控工作。,以标准落地工作为重点,选择合适的专题项目(如客户关系管理)作为切入点,以业务效果为目标进行落地实施; 继续开展数据标准定义工作(如机构主题),进一步完善数据标准内容; 以落地项目为依托,继续完善数据标准的发布、维护、监控管理。,中长期目标 (201
25、1-2012年),工作小组+兼职成员+外部专家,数据标准专业团队+工作小组,近期重点工作之一:选择客户关系管理主题进行落地执行,52,数据标准客户主题工作成果: 明确客户定义和分类 梳理客户的主要信息类 制定客户的归并规则,对客户关系管理的支持: 界定客户的范畴 有效规划客户信息视图 促进客户单一视图的建立 支持多维度的客户定义和分类 明确不同种类客户的识别规则 避免不同业务之间的差异性 实现客户的精确化管理和分析,数据标准成果在客户关系管理项目中落地执行意义重大!,近期重点工作之二:机构主题的标准定义,53,机构主题的标准化: 机构编码 命名规范 机构分类 隶属关系 层次结构 管理职能 业务
26、范围,数据标准整体规划中未完成定义的主题有:营销活动、协议、客户资产和机构,其中以机构的标准化需求最为迫切和应用广泛,建议列入明年工作计划。,三期(2010/01-2010/06),二期(2008/09-2009/12),1.定期复审数据标准,评估前期成果合理及适用性,推动必要修正,保证数据标准的有效性 2.定期审视前、中、后台操作/管理系统有无不符合数据标准指导原则部门,评估修正可能 3.定期审视现有操作流程评估数据标准使用的合理性,作为未来修改、新增操作流程依据,标准的维护和更新,54,保密须知:本文件及其书面或其他任何形式的附件乃以保密形式提供,其著作权归属于本公司,仅供阁下内部使用。未经过本公司的审核、确认及书面授权,阁下不得以任何方式在任何媒体(包括互联网)上公开引用或在阁下的任何资料中引用本文件及其附件中的任何数据和信息,不得以任何方式将本文件及其附件中的任何内容提供、披露给其他单位或个人。敬希阁下与我们共同遵守法律。,