1、源于数据 服务于数据证券行业数据治理的现在与未来德勤中国 | 风险咨询服务 2016年 12月2016.1201 PART ONE源于数据,数据治理的驱动力02 PART TWO证券行业数据治理规划与推进03 PART THREE服务于数据,数据治理的未来01 PART 1源于数据,数据治理的驱动力41.风险 管理中的数据治理 公司内各条线的业务人员在业务开展的过程中往往会面临大量的、来自不同数据源的、异构的数据,如何有效管理和使用这些企业未来 最 重要的资产经常成为数据管理者和使用者的一大难题 典型的数据源包括:公司内部数据、政府平台数据、征信数据、银联数据、第三方数据供应商数据、社交网络数
2、据、埋点数据等等如何管理和使用数据数据是企业的重要资产5 德勤全球数据中心( GDC)是一个专注于为客户提供(风险)数据的专业团队,目前设立在重庆 依托德勤丰富的风险管理项目经验以及对客户一线需求的深入理解,该团队搭建了德勤风险数据平台提供风险数据服务数据来源 德 勤拥有丰富的风险管理项目经验 ,通过项目实施,在德勤内部数据库中积累 了 大量脱敏后的数据德勤内部数据 针对 外部 数据 的 公开性 ,通过开发网络爬虫 获取 各 监管单位 、行业 协会 、类 权威财经网 等 众多 网站发布的数据 通过外包形式,人工收集部分逻辑复杂的定性 /非结构化数据外部公开数据 通过 API接口等 方式接入第三
3、方,针对性的获取第三方数据 通过付费方式购买 第三 方数据第三方 数据 通过对接工商局、法院、教育部等政府平台,获取权威数据有权机关 数据数据 仓库 涵盖所有银行、 证券等 金融 企业 所有上市公司、发债企业 其他企业企业数据 集成自企业数据的业务逻辑,进行行业整合与分析,为各类企业定位提供支持行业数据 涵盖基本背景信息、舆情风险、监管诉讼等各类外部公开数据外部数据 全国; 32个省、市、自治区、直辖市; 400+地级市; 2000+县 1000+指标宏观数据 客户可根据 自身业务需求,订阅评级、预警、指数等资讯服务,德勤将第一时间为 客户推 送相关 讯息数据订阅数据服务 在项目实施过程中和后
4、续服务期内,以定期推送的方式为 客户 提供相关数据项目 +数据 根据客户需求,为其量身定制成套数据模板,进行定期更新推送数据个性定制 客户可通过 实时 /批量数据接口接入德勤风险数据平台进行 数据 查询与获取数据接口数据维度 11+类金融 行业 14类 非金融行业25+行业 包含企业基本信息与历史沿革 (企业年限、股权结构与变更等 )、经营模式 (技术优势、主营业务等 )、上下游企业 (稳定性、集中度等 )等定性指标120+定性指标 涵盖规模类、杠杆比率、流动性、盈利能力、运营能力、成长性等 6大类 270+定量指标270+定量指标通过对原始数据进行清洗整合,根据不同的维度体系建立不同的数据仓
5、库 。以 企业数据 为例, 主要 数据 维 度如下:1.风险 管理中的数据治理6企业数据1.风险 管理中的数据治理德勤 GDC应用展示71.风险 管理中的数据治理自营 资管 柜台 期货完整性情况完整性规范性及时性唯一性一致性准确性数据质量问题各维度0%20%40%60%80%100%0100200300400客户 产品 协议 事件 财务 资产 公用信息平均通过率规则数量 本月各主题通过率产品规则数量: 61柜台 十万条数据中存在9 4 1 条空值,其余全为数字0 。分段结束阶段为空时,分段开始阶段同样为空,但是分段结束日期不为空柜台 十万条数据中存在9 4 1 条空值,其余全为数字0 。分段结
6、束阶段为空时,分段开始阶段同样为空,但是分段结束日期不为空C R M 十万条数据中存在6 1 7 7 9 条数据为空,且在代理人标识不为空的情况下,仍有6 1 5 4 0 条数据为空C R M 十万条数据中存在2 3 6 条数据为空,该列为空时代理人证件类型、代理人姓名存在不为空的情况柜台 5 1 9 1 8 条数据中存在7 1 0 2 条数据为空,且在登记人不为空的情况下存在6 8 8 1 条数据为空的情况柜台 十万条数据中存在2 3 8 2 条数据为空,由于存在基准利率非空但是基准利率类型为空的情况,可认为基准利率类型填写不完善柜台 十万条数据中存在9 9 9 9 0 条数据为空,保证金金
7、额不为空的情况下, 仍然有账号为空柜台 十万条数据中存在1 7 9 6 2 条数据为空,涉及第三方1 不为空时存在本字段为空的情况自营 十万条数据中存在1 8 2 9 1 条数据为空,涉及第三方2 不为空时存在本字段为空的情况自营 十万条数据中存在9 9 9 9 6 条数据为空,涉及第三方3 不为空时存在本字段为空的情况自营 十万条数据中存在9 3 9 9 8 条数据为空,存在还款账号非空但是还款账户名为空的现象自营 十万条数据中存在9 4 0 2 6 条数据为空,存在还款账户名非空但是还款账号为空的现象资管 十万条数据中存在6 1 7 7 9 条数据为空,存在代理人证件标识不为空,但是代理人
8、姓名为空的现象资管 十万条数据中存在6 1 8 9 6 条数据为空,存在代理人姓名不为空,但是证件号为空的现象期货 3 4 6 数据中存在3 3 7 条数据为空,存在联系人不为空,但是证件号码为空的情况期货 十万条数据中存在9 7 9 3 4 条数据为空,存在姓名为空但是电话号码不为空的现象数据质量问题严重制约数据价值发挥81.风险 管理中的数据治理数据问题 解决方式原因数据对接人员 缺乏各项 目团队各自为战,重复工作时效性差数据 未能在第一时间及时更新样本缺失使用 过程中发现缺乏一些关键样本数据值缺失一 条记录 里可能含有缺失值数据文件损坏保存 或处理方式不当,导致数据文件损坏数据文件遗失电
9、脑系统崩溃、遗失、操作不当等,导致文件 遗失数据重复相同或者部分相同的记录出现 多条数据异常数据 错误数据 没有严格按照规范输入,导致错误数据差异定性数据的录入存在 主观性差异数据无效数据完整、但因格式等问题不可用数据口径不统一数据统计口径存在差异,如财务数据,万元 /元等单位不一数据处理技术落后传统工具无法处理组建数据团队 创建了重庆 GDC数据中心 , 组建了截至目前数十人的专的数据团队建立健全的数据机制 以爬虫 +API的建立监测机制实时监测数据动态 建立完善的数据流引擎进行数据清洗 、 数据校检 、异常值处理 建立标准的数据库并以及数据备份机制 规范数据标准 根据业务需求和规范 , 建
10、立标准的指标体系 规范数据命名 、 类型 、 质量标准 搭建数据补录平台 , 规范数据录入流程及标准 技术革新 结合 R、 SAS、 Spark等专业数据处理软件 引进数据挖掘与机器学习算法 云服务器 、 分布式 、 并行等大数据解决方案 没有专业的 数据工作 人员 及 团队 没有健全的数据 样本 和数据 监测 机制 缺乏 异常值处理 机制 没有完善的处理机制、 备份 机制 数据 清洗 机制不健全 没有严谨的数据 校检 机制 人工数据 录入错误 数据录入 不规范 没有建立标准的 指标体系 缺乏 专业技术 应对大数据时代的海量数据GDC建设过程中曾遇到的各类数据问题91.风险 管理中的数据治理人
11、员、组织与架构标准、制度与规范 过去各业务团队独立收取所需数据,易出现重复收集以及资源不足的情况 过去各业务团队自行收取数据导致数据标准不统一,数据处理整合难度大 通过建立 GDC大数据中心对数据进行统一收集,再供数给各业务团队,实现共享化与专业化 通过建立 GDC大数据中心,建立统一的各类数据标准与规范,提升数据管理效率宏观数据行业数据企业数据业务团队A业务团队B业务团队C宏观数据行业数据企业数据业务团队 A业务团队 B业务团队 CGDC数据治理案例101.风险 管理中的数据治理流程、活动与机制技术、平台与工具 根据项目需求清单整理相关报告,进而进行数据补录 采用人工的方式对数据情况进行搜索
12、、下载和分析,耗时耗 力 GDC大数据中心 集中进行数据自动化补录,通过数据补录平台,建立了完整的样本及数据监测机制、数据补录触发机制、数据清洗机制、数据校检机制,流程简洁高效 通过 数据补录平台 ,实现数据的自动化监测、获取、存储以及初步分析数据治理案例11 数据治理是成功的企业数据管理中不可或缺的重要 组成数据治理 基于生命周期的数据管理 数据人员、组织与架构 数据流程、活动与机制 数据标准、制度与规范 数据技术、平台与工具数据模型与分析模型 描述性分析 360度企业全景 视图 商业智能应用程序 管理仪表盘,报告 如:客户洞察,客户统一视图数据应用 基于可靠的信息行动决策 决策流程优化 预
13、测与前瞻性分析 如:以客户为中心的产品研发,营销战略策略与执行,服新务开发等 .大 数据基础架构 数据 概要 数据清洗 数据整合 明确数据治理职责分工,明确不同部门在数据生命周期各个阶段的具体职责 建立数据治理的规则制度及流程,详细指导数据治理工作的开展 建立数据标准,建立统一的数据规范,统一的指标计算规则与逻辑 建立数据质量管理端到端的闭环管理机制,做到事前防范,事中控制,事后治理相结合,提升数据质量,提升数据应用的可靠性 结合内外部数据 ,力求发挥 最大数据价值数据 应用数据模型与分析模型数据治理大数据基础架构具体做法企业数据管理的 4个组成部分1.风险 管理中的数据治理02 PART 2
14、证券行业数据治理规划与推进132. 证券行业数据治理工作实践 以证券公司发展战略 为 导向 围绕证券公司数据 的 生命周期 从 数据管理和服务的整体角度 出发 描述券商数据 各项功能和 活动证券行业数据治理工作框架要求、指导数据应用管理数据管控数据组织 与职责企业数据管理企业数据架构管理主 数据管理元数据管理数据标准管理数据质量管理数据安全管理数据生命周期管理技术支撑数据 战略与规划数据应用与数据服务 规划与需求管理数据基础平台建设发展 战略目标保障举措实现支撑促进数据制度与流程142. 证券行业数据治理工作实践各领域工作内容分解企业数据架构 企业数据模型 企业数据分布 企业数据流转 数据架构
15、管理 数据模型管理 数据分布管理数据 标准管理 基础类数据标准 分析类数据标准 数据标准管理 标准落地 实施 标准 管理平台 维护 存量数据质量管理 增量数据质量管理 数据质量主动保证 数据质量监控 数据质量清洗 数据质量平台建立元数据管理 业务元数据 技术元数据 操作元数据 元数据 获取与 应用 元数据 管理工具 维护主数据管理 主数据技术支撑 主数据规范与规则 专业系统开发 主数据生命周期管理 主数据规则管理 主数据管理工具维护数据质量管理数据生命周期管理 数据分类 数据存储 数据归档 数据销毁 数据备份与恢复 备份存档管理 数据恢复管理 数据认证 数据授权 数据监控 数据审计 数据等级管
16、理 数据安全监控 数据安全事故处理数据安全管理数据管控 数据战略与规划 数据组织与职责 数据制度与流程 数据仓库 ODS 数据集市 ETL数据 应用与数据服务 信息 服务 数据需求管理 信息服务体系规划 指标管理 大数据应用规划规划与需求管理数据基础平台 建设DAM数据应用管理DG数据管控EDM企业数据管理 管理报表 仪表盘 BI专项应用 监管 报表 技术支撑152. 证券行业数据治理工作实践德勤在广发证券数据治理项目中的工作内容产品主数据落地基本制度现状分析及成熟度评估制定基础数据标准基础数据模型优化元数据管理实施方案数据质量提升数据治理工作实施数据治理制度建设规划数据治理组织架构 制定数据
17、治理规划方案 制定数据治理制度流程数据治理制度专项制度与流程 数据标准、数据质量、元数据、数据安全、数据需求16德勤数据治理体系模型 成熟度五级模型 同业优秀实践支持重点部门访谈问卷调查现有资料文件整理事实依据 收集1 成熟度 评估工作 现状关键 问题数据需求能力差距2 实施路线图设计目标设定任务识别项目优先级排序实施路线图3 组织架构、制度流程设计数据管理组织架构数据管理流程、制度4数据治理体系实施评估 (回访阶段)5实施成效评估2.1 数据治理现状评估与体系规划工作方法与流程172.1 数据治理现状评估与体系规划数据治理实施路线图设计通过数据治理工作,促进数据质量 的标准化 ,实现数据 的
18、 全面 管控 :阶段目标完善重点领域管理能力,数据质量明显改善,加强 数据模型应用 ,推进数据管理各领域工作全面开展和数据管理能力全面提升,全面 提升 企业 的数据成熟度。大力开展数据治理 、主数据、数据 标准、数据质量、 数据应用 等领域相关工作,建立数据管理长效机制,夯实数据基础工作 ,支撑数据模型的运行。中长期短期182.1 数据治理现状评估与体系规划数据治理组织架构设计数据治理委员会数据管理 的最高决策机构 。数据管理工作小组数据 治理工作的统筹协调与议事的组织。数据治理中心数据 治理工作的管理组织和推动的 部门。数据 内容所有者 (Content Owner)业务部门与职能部门内部设
19、置全职或兼职的数据治理 岗位 。数据 平台所有者 (Platform Owner)信息技术部各系统管理岗位或数据库管理岗位 。192.1 数据治理现状评估与体系规划数据治理制度流程设计与编制 数据治理制度 数据需求管理办法 数据安全管理办法 数据标准管理办法 数据治理操作手册 基本制度1 专项制度2 4操作手册管理流程3 数据 标准 管理 流程 元数据管理流程 数据 质量 管理 流程 202.2 数据模型管理模型优化 架构层面 设计规范模型健康性检查 01克服数据黑暗现象02明确数据与流程的关系03挖掘数据意义04各项数据活动的基础通过清晰 的数据模型 管理让企业可以真正理解和运用自身的数据,
20、并不断扩大应用和分析数据的范围和规模。了解数据访问与业务流程之间的关系,帮助企业业务使用 者应用更好 完成工作,推动全面数据化运营。连接和映射更多数据,充分发掘现有的数据之间的关系,扩大数据规模效应,让数据可以充分发挥其作用和价值。其他的数据资产管理活动,包括数据质量、数据生命周期管理、数据操作、数据安全、主数据管理等提供一个高质量的基础。1 管理流程 业务层面21.结合行业通用数据模型的成果,扩充基础模型的覆盖范围2.充分考虑数据标准定义及大数据平台的特点进行优化设计3.主题及实体的定义更贴合业务实际,同时考虑到可扩展性的 要求4.考虑目标应用是否能够方便、快捷支持212.3 建立数据标准体
21、系企业数据标准 协议主题客户主题 交易 主题公共 信息 主题 渠道 主题产品主题财务主题数据标准 是企业或组织的数据项的 分类 、 语义定义 、 值域 和 计算机应用 的规范化集合, 数据标准管理 是 建立、 维护 、 应用 数据标准的过程。定义和分类 数据业务标准( 业务 层面) 数据技术标准(技术层面) 管控标准(管理部门)数据标准体系基础 类数据标准结构 分析 类数据标准结构分析类 指标定义 框架分析类 指标分类 框架分析类 指标维度 框架分类、业务含义、维度、统计 口径 业务 类、财务类、风险类、客户类 币 种、产品、机构( 总分 )、区域 归口管理部门数据项 数据类型、数据长度、数据
22、精度数据项 编号、中文名称、英文名称、业务定义、定义依据、参考 标准明确业务 主题的概念、本质 与内涵资讯主题222.3 建立数据标准体系客户主题机构客户控股性质国标 证监会标准 系统现状码值 业务定义 :公司控股主体的性质 信息项类型 :代码类信息项国家统计局关于 统计上对公有和非公有控股经济的分类 办法证监会公司控股情况分类标准国家单位 10国有独资 11国有控股 12集体企业 20民营企业 30港澳台投资 40港澳台独资 41中外合资 50外资独资 51其他 99选用依据券商生产、报送、发布统计数据涉及的控股情况分类需遵循本标准。232.4 数据质量管理2.测量1.定义3.分析4.改进5
23、.控制质量需求定义质量范围定义剖析方式定义剖析计划定义选定测量数据制定测量规则编写测量脚本测算数据质量生成质量报告指出质量问题分析问题原因质量问题派分质量问题处理定义改进方案执行改进方案评估改进方案持续质量管理持续质量检核知识库管理问题流程优化数据质量持续提升数据质量管理数据作为 全公司一 项重要资产 ,质量管理是 核心目标 ;保证 公司 数据质量, 数据认责和数据质量考核 是抓手,数据标准、数据模型、元数据等是 基础的必备条件 ;通过建立 数据质量管理端到端的 闭环管理机制 ,做到 事前防范,事中控制,事后治理相结合,全面主动的进行数据质量持续提升;242.5 主数据管理 准确 识别 企业的
24、主数据 , 确保 主数据在企业内部 的 完整性 、 准确性 和一致性 。 建立 主数据管理机制和平台 , 为 企业的主数据建立 统一的视图 。流程规范 主数据的创建 、维护流程流转明确主数据源头及系统间的数据流转关系定义主数据的定义与范围应清晰明确质量确保主数据的完整性、准确性、一致性252.5 主数据管理 产品目录设计业务树客户树标的树组织树 按照 四个维度进行理论上笛卡尔 积的生成 对 四个维度一起生成的笛卡尔 积 的 数据 进行合理性检查 ,删除不 合理 组合。产品目录设计目标 能覆盖证券 公司 母 、 子公司 各业务条线业务、产品、客户; 能为各产品部门提供统一产品衡量标准,便于部门之
25、间沟通管理 ;产品目录实现方式262.6 元数据管理元数据查询与展现元数据管理元数据分析提供技术元数据,业务元数据等信息查询的展现,支持元数据的统计等。对元数据版本进行匹配,及时通知和提醒业务元数据的变更。通过元数据的登记修改流程对元数据进行管理。实现数据分布地图,数据 血缘 分析和影响分析。M I B 自动 /手动抽取最新元数据获取数据管控平台原版本元数据比较两个版本之间差异 生成差异报告在数据管控平台中展现差异管理员浏览和审批差异内容对差异变更内容作评估分析审批通过是将数据变更到数据管控平台开始结束否在管理员中显示待办事项元数据采集实现对管理范围内的技术元数据(数据结构、 ETL加工,数据
26、映射等)、业务元数据(指标报表、标准)的自动或手工采集,完成自动匹配,实现对无法自动采集的内容作补录元模型管理元数据 采集公共接口( WebService、通用接口等)元数据应用 (分析应用,元数据查询展现等 )元数据管理(增删改查、统计管理、版本管理等)元数据存储与计算元数据 管理272.7 数据安全管理数据生成与创建存储使用共享归档销 毁 数据生命周期安全 源数据标准定义、格式与规则 数据质量管理 数据 分类 与 定级 数据存储安全标准 数据 存储 介质管理 技术控制规划 (访问控制、加密、 数据库活动 监控 ) 数据使用安全标准 数据 使用 介质管理 技术控制规划 (应用系统 访问控制、
27、屏蔽、 行为 监控 ) 数据传输安全标准 数据 传输 介质管理 技术控制规划 (加密、 DLP,传输环境安全控制 ) 数据 销毁 标准 数据介质 处置 管理 技术控制规划 (安全删除 ) 数据 归档 标准 数据备份、 恢复 技术控制规划 (数据加密、资产管理 ) 企业应通过建立对数据及相关信息系统进行保护的一系列措施 , 确保数据免遭未经授权的访问 、使用 、 修改或删除 , 保证数据完整性 、 保密性和可用性03 PART 3服务于数据,数据治理的未来293 数据治理发展趋势建立数据管理基本架构 建立数据管理角色,明确职责 编写数据管理制度与流程 建立数据治理组织架构 关注集中化的数据仓库实
28、施方法1关注企业数据质量 贯彻并执行数据管理制度与流程 强化数据治理组织架构与角色定位 建立数据质量管理方法与管理标准 建立元数据管理方法与管理标准强化数据管控机制 设置 “首席数据官” 建立元数据管控平台,采集与完善企业元数据 建立企业级数据制度架构,规范数据源头、数据整合 、数据分析 与数据发布工作 定义企业数据主题与分类 评估用户的数据需求2 3企业全面数据治理 打造端到端的数据供应 链 管理 整合 横跨企业数据模型、数据内容与 SOX的控制环境 巩固企业数据政策与评价标准 元数据采集自动化 通过技术应用强化数据管理组织架构 培养 专业 数据 人才4现状 未来发展方向 企业级数据管控 服务经营管理活动 数据管理 技术广泛应用303. 数据治理价值创造展望1. 价值导向的 数据应用 价值层创造价值2. 数据建模、数据挖掘 分析 层分析运用3. 数据采集、数据质量 数据 层质量监督4. 业务系统、 基础设施 基础 层生产交易