收藏 分享(赏)

集团大数据云服务平台技术方案.pptx

上传人:IT人 文档编号:1420607 上传时间:2018-07-15 格式:PPTX 页数:129 大小:7.40MB
下载 相关 举报
集团大数据云服务平台技术方案.pptx_第1页
第1页 / 共129页
集团大数据云服务平台技术方案.pptx_第2页
第2页 / 共129页
集团大数据云服务平台技术方案.pptx_第3页
第3页 / 共129页
集团大数据云服务平台技术方案.pptx_第4页
第4页 / 共129页
集团大数据云服务平台技术方案.pptx_第5页
第5页 / 共129页
点击查看更多>>
资源描述

1、,集团大数据云服务平台技术方案,Contents Page,目录页, 2 ,04 案例分享,01 公司介绍,02 整体方案,03 实施建议,大数据云服务平台框架设计理念,大数据云服务平台整体功能架构图,大数据云服务平台整体技术架构图,大数据云服务平台数据分布架构图,以Docker封装应用,使得应用可以灵活构建、灵活迁移。不再受限于具体的语言和工具。,Build 以集装箱(Container)为单位管理应用,它将所有应用的依赖都打成一个包,不用担心环境、底层平台、语言之间的差异。将App变成一种标准化的、可移植的、自管理的组件。Ship 自定义应用的生命周期,开发、调试、运行,最终非常方便和一致

2、地运行在Production环境下。Run 跨平台部署,可伸缩、安全、稳定。,优势技术说明,优势技术,大海航行靠舵手Google开源的Docker容器的集群管理平台,服务注册服务发现,容器网络,高可用负载均衡,应用编排,租户管理,Kubernetes提供了诸多便利,使得开发者可以轻松构建符合12因子最佳实践的应用。,优势技术说明(续),优势技术,CloudFoundry的Service Broker使得重型的大数据能力能快速集成。,CloudFoundry是早期PaaS的事实标准,其创新的Service Broker机制可以便利地将有状态的服务快速集成。CatalogProvisionDepr

3、ovisionBindUnbind,优势技术说明(续),优势技术,优势技术说明(续),国际开放数据平台企业联盟ODPi 银卡会员,100+补丁, 10+开源贡献者,Hadoop平台产品引领企业级大数据平台演进方向,优势技术,优势技术说明(续),Hadoop平台优化,优势技术,Hadoop平台产品基于Hadoop生态系统,在引入了多种核心功能和组件外,还从开源社区中挑选优秀Patch进行了大量重构、优化与集成,使该平台具有更强的数据处理、更快的处理速度以及更加便捷的实施优势。,核心功能组件分布式文件系统HDFS Spark计算框架资源管理与调度YARN安全组件及能力RangerNoSQL数据库H

4、base数据加载处理Sqoop,Flume, kafka,重构、优化在YARN资源管理能力的基础上进行了多租户能力的增强,提供了更好的资源隔离和资源共享使用的能力;,基于YARN和Slider的提供一套功能强大的弹性服务管理框架;,优势技术说明(续),每个开发团队输出到不同的开发目录。内容包括现有的数据字典、业务口径、程序代码等。这些输出到统一的元数据中心,进行统一的标准化和规范化检查统一的标准与规范,统一制定基本的规范和标准,不管哪个开发小组开发的内容必须满足这些基本的标准。,多租户元数据管理实现,优势技术,优势技术说明(续),采用MDA的模型驱动的概念,通过填单模式,支持对数据进行事前、事

5、中、事后质量检测模型配置,实现全过程的质量管理。1)事前质量检查:在开发阶段定义好各元数据对象的质量规则,在上线时,调用检查规则对上线的数据进行检查是否满足质量的规则,在一开始规避一些常见的错误。 2)事中质量检测:有些质量的问题必须在ETL过程中进行检查,如分隔符的检查,格式的检查等。数据质量平台提供给ETL进行功能调用,可以实现事中的质量检测3)事后质量检测:指在数据处理之后进行质量的检测。有些时候,如主外键检查,检查时特别消耗系统的资源,为保证系统的运行及时性,可以将这些检查点移到数据处理后系统空闲时在进行检查。,MDA模型驱动技术,优势技术说明(续),优势技术说明(续),数据库的智能检

6、索技术,通过元数据的关系,提供类似于baidu搜索,输入关键字,获取数据库的数据。,目前是通过关系数据库存储数据与数据的关系,通过多次递归查找关系进行可视化展示。因此在元数据的数据关系地图上,如何实现从那个点出发,到某个点的路径查找,关键路径的查找,来实现数据关系的路径分析。,元数据地图算法,基于TopN的多维数据诊断算法,从多维数据中自动发现异常点算法,充分利用业务人员经验,输出结果直观易懂。如果整体上是增长的,增长是在哪里?如果整体上是下降的,下降是在哪里?如果整体变化不大,那么各个维度组合上是否有异常?都能够通过算法进行诊断。,优势技术说明(续),业务指标的异常自动发现算法,在数据分析过

7、程中,指标分析是一个非常重要的内容。企业的数据分析往往有成千上万个指标,如何去自动发现指标存在问题,采用方法有阀值,同比波动率,环比波动阀值来进行异常监控。如何去设置指标的监控阀值,采用什么样监控算法,目前主要是依靠人员的经验。而且大量的规则多为手工批量设置且阈值固定,如10%。采用历史大量数据,进行异常点的处理之后,对数据系列进行数理统计分析得出数据分布范围,波动周期特点,稳定性,分布特点,中位数,众数、最值,均值,斜率.根据上面的统计分析结果,给出指标合理监控算法和监控阀值。如周期特点的拐点采用同比波动监控,周期内的数据采用移动加权平均值监控。,数据库数据冗余的发现和消除算法,系统中存在着

8、大量的冗余的数据,比如从ODS上的进行汇总的表就非常多,这些汇总表中有些存在相识性,这就造成了大量的冗余数据, 这些大量的冗余数据,一方面给数据的精确性和可靠性将带来影响,同时也影响着数据库的性能.通过系统的自动分析,发现输出冗余的数据和给出冗余数据的合并消除算法策略。,优势技术说明(续),通过对系统数据模型的元数据关联分析,找到存在关联性的数据实体,并定义关联的方法。,数据关联性发现,优势技术,优势技术说明(续),数据关联验证,优势技术,数据标准管理系统通过元数据管理工作中形成的逻辑模型,对对象型数据和事件型数据进行关联验证,检查对象编码和事件主键唯一性,取值合法性检查等,保证数据质量。,优

9、势技术说明(续),数据实时性瓶颈发现,优势技术,通过对数据关联性的分析,比较可关联数据间的数据同步周期,发现数据关联处理中的实时性瓶颈,驱动数据治理提升数据处理的时效性,select * from transmap INTO OUTFILE f:c.txt limit 0 , 25delete from tab where modelname like wangqs and 21 select basedir from metauserselect * from admin where id =-1 OR 17-7=10; - 拦截select * from admin where id =-

10、1 and 1=2 - 拦截select * from admin where id =-1 and 21 - 拦截 select * from admin where id =-1 and a!=b - 拦截select * from admin where id =-1 and char(32)char(31) - 拦截 select * from admin where id =-1 and 1 like 1 - 拦截select * from admin where id =-1 and 17-1=10 - 拦截select * from admin where id =-1 and

11、NOT (1 != 2 AND 2 != 2) -拦截 select * from admin where id =-1 and id like % - 拦截 select * from admin where id =-1 and length(abcde) = 5 - 拦截,攻击sql示意,SQL智能拦截:根据SQL工具的模式,系统会拦截sql脚本,拒绝恶意sql执行,优势技术说明(续),优势技术,输入sql语句:Select id,custname from model_user,解析sql内容,查询模型:model_user查询的字段:id,custname,判断用户的归宿的地市,机构

12、,改写sql语句Select id,enctry(custname) from model_user where area_id=user.ownarea_id,SQL安全控制器,SQL安全控制器:对SQL操作进行全自动的安全解析,安全元数据,优势技术说明(续),优势技术,优势技术说明(续),分布式爬虫破解行业封锁,优势技术,自研高性能爬虫,用于网页采集与解析模块,是一个分布式的、容错的实时爬虫系统。Lolth基于Java编写,跨平台跨语言支持。,优势技术说明(续),低成本高效率智能挖掘工具,优势技术,挖掘成本更低:降低数据挖掘工作对人员能力的要求,减少挖掘过程中数据准备、算法探索、模型使用等

13、步骤的工作量;统一管理模型,提升资源使用效率。,更贴近业务:预置行业成熟模型、行业数据源、面向业务场景的分析框架,提供数据咨询服务、定制化数据应用快速开发服务。,更稳定高效:云部署,支持mapreduce、spark分布式计算架构,支持百亿级数据挖掘。,更加灵活、智能:直接对接大数据平台,提供数据、模型或者应用级别的集成方式,可根据模型期望参数、数据变化、实际效果自动优化模型。,优势技术说明(续),自助式数据分析,优势技术,向导式数据整合,拖拽式自助取数,所配所得式数据可视化,分析知识沉淀,点选式数据处理,分布式任务处理,优势技术说明(续),专业的图像识别,快速转换,优势技术,开源,Tesse

14、ract的OCR引擎已作为开源项目发布在GoogleProject,是完全开源的。,多语言支持,通过不同的语言训练库可以支持多种语言(包括中文、日文)。,多平台支持,目前支持Windows、Linux和MacOS等主流平台 。,支持样本训练,可以通过jTessBoxEditor工具对样本进行训练,生成语言文件供Tesseract使用,从而提高识别精确度。,优势技术说明(续),基于Solr的全文检索,优势技术,企业级搜索引擎,Solr是一个可伸缩性的、能够即时部署的、致力于信息检索的、可以处理海量信息的、以处理自然语言文本为中心的、检索结果按相关性排序的企业级搜索引擎。,灵活的文档建模,Solr

15、通过schema.xml的方式来配置Filed,与Lucene相比,这种方式更为灵活更易于团队协同作战。而且solr还提供了Copy Field和Dynamic Filed这两种Lucene没有的Filed,这使得文档建模更为灵活,功能更加强大。,灵活的架构,Solr提供“multicore”多核机制,以适应复杂多变的需求。即同一个服务器上可以有多个Index,每个core独立地维护一个Index。,插件式模块管理,Solr提供插件的方式来管理功能模块。这些功能模块都配置在solrconfig.xml里面,可以制定符合自己业务的组件来替换Solr原有组件,只需要实现相应的接口即可,比如中文分词

16、就是被替换得最频繁的Text Analysis组件。,优势技术说明(续),丰富的企业画像可视化,优势技术,自然人股东画像,企业整体画像,股东与企业关系视图,方案总述,产品可覆盖大数据云服务基础平台所有功能点,平台基础能力构建以产品部署工作为主:云服务平台产品提供统一平台框架(基础能力、服务管理、应用及工具);基础能力通过通用的服务框架供给出去,Hadoop平台产品提供Hadoop相关的处理和管理能力;服务管理贯穿基础能力和上层应用及工具;应用框架提供了应用及工具的开发管理、部署和运行服务,ETL产品、数据治理产品、数据探索产品、DataHub产品、非结构化数据处理产品都还会部署至该应用框架下;

17、统一提供数据可视化能力。企业客户画像应用在满足集团客户需求的基础上,通过企业画像产品沉淀下来的经验、数据服务的引入及良好的终端展示能力,帮助集团实现企业级客户画像应用。,云服务平台产品定位:大数据生态云平台,云服务平台产品基于 Docker 容器技术,为各类开发者提供云端大数据应用构建、交付和运维服务,并提供应用生命周期全流程、标准化的持续集成、镜像构建、持续交付和自动运维服务。,预置即买即用大数据服务能力,快速简单的大数据应用托管能力,合作共赢的应用生态,一站式大数据云服务和丰富的大数据服务组件,可在数十秒内即获得一个可扩展的弹性分布式大数据服务组件。支持多种数据应用场景,同时可满足数据迁移

18、及开放的需求。,一键完成应用代码到云端的部署,得到一个灵活、高度可扩展、低成本的应用。同时利用容器服务优势,提供从开发、构建、测试、部署、运行的完整应用生命周期服务,并支持负载均衡、弹性伸缩、日志监控、灰度升级等特性。,打造开放、合作、共赢的云端应用生态,共同拓展全面聚合优秀的应用,为用户提供丰富且一致的应用体验。,云服务平台产品集成了专业的大数据服务组件,云服务平台产品预置了在大数据领域十几年沉淀的大数据服务组件,只用几分钟,就可以立即使用这些组件。,大数据服务超市,BUY,云服务平台产品提供了成熟的计费体系,云服务平台产品提供用户计费管理和账户管理,用户可以分为预付费和后付费两种模式。封装

19、并预置的服务计费模板包括:弹性计算服务,网络资源服务,弹性存储资源服务, IT运维类服务,应用服务。,选择容器和数量,配置容器所需资源,包括CPU、内存、磁盘和网络相关信息,设置资源角色和根据自定义标签所定义的约束条件;选择容器部署套餐,对应相应的计费策略。,后端服务选择不同的计费套餐模板,选择后,按照计费模板对后端服务进行计费。,云服务平台产品提供应用的快速构建能力,云服务平台产品通过业界领先的容器标准Docker进行大数据应用封装,大数据价值发挥再也不受限于工具的能力。应用开发者可以任选语言和工具,只要能运行在linux操作系统之上,就能部署在PaaS平台中。应用具备了快速跨云迁移和部署的

20、能力。应用和应用之间还可以互访,组合成更大粒度的应用。,仅限于使用平台方提供工具,如ETL、可视化开发语言限制在平台提供的范围之内,可利用已有或自有的任何工具,例如Jupter可以使用任何语言,如R大数据的应用不仅限于报表和展示,个性化推荐、智能引导、嵌入式应用才是其大价值体现,锁定开发平台(开发语言),锁定工具,App,App,App,开放PaaS平台,App(R),App(JAVA),App(Python),App( ),工具1,工具2,工具3,工具4,云服务平台产品支持敏捷开发和持续集成(CI/CD),云服务平台产品践行敏捷开发和持续集成,只用少量配置就可以自动化交付云端应用,真正实现C

21、ode2Cloud的自动流程。,云服务平台产品已预置丰富的大数据应用和工具,智慧旅游,位置运营,信息惠民,自助分析,数据资产管理,数据处理,还包括爬虫、数据API网关、数据可视化工具、数据挖掘工具 ,云服务平台产品预置了在大数据领域潜心耕耘十余年沉淀的大数据应用,为用户提供数据资产管理、数据分析与挖掘及面向银行、公安、保险、政府等多行业的特色应用。,云服务平台承担整体管控中心功能,租户管理,资源管理,服务集群管理,计费管理,安全管理,系统管理,云服务平台产品集成管控中心功能,包括:,Hadoop平台产品功能架构,通过图形化的界面提供便捷管理功能,对系统资源,应用服务及数据整合等做提供基于策咯的

22、自动管理。,基于Hadoop生态体系,提供低成本海量数据数据存储与处理,并动态高效实时合理分配资源,易用:智能化用户体验,节流:低成本高效资源利用率,面向应用开发维护人员,实现大数据处理任务的快速开发,支持大数据的批处理,流计算及交互式处理,开源:全面支持大数据创新业务,Hadoop平台产品通过Mesos实现多集群管理能力,Hadoop平台产品通过Mesos实现多集群的统一管理能力,Mesos是一个分布式环境的资源管理平台,它使得Hadoop、MPI、Spark等作业在统一资源管理环境下执行。,Framework限速,防止某些framework与mesos过于频繁通信容器的网络隔离和限速,同一

23、个物理节点上的多个容器,其网络设置是VLAN隔离的;且可以限制对外访问的网络带宽,防止某个容器消耗完带宽影响其他容器的使用容器的磁盘隔离和配额,限制每个容器可以使用的磁盘大小资源预留机制,可以为某些应用框架动态申请预留资源容器的持久化存储,支持带数据存储功能的服务集群,Mesos特性,Hadoop平台产品与云服务平台产品无缝整合,Hadoop平台产品通过支持Service Broker协议,可以作为后端服务无缝接入到云服务平台中,使得用户可以在云服务平台上使用Hadoop平台提供的大数据服务,并实现多租户的资源访问隔离。,HDFS:Hadoop分布式存储MapReduce: Hadoop的分布

24、式计算引擎Spark:分布式内存计算框架HBase: Hadoop的分布式的列式数据库Hive: Hadoop数据仓库,具备的大数据服务,通过云平台的门户页面(或者命令行客户端)快速申请上述大数据服务提供平台运行过程中实现大数据服务实例的快速扩容,以满足不断增长的业务需求大数据服务实例与用户应用是松耦合,大数据服务的快速分配,数据治理产品功能架构,服务能力层,元数据交换层,核心功能层,数据标准管理,元数据管理,数据架构管理,数据质量管理,生命周期管理,过程管理,OLTP系统,分析系统,文件系统,大数据平台,数据网关,关系型数据库采集,文件系统采集,服务信息采集,流处理信息采集,消息信息采集,非

25、结构化信息采集,应用层,使用者门户,运营者门户,运维者门户,注册类服务,查询类服务,稽核类服务,界面组件服务,数据目录,基础组件,门户应用,流程管理,策略管理,安全管理,降低元数据注册工作量元数据图谱展现全向数据关系展现元数据采集快速适配,根据词频自动生成标准化库通过分词技术自动推荐命名标准,质量检查规则自动升降级多级质量稽核,数据治理产品关键特性,组件层是ETL的核心能力部分,包括ETL运行常规的组件服务。调度层是ETL运转的枢纽,是保障ETL有序不紊工作的重要保障。展现层即用户操作界面层,提供了系统异常告警等。,抽取、装载对HDFS的支持抽取、装载对普通文件支持抽取、装载对数据库支持,关键

26、技术,功能架构,HDFS抽取、装载,普通文件抽取、装载,传输流程示意图,ETL产品功能架构,ETL产品关键能力,自助分析产品功能架构,数据处理,自助取数,数据源,存储层,调度层,应用层,CRM,计费,网管,流量,功能层,分布式任务处理,自助分析,首页工作台,自助分析展现,一站式自助分析,配置管理,系统监控,第三方交互,系统安全,自助分析产品使用流程,选择数据源,选择结果字段并设置筛选条件,保存取数任务,调度,查看任务运行状态,短信通知,下载数据文件,结果集二次处理,制作报表,报表发布,报表查看,数据探索产品功能架构,强大的计算能力,支持MapReduce/Spark双计算框架,支持百亿级数据挖

27、掘;面向应用的分析过程,根据业务场景提供相应的数据挖掘流程以及推荐的挖掘算法。模型可直接应用到生产环境,自动将挖掘模型转换成为PL/SQL、R等代码,并且自动部署调度。丰富的算法支持,直接调用成熟的R、SPSS、Mahout、Spark MLlib等算法包。完善的模型管理能力,统一对创建的模型进行管理,例如:执行挖掘、暂停、新建、修改参数等等。标准的外部接口,支撑第三方应用的开发,支持数据挖掘应用与云ETL、统一调度的集成,支持云平台的统一资源优化管理。,数据探索平台主要包括:场景化的数据探索能力、数据挖掘组件以及指标预处理组件。,数据探索产品提供场景化的探索能力,与传统面向自定义流程、选择算

28、法的方式不同,MDP采用面向场景的预定义分析框架(流程),降低门槛。,非结构化数据处理产品爬虫引擎功能架构,网络爬虫获取互联网的网页信息,实现互联网网页数据采集。通过配置网页提取模板来实现数据采集和精准解析,同时还实现了深度优先遍历,广度优先遍历,反向连接数等爬取策略。支持全天候不间断的自动采集功能。,高性能:采用分布式爬虫集群;高容错:遵循分布式实时计算通用原语,实时处理消息并更新到高可靠的消息服务器,保障数据安全,并且有统一的守护进程用于监听和重启工作。低成本:适合运行在通用硬件上,部署在廉价的机器上,即可提供高吞吐量的爬虫抓取。灵活性:应对不同客户需求,即可提供产品化的全量爬虫能力,也可

29、提供定制化的定向爬虫能力。完善性:动态防封策略,提供像伪装UA、IP轮换等机制,从而规避互联网网站的封堵。,非结构化数据处理产品爬虫引擎数据流程,技术架构分服务端和客户端两部分。服务器端负责接收数据源并进行网站内容解析,客户端负责对网站内容按要求进行分析和抽取;分布式爬取客户端:网页抓取模块、网页内容抽取模块;外部数据接口通过服务端的各种模块,发出抓取任务到MQ消息队列中,再通过分布式抓取客户端抓取任务信息,并把收取结果反馈到服务端,最后输出到外部系统 ;,非结构化数据处理产品图像识别工具,Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准

30、确的三款识别引擎之一。在2005年,HP将Tesseract贡献给开源社区。美国内华达州信息技术研究所获得该源码,同时,Google开始对Tesseract进行功能扩展及优化。目前,Tesseract作为开源项目发布在Google Project上,重获新生。,1. 连通区域分析,检测出字符区域(轮廓外形),以及子轮廓。在此阶段轮廓线集成为块区域。2. 由字符轮廓和块区域得出文本行,以及通过空格识别出单词。3. 依次对每个单词进行分析,采用自适应分类器,分类器有学习能力,先分析的且满足条件的单词也作为训练样本,所以后面的字符(比如页尾)识别更准确;4.最后,识别含糊不清的空格,及用其他方法,如

31、由笔画高度(x-height),识别小写字母(small-cap)的文本。,识别步骤,非结构化数据处理产品全文检索工具,Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。,高效、灵活的缓存功能;提供“multicore”多核机制;垂直搜索功能;功能模块插件式管理;通过索引复制来提高可用性;提供一套强大Data Schema来定义字段,类型和设置文本分析;提供基于Web的管理

32、界面等。,特点,DataHub产品是数据流通服务提供者,DataHub通过去中心化的数据传输,开源协议、开放标准、形成数据互联网,促进阳光下的数据流动,降低数据使用门槛。,DataHub数据流通模式:建立信任,需要“去中心化”,中心化的数据流通,去中心化的数据流通,寡头 & 垄断,节点间平等对话 数据寻找成本低 形成数据互联网 发挥数据外部性 ,流通渠道垄断 形成数据寡头 提升沟通壁垒 增加流程成本 ,按照一个流通标准,数据在节点之间交互。,平等 & 互联,数据拥有方,数据需求方,认证,鉴权,计费,截留,侦听,垄断,控制流,数据流,数据流,快速查找便捷沟通,加密传输版权保护快速变现,DataH

33、ub “去中心化”的数据流通模式,在DataHub的网络中,数据传输不存在中间节点,拒绝截留、侦听、垄断。 DataHub在降低数据寻找和链接成本的同时最大程度地保护数据资产。,DataHub 数据拥有方自动发布数据信息,DataHub Client端自动发布数据信息 可基于DataHub Client端提供的API编写脚本自动发布数据,数据发布过程遵循DataHub数据流通协议。 发布的不是数据本身,而是数据信息,如:元数据信息、数据包数量、访问地址、访问口径、数据样例等。DataHub Server端 服务端进行身份认证、鉴权、心跳监听、数据错误检测等。支持的计费形式 免费、付费、限量试用

34、。可按周期、次数、数据量付费。流通过程可见 可以自由设定数据可见范围,支持设立私有数据项,指定白名单用户可见。,DataHub 数据需求方一键获取数据,DataHub网页选择订购数据 选择需要订购的数据,根据数据提供方设定的不同权限,点击“立刻订购”或“申请订购”。申请订购”需等待数据提供方批准。DataHub Client端获取购买的数据 数据获取过程遵循DataHub数据流通协议。 获取数据形式包括:任意批量(如文本文件、HDFS、S3、DB等)、API、流式 有些数据在购买之前可以看到免费样例数据。DataHub Server端 服务端进行身份认证、鉴权、告知数据获取方数据下载方式等。

35、DataHub不获取需求方数据 DataHub数据流通服务的提供者,不获取需求方数据,数据直接从拥有方传递到需求方。,在DataHub与多方合作伙伴合作,承载终端、基站、时空、征信、交通运输、气象环保、互联网访问、生活服务、医疗健康、竞赛信息等丰富的数据信息。,DataHub 承载丰富的在线数据,DataHub支持多种数据类型及工具,一键入库,DataHub可以承载批量数据、流式数据和API数据,通过WEB、CLI、SDK等方式使得数据格式机器可读,一键实现数据直接入库。,数据类型,工具支持,WEB,CLI,API,机器可读,一键入库,方便快捷,批量数据,流式数据,API 数据,R,PYTHO

36、N,GO,DataHub协议和客户端软件通过GitHub开源,企业画像解决方案数据源,企业自有数据,政府、其他外部组织数据,互联网公开数据,企业用户画像基础数据,中信内部数据如:合同信息等,如:工商、法务等,如:企业网站信息、上市公司年报等,内部数据采集,购买、数据交换,互联网爬虫,企业画像解决方案画像典型应用,企业画像可视化,3000万人民币,3000万人民币,3000万人民币,3000万人民币,3000万人民币,3000万人民币,集团,中津创新,天津泰达,中信股份,邦信资产,华融国际,出资结构图谱,关键人物图谱,示例,示例,示例,示例,示例,企业画像解决方案移动端应用首页,针对各级领导关注

37、的业务角度,首页展现集团总体概况,提供关联公司查询、专项查询,并提供特色应用的快速链接入口。,分支机构:15,股东数:200,关联企业:20,风险预警:2,失信分公司:0,集团企业画像,一秒掌握企业全貌,集团企业画像,企业画像应用提供信息搜索的功能,可以根据公司名、人名等关键词进行相关的搜索。,关系图谱,公司查询,专项查询,企业名称,股东高管,经营范围,企业网址,商标,招投标,判决,失信人,特色应用,地图展现,行业热点,技术支持,修改意见,联系我们,企业画像解决方案移动端应用企业图谱,集团企业画像,企业链图展现集团(分公司/子公司)关键信息,包含股东、高管、投资、判决等方面,提供灵活的过滤、旋

38、转功能。,关联族图展现集团关联的投资公司、股东的信息,全方位了解集团的股权结构与投资情况。,集团企业画像,企业画像解决方案基于地理位置的信息推送与展现,集团企业画像,领导到浙江杭州视察工作,浙江省共有50家集团下属企业,有2家失信企业。是否切换到杭州地图展现模式?,手机APP感知到领导来到杭州,手机APP根据位置定位信息,实时推送浙江省相关中信企业关键信息。并提示可以切换到杭州地图模式?,领导切换到杭州地图模式,查看中信相关企业分布情况,以及各企业详情。,1,2,3,4,平台运维:可视化监控运维平台提供健康模型监测大数据云服务平台资源的运行状况功能,以饼图、柱状图、条形图等多种方式展示监控的内

39、容,减少运维人员的操作步骤,提高运维效率。,数据可视化能力包括平台运维可视化、大数据基础存储与计算能力可视化、大数据开发可视化、自助BI可视化、应用与开发管理可视化、数据交换能力可视化及企业画像应用可视化。,数据可视化能力,大数据基础能力通过网络提供的云端服务组件对外提供,这些组件包含:数据库组件:MySQL、GP、Redis、PostgreSQL 等;消息组件:Kafka、RabbitMQ 等;计算组件:Storm、Spark 等。后端支持服务实例(Backing Service Instances),大数据开发:大数据云服务平台提供ETL可视化开发能力、数据可视化开发管理能力和非结构化数据

40、处理能力可视化(如爬虫)。,自助BI:平台提供BI报表、OLAP数据魔方、交互式挖掘等多种BI可视化分析能力。,数据可视化能力(续),应用开发与管理:平台提供应用开发、应用UI设计、应用日志、应用部署和应用迁移可视化功能。,数据交换:平台提供数据交换可视化功能,可被交换的数据类型包括:批量数据、 API 数据和流式数据。,企业客户画像应用通过智能终端将企业运营信息以图表的形式展现出来,多角度分析;系统提供丰富的组件库,采用扁平化的设计风格,提供良好的UI/UE设计效果。,展现形式丰富,表格,折线图,饼图,折柱图,多维度分析,时间年/月/周/日/分钟,业务类型银行/证券/信托,组织机构集团/分公

41、司/子公司,面积图,堆积图,数据可视化能力(续),平台对企业画像支撑能力,分公司/子公司,基本信息,股权结构,公司年报,信用报告,风险评估,法院公告,企业变更记录,投资关系,业务合作,关系图谱,GIS企业分布,市场动态,行业热点,依托大数据平台,企业用户画像通过内部采集企业自有数据、购买和交换政府等其他外部组织数据、爬取互联网公开数据,并对这些数据进行融合加工,形成企业用户画像的基础数据。通过对数据进行深度加工、数据挖掘、统计分析等操作,企业用户画像构建了企业全景视图,包含企业基本信息、股权信息、风险评估、投资关系、关系图谱、市场动态、行业热点等信息。,平台对物联网数据分析支撑能力,大数据云服

42、务平台引入了Spark stream和Storm作为流处理计算引擎,并在其上进行功能增强,搭建了流处理工厂,并提供日志收集工具。,支撑基于多个实时数据流的数据处理;贴近用户需求,可根据行业特性,提供预制的数据标签,方便用户业务订制;支持通过界面配置的方式,对实时数据进行增强与扩展;提供完整的解决方案(包括消息中心、高速缓存等),为客户减少产品购置、部署运维成本;友好易用的可视化界面,便于用户业务定制和监控运维;丰富简单的开发API接口,降低特性业务插件开发难度;,流处理工厂特性,在对物联网数据分析时,配置Flume组件作为日志收集工具。,日志收集工具,平台对互联网数据应用支撑能力,网络爬虫用于

43、为企业引入互联网公开数据,为企业画像提供数据补充,同时支撑用户偏好分析和舆情分析。,对互联网中不同类型的资源进行主动的、有针对性的汇聚和收敛,互联网爬取公开数据,互联网数据融合分析,电商:商品信息、评论信息,社交:用户资料信息、交往圈信息,网站:工商局网站、企业网站、上市公司年报,网页内容关键字,互联网评论数据,互联网舆情数据,资源属性数据,提供用户行为分析产品,探索数据变现模式,支撑差异化内容提供:通过分析客户的网络内容偏好,结合互联网热门应用和内容,进行差异化的内容提供;用户偏好深度洞察:用户在京东上看了一件商品,通过网络爬虫,我们马上获取到该商品的全方位信息。,提供给第三方公司信息:用户

44、关注的商品在竞争对手的行情;内容运营:收集时事热点内容,进行信息加工,对外开放。,价值,支撑产品舆情、竞争分析等解决方案,及时得到与“我”有关的信息:对于“我”的动态,及时获得用户反响,尽快知道对于产品的负面信息,并防止事态扩大。捕获竞争对手现在的市场策略,以及对手的优劣势。,平台对互联网数据应用支撑能力(续),基于云平台构建实时查询能力,解决海量数据处理的性能瓶颈问题。提供的实时查询能力是开放的,支持Thrift、Java API、HTTP、FTP等多类接口,查询服务,对上层业务提供灵活的数据查询,屏蔽下层不同存储处理方式的查询。半/非结构化数据查询:使用OpenApi的形式,通过HTTP协

45、议来查询小批量数据。结构化数据查询:使用各种复杂的SQL中聚合分组语法来获取数据,导出XML、JSON等格式数据。对于数据模型表如渠道模型,使用多维API的方式来查询。,文件接口服务,支持在内外部系统的不同存储间(如Hadoop、DB2、MPP等),进行数据的交换、同步、分发。交互的可以通过接口文件、JDBC等多种方式,适用于需要大量数据交换的场景。,平台对非结构化数据处理支撑能力,在文本解析上积累了多年经验,采用先进的信息抽取及自然语言处理技术(NLP),通过特定的方法,不仅能基于中文词汇进行良好的切分,更能运用上下文关联和机器学习,对新词进行发现。,热词统计:对分词后每个词出现的频率进行统

46、计。,NLP语义,目前词库目前包含30W的常用词汇,以及后来定向爬取的100多W的词汇,共130W左右,按页面不同区域解析抽取,形成一棵完整的页面DOM树模型。,平台对非结构化数据处理支撑能力(续),光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。Tesseract OCR引擎功能非常强大。,步骤一:图片布局分析,步骤二:字符分析与识别,字符识别的准备工作。通过一种混合的基于制表位检测的页面布局分析方法,将图像的表格、文本、图片等内容进行区分。,整个Tesseract的设计目标,工作

47、内容最为复杂。首先是字符切割,Tesseract采用两步走战略:利用字符间的间隔进行粗略的切分,得到大部分的字符,同时也有粘连字符或者错误切分的字符。这里会进行第一次字符识别,通过字符区域类型判定,根据判定结果对比字符库识别字符。 根据识别出来的字符,进行粘连字符的分割,同时把错误分割的字符合并,完成字符的精细切分。,平台对非结构化数据处理支撑能力(续),随着企业信息系统的发展,越来越多的应用系统投入使用,经过多年的运行积累,存储了海量的信息。这些信息存储在相应的应用系统中,当用户在使用这些信息时,需要耗费大量的时间去查找。Solr是一个带有Web界面的企业级搜索引擎服务器,它通过http协议

48、将xml格式的文件进行索引,通过http协议进行查询,返回结果为xml格式。,索引创建(Indexing),搜索索引(Search ),将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。,得到用户的查询请求,搜索创建的索引,然后返回结果的过程。,平台开放性拥抱开源和开放标准,开源是全球智力的超级大协作,有助于快速迭代和完善开源和开放标准意味着非锁定,无论对自己、客户还是合作伙伴,应用标准,以Docker封装应用,使得应用可以灵活构建、灵活迁移。不再受限于具体的语言和工具。,能力标准,CloudFoundry的Service Broker使得重型的大数据能力能快速集成。,大数据云服务平台采用的是开放的数据存储和处理技术,存放在该平台中的原始数据能够被第三方工具直接访问,保障加工后的数据各个厂商可以使用自己的技术提升访问效率。,Hadoop平台高可用性,Hadoop平台的高可用性平台中所有组件均支持高可用性。,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 网络科技 > 管理信息系统

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报