1、,星环大数据方案介绍,Transwarp Data Hub产品概述,Transwarp Data Hub架构图,Transwarp Proprietary,最完整的SQL支持99%的SQL 2003支持,唯一支持PL/SQL的引擎(98%),唯一支持ACID分布式事务的SQL引擎;定位数据仓库和数据集市市场,可用于补充或替代Oracle、DB2等分析用数据库。高效内存/SSD计算第一个支持SSD的基于Hadoop的高效计算引擎,可比硬盘快一个数量级;可用于建立各种数据集市,对接多种主流报表工具。最完整的分布式机器学习算法库支持最全(超过50余种)的分布式统计算法和机器学习算法,同时整合超过50
2、00个R语言算法包。适合金融业风险控制、反欺诈、文本分析、精准营销等应用。支持最完整SQL和索引的NoSQL数据库支持SQL2003、索引、全文索引,支持图数据库和图算法,支持非结构化数据存储支持高并发查询最健壮和功能丰富的流处理框架支持真正的Exactly Once语义支持所有组件的高可用(HA)支持流式SQL和流式机器学习,Apache Projects,Guardian安全管控,实时同步Data Alive,交互分析Zeppelin,交互式分析引擎Inceptor - 完整SQL支持,Apache Spark基于内存的Map/Reduce计算引擎,即将成为新一代主流计算框架。处理大数据像
3、“光速”一样快,比Hadoop Map/Reduce快10x倍。Holodesk跨内存/闪存/磁盘等介质的分布式混合列式存储,常用于缓存数据供Spark高速访问。Holodesk内建内存索引,可提供比开源Spark更高的交互式统计性能;结合使用低成本的内存/SSD混合存储方案,可接近全内存存储的分析性能。Most complete SQL support兼容95% ANSI SQL 2003, HiveQL和90% PL/SQL语法,支持数据仓库、数据集市等分析系统中常用的复杂分析型语法,方便应用迁移。SQL引擎高度优化的高速SQL引擎,可运行在Spark或Map/Reduce上,可高速处理缓
4、存在Holodesk上的列式数据。丰富的工具支持支持主流可视化和BI/挖掘工具,包括Tableau, IBM Cognos, SAP BO, Oracle BI, SAS等。支持Informatica,Pentaho/Kettle等ETL工具。Data Federation具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力,Transwarp Discover,Distributed Execution Engine 分布式执行引擎,R Runtime Library R语言动态运行库,R Language Interface R语言接口,Java Language
5、 InterfaceJava 语言接口,R StudioWeb IDE开发环境,Transwarp Inceptor高速SQL引擎,Transwarp Hadoop 分布式系统,推荐系统,风险分析,反欺诈,文本分类,分布式机器学习算法More Distributed Machine Learning Algorithms,数据分析图形化交互工具,特征抽取Feature Engineering: Extract value from dark data,易用的工具Graphical tools for data scientists, e.g., workbook, notebook; and
6、a workflow tool to build the pipeline,Notebook: Apache Zeppelin,重要组成:,实时NewSQL数据库Hyperbase,Transwarp HBase Hadoop Database分布式 Big Table,Transwarp Hyperdrive SQL backend engine between Inceptor & Hyperbase,Real-time OLTP + OLAP + BATCH + Search + Graph Traversal ApplicationMixed Workload 混合负载业务,Elast
7、ic Search分布式全文索引,Transwarp Inceptor,实时数据研判处理Transwarp Stream,StreamSQL 99%的ANSI SQL 2003的支持率 强大的优化器提升性能 支持按时间切分滑动窗口和滑动步长多数据源支持Socket文件Kafka多种输出方式支持HyperbaseHolodeskHDFS企业数据总线支持从一个流读入数据,再将其输入另一个流,如常见的企业数据总线以Kafka为存储中间件在线数据挖掘支持离线模型,在线预测时间窗口数据进行实时挖掘分析,User A,User B,统一大数据存储平台HDFS,RBAC支持,Dir/File access
8、controlDir/File ACL Storage Quota Control,User ,统一权限管控Transwarp Guardian,统一计算资源管理调度YARN,Queue Use/Admin Control,数据交互安全控制Data Transfer & Communication,Authorization 权限管理,经理Role A,普通职员Role B,Role ,Transwarp Operating System产品概述,多租户资源管理架构演进,混合负载和多租户SLA管理能力多租户资源配额管理资源共享和抢占资源和数据的隔离性批处理任务和实时任务调度机制,v.s.,20
9、142015资源调度框架之争,mesos和kubernetes逐渐占据优势, YARN被边缘化,2016年两种竞争的技术路线,Big Data SparkHadoop,& more ,Databases Redis,MongoDB,& more ,Applications Nginx,Tomcat,& more ,通用性标准化隔离性资源弹性调度,P.K.,HDFS,YARN,Inceptor,Stream,ElasticSearch,Hyperbase,Pig,Ooize,Flume,Sqoop,PostgresSQL,Redis,Service Repository,Transwarp Op
10、erating System架构,Transwarp Operating System,Scheduler,System Service,TOS的组成部分:,Ring 0:Docker/ContainerRing 1:Resource schedulerRing 2:Built-in system servicesRing 3:Central service repository (docker images),Container Plugins,Containers,TOS显著优势自动一键部署运行任何docker镜像完善的资源隔离性弹性计算自动扩容自我修复,TOS + TDH = IaaS
11、+ PaaS可用于构建企业大数据私有云或者在公有云上提供大数据平台服务,基于Docker的微服务架构开始涌现,Platform Service Layer,Software Service Layer,Infrastructure Layer,TDH with TOS on Cloud,16,TOS Application & Platform Services Market,Transwarp Confidential,Transwarp Data Warehouse产品概述,Manager 监控 管理 审计 告警,Operational DW实时数据分析,Oozie 统一作业调度,HUE,
12、Guardian统一安全权限管控,Data Integration数据集成与质量管理,Service Repository,Transwarp Data Warehouse架构,分布式存储 HDFS,Traditional DWPL/SQL批处理分布式事务,Context-IndependentDW数据挖掘关联分析,Data Mart交互式分析,Holodesk分布式内存列式存储,完整数据仓库支持实时处理数据仓库(Operational DW),进行实时数据采集,时间窗口内数据进行比对以及统计挖掘,通过流技术来构造实时处理仓库。上下文无关联数据仓库(Context Independent DW
13、),在不知道数据之间的关联模型的情况下,也可以通过数据挖掘的方式发现数据之间的关联关系,隐藏的联系和模式。传统数据仓库(Traditional DW),主要是做批处理,做离线加工,加工基础数据,在基础上做各种主题模型,以及固定报表。通过对于SQL 2003、PL/SQL以及分布式事务的支持实现 传统数仓向大数据的平滑迁移。数据集市(Data Mart),把数据装载到基于内存或者SSD当中的Holodesk做高速的数据交互式分析探索,同时也对接着报表工具。企业客户不再需要混合架构,不需要孤立的多个集群,可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或传统架构数据迁移的棘手问题。多租户管理
14、平台自动一键部署,自我修复,完善的资源隔离性弹性计算,自动扩容/缩容,多部门之间资源动态共享,灵活支持多部门多应用在统一平台上平滑运行。全平台组件数据权限隔离,支持基于角色的访问权限控制,支持行级权限控制用户友好的管理交互界面、提供了集群配置,监控及预警等多方面支持,在可管理性方面优势显著。,Rstudio,SpagoBI,Logical DW搜索 查询半/非结构化数据支持,基于大数据技术的数据仓库逻辑架构,CRM,现有业务系统,ETL,调度,Flume,宏观政策/经济,社交网络,其他信息,非/半结构化数据,结构化数据处理,资源管理平台 (TOS)(Virtualization,Multi-t
15、enant SLA, Audit),ERP,HR,Finance,作业调度管理,检索平台(SQL),明细查询,综合搜索,T+0 T+1,Data Mart Cluster交互式数据探索,Hyperbase明细查询、影像检索、文档检索,Traditional DW Cluster,Context Independent DW数据关联挖掘,Rstudio图形化挖掘工具,Kafka,实时数据,实时数据,Agent,Agent,实时数据,Operational DW Cluster时间窗口数据,实时数据批量装载入Holodesk准实时分析,Operational Data Warehouse,Holo
16、desk 分布式内存/SSD列式存储,RDB,Sqoop,实时同步,CDC(IBM)OGG(Oracle),全量导入,定时增量,HUE/Zeppelin图形化数据分析查看,数据仓库数据流转,Multi-Index,Full-TextIndex,Object Store,文件/日志/影像,Flume,FTP Interface,实时条件判断实时比对实时时间窗口数据统计实时数据挖掘模型预测,数据稽核,元数据管理,数据处理工作流调度,分布式统计算法库,分布式挖掘算法库,SpagoBIBI报表工具,ODS 贴源层,DWD 基础明细层,公共主题模型层,结果数据写入Hyperbase提供查询,TDA,RE
17、STInterface,Transwarp Appliance产品概述,融合一体机,大数据一体机,星环技术核心优势,优势一:完整的数据库支持能力,包括SQL2003、PL/SQL支持和超强的性能,混合架构基于的假设,100TB,10TB,1TB,100GB,hours,1 hour,minutes,seconds, 1 second,RDB,可容忍的分析延时,需要处理的数据量,Hadoop is the best,Hadoop vs MPP,MPP,In-MemDB,Linear scalability,SQL支持不完整 2. Hadoop性能低于MPP,混合架构将逐渐消失,100TB,10T
18、B,1TB,100GB,hours,1 hour,minutes,seconds, 0 THEN UPDATE fact1 SET ELSE UPDATE fact2 SET END IFEND LOOP,CFG on Master,slave0,A cursor can be parallelized if there is no loop-carried dependence or the dependence is inductive.,优化后等价于sql(“SELECT * from score”).map(loop_cfg_func),并行度的来源和种类partition paral
19、lelismcontrol flow parallelismpipeline parallelism,slaveN,游标示例程序,并行执行逻辑,兼容98%以上的Oracle PL/SQL语法支持存储过程、函数、控制流、游标、异常处理等各类语法,基于代价的优化器,31,Table A1000 Records,Table B1000 records,JOIN ON A.card_id=B.card_id,Cost based optimizer,Table size,Immediate result size,Data skew,Value distribution,selectivity,Map
20、 Join,Lookup Join,Hash Join,执行计划,Common Join,Co-Group Join,稳定高效的核心计算引擎,Test environment: 29 worker nodes2 CPUs, 12 Cores, E5-2620 v2 96GB memoryNetwork: 2 X 1GbpsDisks: 12 X 3TB,星环Hadoop集群已经可以在生产环境中处理20PB的数据,ORC FilesDataNode,ORC FilesDataNode,ORC FilesDataNode,ORC FilesDataNode,metastore,Inceptorma
21、ster,Executor,Executor,Executor,Executor,TransactionManager,ZK Cluster,单机,计算并行,计算分布,数据、计算均分布化,星环SQL on Hadoop已经能够高效处理100TB数据的复杂分析,Transwarp Inceptors Physical Deployment Diagram,TPC-DS性能对比,Test environment: Four nodes2 CPUs, 12 Cores, E5-2620 v2 128G memoryNetwork: 2 X 1GbpsDisks: 3 X 2TWorkload:TPC
22、-DS 1TBSingle user,Inceptor4.1 vs Open Source Hive 0.14,和开源的Hive执行效率相比中,Inceptor 4.0能够带来10x100x的性能提升。下图是TPC-DS的部分query在Inceptor和Apache Hive的性能提升倍数,其中最大的提升倍数可达到123倍。,Hive是目前国内绝大部分友商采用的版本,唯一支持全局分布式事务处理的分析引擎,采用多版本两阶段封锁协议实现可串行化快照隔离(Serializable Snapshot Isolation),Transaction1begin transactionselect max
23、(price) from orders where age 20 read value into local variable maxorderupdate orders set price = maxorder-1, commit,Transaction2begin transactionupdate orders set price=200 where id = “007” commit,优点:1. 两阶段封锁协议可保证事务的完全可序列化;2. 多版本(快照)隔离可以保证只读事务的高并发性,Database Federation,SourceText, ORC, Parquet on HD
24、FS,SourceOracle,SourceHyperbase,SourceHolodesk,需要具备对多种关系数据库和Hadoop数据源进行交叉查询,聚合,以及关联操作等能力。,创建一个到oracle_server上Oracle数据库oracle_db的dblink:CREATE DATABASE LINK link_to_oracle CONNECT TO user IDENTIFIED BY password USING jdbc:oracle:thin:oracle_server:1521:oracle_db;使用该dblink中的oracle_tab表与inceptor中的incep
25、tor_tab表做join:SELECT * FROM oracle_tablink_to_oracle a JOIN orc_table b ON a.col = b.col;,SourceDB2,DB2Driver,OracleDriver,ORC/ParquetDriver,HolodeskDriver,Hyperdrive,驱动层实现数据访问计算算子下推以减少数据传输执行计划仍采用分布式计算,平安银行:以Hadoop为基础的风险分析平台,Flume,Oracle,MySQL,DB2,现有关系数据库,TDH统一存储和计算平台,系统日志,Web日志,Sqoop,Pentaho,账单文件,F
26、TP,定期ELT,每天每小时每10分钟,Tableau,数据实验室内存SSD缓存Holodesk,RStudio,SAS,深度挖掘,Cognos,OBIEE,Oozie,Waterline,Azkaban,数据汇总治理粗加工,PL/SQL,定制程序,PL/SQL,深度汇总,Oracle,DB2,前台展现库,准实时采集,10x,35x,为SSD设计专有格式,Holodesk A Columnar Store on SSD cache layer,Spark,ZK Cluster,HDFS Storage Layer,HDFS Text or ORC or Parquet Files,Memory
27、 Tier,SSD Tier,HDFS Storage Tier 让应用程序来选择存储层Memory as storage tierSSD Storage Tier但是,现有的Text以及行列混合(ORC or Parquet)等文件格式都不足以利用SSD的高性能。,Executor,SparkContext,Executor,Executor,Executor,Columnar Store API,Columnar Store API,Columnar Store API,Columnar Store API,File System API,CREATE TABLE t1TBLPROPERT
28、IES( cache=“SSD” “holodesk_index”=“c1,c2”) ASSELECT *FROM src;,Off-HeapColumnar storeSecondary indexTable formatSSD as cache,Memory与SSD在TPC-DS测试中性能接近,geomean = 9.6% gain over ssd,不同格式在SSD上的性能对比,结论:采用文本格式,PCI-e SSD带来的性能提升仅1.5倍采用针对硬盘设计的行列混合ORC存储格式,在SSD上可比文本格式提升2.7倍采用转为内存和SSD设计的Holodesk列式存储,在SSD上可进一步比O
29、RC提升2倍;比SSD上的文本格式提升6倍;比硬盘上的文本格式提升8倍以上。,提升倍数,TPC-DS中I/O密集的测试集,SliceDiceRollupDrill UpDrill DownPivot,交互式OLAP分析:Distributed Cube,如何定义一个Cube?,Cube Size256KB固定大小,ZK Cluster,Cube on Transwarp Holodesk,Cube是OLAP分析的常用技术,create table store_sales tblproperties( cache=ram, holodesk.dimensions=product, cities,
30、 time) as select * from store_sales;,计算下沉到存储层Compute and filters pushed down to storage layer,Holodesk Cube带来的性能加速,40亿条记录共500GB驻留内存4台两路普通服务器每台服务器256GB内存CPU为E5-2620v2万兆网络,交互式探索分析,交互式分析一直是数据分析的重点,但是传统关系型数据库或者基于MapReduce计算框架对临时的实时性要求高的交互式分析无法快速响应,查询效率低,无法进行有效数据探索。,数据存储和分析能力的一站式平台,支持并行化多种统计分析算法,数据挖掘算法。,
31、基于内存的统计分析能力,效率成百倍提升提供JDBC/ODBC接口,报表工具连接快速展现反馈的分析结果。,传统数据库-数据仓库-BI工具数据多次拷贝效率低通过一站式平台解决所有问题,内存分析,R集成,一站平台,与数据可视化工具良好对接,在数据可视化的过程中Spark扩展支持大量的可视化及报表生成工具,如 Tableau,SAP Business Objects, Oracle Business Intelligence等,使得基于大数据分析的商业决策更易被理解和接受,从而将大数据的潜在价值最大化。业务人员通过简单的拖拽既可定制个性化报表,跳过了数据准备的工作环节。,优势三:完整的数据挖掘和机器学
32、习算法,Make Machine Learning More Accessible,Transwarp Hadoop 分布式系统,Data Engineers,Data Scientists,Workflow Tools to build pipelines,Data Transformation using PL/SQL,Feature Extraction using data frame and native R operations,Machine Learning using more distributed algorithms,Data Mining using native R
33、 algorithms,民生银行持卡人行为分析,训练数据采样民生银行2012年的0409半年的交易流水,一共大约2亿条记录,506万个独立持卡人,数据大小约80G。并行360度用户画像在2分钟内完成对506万独立持卡人的画像,民生银行用户流失分析,流失预测SVM迭代1000次,在15分钟内训练和预测出所有持卡人的流失情况。,恒丰银行商圈分析,实时刷卡信息(来自银联) 定义商圈 商圈聚类模型分析与选择 模型拟合 动态商圈区域即时呈现,收缩变化一目了然 二级商圈的挖掘 人群密度趋势研判,上海移动:利用基站数据进行人流分析,通过基站数据定位用户的活动区域通过基站上网数据分析用户的关注点、出行目的、出
34、行时间,通过人群密集度算法,算出时间、经纬度、人群密度等关键指标,分析出人群迁移和密度变化趋势,民生银行小微在线融资大数据企业征信,小微贷款服务平台,2014年下半年上线,每家企业选取200个财务指标采用分类算法对企业进行信用评估,国家工商总局:企业投资任职关系分析,多家企业之间是否有关联?如何关联?关联关系如何变化?供应链管理?如何变化?企业信用分析?,目前近百家银行使用该服务,Logistic regressionDecision treeRandom forestCost sensitive LRSVM,恒丰银行金融实时交易风险分析系统(试点),聚类/分类检测,直接交易,正常,可疑,正常
35、交易,异常交易,交易时间、地点、金额、商家等信息,恒丰银行 - 异常交易检测(试点),无监督异常交易检测基本思路对原始数据进行聚类分析,得出聚类中心计算出多数点至聚类中心的距离范围根据距离范围鉴别出交易中的异常行为,多维度的数据挖掘和精准营销 华数,用户消费模型,产品关联模型,内容热度模型,用户特征模型,价值核算模型,预测(Prediction)数据分组(Affinity Grouping)聚类(Clustering)描述(Description)复杂数据挖掘,1. 用户为中心的面向主题的数据分析框架思想客户为中心的业务规划面向主题的业务模型自定2.数据分析框架的主要事件分类(Classifi
36、cation)估计(Estimation),锦江旅游路线推荐系统,锦江旅行家推荐系统 -基于Inceptor & R,优势四:高并发低延时的NewSQL分布式数据库,Hyperdrive Project for Hyperbase,Transwarp HyperdriveIndexable Storage Engine implemented for Hyperbase,Hyperbase Native类型支持全面兼容全文索引,支持正则表达式作为语法全面提升模块易用性,民生银行卡部历史工单查询,历史数据量(4年),民生银行理财业务数据并发查询,单位:SQL查询/秒,DPF集群使用power 7
37、+处理器,共64个物理核;TDH集群使用x86 E5处理器,共72个物理核,CPU性能DPF集群比TDH集群强3倍左右,Hyperbase + Inceptor - 兼顾统计分析和精确查询两种场景,单位:秒,十并发查询测试,批量统计测试,分布式事务,基于SQL的分布式事务支持常用的事务操作BEGIN/END TRANSACTIONCOMMIT, ROLLBACK基于两阶段提交算法,创建支持事务的表,添加增删改事务,Commit事务,写入Hyperbase中,Rollback事务,前面的插入事务都被取消,插入多条记录数据,分布式事务的ODBC示例代码,索引+智能索引,智能索引技术 Cost Ba
38、sed Index Technology查询计划智能使用最快速的索引无需用户在SQL中指定索引对指定查询,根据该表有的多个索引创建不同的执行计划根据成本计算性能最佳的执行计划和索引支持精确查询和模糊查询查询延时百毫秒级相对于普通索引技术,CBI准确率高,性能更好,满足复杂场景需求,优势五:半结构化和非结构化数据处理,日志大数据分析平台,Online Services,Web Services,Servers,Security,GPS Location,Storage,Desktops,Networks,Packaged Applications,CustomApplications,Messa
39、ging,Telecoms,Online Shopping Cart,Web Clickstreams,Databases,Energy Meters,Call Detail Records,Smartphones and Devices,RFID,数据中心,私有云,公有云,日志处理核心过程,Oct 13 20:00:43.874401 rule 193/0(match): block in on xl0: 212.251.89.126.3859 : S1818630320:1818630320(0) win 65535 (DF)Oct 13 20:00:43 fwbox local4:war
40、n|warning fw07 %PIX-4-106023: Deny tcp src internet: 212.251.89.126/3859 dst 212.254.110.98/135 by access-groupinternet_access_inOct 13 20:00:43 fwbox kernel: DROPPED IN=eth0 OUT= MAC=ff:ff:ff:ff:ff:ff:00:0f:cc: 81:40:94:08:00 SRC=212.251.89.126 DST=212.254.110.98 LEN=576 TOS=0x00 PREC=0x00 TTL=255
41、ID=8624 PROTO=TCP SPT=3859 DPT=135 LEN=556,多来源多格式的日志,网络设备预处理Cisco/MaipuHuawei,主机设备预处理IBM/HPHuawei.,业务应用预处理Business,用户行为预处理Apache/Tomcat,命令行预处理SystemSoftware,软件部件预处理Windows/OracleWeblogic,来源分类归类预处理及字段解析,时间戳,事件级别,来源地,来源业务,来源操作,版本等,日志数据分类丰富化,信息丰富,日志处理架构图,华通CDN运营商高速缓存策略控制,KPI,CDNCache Server,Agent,CDNCa
42、che Server,Agent,CDNCache Server,Agent,Channel Server,Channel Server,Transwarp HDFS,HTTPService,可提供SSL/TLS加密通道,FTPService,每5分钟装载入内存进行热度计算,快速调整缓存策略提高命中率,第三方文件访问接口,数据采集完成缓存服务器日志数据从节点到中心的数据采集汇聚在每个节点内部署日志采集Agent,通过UDP方式采集服务器syslog日志,节点Agent将采集的数据通过流式传输的方式发送至中心汇聚服务器中心汇聚服务器将汇聚的日志数据写入数据存储分析平台系统部署600+ Agent
43、,20个汇聚服务器,平台采用Transwarp Data Hub方案构建支持峰值928w/sec的数据写入和分析,将数据进行清洗整理后,进行实时压缩处理,输出至第三方系统。平台依赖于Transwarp Inceptor对采集的日志流数据进行实时的统计分析,为业务质量监控和后续服务的优化提供数据支撑,峰值928万记录/秒,华通CDN运营商为阿里巴巴淘宝缓存图像和视频,优势六:支持SQL和R的实时数据处理技术,数据持久化 统一的数据视图 高速查询能力,Stream+Hyperbase+Inceptor处理海量时序数据,input_topic,Transwarp Stream,Hyperbase,output_table_n,output_table_n+1,job_version_n,job_version_n+1,HolodeskColumnStore,SQL Queries,Kafka Cluster,job_periodic_extract,raw_data_table,Inceptor,