1、阿里巴巴数据仓库&BI,目录,数据采集和流转,2,数据存储和计算,3,数据模型和开发,4,集团数据相关团队,DW整体架构,数据采集工具:TimeTunnel(TT),数据采集工具:TimeTunnel(TT),DHW(Data High Way)基于Python支持多种数据源互导数据落地中转专属团队维护较为独立产品不开源DataX( DateExchange)基于Java支持多种数据源互导数据不落地支持插件式开发与周边工具集成开源,数据交换工具,离线计算集群,云梯一(基于Hadoop)集群规模:2009年:200+2010年:500+2011年:1000+2012年:2500+(单机房)201
2、3年:5000+(2机房)2014年:10000+(多机房),云梯二(基于飞天)集群规模:2009年:博士酝酿中2010年:启动2011年:进行中2012年:1500+2013年:2000+(单机房)2014年:超越云梯一(多机房),Hadoop vs 飞天,Hadoop,飞天, 在线结构化数据存储和查询(NoSQL数据库) 离线数据处理(SQL) 分布式文件系统 集群资源管理、大规模离线作业模型和调度 Hadoop 或者飞天独有的模块,Hadoop vs 飞天,Galaxy(CDO):Storm+SQL解析引擎+调度赤兔(CBU):基于Storm虫洞(etao):基于Storm支付宝:基于Storm/JStorm老Galaxy:C+版本类Storm架构聚划算:消息中心+Java,在线计算集群,即时计算集群(alipay等),即时计算集群(Taobao等),数据模型,Inmon?,Kimball?,演示DXP,数据开发平台,完整(从生产到报表)动态更新反馈机制http:/idata.alibaba- http:/ http:/ http:/ http:/生意参谋B版: http:/生意参谋C版:http:/(10月底上线),数据产品简单介绍,END,Thank you !,