1、,大数据解决方案,目录,数据服务,辅助决策,提高管理,价值,大数据管理与分析挖掘,信息资源,决策更快、准,精细化管理,精细化应用,信息服务,数据产品,专业领域研究,行政企事业单位,信息采集、调查机构或公司,咨询服务公司、信息公司,企业、社会大众,大数据分析与信息应用等培训机构,业务系统,大数据平台,业务分析,服务对象,办公审批系统财务系统人事系统业务系统外部数据(互联网、网络爬虫),数据采集数据过滤数据合并,数据整合与清洗,大数据中心,OLAP分析即席查询驾驶舱仪表盘统计报表预警提醒分析预测,决策层,业务人员,社会公众,企业,部门负责人,PC,移动,云操作平台,应用层容器,虚拟平台,基础平台,
2、存储服务,图片服务,存储索引服务,数据库服务,缓存服务,数据,服务流程引擎,消息服务,调度服务,配置服务,服务中间层,数据中间层,业务规则服务,推送服务,质量,监控服务,日志服务,分控系统,应用管理,BI服务,自动部署,弹性伸缩,运营管理,自动备份,多次容灾,流量管理,集成,容量规划,依赖分析,生命周期,策略管理,服务等级,安全审计,治理,结构化数据,结构化数据,实时同步,离线同步,实时计算,离线计算,工作流调度,元数据,专题分析,信息推送,测算预警,数据服务,即席查询,OLAP,图表设计,数据应用,分布式平台,关系数据库,复杂事务处理,应用系统,数据仓库,区域数据 集市,专业数据集市,专题集
3、市,其他集市,实时业务反馈,DreamBI 负责可视化展现,DreamData负责大数据实时计算,目录,统计行业为国家统计局上海调查总队建设“城乡一体化调查大数据处理平台”配合国家统计局服务业司 完成“高速公路大数据与公路货运统计”课题研究为上海市统计局建设“上海市统计数据仓库”浦东发改委(统计局)闵行区统计局松江区统计局宝山区统计局为四川省统计局建设“四川省国民经济数据库”、 “四川省乡镇街道信息系统”为广东省统计局建设“广东省统计数据资源管理与开发应用系统 ”为无锡市统计局市建设“人口地理信息系统”,工信部:“数据决策支撑系统”,集中实现“数据世界”、“数据中国”中工业和通信行业的信息分析
4、展示“信息产业数据展示平台”,信息产业运行监测及数据展示上交所:“数据回放及金融大数据信息服务平台”,每天2亿条数据“历史数据核心分析引擎大数据平台”,处理800亿条数据上海建交委:“交通行业大数据平台”,每天采集处理7亿数据上海经侦总队:基于大数据的非法集资预警课题研究保险行业公会:基于大数据的风险定价分析平台,浦东新区发改委浦东新区物价监督及决策服务平台浦东新区能耗监测平台山东烟草分析型协同管理平台江苏烟草数据中心系统航天三院决策支持管理系统,利用先进的大数据技术理念,依靠分布式的内存并行计算技术和便于扩展的技术框架,以更低廉的PC服务器代替费用昂贵、维护成本高的小型机或数据库一体机,处理
5、并加载13个省高速路收费站近50亿条数据,实现针对车牌号码、出入口站编号等查询条件的秒级查询,提供可视化的在线分析展示,同时,尝试结合开源统计分析语言(R语言),实现对高速路收费站数据的挖掘分析。,利用DreamBI提供的基于R语言的数据挖掘技术,实现对收费站数据的挖掘分析收费站网络关联性分析高速路口超限车聚类分析货运量预测模型货车净重分布系数模型,根据对小时、里程、车轴、车货总重等变量的初步探索,结合考虑需处理的数据量大小,比较多种模型的可行性和结果的有效性后,最终选择聚类分析模型。 按变量对于超限特征分析的解释能力和对于超限分析的重要程度进行筛选,确定放入到模型的变量为:月份、小时、里程、
6、车货总重和车次。,超限车规律,空间规律:大部分超限车从11个省界站点、2个港口站点进入高速公路(全省共300多个站点);剩下的小部分超限车辆多从2个省内站点进入高速公路。,山东省出省的超限车辆数要远小于入省的超限车辆数,客观上能够反映出山东省在经济发展中对物资消费数量大,需求旺盛。,时间规律:超限车辆较多的月份是2、3、4月;较多的小时是夜里的7-9点和0点。,抽样分层基础:各自具有明显特征的8个群,可作为在运量基数中考虑超限的基础。,数据决策支撑系统集中实现“数据世界”、“数据中国”中工业和通信行业的信息分析展示。 其他数据主要包含以下几方面:宏观经济及工业主要数据、工业和信息化监测月报、工
7、业经济景气和预警指数分析、工业经济运行分析及增速预测、工业质量发展评估报告、汽车和钢铁行业月度分析、信息产业发展月度分析、上市企业名录及季度财务数据、工业和通信业舆情月度分析、新兴工业化产业示范基地发展情况及政策等。,信息产业数据展示平台,信息产业运行监测及数据展示,信息内容包括:电子信息产业软件业通信业互联网业,利用大数据的技术,结合部分工业园区的3500家企业的各类相关信息,对企业诚信指数进行考核评估,为企业银行贷款提供信用担保,为企业扶植基金的发放提供依据。 实现各类信息的收集、抓取、整理、计算,完成企业信用指数的考核评估,涉及到的信息包括:经济调查数据(统计局发布)、互联网评论及报道(
8、网络抓取)、社保金(社保中心)、税金(税务局)、企业法人信息及注册资金(工商局)、用电量(电力局)。,整合保险行业力量,借助信息技术手段,建设实施地图与业务数据相结合的信息查询、可视化分析、预测的上海市水灾风险地图系统,为有效控制和化解风险提供了重要决策依据。,利用斯诺模型,对近几年的总产值、资产总值、职工人数进行分析,进而得到资金,劳动力的投入及其他综合性因素对利润增长的影响度。,利用分布式内存数据库DreamData,加载进20年800亿条历史交易数据,实现任意股票任意时间段的交易信息回放,同时为监察系统、实时计算、海量数据仓库等提供高可用、低延迟、快速分布式计算的数据服务,实现秒级组合查
9、询及汇总。,集浦东新区能源统计、汇总、分析、评估、预测与信息发布于一体的能源管理系统。通过该平台的实施可实现对新区能源数据及时、准确的监测,实现科学分析、预测和预警功能,为各条线职能部门、镇、开发区提供多方位、可视化的数据信息查询和决策支持服务。,目录,让每个人都会用的可视化展现及分析系统,拖拽即成,人人会用跨平台、跨设备轻松展现全程元数据管理完美中国式报表,符合国情OLAP分析、即席查询、仪表盘、专题分析、交互式报表、预警提醒、分析预测、数据挖掘八项全能,为各类业务数据提供统一的管理与描述,功能包括:指标元数据管理代码元数据管理存储模型管理审核关系管理版本管理血缘追溯,实现各级业务系统的数据
10、抽取和加载,主要功能包括:数据源管理数据关系匹配与转换规则审核规则设置数据交换流程管理数据交换引擎任务异常监控,技术参数要求包括:支持多种数据格式的数据交换,包括:关系型数据库:MS-SQLServer、MYSQL、Oracle、DB2等;文件格式:DBF、Excel、Txt、Cvs等;数据接口:API,WebService,RestFul等;支持断点续传及异常数据审核、回滚等交换机制。具有灵活的可编程性、模块化的设计能力,数据处理流程,客户自定义脚本和函数等具备可重用性;支持增量抽取的处理方式,增量加载的处理方式;支持元数据的管理,能提供动态的影响分析,能与前端报表系统结合,分析报表到业务系
11、统的血缘分析关系;支持数据交换任务的发布与执行监控,如任务的执行计划制定、定期执行、人工执行、结果反馈、异常监控。,即席查询功能提供一个灵活的查询工具,用户可以根据自己的需要,灵活的设置查询项及查询条件,同时支持查询条件的任意组合及与或关系。功能点包括:自由的选择查询项,支持TOPN查询;查询条件的自由设置与任意组合,同时支持介于、属于列表等条件设置;查询结果的排序项可设置多个,并支持单独设置升降序;查询方式可保存成查询模板,发布给其他人使用;查询结果支持各种类型发布,包括生成EXCEL、HTML等功能。,为用户提供可视化、简单易用的报表工具,通过鼠标拖拽的方式,实现复杂多变的报表设置与数据展
12、示。具体功能包括:维度、指标可以任意组合,实现数据的统计以及分类汇总;通过查询模版设置与统计报表设置的结合,实现条件查询、模糊查询、组合查询、关键字搜索,支持切片过滤;支持Excel,Html格式的报表导出导出;支持行列互换以及数据的上钻、下钻操作;支持派生指标;支持交互式的图表展现,图表导出PNG、JEPG、PDF、SVG等格式。,系统会提供图表制定工具,用户可以自行设置图表展现形式,图表间联动交互逻辑等,包括:1、可视化的、拖拽式的、所见即所得图表设置工具;2、支持图表触发事件的逻辑设置,支持图表交互;4、支持仪表盘、驾驶舱等展现模式;5、支持移动端的数据及图表展示;6、支持与GIS系统结
13、合。,集成开源的统计分析语言(R语言),用户可以自己编写数据挖掘算法;支持:在线编译可视化分析数据和图标互动,目录,DreamData大数据实时分析数据库,采用MPP(大规模并行处理),Double Storage(行存和列存都支持)等多项创新技术,使大数据能够得到快速处理和分析。 它带给用户全新的体验主要体现在:突破了传统关系型数据库的界线,即为用户提供了对大数据的实时分析的能力,而且还能让用户能够快速查找明细数据。,支持MPP,自动线性动态扩展至数百台集群;支持行存和B-Tree索引,便于快速查找明细数据;支持列存,可以做海量数据做实时地分析和挖掘(R接口);采用通用的x86硬件;SQL9
14、2特性覆盖,并提供多平台的SQL驱动;,并行:数据复制分布存储在不同的节点上并行处理高可用性:任何节点宕机将不影响数据完整和业务连续性,行存 快速定位明细数据列存高效的数据压缩快速的数据过滤减少I/O,内存地址,行式的数据组织,列式的数据组织,数据源原始结构,映射到内存,维度表本地化:让事实(大)表和多个维度(小)表之间能快速地完成Join;两个大表同分布:让两个大表无需大数据集交换,就能完成Join:分区(Partition):对一个表进行分区(比如,按天,按月),从而将查询参与数据集减小,从而进一步加速;,用于分析的I/O加速例子,测试环境:DreamData 3台4核64G内存 Dell 服务器 SAP Hana 1台 48线程 2T内存 IBM服务器,数据场景:2.3 亿条互联网用户访问记录数据,结果: 在同等硬件配置条件下,DreamData与Hana性能各有千秋,水平相当。,