1、,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,大数据,刘鹏 主编 张燕 张重生 张志立 副主编,BIG DATA,刘 鹏,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,62,3,10.1地震大数据,第十章 行业大数据,美国地质调查局(USGS)启动了8个新的研究项目,目标是重新评估发生在所有主要板块边界和板块内部环境的地震等级、发生频率和震级分布,以及最大震级,以改进地震预警(测)模型,并使美国的灾害评估建立在更为强大的全球数据及其分析基础之上。,高新技术和信息技术的发展,一直推动地震观测技术的进步。,在移动互联网和物联网时代,微机电传感器(MEMS)技术和
2、互联网智能技术使地震观测设备也遵循大数据产生的规律,即从精密到简单,从笨重到智能、从昂贵到低廉、从量少到量大。,这完全是适应了地震预警和烈度速报应用需求,催生了密集地震观测网,也将地震行业带进了大数据时代。,of,4,10.1.1 大数据时代和地震,62,第十章 行业大数据,10.1地震大数据,1地震烈度速报,汶川特大地震,地震烈度速报,烈度速报就是在破坏性地震发生时能够快速给出不同地区的烈度分布情况。,震动图(ShakeMap),图10-1 山西地震台网的观测烈度速报,图10-2 2013年12月14日12时06分日本千叶近海5.5级地震烈度速报图,of,5,10.1.2 密集地震观测网将地
3、震带进大数据时代,62,第十章 行业大数据,10.1地震大数据,2地震预警,汶川地震 日本311地震,“Earthquake Early Warning” “地震报警或地震警报”,震源,地震仪,1,2,3,4,of,62,6,10.1.2 密集地震观测网将地震带进大数据时代,第十章 行业大数据,10.1地震大数据,3MEMS传感器烈度计和智能设备,中国地震局在发改委的支持下,在下一代互联网地震应用的开发项目中,开发了一系列移动互联网应用技术。,特别是以智能手机为基础结合MEMS技术开发了地震烈度计和动态地震烈度网技术,这种技术可以适合大量密集地震观测网的布设。,图10-4 MEMS烈度计和移动
4、互联网传递地震信号,MEMS传感器地震烈度计技术和移动互联网技术结合使密集地震观测网技术得以实现。,四川成都高新减灾研究所生产的MEMS地震预警台站设备,中国台湾生产的MEMS地震预警台站设备,of,7,10.1.2 密集地震观测网将地震带进大数据时代,62,第十章 行业大数据,10.1地震大数据,4密集地震观测网将地震带入大数据时代,如上所述,密集地震观测网完全遵循了大数据产生的规律,从精密的传统地震仪到简单的MEMS烈度计,从昂贵的设备到廉价的MEMS设备,从高精度仪器到智能化的设备,从100200千米稀疏的量少台站到10千米左右量大的密集地震观测网。,地震观测的数据从小数据变成了大数据。
5、所以,密集地震观测网将会把地震带进大数据时代。,of,62,8,10.1.2 密集地震观测网将地震带进大数据时代,第十章 行业大数据,10.1地震大数据,图10-6 成都市和中国台湾密集地震观测网,图10-7 环境猫室内环境探测器和日本家庭地震报警器及工作流程,of,62,9,10.1.3 地震大数据一定是巨量数据,第十章 行业大数据,10.1地震大数据,地震小数据,仪器精密昂贵,观测技术复杂,地震台网稀疏,地震大数据,无法使用,数据量大,纷杂、混乱,无法处理,采用因果关系范式,前兆异常度,使用大数据关联方法地震前兆异常度的研究表明:地震前兆观测数据是和构造体有关的,它们是相关联的。汶川地震前
6、前兆异常度的变化,和巴颜克拉块体有关联,这和各方面研究成果是一致的。,图10-8 地震前兆异常度,of,62,10,10.1.4 地震大数据找关联,第十章 行业大数据,10.1地震大数据,小数据时代,在数据的限制无法突破的情形下,数据处理算法的研究越来越深入,发明的算法越来越复杂。,当数据量以指数级扩张时,原来在小数量级的数据中表现很差的简单算法,准确率会大幅提高;大数据的简单算法比小数据的复杂算法更有效。,极其简单的地震参数处理,“着未着法”,of,62,11,10.1.5 地震处理从复杂到简单-从“复杂算法”到“简单算法”,第十章 行业大数据,10.1地震大数据,传统地震台网处理和决策都非
7、常慎重,通过收集和分析数据来验证这种假设;如果有一些数据有问题,就影响原有假设,决策与行动是审慎的。小数据的地震速报可以较快地进行自动速报,但是处理复杂,要多中心审慎决策,特别是终报更需要审慎决策。原因是小数据依靠模型解算方程,由于空间数据间隔太大,往往初值确定度准确,大量计算可能仍然得不到可高的结果,必然影响快速决策。,密集地震台网的大数据,不再受限于传统的方式,在密集的大数据中可以简单而准确地得到地震发生在哪里、多大,无须一而再地检查和复核,足以做出快速决定,地震预警的警报可以在数秒发出,地震烈度速报可以在几分钟就发出。快速决策无疑对于大地震的减轻灾害和挽救生命无疑具有重要的意义。,of,
8、62,12,10.1.5 地震处理从复杂到简单-从“审慎的决策”到“快速的决策”,第十章 行业大数据,10.1地震大数据,1密集地震观测网带来的创新,从传统的精密昂贵的地震台站到密集地震观测网的,从精密的传统地震仪到简单的MEMS烈度计,从高精度设备到智能化的仪器,从量少到量大,这样地震台网完全遵循大数据产生的规律。,图10-10 动态监视地下活动,图10-11 动态“地下云图”,of,62,13,10.1.6 大数据推进地震新模式和新业态,第十章 行业大数据,10.1地震大数据,2大数据为探寻地震前兆开辟新途径,图10-12 地震前兆效能图,现代高新技术和互联网发展迅猛,各种新型传感器和信息
9、技术,可以为地震前兆提供廉价的设备,为加密观测提供了条件,将推进地震科学的创新。,of,62,14,10.1.6 大数据推进地震新模式和新业态,第十章 行业大数据,10.1地震大数据,3大数据支撑地震应急救援,“互联网+地震”,图10-13 2015年四川乐山5.0级地震人口热力图,图10-14 大数据和微信平台地震应急救援指挥,图10-15 海地地震大数据人口流动分析,of,62,15,10.1.6 大数据推进地震新模式和新业态,第十章 行业大数据,10.1地震大数据,4物联网大数据的地震应用,物联网,可穿戴设备,智能终端,温度,传感器,声音,位置,气压,磁场,压力,气体,电磁辐射,UP手环
10、,手环地震惊醒记录曲线,手环惊醒“震动图”,物联网的各种传感器大数据实际上会反映地球上物理、化学、生物的各种变化,探索和挖掘物联网大数据,发现和地震现象的关联,争取地震学新发现,将给地震学带来新的发展前景。从地震烈度速报和预警到密集地震观测网络,从密集地震观测网络在到地震大数据,这是时代的发展,这就是大数据地震科学和技术带来的新模式和新业态。,of,62,16,10.1.6 大数据推进地震新模式和新业态,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,62,17,10.2.1 智慧交通与大数据,10.交通大数据,第十章 行业大数据,在交通领域,海量的交通数据主要产生于各类交通
11、的运行监控、服务,高速公路、干线公路的各类流量、气象监测数据,公交、出租车和客运车辆GPS数据等,数据量大且类型繁多,数据量也从TB级跃升到PB级。在广州,每日新增的城市交通运营数据记录数据超过12亿条,每天产生的数据量为150G300GB。,of,62,18,10.交通大数据,第十章 行业大数据,第一,大数据提供环境监测方式。,第二,大数据拥有信息集成优势和信息组合效率。,第三,大数据的智能性可以合理配置公共交通资源。,第四,提高交通安全水平。,of,62,19,10.2.2 大数据应用交通的意义,10.交通大数据,第十章 行业大数据,1智能交通系统中的交通数据,交通流量监测系统,信息控制系
12、统,高清视频监控系统,车辆违法时间、地点、违法代码、类型、违法时车速、车牌全景照片、车牌照片,道路通行能力、车辆数量、行车导向标志信息、限速标志信息、环境因子信息和异常事件等,时间顺序排列,匹配模型,of,62,20,10.2.3 交通大数据中的数据挖掘技术,10.交通大数据,第十章 行业大数据,2智慧交通系统中数据挖掘的系统模型,智慧交通系统采集的交通数据种类很多,且交通数据具有异构多、层次多的特点。在各种智能交通应用系统中,交通数据挖掘来源于不同类型的操作数据库,且获得的数据需要通过清洗、装载、转换等一系列处理,整合到智慧交通的数据库。数据挖掘在基于此数据库的大数据平台上,实现众多深度挖掘
13、的功能,常见的有分类、聚类、关联算法等。,图10-17 传统交通大数据挖掘的系统模型,of,62,21,10.2.3 交通大数据中的数据挖掘技术,10.交通大数据,第十章 行业大数据,通过对交通数据进行宏观或微观的分析、统计和推理,分析不同属性因子之间存在的显性和隐形关系,利用现有的数据推断和预判未知的数据。数据挖掘是将人们对于交通信息的处理从最基本的查找、删改提高到了预测、预判。城市交通规划、交通管理、事件信息管理等都可以广泛使用数据挖掘。,of,62,22,10.2.4 大数据挖掘技术在智能交通中的应用,10.交通大数据,第十章 行业大数据,1简介,河北交通卡口数据研判分析系统充分利用交管
14、局卡口系统建设成果,将各卡口采集的车辆号牌基础数据实时传送到公安网内,整合各类警务信息资源,通过集中整合整理、海量关联查询、多维智能比对、综合分析研判、信息对流互动等,供情报中心实现对被盗抢机动车、涉案嫌疑机动车、交通肇事逃逸车辆、重点管控车辆等黑名单车辆的实时查控和对“人、案、车”的研判分析,实现科技强警,向科技要警力的目标,对“护城河”工程和全省治安防控体系进行补充和完善,实现网上作战、智能分析等现代警务机制的创新发展。,2设计原则,1)前瞻性技术与实际应用环境相结合,2)学习借鉴国外先进技术与自主创新相结合,3系统基本组成和构架,该共享平台由7个主要部分组成:历史数据汇总处理系统、上报数
15、据上报系统、实时数据入库系统、交管数据存储系统、交管数据查询分析应用系统、数据管理系统及系统管理。,在基础设施构架上,该系统将构建在云计算平台之上,利用现有的计算资源、存储资源和网络资源,作为云平台的基础设施和支撑平台。,of,62,23,10.2.5 河北交通卡口数据分析系统,10.交通大数据,第十章 行业大数据,4系统架构,图10-19 交通云平台总体架构与功能模块图,of,62,24,10.2.5 河北交通卡口数据分析系统,10.交通大数据,第十章 行业大数据,5交管卡口数据入库功能与处理方案,图10-20 交管卡口数据入库系统总架构图,of,62,25,10.2.5 河北交通卡口数据分
16、析系统,10.交通大数据,第十章 行业大数据,6数据存储功能与处理方案,图10-21 数据存储系统架构图,of,62,26,10.2.5 河北交通卡口数据分析系统,10.交通大数据,第十章 行业大数据,7查询分析功能与处理方案,图10-22 交管卡口数据架构图,of,62,27,10.2.5 河北交通卡口数据分析系统,10.交通大数据,第十章 行业大数据,8项目成果,of,62,28,10.2.5 河北交通卡口数据分析系统,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,61,29,10.3环境大数据,第十章 行业大数据,互联网技术、物联网技术,巨大发展前景,迅猛发展,环境信
17、息化,高速发展期,国家环保部门,重视,通过方案,积极建设,环境数据服务和环保云平台,国家发展还是市场需求,环境大数据的意义,促进政府生态环境综合决策科学化、监管精准化、公共服务便民化,有助于企业加快产业转型,发现新的商机,拓宽更广阔的市场,给公众生活带来更多便利,提升生活质量,吸引公众关注和重视,PM25.in,环境数据应用,PM2.5云监测平台,中国天气网,环境云,of,62,30,10.3环境大数据,第十章 行业大数据,1环境数据的时空特性,环境传感器数据的一个重要特点是除了信息本身所包含的环境物理量的测量值之外,其信息本身的时间和空间特征,也就是其分布信息也是非常关键的。大多数情况下,缺
18、乏时空分布信息的环境数据是局部的,不完整的,其使用价值也相当有限。,在时间维度上,环境数据可分为历史数据和实时数据,而各种预报系统则可以产生预报数据。,环境云(http:/)提供的大气监测站点的实测数据样本,图10-23 地图上展示环境数据,of,62,31,10.3.1 环境大数据概念,10.3环境大数据,第十章 行业大数据,2多层次的数据采集,专人值守或巡值,国家环保部和各省级环保部门-传统环境数据监测,控点监测项目全面,测量精确,设备本身及其运行维护成本很高,难以大规模布设,有时需要采用间接方式,of,62,32,10.3.1 环境大数据概念,10.3环境大数据,第十章 行业大数据,大量
19、布建低成本的空气质量环境监测设备,测量特征因子对象较单一,测量精度稍差,设备本身及其运行维护成本很高,满足数据监测、传输功能,软件比对校准,和专业环境监测点形成有利互补,对空气质量数据的全面和准确评估有参考意义,of,62,33,2多层次的数据采集,10.3.1 环境大数据概念,10.3环境大数据,第十章 行业大数据,3多维度的环境数据整合,of,62,34,10.3.1 环境大数据概念,10.3环境大数据,第十章 行业大数据,1环境数据类型,环境预测数据,环境数据的特点首先是海量,其次是数据应该包括时间和空间的信息,中国天气网每日发布的天气预报,环境云大数据平台与南京大学大气科学学院大气环境
20、研究中心联合发布的每日空气质量趋势预报,中央气象台每小时发布的城市天气实况,第三方环境数据平台PM25.in每小时更新的全国空气质量实况,环境实况数据,各类网站,国家环保部数据中心,公众环境研究中心,各类环境传感器,of,62,35,10.3.2 环境数据的采集与获取,10.3环境大数据,第十章 行业大数据,2环境数据采集策略的确定,各类传感器产生的环境数据,政府部门,权威机构环境监测系统对外提供的数据服务,各类第三方环境数据源,政府职能部门,环保机构和非政府组织发表的与环境有关的报告,of,62,36,10.3.2 环境数据的采集与获取,10.3环境大数据,第十章 行业大数据,3环境数据采集
21、有效性,对于同一数据源,为了避免网络震荡造成的影响,应采取重传机制,即采集数据超时之后,立即或间隔很短的一段时间后再次进行尝试。,首先,对于同一数据源多次尝试采集均失败,应该采用备用的数据源进行该类环境数据的采集,此时需要考虑不同的数据源提供的数据的差异,采取相应的处理。,最后,如果,对于采集到的数据,如果包含明显无效或异常的数据值,需要进行过滤处理,以保证只存储有效的环境数据采集值。,of,62,37,10.3.2 环境数据的采集与获取,10.3环境大数据,第十章 行业大数据,1环境数据存储策略的确定,地理信息、较强的关联性,海量、数据结构各异,分布式数据存储技术,Hadoop集群,关系型数
22、据库(如MySQL),2环境数据存储维度,空间维度,环境数据存储,站点或城市的编号,经纬度,数据发布的时间来作为时间维度,of,62,38,10.3.3 环境数据的存储与处理,10.3环境大数据,第十章 行业大数据,3数据存储与托管,数据仓库与托管平台来进行数据存储与托管,从复杂的底层硬件管理中脱离出来,专注于环境数据服务的实现。,考虑平台可靠性、拓展性、安全性、灵活性及成本等因素。,举例:微软的数据仓库、云创公司的万物云平台,of,62,39,10.3.3 环境数据的存储与处理,10.3环境大数据,第十章 行业大数据,4存储环境数据时的处理,需要预先设定异常值判定条件,来排除这些采集到的无效
23、环境数据。,需要注意的是,原始环境数据值有时可能并不便于查询,需要根据站点的经纬度来确定其所属的城市,并可以在存储原始站点数据的同时,来统计该城市所包含的所有站点数据值,并将这些统计数据也一并进行存储,以便提供城市级别的环境数据查询。,of,62,40,10.3.3 环境数据的存储与处理,10.3环境大数据,第十章 行业大数据,1环境数据服务接口,图10-24 环境云环境大数据服务平台,of,62,41,10.3.4 环境数据的应用,10.3环境大数据,第十章 行业大数据,2环境数据可视化,of,62,42,10.3.4 环境数据的应用,10.3环境大数据,第十章 行业大数据,3环境数据聚合,
24、of,62,43,10.3.4 环境数据的应用,10.3环境大数据,第十章 行业大数据,4环境大数据的应用价值,推动政府环保数据开放,引导更多企业、社会组织、个人、高校、科研院所、创投机构对环境保护大数据进行挖掘、分析和商业模式创新,形成“数据采集数据开放数据消费”的良性循环。,通过对历史环境数据的挖掘与分析,可以更好地建立环境数据模型,从而提高环境数据预测的准确性。可以更好地建立环境数据模型,从而提高环境数据预测的准确性。,此外,还可以结合环境数据和一些其他行业的数据来做综合分析,比如气象对交通的影响,关联环境数据和某些疾病发病数据可以跟踪流行病的发病趋势,环境对水利、电力、交通、农业的影响
25、也可以通过对各种数据的时空关联来实现,针对干旱、暴雨洪涝、森林火险、冰雹、雷电等灾害性天气的气象灾害预警,为各相关行业提供有力的数据支撑,发挥环境数据应有的价值。,图10-26 利用LSTM网络进行预测,of,62,44,10.3.4 环境数据的应用,全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用,of,62,45,10.4警务大数据,第十章 行业大数据,通过对警务大数据的建设,使我国各级公安机关可以真正地围绕以应用驱动为根本导向、以基础设施建设为关键支撑、以大数据综合应用为发展龙头、以自主创新为重要途径、以信息安全为主要保障的业务目标,深化开展公安警务大数据应用的建设工作。大数据
26、时代警务新模式是以互联网、物联网、云计算、智能引擎、视频技术、数据挖掘等为技术支撑,以公安信息化为核心,通过互联化、物联化、智能化的方式,促进公安系统各个功能模块高度集成、协调运作,实现警务信息“强度整合、高度共享、深度应用”之目标的警务发展新理念和新模式,标志着公安信息化正在走向数字化、网络化、智能化的高度融合。运用先进信息技术手段,全面感测、分析、整合警务运行中的各项关键信息,通过对社会各个方面各个层次的公安需求做出明确、快速、高效、灵活的智能响应,为公安工作提供高效的警务管理手段和拓展便民服务的新空间。,of,62,46,10.4.1 大数据时代警务新模式,10.4警务大数据,第十章 行
27、业大数据,警务大数据应用是公安数据得以共享的根本动力,警务大数据应用是应对高科技犯罪的迫切需要,警务大数据应用是增强公安情报洞察力的重要手段,警务大数据应用是预防犯罪维护社会稳定的有效方法,警务大数据的应用是增强社会治理能力的重要支撑,应用价值,of,62,47,10.4.2 警务大数据应用价值,10.4警务大数据,第十章 行业大数据,1基本建设要求,基本要求,1,2,3,4,5,6,PB级数据存储管理,多种数据类型与协议支持,高质量的数据整合,高效的数据分析能力,可管理和开放性,安全可靠,of,62,48,10.4.3 如何开展警务大数据研发,10.4警务大数据,第十章 行业大数据,2系统架
28、构规划,图10-27 警务大数据系统架构图,of,62,49,10.4.3 如何开展警务大数据研发,10.4警务大数据,第十章 行业大数据,3常用数据挖掘方法的应用,根据一定的分类准则将具有不同特征的数据划分到不同类别的过程,通过对自变量和因变量做一定的相关性分析,由此建立回归方程,用以预测变量的依赖关系,不同于分类分析,聚类分析没有先验知识,一般是将一堆看似毫无规则的数据根据某种特征进行划分,不同属性的数据分到不同的组,用于在大量杂乱无章的数据中寻找有价值数据间的相关关系,of,62,50,10.4.3 如何开展警务大数据研发,10.4警务大数据,第十章 行业大数据,4技术难点与突破方向,如
29、何从非结构化的数据中提取结构化的数据,寻找这些数据之间的关联 和价值,目前,公安的数据很多涉及到视频数据,而视频数据本身是不能够被结构化的数据,也就不能被计算机直接所处理。所以未来摆在技术人员面前的课题是如何把视频数据转换成计算机能够处理的结构化或者半结构化数据。,在技术需要攻克的难题就是能不能把这些数据通过相应的工具模块,通过大数据技术把原来被忽视的数据信息关联起来,找到或提取这些数据之间的相关性,为案件的侦破和方案决策提供科学的数据依据。,of,62,51,10.4.3 如何开展警务大数据研发,10.4警务大数据,第十章 行业大数据,应用场景,A,B,C,洛杉矶警方利用基于余震预测的模型预
30、防犯罪,纽约和圣地亚哥等城市利用大数据预测犯罪,底特律建设大数据分析系统,of,62,52,10.4.4 警务大数据应用场景,10.4警务大数据,第十章 行业大数据,发展思路,以应用为导向,关于数据以及来源问题,关于智库的共建与共享,关于工具手段支撑,of,62,53,10.4.5 警务大数据发展思路,1简述密集地震观测网的组成。 2如何从地震大数据中找关联性? 3简述对异常活动的剧烈程度的参量公式的理解。 4大数据从哪几个方面推进地震新模式和新业态? 5大数据为智慧交通带来的意义有哪些? 6应用于交通行业的数据挖掘技术有哪些? 7数据挖掘的系统模型3个主要阶段分别是什么? 8简述交通拥堵算法
31、的模型的构建过程。 9常用的环境数据可以分为哪几大类? 10环境数据的来源包括哪些方面? 11应采用何种存储策略存储环境数据? 12应采用何种方式实现环境数据可视化?,习题:,大数据实验平台:,提供Hadoop、HBase、Hive、Spark、Storm等大数据集群实验环境和快速搭建服务从入门到实战,帮助用户构建大数据课程和实训体系提供配套教程、课件和视频,大数据资料和交流中心,云计算资料和交流中心,BDRack大数据实验一体机,虚拟出百套集群,并行开展大数据实验 预装各种流行云计算和大数据平台 提供配套实验教程、课件、PPT和培训,刘鹏看未来,云计算头条,云创大数据,中国大数据,微信号: chinacloudnj,微信号: cstorbigdata,资源丰富、分析深入、更新及时的云计算知识共享平台。,微信号:lpoutlook,微信号: cStor_cn,国内大数据企业。提供云存储、云数据库、云视频、云传输产品和解决方案。,眼光决定成败,与刘鹏教授看未来。 刘鹏,清华博士,云计算作者。,分享大数据技术,剖析大数据案例,讨论大数据话题。,感谢聆听,