收藏 分享(赏)

电力大数据平台研究与设计.doc

上传人:无敌 文档编号:162222 上传时间:2018-03-22 格式:DOC 页数:11 大小:95.50KB
下载 相关 举报
电力大数据平台研究与设计.doc_第1页
第1页 / 共11页
电力大数据平台研究与设计.doc_第2页
第2页 / 共11页
电力大数据平台研究与设计.doc_第3页
第3页 / 共11页
电力大数据平台研究与设计.doc_第4页
第4页 / 共11页
电力大数据平台研究与设计.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、电力大数据平台研究与设计 朱朝阳 王继业 邓春宇 中国电力科学研究院 摘 要: 电力大数据平台定位为数据共享平台、数据分析应用平台、大数据应用开发运行平台,从数据采集、存储、预处理、计算、分析、可视化等多个层面为数据分析人员、大数据应用开发人员提供服务。文章分析了电力大数据平台应用需求,详细设计了电力大数据平台的应用架构、技术架构和数据架构,并对电力大数据平台的多源异构数据融合技术、异构数据并行处理技术、基于工作流的任务调度技术等关键技术进行了研究,最后针对电力大数据平台下一步的研究思路、重点和方向提出了建议。关键词: 电力大数据平台; 分布式计算; 流计算; 内存计算; 任务调度; 收稿日期

2、:2015-05-05Research and Design of Electric Power Big Data PlatformZHU Chao-yang WANG Ji-ye DENG Chun-yu China Electric Power Research Institute; Abstract: As data sharing, data analysis and big data application development platform, the electric power big data platform provides services from data co

3、llection, storage, pretreatment, computation, analysis and visualization for big data analysts and application developers. This paper fi rstly analyzes the electric power big data platform application requirements, and designs its application architecture, technical architecture and data architectur

4、e. Then its key techniques such as multi-source heterogeneous data fusion, heterogeneous data parallel processing, and task scheduling based on workfl ow are studied. Finally the further study of electric power big data platform is suggested.Keyword: electric power big data platform; distributed com

5、puting; stream computing; in-memory computing; task scheduling; Received: 2015-05-050 引言随着数据采集、存储和传输技术的飞速发展,各种智能电表、智能终端在电网中被快速推广应用。电网大量运行数据日益呈现体量大、类型多、价值高等特征。在可预见的未来,智能电网的建设势必带来数据量爆炸式的增长,数据分析处理能力落后与数据快速增长之间的矛盾将更加突出。随着数据量、数据类型的不断增多,也出现数据分析性能瓶颈、缺少数据分析挖掘的高级方法、非结构化数据尚缺乏有效利用等问题,这制约了电力行业信息化从数字化向智能化的发展。电力大

6、数据平台是大数据应用的基础和技术支撑,为大数据应用提供数据基础以及存储、计算、分析等能力,因此大数据平台是大数据应用真正落地的有力支撑。由于电力大数据应用与其他行业大数据应用的差异性,当前一些大数据平台并不能完全适用于电力行业,因此研究与开发电力大数据平台,以此支撑电力大数据应用,显得非常必要且迫切。电力大数据平台从功能定位上应该包括以下 3 个部分:电力大数据平台是电力数据资源共享平台,能够对各类电力数据进行有效地融合,并为各专业提供数据共享;电力大数据平台是电力大数据应用的开发与运行平台,能够为电力大数据应用提供存储、计算、分析等能力,让大数据应用的开发者只需要专注于业务,而不需要关注底层

7、使用的云计算与大数据相关技术的细节,简化了大数据应用的开发;电力大数据平台是电力大数据分析的应用平台,可以直接为大数据分析者提供各类数据分析的工具,以完成数据分析任务。针对以上电力大数据平台的功能定位,需要研究电力大数据平台的总体架构、功能以及关键技术,为电力大数据平台的开发与应用奠定基础。1 大数据平台研究现状1.1 国外大数据平台研究现状国外大数据在电力行业得到初步应用,主要围绕配电、用电等领域基于智能电表用户的采集分析、配电网的管理等方面1。在大数据平台方面,IBM2、HP3、Oracle4等传统 IT 巨头积极开展大数据技术与平台工具的研发,开发了面向或适用于智能电网的大数据平台、模型

8、与工具。C3 Energy5、Opower6、Solar GIS7、Auto Grid8等新生小型科技公司根据市场需求进行有针对性地研发,目前主要涉及电力公司运行管理和用户分析、用能管理和节能、新能源规划和运行管理、电动汽车充(换)电站规划辅助分析等多个领域。1.2 国内大数据平台研究现状国内大数据主要在互联网、金融、电信、交通等领域得到了应用9-13。国内互联网三巨头,即百度、阿里和腾讯均结合自身业务开发了相应的大数据平台、工具及应用。如百度发布大数据引擎,将包括开放云、数据工厂、百度大脑三大组件在内的核心大数据能力开放,通过大数据引擎向外界提供大数据存储、分析及挖掘的技术能力14。国内浪潮

9、、华为、联想等厂商也提供从服务器、存储到大数据分析平台等软硬件产品,为大数据平台的构建奠定了基础。大数据平台作为大数据技术的一个综合载体,集成数据采集、存储、处理、分析等功能,为大数据应用提供支撑。在电网公司信息化建设早期,数据库主要承担数据存储和管理的功能,仅仅是便于数据的集中存放和管理。随着电网企业生产信息化与管理信息化的逐步深入,大量数据产生,业务之间关联性不断增强,电网企业开始关注数据的共享与分析,建立数据中心,通过各类数据平台15以及企业级数据仓库16来实现数据资源的共享以及简单的联机分析。随着智能电网、物联网的快速发展,电网企业的用电信息采集、输变电状态监测得到广泛应用,每日数据量

10、增加近 10 TB,当前数据仓库以及联机分析处理(On-Line Analysis Processing,OLAP)系统已经难以满足大量数据存储、处理、计算、分析的需要。目前,大数据平台的研究还比较零散,在大数据平台架构上大多基于 Hadoop 技术,大量的研究集中在大数据的挖掘分析方法上,还没有形成支撑大数据平台开发的相关技术体系17。智能电网大数据结构复杂、种类繁多,除传统的结构化数据外,还包含大量的半结构化、非结构化数据,如客户服务中心 95598 系统的语音数据,设备在线监测系统中的视频数据与图像数据等。这些数据的采样频率与生命周期也各不同,从微秒级、分钟级、小时级,一直到年度级。目前

11、电网公司海量、多样的数据资源为数据深层次分析提供了良好条件,如何提升数据处理的性能、充分挖掘数据价值并实现数据资产管理使数据成为企业核心资产,成为当前亟待解决的问题。已有各类大数据平台很难满足智能电网大数据应用业务多样性的需求,鉴于此,研究电力大数据平台,在对智能电网各类数据有效融合的基础上,支撑生产、营销、配电等各类大数据应用,对智能电网数据价值进行挖掘非常有必要。2 电力大数据平台需求分析2.1 功能需求分析根据电力大数据平台的功能定位,电力大数据平台要为电网公司各类应用提供海量数据采集、存储、计算、分析、展现、安全等基础性支撑功能。1)数据采集方面。提供强大的数据抽取、转换和加载能力。适

12、配多种数据源(数据库/文件/日志/数据流),适配多种数据抽取方式(离线/实时),可配置采集策略,支持集群方式运行,可对采集过程进行监控和详细的日志记录。2)数据存储方面。提供低成本、高扩展性的数据存储,支持结构化数据、非结构化数据、半结构化数据等存储需求。支持结构化数据和半结构化数据低延迟即席查询,可以以大吞吐量高效地批量加载与处理非结构化数据。3)数据计算方面。提供海量异构数据实时、批量处理分析,构建在线监测、在线分析和在线计算等实时数据处理平台。利用大数据的批量计算、内存计算等技术,结合各类业务逻辑和算法,实现海量数据的离线分析与处理能力。4)数据分析方面。可提供跨业务的分析模型和数据挖掘

13、算法,设计大数据关联分析模型库和算法库,可实现数据分析模型和算法的灵活配置和扩展。对于常用的数据分析算法可实现并行化,提升数据分析性能。5)数据展现方面。支持灵活可定制的可视化展现,可实现数据可视化及分析可视化。支持移动终端(含手机、pad)、桌面终端、监控大屏等多种终端展示。6)数据安全方面。可实现不同业务、不同人员数据的逻辑隔离,确保数据的授权访问。具备对数据进行隐私保护的手段。7)应用服务接口方面。应实现对大数据应用提供数据共享服务、数据计算服务、数据分析挖掘服务、数据可视化服务等,提供统一的应用服务接口(Application Programming Interface,API)。8)

14、平台管理方面。可以对平台的数据、存储、服务器、软件组件、任务进行全面的监控与管理。通过可配置工作流方式实现工作任务的灵活可定制。2.2 非功能需求分析电力大数据平台是各类电力数据的融合共享平台,同时也是支持各类大数据应用的运行支撑平台,因此电力大数据平台在安全性、稳定性、可扩展性、响应及时性等方面都有较高要求。1)安全性。数据应具备机密性、完整性、可用性保障措施。对于敏感数据有隐私处理手段或数据加密手段,保证敏感信息不泄露。不同用户、不同大数据应用对数据访问可隔离,只能访问授权数据。2)稳定性。大数据平台应该能保证较长时间的稳定运行,平均无故障运行时间(Mean Time Between Fa

15、ilures,MTBF)大于 3 万小时。3)可扩展性。大数据平台应具备良好的可扩展性。大数据平台内部各类数据采集集群、计算集群、任务调度集群等可以在线灵活扩展。各大数据应用所使用的大数据平台资源可以按需动态扩展。4)响应及时性。简单查询响应时间秒级。复杂查询平均响应时间小于 10 s。简单数据分析任务平均响应时间小于 5 s;复杂数据分析任务平均响应时间为分钟级;在线分析平均响应时间小于 5 s;离线(批量)分析平均响应时间分钟级。5)容量。网络接入带宽 1 000 MB/s,大数据平台内部网络带宽 4 GB/s。用户数1 000 人,平均登录用户数为 200 人。每个基于大数据平台开发的大

16、数据应用作为平台的一个用户。平台可支持存储容量在 PB 级以上。平台可支持节点规模在3 000 台以上。3 电力大数据平台架构设计根据电力大数据平台需求分析,电力大数据平台需要采取灵活的分层架构,各层之间通过标准的接口进行衔接。由于工作任务(数据共享、数据处理、数据计算、数据分析等)要按照工作流驱动的可灵活配置的方式执行,平台每层内部组件之间也需要通过标准的接口来实现集成。考虑到平台支持多种类型任务(在线、离线、流式、批量等),并且在线分析任务响应时间要求较高,因此平台的计算层需要使用多种计算模式(常规计算、分布式计算、流式计算、内存计算)的混合架构。平台架构设计包括应用架构、技术架构、数据架

17、构等。3.1 应用架构大数据平台按照功能组件主要分为核心平台、数据服务、服务配置、运维支撑、自助分析、门户终端、安装部署等。电力大数据平台的应用架构如图 1 所示。1)核心平台主要实现对数据的采集、存储、处理、分析,包括数据采集、数据存储、传统及新型数据处理、算法模型、数据驱动的工作流等组件,是平台的核心部分。2)数据服务主要包括数据分析服务、数据挖掘服务、数据共享服务、数据交互服务等组件,是直接给大数据平台的数据分析用户提供服务或者给大数据应用提供接口的组件。3)服务配置主要是对各类任务进行配置的组件,包括抽取-转换-加载(Extraction-Transformation-Loading,

18、ETL)任务、离线任务、实时任务、分析任务的配置。4)运维支撑主要实现对平台的管控以及对数据管控,包括平台管控组件和数据管控组件。5)自助分析主要实现用户的自助分析,包括固态报表、多维分析、自助分析、仪表盘等组件。6)门户终端主要是支持各类终端,包括桌面终端、移动终端、大屏幕终端的组件。7)安装部署主要是对大数据平台安装部署支持的组件,包括模块安装、环境检测、基础配置等组件。3.2 技术架构电力大数据平台采用多层分层架构,利用当前大数据主流技术,保证平台的技术先进性。电力大数据平台的技术架构如图 2 所示。1)采集层。平台要适配多源异构数据源,主要包括数据库、数据文件、实时数据流,实现对此 3

19、 类数据的采集。日志采集框架采用 Flume,数据库抽取工具采用Sqoop,文件数据处理工具采用 Kettle。2)存储与处理层。传统数据仓库平台部分采用开源 My SQL 数据库或 Oracle 数据库。新型数据处理平台部分中,分布式存储采用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)、HBase、Hive、Kafka、Mango DB,资源管理采用 Yarn 框架,计算方面采用 Storm、Map Reduce、Spark。3)服务层。数据分析集成 R-Studio,数据挖掘集成可视化分析挖掘工具和分布式算法,数据交互方面使用敏捷

20、商业智能(Business Intelligence,BI)。4)展示层。采用 Web 浏览器,使用 HTML5+JSP,实现泛屏多终端的可视化呈现,包括桌面终端、移动终端、大屏终端等。5)工作流层。实现对各类型任务(ETL 任务、计算任务、分析挖掘任务)的统一组装和调度管理,采用 Activiti。6)平台管控层。采用开源 Ganglia 来实现对平台各类集群的监控。3.3 数据架构大数据平台数据以 IEC CIM、SG-CIM 为标准,平台目前可存储处理电力系统中除数据采集与监视控制系统(Supervisory Control And Data Acquisition,SCADA)外的其它

21、数据。电力大数据平台的数据流向如图 3 所示。1)数据从外部数据源中通过批量和实时采集,经过采集层 ETL 过程,进入传统数据处理平台或者新型数据处理平台。2)在传统数据处理平台和新型数据处理平台中,对数据进行存储和处理。新型数据处理平台通过对数据的海量计算及分析挖掘能力,计算结果可进入传统数据处理平台的数据集市,也可以直接以文件输出或存入 No Sql 数据库。3)服务与接口层通过从数据仓库或结果文件、No SQL 数据中加载数据,实现数据分析挖掘。4)服务与接口层数据分析结果以网页方式展示给用户或者以接口调用输出数据方式返回给调用者。4 电力大数据平台关键技术4.1 多源异构数据融合技术智

22、能电网的各业务系统采集了电网对象在不同时间、空间断面的数据,反映的是电网对象的部分属性,需要对各类数据进行融合,将多源异构数据转化为面向电网对象的统一信息模型。数据融合主要体现在 2 个方面:一方面是不同时间、空间维度的数据要融合形成合理的按时间、空间关联的数据断面;另一方面是不同业务相关数据之间要形成关联,并使用一致的数据表达。数据融合要通过数据采集、数据存储以及统一公共信息模型来解决。1)数据采集。利用 Flume 分布式日志采集框架对业务系统的报文日志、系统日志进行采集并进行存储。利用 Sqoop 可以将关系型数据库中的数据批量抽取到HDFS 中;利用 Kettle 抽取半结构化/非结构

23、数据到 Nosql 数据库中进行存储;利用 Kafka 实时消息队列对实时数据进行采集;其它一些文件型数据也可以通过文件传输协议(File Transfer Protocol,FTP)协议传入平台。2)数据存储。采用多种存储方式并存方式,根据数据类型以及数据处理的要求选择不同的数据存储方式。结构化数据采用传统关系型数据库来存储。对于半结构化和非结构化数据,采用 HDFS 存储,同时结合 Hive 和 HBase 来实现。另外,对于文档类非结构化数据采用 Mango DB 来存储。3)数据建模。要解决大数据的统一存储、管理及高效分析处理就需要进行大数据的统一的组织和一致性表达,解决多源、分布和异

24、构数据整合和统一管理问题24。目前电力系统主要应用的公共信息模型有 IEC61970 CIM 和 IEC61968 CIM,IEC61970CIM 主要规范了能量管理系统(Energy Management System,EMS)的信息模型。IEC61968 CIM 主要规范了配电管理系统(Distribution Management System,DMS)的信息模型。关于这 2 个公共信息模型在电力系统中的应用已经有较多的研究18-21。但是这 2 个模型并不能涵盖我国电力系统的所有业务,尤其是在管理业务方面,各国之间体制不一样,差异较大。因此,需要设计统一的电力公共信息模型。4.2 异构

25、数据并行处理技术对海量多源异构数据进行高效处理是大数据平台核心能力之一。由于计算需求的多样性,数据特征以及计算性能要求差异性较大,电力大数据平台需要整合多种计算技术来满足需要。对于离线计算场景,采用 Map Reduce 来进行处理。Map Reduce 高效的 TB 和 PB级数据处理能力,系统高扩展性,动态增加存储节点等特点可以满足对海量历史数据的大量计算要求。对于实时计算场景,采用 Storm 来进行处理。Storm 分布式实时的计算框架,高并发处理能力,水平扩展性,增量计算等特点可以满足对中小规模实时数据的快速计算要求。对于一些计算量大且实时性要求又相对高的场景,采用内存计算技术来进行

26、处理。电力大数据平台内存计算引擎的计算框架采用改进后的 Apache Spark 作为执行引擎。与 Map Reduce 框架相比,其消除了频繁的 I/O 磁盘访问。同时,该引擎采用轻量级的调度框架和多线程计算模型,与 Map Reduce 中的进程模型相比,具有极低的调度和启动开销。4.3 基于工作流的任务调度技术电力大数据平台内各类执行不同任务的组件,需要通过合理的方式进行管理和调度,保证在完成复杂数据分析任务时,各组成部分能够协调一致工作。电力大数据平台通过工作流系统对平台内的各类任务,包括 ETL 任务、实时计算任务,离线计算任务、内存计算任务等进行统一调度和监控管理,对外提供相应的统

27、计分析服务、数据挖掘服务、数据共享服务及数据交互服务。1)任务调度。为了能够高效、稳定进行平台的各类任务的管控及调度执行,采用开源框架 Quartz 来实现任务调度功能。Quartz 的 Job Detail、Trigger 都可以在运行时重新设置,并且在下次调用时起作用,调度时间策略可存放到数据库,通过数据库数据来设定 Trigger,这样就能产生动态的调度。2)工作流驱动。平台采用开源 Activiti 工作流引擎使控制流与数据流分离,使平台具备更大的灵活性,平台的任务可以实现任意的组合,并且数据在平台的组件之间可以方便地流动。电力大数据平台工作流示意如图 4 所示。平台通过服务层接受外部

28、发起的服务请求或指令,经过统一调度服务进行转发和协议解析之后,通过数据驱动的工作流进行任务的组装、调度和管理,向传统数据处理平台、新型数据处理平台以及 ETL 平台发送任务和控制指令。5 结语本文在深入分析国内大数据平台技术基础上,根据电力大数据应用需求,研究电力大数据平台的架构以及平台的多源异构数据融合、多源数据并行计算、基于工作流的任务调度等关键技术,并设计了功能涵盖大数据采集、存储、处理、计算、分析、可视化全过程的电力大数据平台。该平台基本可满足当前电力大数据分析以及大数据应用开发的要求。但是通过研究开发也发现,当前平台还存在以下不足,需要在后续研究开发中进一步加强:1)平台的非结构化数

29、据分析能力还需提升。当前只能对文档型数据进行简单的处理,对于当前电力系统大量存在的音频、视频、图像等处理还需要进一步加强。2)平台在对多源异构数据的并行处理上还需加强。虽然平台已集成了多种计算架构,可以适合多种不同应用场景,但是对于复杂数据分析,比如需要同时对非结构化数据(视频、音频、文本)与结构化数据进行关联分析时,还无法满足需要。3)平台性能还需要通过应用进一步验证。平台从理论设计上应可以满足应用需要,但是由于当前平台的数据和应用尚少,未能对平台性能进行充分验证,需要随着平台数据量增加及大数据应用增长进一步验证平台性能。参考文献1张东霞,苗新,刘丽平,等.智能电网大数据技术发展研究J.中国

30、电机工程学报,2015,35(1):2-12.ZHANG Dong-xia,MIAO Xin,LIU Li-ping,et al.Research on development strategy for smart grid bigdataJ.Proceedings of CSEE,2015,35(1):2-12. 2The cornerstone of IBMs big data and analytics portfolioEB/OL.2015-04-20.http:/ 3Big Data changes everythingEB/OL.2015-05-05.http:/ 4Thomas

31、V R,Tanaya B.Oracle utilities data model referenceR.2013. 5C3 energy smart grid analyticsEB/OL.2015-04-20.http:/ 6ResultsEB/OL.2015-04-20.http:/ 7SolargisEB/OL.2015-04-20.http:/solargis.info/. 8Key Features of AutoGrid DROMSEB/OL.2015-04-20.http:/www.auto- 9官建文,刘振兴,刘扬.国内外主要互联网公司大数据布局与应用比较研究J.中国传媒科技,

32、2012(17):45-49. 10林荣耀.大数据及在当代互联网应用中的研究D.厦门:厦门大学,2014. 11郑志来.大数据背景下互联网金融对中小企业融资影响研究J.西南金融,2014(11):63-66. 12姬倩倩,温浩宇.公共交通大数据平台架构研究J.电子科技,2015(2):127-130. 13黄勇军,冯明,丁圣勇,等.电信运营商大数据发展策略探讨J.电信科学,2013(3):7-11. 14百度大数据引擎EB/OL.2015-05-05.http:/ 15王晓波,樊纪元.电力调度中心统-数据平台的设计J.电力系统自动化,2006,30(22):89-92.WANG Xiao-bo

33、,FAN Ji-yuan.Construction of common data platform in the power dispatcher centerJ.Automation of Electric Power Systems,2006,30(22):89-92. 16路广,张伯明,孙宏斌.数据仓库与数据挖掘技术在电力系统中的应用J.电网技术,2001,25(8):54-57.LU Guang,ZHANG Bo-ming,SUN Hong-bin.Application of data warehouse and data mining techniques to power sys

34、temsJ.Power System Technology,2001,25(8):54-57. 17宫夏屹,李伯虎,柴旭东,等.大数据平台技术综述J.系统仿真学报,2014,26(3):489-496.GONG Xia-yi,LI Bo-hu,CHAI Xv-dong,et al.Survey on big data platform technologyJ.Journal of System Simulation,2014,26(3):489-496. 18崔巍,史永,孙兵.基于 IEC61970/61968 电网模型构建和整合J.电力系统保护与控制,2011,39(17):60-63.CU

35、I Wei,SHI Yong,SUN Bing.The construction and integration of grid model based on IEC61970/61968J.Power System Protection and Control,2011,39(17):60-63. 19曹晋彰.面向智能电网的公共信息模型及其若干关键应用研究D.杭州:浙江大学,2013. 20柳明,何光宇.IEC 61850/IEC 61970 保护模型的协调J.电力系统自动化,2006,30(22):7-11.LIU Ming HE Guangyu.Coordination between

36、IEC 61850 and IEC 61970 for the protection modelJ.Automation fo Electric Power Systems,2006,30(22):7-11. 21孙宏斌,吴文传,张伯明,等.IEC61970 标准的扩展在调度控制中心集成化中的应用J.电网技术,2005,29(16):21-25.SUN Hong-bin,WU Wen-chuan,ZHANG Bo-ming,et al.Application of extension of IEC61970 standard in control center integrationJ.Power System Thchnology,2005,29(16):21-25.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报