收藏 分享(赏)

面向能源系统的数据科学理论、技术与展望.doc

上传人:无敌 文档编号:205304 上传时间:2018-03-23 格式:DOC 页数:22 大小:223KB
下载 相关 举报
面向能源系统的数据科学理论、技术与展望.doc_第1页
第1页 / 共22页
面向能源系统的数据科学理论、技术与展望.doc_第2页
第2页 / 共22页
面向能源系统的数据科学理论、技术与展望.doc_第3页
第3页 / 共22页
面向能源系统的数据科学理论、技术与展望.doc_第4页
第4页 / 共22页
面向能源系统的数据科学理论、技术与展望.doc_第5页
第5页 / 共22页
点击查看更多>>
资源描述

1、面向能源系统的数据科学:理论、技术与展望 赵俊华 董朝阳 文福拴 薛禹胜 香港中文大学(深圳)理工学院 School of Electrical and Information Engineering,The University of Sydney 南方电网科学研究院 浙江大学电气工程学院 文莱科技大学电机与电子工程系 南瑞集团公司(国网电力科学研究院) 摘 要: 以多能源互补协调、“信息物理社会”系统深度融合为特征的大能源系统正在出现。因此,急需对面向能源系统的数据科学及大数据挖掘理论与技术开展深入研究。在此背景下,初步探讨了数据科学及其在大能源系统中的应用。首先介绍了数据科学的基本理论,

2、并着重讨论了统计学习理论及数据质量理论的重要性。接着,介绍了深度学习、转移学习和多源数据融合等大数据挖掘技术的新进展。最后,对数据挖掘技术在能源系统中的应用现状做了简单回顾,并展望了未来能源系统数据挖掘研究中值得关注的若干问题。关键词: 大能源系统; 智能电网; “信息 物理 社会”系统; 数据科学; 大数据; 作者简介:赵俊华(1980),男,“青年千人计划”入选者,副教授,主要研究方向:电力系统分析与计算、智能电网、数据挖掘与计算智能、电力市场。E-mail:作者简介:董朝阳(1971),男,“千人计划”特聘专家,讲座教授,主要研究方向:电力系统安全性、电力系统规划与管理、电力市场仿真与风

3、险管理、数据挖掘。E-mail:Joe.Dongsydney.edu.au作者简介:文福拴(1965),男,通信作者,教授,博士生导师,主要研究方向:电力系统故障诊断与系统恢复、电力经济与电力市场、智能电网与电动汽车。E-mail:收稿日期:2016-08-13基金:国家重点基础研究发展计划(973 计划)资助项目(2013CB228202)Data Science for Energy Systems: Theory,Techniques and ProspectZHAO Junhua DONG Zhaoyang WEN Fushuan XUE Yusheng School of Scien

4、ce and Engineering,Chinese University of Hong Kong (Shenzhen); School of Electrical and Information Engineering,The University of Sydney; School of Electrical Engineering,Zhejiang University; NARI Group Corporation (State Grid Electric Power Research Institute); Abstract: The comprehensive energy sy

5、stem,which can coordinate multiple types of energy and be characterized by a deep integration of“cyber-physical-social”systems,is emerging. There is therefore an urgent need to conduct in-depth study on data science and big data mining for energy systems. This paper presents an initial discussion on

6、 data science and its applications in comprehensive energy systems. The fundamentals of data science,in particular the importance of the statistical learning theory and data quality,are discussed first. The new progresses in big data mining,such as deep learning,transfer learning and cross domain da

7、ta fusion,are introduced then. Finally,a brief review is given on the applications of data mining techniques in energy systems; some research problems in energy system data mining,which require further attentions in future,are also discussed.Keyword: comprehensive energy system; smart grid; “cyber-p

8、hysical-social”system; data science; big data; Received: 2016-08-130 引言随着计算、通信、传感等信息技术的快速发展,现代社会中累积的数据量在以惊人的速度不断增长。在很多行业中,庞大的数据量和极快的增长速度使得利用传统数据库技术与统计工具已无法有效地对数据进行处理和分析。而以数据挖掘、机器学习、云计算等技术为代表的计算技术正逐步发展成为数据分析领域的核心技术。目前,大数据中蕴藏着不可估量的价值已经成为学术与产业界的共识。两大权威学术期刊Nature与Science先后推出了“大数据”专刊1-2,对大数据在科学研究、工业、商业、社

9、会管理等领域的影响进行了展望。中国政府已于 2015 年将发展大数据技术上升为国家战略3。为支撑对大数据的分析与利用,数据科学(data science)作为一个融合了计算机科学、统计学、应用与计算数学、人工智能、系统科学、社会科学、心理学、经济学等诸多领域的新兴交叉学科正在快速形成4-5。能源系统是支撑社会经济发展的重要基础。随着化石能源的逐渐枯竭和环境不断恶化,传统的能源生产与消费模式逐步走向终结。建立一个以电力系统为核心,以新能源为主要一次能源,融合气、冷、热等其他能源形式的新型能源系统已成为能源行业发展的趋势。学术界将上述新型能源系统定义为大能源系统、综合能源系统或能源互联网6-8。不

10、论采用何种具体名称,一般认为大能源系统应具有以下重要特征:(1)支持高渗透率新能源的有效利用;(2)支持电、气、冷、热等多种能源形式的互补融合;(3)具有开放互联特征,支持分布式能源设备与能源消费侧的广泛参与。为实现上述目标,必须充分利用前沿信息技术,实现物理能源系统与信息系统的深度融合9-10。因此,构建一个完备的信息物理能源系统(cyber physical energy system,CPES)是实现大能源系统的基础。大能源系统会产生海量的生产、运行、控制、交易、消费等数据。就目前的电力系统而言,其每年产生的运行数据已可达 PB 级规模。随着电力系统与天然气、供冷、供暖、交通等能源系统的

11、不断融合,特别是随着传统的工业信息网络与互联网等通用信息网络实现开放互联,大能源系统内产生的数据量将呈几何级数上升。传统电力系统分析的理论与方法无法有效挖掘能源大数据中蕴藏的价值,因此迫切需要发展针对能源系统的大数据分析与挖掘方法。另一方面,大能源系统是融合了物理能源系统与信息系统并与经济社会系统具有广泛互动的网络化系统,系融合了“人机物”的典型复杂系统(或称“信息物理社会”复杂系统)5 。针对面向大能源系统的数据科学研究,有可能为发展针对更为一般性的复杂“信息物理社会”系统的数据科学奠定基础。因此,开展面向大能源系统的数据科学研究具有重要的理论与应用价值。1 数据科学的基本理论1.1 大数据

12、挖掘的基本原理数据科学涉及数据的采集、传播、存储、分析、应用的全过程。其核心目标是从大量数据中获取知识11 。其中,如何对大数据进行有效的分析是数据科学研究的核心问题。随着数据量的不断增大,传统的统计分析工具已不足以有效地分析大数据。通过融合人工智能、机器学习、云计算等技术,大数据挖掘已发展成为大数据分析的主要手段。需要指出,在大数据的概念提出之前,学术界已经针对数据挖掘做了大量研究工作。随着互联网、信息物理系统(cyber physical system,CPS)等超大规模信息系统的快速发展,人类社会累积的数据量已经超过了常规数据存储与分析手段能够处理的范围。大数据挖掘就是在这一背景下对传统

13、数据挖掘研究的延续和发展,在理论基础上并没有本质的区别。因此,若无特别说明,本文将不加区分地使用“数据挖掘”和“大数据挖掘”这两个术语。数据挖掘的核心目的是通过分析大量数据自动或半自动地获取知识。在数据科学领域,知识一般定义为对于数据间关系的定量描述。对于数据挖掘的不同子问题,知识的含义可能有很大区别。对于分类、回归、关联规则等问题,挖掘得到的知识表现为对多个变量(或称为特征)之间函数关系的定量描述。对于聚类问题,知识表现为对多个数据样本之间相似性的定量描述。对于特征学习问题,知识表现为从初始的特征空间向新的具有更好数学性质的特征空间的数学变换。对于孤立点检测问题,知识表现为对于不正常数据样本

14、的量化描述。能够从数据中挖掘出什么知识,除了由数据本身的特征(如数据量、特征集、数据质量)决定之外,也要看具体应用需要。有些文献将数据挖掘方法称为无模型方法(model-free approach),即认为数据挖掘方法不需要构建模型,而可仅通过数据获得结论。这种说法事实上并不正确。绝大部分数据挖掘方法通过数据所产生的知识本质上仍然是数学模型,或者在产生知识的过程中利用了数学模型。例如,人工神经元网络与支持向量机等方法从数据中训练得到的是特征与因变量之间的函数关系(尽管未必用显式的数学关系描述);决策树等方法从数据中训练得到的是特征值处于不同区间时因变量取值的量化规则;贝叶斯网络等方法从数据中训

15、练得到的是针对特征量的取值,相应的因变量取不同值的条件概率。采用这些方法产生的知识本质上仍然是数学模型。因此,数据挖掘方法与传统分析方法的本质区别不在于是否有数学模型,而在于模型是人工构建,还是基于数据自动导出。在明确了这点之后,还需要指出:数据挖掘方法与传统的基于模型推导的理论研究方法并不对立。事实上,两者可以互为补充。一方面,对于某些问题以人工构建的数学模型为指导,有利于提出更为精确与高效的数据挖掘方法。另一方面,对于某些问题或者一个复杂问题的某些环节,当人工构建数学模型非常困难时,通过数据挖掘方法从数据中导出数学模型,也是一种解决问题的可行而有效的手段。需要指出,绝大多数数据挖掘方法所产

16、生的数学模型只能用于描述关联关系而非因果关系5,12-13 。换言之,通过数据挖掘发现变量 A 与 B 之间存在函数关系,通常并不表明通过改变 A 就可以改变 B,或反之通过改变 B 就可以改变 A。这是现有数据挖掘方法的一个主要局限,在将数据挖掘方法应用于控制与决策问题中时,对此必须特别注意。对于一些希望明确因果关系的机理性研究问题,数据挖掘方法可以仅作为一种辅助性手段,即可以首先通过数据挖掘找出原先未知的变量间的关联关系,再通过理论分析、领域知识、实验等验证因果关系。事实上,数据科学界一直在试图将传统的关联分析向因果分析推广。例如,文献讨论了结构化等式模型和因果网络等分析因果关系的基本理论

17、工具,并较为系统地探讨了通过数据推导出因果关系网络及其参数,提出了利用时域信息、可控实验等进行验证的基本方法。1.2 统计学习理论很多研究者将数据挖掘视为“万金油”式的工具,常常不考虑问题的性质与数据的特点,就将一些常用方法随意套用。事实上,能否成功地从数据中发掘出有意义的知识,与问题的性质、数据量、数据质量、算法选择、参数调整等很多因素有关。因此,学术界一直在试图提出一套完整的理论以指导数据挖掘的实践,而目前受到最广泛认可的是 Vapnik 提出的统计学习理论15 。统计学习理论的研究对象是数据挖掘中的一类经典问题,即监督学习(supervised learning)问题。监督学习问题可描述

18、为:用 X 和 Y 分别表示所有特征组成的向量空间和所有因变量组成的向量空间,并假定在空间 Z=XY 上存在一个未知的概率分布;假定从该概率分布上可以随机抽取出一组数据样本S=(x1,y1),(x2,y2),(xn,yn),其中 xi表示特征向量,y i表示对应的因变量(注意因变量可以是连续的,也可以是离散的,分别对应回归与分类问题);S 一般称为训练数据。此时,监督学习的目标是寻找一个函数,使得 f(x)y。一般将所有可能的 f()组成的空间称为假设空间。定义 V(f(x),y)为损失函数,作为f(x)和 y 之间差异的量测指标。那么,利用 f(x)来近似 x 与 y 之间函数关系的风险可以

19、用式(1)给出:式中:R(f)为函数 f 的风险预期;p(x,y)为 x 与 y 的联合概率密度函数。显然,应该选择使得风险预期 R(f)最小的函数 f 作为 x 与 y 之间函数关系的近似。由于事实上不可能准确知道概率密度函数 p(x,y),因此通常用 f 在训练数据上的经验误差作为 R(f)的近似,这样选择函数 f 的原则被称为经验误差最小化原则。然而,学术界很快发现,基于经验误差选择 f,容易导致严重的过拟合问题,进而降低数据挖掘方法的泛化能力,即使得数据挖掘得出的模型只对训练数据有效,对未来新数据的精度很低。为解决过拟合问题,在最小化经验风险的同时,还需要控制 f 自身的模型复杂度,这

20、是因为越复杂的模型越容易导致过拟合。常用的方法是在训练(学习)算法的优化目标中,除经验风险之外,再增加一项正则项。增加正则项的本质是限制在假设空间中的搜索范围,从而控制 f 的模型复杂度。这种做法被称之为结构风险最小化原则。在结构风险最小化原则基础上,统计学习理论最主要的贡献在于给出了风险预期、经验误差、数据量与模型复杂度之间的量化关系。统计学习理论提出了以 VC 维(Vapnik-Chervonenkis dimension)作为模型复杂度的量化指标,并指出一种数据挖掘方法的风险预期的上界与该方法在训练数据上取得的经验误差及该方法的 VC 维成正比,与训练数据的数据量成反比15 。换言之,在

21、经验误差不变的前提下,模型越简单,训练数据量越大,则训练出的模型针对未知数据的泛化能力越强。因此,在实践中,不需要选择过于复杂的方法和过大的训练数据集,而可以采用统计学习理论为指导工具,根据应用要求选择适宜的模型和适当的数据量,从而减少对于计算和存储能力的要求。需要指出,统计学习理论目前针对的主要是监督学习,对于数据挖掘的其他子问题,如非监督学习、转移学习等,尚未能建立较为完备的理论。还有,统计学习理论的基本假定是训练数据和未来数据必须服从相同的概率分布;当训练数据与未来数据不服从相同概率分布时,则统计学习理论不再成立,此时将由训练数据中导出的模型应用于未来数据时,其效果就无法保证。在工程实践

22、中,产生数据的机制常常会发生变化(例如,电力系统网架结构发生变化后,电力系统安全分析用的数据组成和结构也随之发生变化);此时,历史数据与未来数据未必服从相同的概率分布,这一现象在数据挖掘研究中被称为概念转移16 。如何检测是否发生了概念转移,以及如何设计应对概念转移的方法,目前仍是一个有待解决的问题。1.3 数据质量能否从数据中挖掘出有意义的知识,与训练数据的质量密切相关。现有的绝大多数数据挖掘方法假定训练数据是完整和准确的。在工程实践中,这一假定常常并不成立,数据缺失、异常数据(或称孤立点)和噪声数据并不罕见。如何评估数据质量和怎样处理低质量数据,目前尚未得到足够重视。但这两个问题的适当解决

23、,对于将数据挖掘技术成功应用于工程实践是至关重要的,尚需要系统深入的研究。麻省理工学院的总体数据质量管理(total data quality management,TDQM)项目在数据质量领域的研究具有开创性17-19 。文献研究了精度、及时性、可靠性、完整性、一致性等多种数据特征量测指标,并提出了从数据使用者角度对指标重要性进行评价。文献探讨了在实践中对不同数据质量指标进行量测的基本方法。在完成了数据质量评估之后,对于低质量数据需要设法改善其数据质量,常见方法包括对低质量数据进行数据清理和对数据采集方法进行改进20-21 。对数据采集方法进行改进通常可以取得更好的效果,但受成本和技术等客观

24、条件限制,在工程实践中未必总是可行的。与改进数据采集方法相比,对低质量数据进行数据清理是提高数据质量的相对简单易行的手段。针对数据中具体存在的不同问题,数据清理方法也有很大差别。对于不完整数据(即某些样本中缺少某些特征值),常用的方法包括21 :(1)直接抛弃不完整的样本;(2)手工补充缺失的特征值;(3)用一个全局常量(例如无穷大)代替缺失特征值;(4)用训练数据集中该特征的某种统计量(如均值或中位数)代替缺失的特征值;(5)应用机器学习方法(如人工神经元网络或决策树)补充缺失的特征值。在上述各类方法中,方法(2)需要极高的人力成本,对于大数据集一般不可行。方法(3)和(4)容易扭曲数据中的

25、关键信息。方法(5)的效果与所采用的具体算法和数据的特征有关。方法(1)对于小数据集不可行,但对于数据量极大的情形则不失为一种简便易行的策略。另一种常见的数据质量问题是噪声数据。噪声数据指观测到的数据在真实的数据上叠加了一个随机噪声。一般情况下,可假定该噪声是一个均值为 0 的随机变量,但很难准确确定其具体服从的概率分布。噪声数据通常是由于数据采集设备精度不足或通信信道中存在噪声所导致的。对噪声数据的常见处理方式包括21 :(1)分箱,即将怀疑存在噪声的特征值划分为几个区间,对于落在某一区间内的数据样本,以区间内样本的均值替换该样本的特征值;(2)应用机器学习方法(如人工神经元网络或决策树)推

26、测真实的特征值;(3)利用无参数统计方法首先从训练数据中导出怀疑有噪声特征的被调整后的概率密度估计。之后,在应用某种具体的数据挖掘方法时,根据概率密度估计对不同结果估算其概率,并选择概率最高的结果作为最终输出。第 3 类数据质量问题是异常数据(outlier),即数据样本的某些特征值明显偏离正常值。异常数据通常是由于人工错误、数据采集设备故障或通信信道故障造成的。在某些特殊情况下,也可能是由内部人员恶意篡改或外部人员通过网络攻击导致。异常数据检测是数据科学中的一个专门研究领域,文献对这一领域的研究情况做了较为全面的综述。异常数据检测可分为监督式、非监督式和半监督式三类。其中,监督式方法需要首先

27、由专家标记出训练数据中的异常数据,在此基础上建立分类模型,对其他数据是否异常进行判别。显然,在大部分情况下,由专家判断数据是否异常是非常低效甚至不可行的。与之相对,非监督式方法则不需要专家提供信息,而根据某些异常指标直接判定数据是否异常。这里,所谓的“异常指标”是用于判定一个样本与大部分正常数据差异程度的量化指标。常见的异常指标包括统计指标和距离指标两类。半监督式方法介于监督式与非监督式方法之间,其假定有一小部分样本已由专家进行了判定,并将这些专家标记信息与非监督式方法结合对数据进行判定。半监督式方法综合了监督与非监督式方法的优点,在工程实践中有更广的应用空间。2 大数据挖掘技术的新进展大数据

28、挖掘是近年来非常活跃的一个研究领域。随着分布式数据库、云计算、人工智能与机器学习等技术的不断创新与融合,在传统的分类、聚类、回归等领域之外,新的子领域不断出现。下面阐述可能应用于能源系统研究中的大数据挖掘技术的一些新进展。2.1 深度学习近年来,由于深度学习在图像识别、语音识别等应用上的优异表现,特别是随着围棋程序 Alphago 在人机对弈中战胜人类世界冠军,在学术界重新掀起了对人工神经元网络的研究热潮。从理论上讲,深度学习属于一类特殊的人工神经元网络,其核心思想是利用多层网络,并在每一层的隐层节点中应用适当的非线性函数变换,从而从数据中提取出高层次的抽象概念23 。例如,在一幅图像中,像素

29、是基本的数据特征单元,而多个像素可以一起构成更高层次的抽象概念,例如边和形状等。传统的数据挖掘算法很难提取和理解数据中的抽象概念,而深度学习通过构造多层次的人工神经元网络,可以在一定程度上实现对于数据中隐藏的抽象概念的自动提取和理解,其性能已经在众多应用中得到了验证。与传统的前馈人工神经元网络一般只包含一个隐层不同,深度学习一般使用一个包含多个隐层的网络结构(如图 1 所示)。其中,前面若干个隐层可以采用无监督方式自动从数据中构造出新的特征。每一隐层的输出将作为下一隐层的输入,从而通过多层网络逐步提取出高层次的抽象概念。在网络的最后若干层,再利用监督学习方法获得最终输出。目前,深度学习中最常用

30、的无监督特征提取技术是多层自编码24 ,而常见的监督式学习技术则包括卷积神经元网络25 、深度置信网络26 、长短期记忆网络27 等。图 1 一个典型的深度学习网络结构 Fig.1 A typical network structure for deep learning 下载原图尽管深度学习的性能已经获得了学术界和工业界的广泛认可,但仍然存在几个显著缺陷。第一,与支持向量机等传统方法不同,深度学习方法的数学特性尚没有得到透彻研究;另外,由于深度学习常常综合了监督与非监督学习两种方式,因此无法直接利用统计学习理论进行分析。所以,在深度学习的研究和应用中,对于网络结构与激发函数的选择、隐层数及隐

31、层节点数的设置、训练算法的选择等问题,尚没有成熟的理论进行指导,主要依靠使用者的经验。第二,依据统计学习理论可知,由于深度学习采用了多层网络结构,其模型复杂度比传统的单隐层模型要大得多,为了确保泛化能力,就必须相应地增大训练数据量。因此,深度学习不适用于数据量不足的应用场合。第三,由于深度学习的网络结构复杂,模型参数众多,因此对计算资源的需求远大于单隐层模型,训练速度一般也要远远低于决策树等常用方法。2.2 转移学习传统的数据挖掘方法有个重要假设:训练数据和未来数据的特征集相同,并由同一个数据产生机制生成(换言之,服从相同的概率分布)。当不能满足这一假设时,就需要重新训练模型。例如,按照传统数

32、据挖掘的理念,利用江苏的负荷数据训练得到的负荷预测模型不能应用于浙江。不过,对于由两个不同数据产生机制生成的两组数据,若这两个数据产生机制在一定程度上相互关联,那么就有可能利用一组数据改进由另一组数据所得到的数据挖掘结果。以人类为例,一个人在判别一辆车子是否是自行车时,并不需要以前见过一模一样的自行车,而只需见过与其类似的自行车即可。借鉴这样的场景,学术界提出了“转移学习”的概念28 。给定特征集合 A 和定义在该特征集上的概率分布 P(A),并将这两者合称为一个域。对于一个给定域,假定存在从一个特征子集 到另一个特征子集 的函数映射 b=g(a),并假定可以从 P(A)中抽取出训练样本。那么

33、称通过对训练样本的学习获得映射 g 的近似 g为该域上的一个任务。基于上述定义,给定原始域 Ds和目标域 Dt,并分别定义在两个域上的原始任务和目标任务 Ts和 Tt,则转移学习是指当 DsD t或 TsT t时,同时利用域 Ds和 Dt上获取的数据,来提高 Tt的准确率。根据在原始域与目标域之间所转移的具体信息的不同,转移学习可进一步分为样本转移29 、特征转移30 和参数转移31 。样本转移方法假定原始域中的部分数据样本可以在目标域中使用。这类方法一般会给原始域中的每个数据样本赋予一个权重,以此控制该样本对于目标域中模型的影响29 。样本转移方法适用于原始域存在大量数据,而目标域数据不足的

34、情况。特征转移方法一般首先利用某种特征学习算法(如稀疏编码)对原始域的特征集进行数学变换,从而获得一组新特征。随后,将目标域中的数据映射到新特征所构成的特征空间中,再在新特征空间中进行数据挖掘30 。特征转移方法适用于原始域中虽然存在大量数据,但因变量取值未知的情况。参数转移方法一般假定用于求解原始任务和目标任务的模型可以共享某些参数或先验概率分布31 ,核心思想是从原始域的数据中获取某些可共享的参数或先验概率,再将其应用于目标域中。这类方法常常与概率方法(如高斯过程)一起使用。需要指出的是,转移学习不要求原始域和目标域的数据服从同样的概率分布,甚至不要求它们位于同样的特征空间中,这和统计学习

35、理论的基本假定是相矛盾的。因此,到目前为止,转移学习尚没有严格的理论支持。2.3 多源数据融合随着社会整体信息化程度的不断提高,数据源的数量快速增加。传统的数据挖掘方法一般是针对单一数据源的。事实上,来自不同领域的多源数据间常常存在关联性或互补性。因此,通过对多源数据的融合与分析,就有可能挖掘出仅从单一数据源无法获得的知识。近年来,多领域多源数据的融合已逐步成为大数据研究中的热点领域。多源数据融合方法可进一步划分为多阶段数据融合、多视角数据融合、基于相似性的数据融合等几类。多阶段数据融合将整个数据挖掘任务划分为若干阶段,每个阶段应用来自不同数据源的数据进行分析,并将结果输入下一阶段。例如,文献

36、研究如何在社交网络中向用户推荐朋友时,将问题划分为两阶段。在第 1 阶段,首先分析大量用户的出行轨迹数据,并从中提取用户的停留位置。然而,考虑到不同用户的出行轨迹间未必存在交集,该方法在第 2 阶段利用兴趣点(point of interest,POI)数据,通过用户停留位置附近的 POI 来判断停留位置的相似性,从而最终推导出用户出行行为的相似性,并以此作为推荐依据。在现实中,来自单一数据源的数据可能只能描述事物的某一方面,而通过对多源数据的挖掘方能掌握事物全貌。例如,若要全面了解一个人,需要综合其教育背景、工作经历、财务状况、外貌、健康状况等信息才能实现。若多个数据源均与某一事物或现象关联

37、,则这些数据间很可能存在潜在的相关性,也可能包含互补信息。对与同一事物相关的多源数据进行融合被称为多视角数据融合。这种方法一般假定存在与同一数据挖掘任务相关的多组数据集,这些数据集可以位于没有交集的多个特征空间中。首先,对每个数据集进行挖掘,得出不同的视角模型。随后,将这些模型应用于训练数据以外的缺少因变量的数据,导出各样本的因变量,并将这些数据加入训练数据中,对各视角模型进行迭代更新33 。在针对未来数据进行分类或回归时,可以将不同视角模型的输出加权得到最终结果。实践表明,通过多视角数据融合技术,可以利用来自不同数据源的不含因变量的数据,从而显著提高模型精度。例如,文献34利用多视角数据融合

38、技术,将时间数据与空间数据融合,构建了城市空气质量预测模型。当两个事物或现象间存在一定的相似性时,其中一个事物的数据可应用于对另一个事物的分析,这即为基于相似性的数据融合。例如,文献研究了如何向用户推荐娱乐活动(如根据用户所处位置向其推荐用餐地点和旅游景点);当用户所处地理位置的历史数据不足时,可以选择利用与该位置相似且历史数据充足的地理位置数据建立模型。耦合矩阵分解和流型对齐是基于相似性的数据融合方法中的典型代表。耦合矩阵分解主要应用于利用矩阵描述特征之间的函数关系,并可利用多个相互关联数据集解决矩阵中的元素缺失问题。流型对齐可以利用各数据集中样本间的关系来推导数据集间的关系,并最终将多源数据集投影到一个联合特征空间之中。2.4 大数据架构与开源软件技术在物联网、搜索、电商推荐、图像与视频识别等多个领域中,数据量呈指数型增长,已经超越了传统的关系型数据库和单机数据分析系统能够处理的范围。为应对大数据的挑战,各类以分布式计算和云计算为基础的大数据开源软件得到了快速发展。这些开源大数据软件技术共同构成了一个完整的生态系统,为工程上实现大数据的存储与分析提供了强有力的支持。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报