收藏 分享(赏)

大数据时代统计学重构研究中的几个热点问题.doc

上传人:无敌 文档编号:151603 上传时间:2018-03-22 格式:DOC 页数:16 大小:129.50KB
下载 相关 举报
大数据时代统计学重构研究中的几个热点问题.doc_第1页
第1页 / 共16页
大数据时代统计学重构研究中的几个热点问题.doc_第2页
第2页 / 共16页
大数据时代统计学重构研究中的几个热点问题.doc_第3页
第3页 / 共16页
大数据时代统计学重构研究中的几个热点问题.doc_第4页
第4页 / 共16页
大数据时代统计学重构研究中的几个热点问题.doc_第5页
第5页 / 共16页
点击查看更多>>
资源描述

1、大数据时代统计学重构研究中的几个热点问题 田茂再 兰州商学院 教育部人文社会科学重点研究基地中国人民大学应用统计研究中心 中国人民大学 摘 要: 随着新兴科学技术的迅猛发展,我们正面临大数据时代。大数据是“未来的新兴石油”,它必将对未来的科技与社会经济的发展产生深远影响。认识大数据这个崭新的概念是一个逐步深化的过程,有必要将对大数据的研究上升为国家意志,因为大数据将深刻影响人类的决策模式和社会经济的运行模式,将发展成为一个极具潜力的新兴产业。迄今为止,国内外相关研究文献不多,为此,本文前瞻性地介绍当今大数据统计学理论研究中的几个热点问题,以期能有更多的后续研究。关键词: 大数据; 大数据时代;

2、 统计学理论; 抽样调查; 基准设定; 整合分析; 机器学习; 创新应用; 作者简介:田茂再,男,46 岁,湖南凤凰人,2001 年毕业于南开大学数学科学学院,获理学博士学位,现为兰州商学院“飞天学者”特聘教授,教育部人文社会科学重点研究基地中国人民大学应用统计研究中心副主任,中国人民大学教授,博士生导师。研究方向为时空大数据分析。Several Hot Issues of Statistical Reconstruction Research in the Era of Big DataTian Maozai Abstract: With the rapid development of n

3、ew science and technology,we are now facing the age of big data. Big data is the “new oil”in the future,which will have profound impacts on the development of science and technology and the social economy. Understanding the new concept of large data is a gradual process. It is necessary to ripen it

4、to be national power,because big data will influence the operation mode of humans decision making and the model of social economy,which will become a emerging industry with great potential. So far,research in related fields is scanty at home and abroad,so this paper introduces several prospective ho

5、t issues in theory research of todays big data statistics,and hopefully it will lead to more follow-up studies.Keyword: Big Data; The Era of Big Data; Statitical Theory; Sampling Survey; Benchmark Setting; Meta Analysis; Machine Learning; Inventional Applications; 一、引言科学技术日新月异,不管我们承不承认,我们当今正处于一场大数据带

6、来的巨大变革中,这场变革影响着我们生活的方方面面。大数据集通常超出常用软件工具的捕获、组织、管理和在可容忍的时间内处理这些数据的能力。( 一) 国外研究状况随着人类科学技术的飞速发展,特别是随着电脑 - 互联网的普及,我们正面临即将到来的大数据时代。许多科学研究领域产生了多种多样的复杂超高维海量大数据,如在基因学、天文学、宇宙学、流行病学、经济学、金融学、功能性磁共振成像以及图像处理等领域。面对这些高速增长的复杂超高维海量大数据的挑战,各个领域的科学家需要具有快速提取所需信息的能力。我们知道统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据的一门社会学科。就统计学自身而言,

7、大数据时代的到来无疑是大机遇。通过对大数据的统计推断,我们能够研发出强有力的统计工具,这显然会给统计界带来切实的利益: 将有利于统计学科理论和方法在更广阔的天地中长足发展,有利于促进对自然和科学的深度理解。反过来,就统计学对其他学科的影响来说,通过对复杂数据开展深入系统的创新性研究,将产生新的统计思想、新的统计工具,形成新的统计理论,从而推动其他重要领域和科学前沿取得突破。其实,随着大量产生于当今科学的大数据在不停地快速增长,从基因组到自然科学领域,统计学家一直在积极参与跨学科领域的科学研究。从统计学的发展史可以看出,随着各门具体科学领域产生的复杂数据的增多,统计学家面临的机遇也就越多,统计学

8、理论和方法的发展也得到更大的发展空间。进而推动着许多重要领域或科学前沿取得突破。本文将重点介绍 10 个复杂大时空数据统计建模方面的研究情况。1. 空间数据的高斯预测过程模型。由于空间信息系统以及空间位置系统发展,越来越多的数据都包含了精确的位置信息。这就在许多领域形成了大型时空数据集,引起了对空间数据进行统计建模的兴趣,学者们对此尝试了多种方法与应用。第一类方法是通过寻找空间过程的近似来实现,具体包括扭曲核、移动平均、低秩样条或基函数( Xia 和Gelfand,2006; Kammann 和 Wand,2003;Paciorek,2007) 。其核心想法是寻找过程 w( s) 的近似过程(

9、 s) ,使得原有模型得以在一个低纬度的子空间中实现。第二类方法是寻找似然的近似,包括将空间过 程放到频 域中,从而避免 矩阵分解( Paciorek,2007) ; 使用合理的条件分布来近似似然( Stein 等,2004) 。这其中的核心就是拟合似然与真实似然的近似程度。另一种方法要么将随机场中的过程用马尔科夫场中的过程替代 ( Cressie,1993) ,要么用马尔科夫场中的过程来近似随机场中的过程( Rue 和 Tjelmeland,2002; Rue 和 Held,2006) 。这种方法也仅是对于均匀格点有较好的适应性,而当处理非均匀格点的数据时,则需要利用一种算法重新调整格点,但

10、这可能会引起不可量化的错误。因此,用上述方法处理更加复杂的分层空间过程,包括多变量的 过程 ( Wackernagel,2003; Gelfand 等,2004) ,时空过程 及空间变 化回归 ( Gelfand 等,2003) ,非平稳的协方差结构( Paciorek 和 Schervish,2006) 是有潜在错误的。机器学习中对大数据集的高斯过程回归有 Wahba( 1990) ,Seeger 等( 2003) 以及 Rasmussen和 Williams( 2006) ,他们将回归方程看做高斯过程在以某些均值函数为中心的实现,并且当给定回归函数时,这些均值函数是条件独立的高斯过程。最近

11、,Cornford 等( 2005) 将这种方法应用到地理统计中。全贝叶斯推理最可能使用的方法是 MCMC 方法( Robert 和 Casella,2005) ,但这种方法已经完全不在机器学习的文章中使用( Cornford 等,2005) 。2. 基于刻度混合正态分布链的二值响应变量状态空间混合模型。在统计模型应用中常遇到观测值只取二值的形式,这样的二元数据可以根据连续、离散或顺序型的协变量、解释变量来测量。广义线性模型可以很好地处理二元响应变量的时间序列数据 ( Mc Cullagh 和 Nelder,1989) ,但当序列存在相关性或观测值过度分散时,这些模型将不再适用,应该采取其他方

12、法。广义线性状态空间模型可以处理这些问题,由 Wesr 等 ( 1985 ) 在一篇共轭贝叶斯设定论文中提出。Czado 和 Song( 2008) 等在此基础上进行了更深入的研究。二值响应变量数据建模的一个重要问题是链接函数的选择。对于此类问题,许多文献中较广泛采用的是 probit 链。Albert 和 Chib ( 1993) 用数据增大原则,提出门限潜在方法来处理对称的 probit 和 t 分布链。Naranjo 等用了指数幂分布链。Basu 和 Mukhopadhyay ( 2000) 在非参数模型中采用了刻度混合正态分布链。Albert 和 Chib( 1993) 采用门限方法、

13、probit 链的二值状态空间模型被Carlin 和 Polson( 1992) 以及 Song( 2000) 用于不包含协变量的情况。Czado和 Song( 2008) 给出了用 probit 链的包含协变量的二元状态空间模型,并将其命名为二值状态空间混合模型。他们证明加入回归变量是有意义的,可以量化成功概率与协变量之间的关系。3. 空间计数数据中的零膨胀模型。计数数据有多种建模方法,比如,可以使用泊松、负二项、二项、贝塔 - 二项或超几何分布等。这些常见的参数族受限于形状及尾部行为,因此,如果调整了协变量之后异质性仍然存在,就需要引入随机效应。对空间计数数据来讲,泊松回归是最常用的,随机

14、效应由空间模型引入,例如,条件自回归( conditionally autoregressive,CAR) 先验典型地使用格子或地区 单元数据 ( Clayton 和Bernardinelli,1991) ,空间过程 使用地质 统计或基 点 ( pointreferenced) 数据 ( Diggle 等,1999 ) 。一个可靠的制造过程在理想状态和非理想状态之间往返运动,理想状态下瑕疵极其稀少,非理想状态下瑕疵数目服从泊松分布( Lambert,1992; Ghosh 等,1998) 。对于这种数据,一种自然的建模方法是给 0一个点质量 p,即以概率 p 抽样一个 0 退化分布,以概率 1

15、 - p 抽样一个 Poisson ( ) 分布,这一模型在文献中称为零膨胀泊松( ZIP) 模型。Cohen ( 1963) 与 Johnson 和 Kotz ( 1969 ) 讨论了无 协变量的 ZIP 模型;Heilbron ( 1989) 用“零改变( zero-altered) ”泊松和负二项回归 模型研究 了男同性 恋的高风 险行为;Lambert ( 1992) 在回归设定中对 ZIP 模型定义了 和 p 的线性回归,使用了 E-M 算法得到最大似然估计,似然方程的解不一定唯一,E-M 算法不一定收敛,区间估计依赖于一般的似然渐近性质,即它是基于正态近似 的,要求对数 似然曲面

16、二次近似 于 MLE; Ghosh 等( 1988) 用完全贝叶斯方法来拟合ZIP 模型,获得了精确的可信区间。通常的泊松回归中,Diaconis 和 Ylvisaker( 1979) 讨论了回归系数在先验不合适情况下的后验合理性问题。4. 空间零膨胀泊松回归模型。生态学研究经常会计量样本站点内一个或者多个物种的个体数量,这些样本站点分散于整个研究区域,目的在于更好地了解哪些环境因素或者栖息条件对所感兴趣的物种更有利。分析空间相关的计量数据可以通过引入随机效应( Diggle 等,1998) ,或者利用边际模型,使用广义估计方程估计模型参数( Gotway 和Stroup,1997; Gotw

17、ay 和 Wolfinger,2003) 。生态学计数数据经常包含过多的零值,主要是因为样本站点中包含了不适应物种的栖息地,或者是物种分散到研究区域内所有部分的限制。Lamber( 1991) 提出了零膨胀泊松回归模型,并用于计量制造缺陷中的过多零值。零膨胀泊松回归还被用来模拟一种罕见负鼠物种的数量 ( Welsh 等,1996) ,甘蔗害虫的数量( Vieira 等,2000) ,实验培植的猩猩木上的粉虱数量( Van Iersel 等,2000,2001) 。零膨胀负 二项回归 也被用来 模拟过离 散数据( Welsh 等,1996) 。Hall ( 2000) 提出带有随机效应的零膨胀泊

18、 松模型,并用于纵 向数据的 分析。Agarwal 等( 2002) 提出针对空间计数数据的零膨胀模型。根据 Lambert ( 1992) 提出的方法,假定产生零的概率为 p,数据来自于泊松分布的概率为 1 - p。Logistic 回归用于模拟产生过量零的概率,对数线性模型用于模拟泊松均值。通过对 Logistics 回归或者对数线性模型加入空间相关的随机效应引入空间相关性。在这些随机效应的前提下,过量的零值是随机产生的。因此,无论多小的区域都会有无限多个样本站点可以观测到过量零,这种情况和原来的概念不相符,也即过量的零值产生于不适于物种生存的区域。5. 零膨胀时空过程建模。在过去的数十年

19、中,关于时空过程的建模发展迅速。有很多我们感兴趣的过程都是基于某一段时期在某个地区观测到的。例如,污染物水平、降雨量、某些疾病病例数,等等。对这类观测建模,我们的主要挑战是去描述潜在的时空协方差结构。然而,对于非负值并且有大量的零值出现的时空观测的建模,却没有太多的文献提及。在时空数据集条件下,Lambert( 1992) 考虑了零膨胀技术数据 模型。在一个 纯粹的空 间集中,Agarwal 等( 2002) 提出了对大量零值出现的区域水平数据使用零膨胀技术模型的方法。他们还提出了对零膨胀 模型的优 良评价。Wikle和 Anderson( 2003) 对飓风报道次数提出了一个分层贝叶斯时空模

20、型,该计数数据也有大量的零值存在。他们提出的模型基本上是针对区域水平上的离散观测,提出了零膨胀 泊松模型。 另一方面,Fahrmeir 和 Echavarria( 2006) 对空间结构和零膨胀数据提出了贝叶斯模型,考虑使用零膨胀泊松伽马模型,即零膨胀负二项模型。6. 生态零膨胀计数数据的贝叶斯时空建模。一个生态学的调查经常涉及到历年来在一个研究区域一个或更多物种的个体数目集合。这一调查的目的是为了估计和预测物种分布在这个区域的演变。生态计数数据的另一个独特的特点是在一个给定时间和位置的零计数的解释。Agarwal 等( 2002)应用 ZIP 模型来拟合等足类动物巢穴洞穴数据。Fei 和Ra

21、thbun ( 2006) 在一项橡树再生研究中使用了一个 ZIP 模型,用伯努利过程对空间相关性建模,并假设了泊松过程在不同位置独立。负二项模型提供了可与ZIP 模型相提并论的另一种两参数族。泊松模型实际上是负二项模型,即异质性参数归零的一个特殊情况 ( Hilbe,2007) 。然而,对于带协变量的负二项模型的参数估计并不像 ZIP 模型那样直截了当。最明显的是,负二项模型无法提供一个适合于物种存在概率的参数,且它的解释性不如 ZIP 模型简单。空间动 态模型中 的计算也 并不稳定( Fernandes 等,2009) 。关于零膨胀计数数据的时空建模有丰富的文献。Wikle 和 Ander

22、son( 2003) 在 19531995 年美国龙卷风数据的统计分析中使用贝叶斯分层时空方法应用了 ZIP 模型。他们假设了随空间变化的时间趋势和伴随有空间相关随机过程的厄尔尼诺的影响。Fernandes 等( 2009) 对连续非负值和具有点参考或地区空间结构的计数数据讨论了零膨胀时空过程。他们假设了贝努利和泊松回归模型中的随机过程都空间相关但对时间独立。在两项研究中,时间模式是通过时间协变量而不是随机过程来建模的。Ver Hoef 和 Jansen( 2007) 开发了具有时空误差的 ZIP 和跨栏模型,来研究冰川冰上斑海豹的 haul out 模式。对于计数数据建模已提出了时空随机过程

23、上的不同结构 ( Zhuang 和 Cressie,2012) 。然而,大部分对于零膨胀计数数据的时空模型要么依赖于时间或者时空协变量来对动态进化建模,要么假设时空随机过程不仅是可分的,还是可加的,这可能并不令人满意( Banerjee 等,2004) 。考虑到生态系统的复杂性,一些有影响力的时间或时空协变量可能观测不到或者不可得的情况是常见的。Salazar 等( 2011) 使用空间动态因子模型方法研究了来自于一组区域性气候模型的温度数据,且空间载荷矩阵是基于 Banerjee 等( 2008) 提出的高斯预测过程方法来构造的。7. 环境数据时空零膨胀计数模型。环境数据具有空间性与时间性,

24、并且常常含有许多零值。统计学家一直在发展通过增加复杂度来更好地处理这些数据的模型。时间序列、空间统计和零膨胀泊松( ZIP) 回归都已经很成熟。组合这些方法的模型例子不断增多,如处理高斯数据的时空模型( Wikle 等,1998) 、时间零膨胀泊松( ZIP) 模型( Dobbie 和Welsh,2001; Lee 等,2006) 与空间零膨胀泊松模型( Agarwal 等,2002; Rathbun 和 Fei,2006) ,等等。8. 气候预测模型。气候模型使用机械运动公式来对全球大气现象的变化进行仿真。大气环流模型( GCM) 被用来描述大尺度全球动力变化,并以捕捉到大气的长期变化为目标

25、。 区域气候 模型 ( RCM ) ( Giorgi 和 Mearns,1999) 对 GCM 的结果生成一个“动力缩减”( dynamic downscaling) 。评估使用多模型联合预测未来气候 的不确定 性,是世界气 候研究计 划( WCRP) 组合模型相互比较计划第三阶段( CMIP3)( Meehl 等,2007) 的核心问题。这些仿真包括了来自 23 个最先进的大气 - 海洋环流模型 ( AOGCM)组合的输出,并被作为 政府间气 候变化委 员会( IPCC 2007 ) 第四次评 估报告 ( AR4 ) 的基准。Knutti 等( 2010) 提供了近期的参考文献的资源,它们涉

26、及到整合不同模型的仿真所遇到的问题。现代统计方法,如 Smith 等( 2009) ,Rougier( 2010) 等文献中所提及的,使用分层模型、历史记录和多模型仿真组合,来得到感兴趣的变量的分布。因此评价一个气候模型和证实一个用来预测的模型是不一样的,因为气候模型需要一定程度的平均化。为了解决这一问题,需要提出相应的统计模型,来刻画观测记录和仿真间的差异,这一差异在时间上是一常数,或者在时空中平稳地变化。9. 分层贝叶斯时空模型。对飓风气象的研究源于其潜在的破坏性。利用美国气象局 ( NWS) 的飓风报告分析飓风次数是困难的。正如 Doswell 和 Burgess( 1988) 所总结的

27、那样,大多数报告实际上来自未经训练的观测者,只有少数在 1970 年之前是由受过训练的专业人员实地调查得到的。Concannon 等( 2000) 提出了一种估计每天 F2 F5( 强大和破坏性大的飓风) 气象概率的方法。Bruening 等( 2002) 应用Concannon 等( 2000)的分析过程分析 F0 F5( 所有飓风) 飓风报告,目的是调查飓风计数的同比变化情况。他们利用简单线性回归结果清楚地记录了全国每年飓风报告的增长趋势。同时认定了飓风报告中重要的年际和年度内变异性。Monfredo( 1999) 调查了美国中南地区和南部地区飓风报告之间的关系以及利用 NWS 的记录调查

28、南方震动指数。特别地,他利用零点温度和降水定义两个具有相同气象特征的地区。Marzban 和 Schaefer ( 2001) 对最近的飓风和厄尔尼诺现象给出了最全面的分析。他们利用 Kendall 相关非参数检验研究飓风活动与各种 SST 指标之间的关系。对于龙卷风活动,他们单独考虑总的报告计数以及龙卷风的天数。他们考虑了两个强度等级: F0 F5 和 F2 F5。发现一般来说当删除季节性影响后相关性变弱,但确实具有统计学意义的相关性。Hoerling 等( 1997) 从物理角度证明了这一结果。10. 时空数据的联合复合似然估计。时空数据来自于很多科学领域。近年来,统计研究者意识到空间统计

29、的困难,从两种方法上来提高运算速度: 一种是简化协方差结构; 一种是做似然近似,基于简化完全似然。然而,由于数据的高维特性,基于似然和贝叶斯的方法使得时间和空间的联合建模在计算上遇到了很大的挑战。Bai 等( 2012)提出了联合复合似然估计方程的方法来估计时空的协方差结构,从而减少了计算的复杂程度,并且比以往的复合似然方法更有效; Bai 等( 2014) 把这种方法推广到了空间聚类的数据。Bevilacqua( 2014) 等从复合似然的得分函数中推导了欧几里得似然估计量,这种方法的特征是考虑了成对似然依赖于空间区块的选取,从而提高了计算效率。( 二) 国内研究状况对于我国而言,对大数据概

30、念的认识是一个逐步深化的过程,起步较晚,而且目前“大数据”尚未以专有名词被我国政府提出并予以政策支持,只是在 2011 年 12月 8 日工信部发布的物联网“十二五”规划中,信息处理技术作为 4 项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这些是大数据的重要组成部分。涂子沛的大数据一书,主体是通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例奥巴马建设“前所未有的开放政府”的雄心、公共财政透明的曲折、数据质量法背后的隐情、全民医改法案的波澜、统一身份证的百年纠结等来细述数据创新给公民、政府、社会带来的种种挑战和变革。全书主体是美国,但又

31、处处反观我国当下的现实。以 CNKI( 中文知网) 的中国学术期刊网络出版数据总库为数据源,检索篇名 =“海量数据”或“大数据”或“big data”或“extensive data”,截止到2012 年 11 月 9 日,共检索出文章 1439 篇,经过去重、筛选等,保留相关文献1121 篇,实际数据统计显示,目前国内大数据领域核心发文机构主要以中国科学院、国防科技大学、北京大学、清华大学、中国人民大学、浙江大学、中 国移动等 10 家科研院 校为代表20。反映了我国学术界对大数据的探索现处于初级阶段,同时也反映了大数据这个领域的强大发展潜力,无论对于个人还是企业亦或是国家,谁占领大数据时代

32、的制高点,谁就赢得主动和先机。其中,特点较为突出的研究主要有:韩晶( 2013) 研究了大数据服务架构、大数据服务数据模型、大数据服务模型以及大数据服务应用方面的关键技术。该文的主要创新点有: 针对已有非结构化数据模型难以满足大数据服务需求的问题,提出了一种基于主体行为的非结构化数据星系模型( Galaxy Data Model,GDM) ; 针对缺乏能够涵盖大数据特征的服务模型的问题,提出了一种基于扩展 OWL-S 本体的大 数据服务 模型 ( ExtendedOWL-S based Big Data-as-a-Service,EO-BDaa S) ; 针对大数据检索服务准确度较低的问题,提

33、出了热度敏感的非结构化数据检索排名优化算法HotRank;针对大数据服务中对服务快速响应的要求,提出了一种基于数据热度识别的混合预取算法 ( HybridPrefetch Algorithm,HPA) 。赵云山、刘焕焕( 2013) 研究了大数据技术在电力行业的应用问题。指出电力大数据综合了电力企业的产、运、销及运营和管理数据,展望电力行业信息化的未来,“集约化、精细化、信息化”的集团管理将成为进一步提高电力行业运营效率和管理水平的主要方向,而大数据技术的应用势必成为这一进程的焦点。如何利用好大数据,充分挖掘企业数据资产,更好地服务电力行业发展和广大电力用户将成为电力企业持续发展的重要研究课题

34、。方巍等( 2014) 首先从大数据概念入手,阐述了大数据的来源、主要挑战、关键技术、大数据处理工具和应用实例等,并分析了大数据与云计算、物联网、移动互联网等技术之间的关系,然后剖析了大数据核心技术、大数据企业解决方案,并给出了目前大数据应用实例,最后归纳总结了大数据发展趋势。何清( 2014) 的报告包含以下四方面内容: 大数据的价值; 大数据带来的挑战; 大数据研究成果; 云计算是大数据挖掘的主流方式。阐述了对大数据的理解,以及对大数据价值的认识,探讨大数据处理与挖掘技术。提出了没有互联网就没有云计算模式,没有云计算模式就没有大数据处理技术,也就没有大数据挖掘技术的观点。王元卓等( 201

35、3) 认为网络大数据是指“人、机、物”三元世界在网络空间( Cyberspace) 中交互、融合所产生并在互联网上可获得的大数据。网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的 IT 架构以及机器处理和计算能力带来了极大挑战。同时,也为人们深度挖掘和充分利用网络大数据的价值带来了巨大机遇。因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法。该论文分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研

36、究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的 IT 基础架构和数据的安全与隐私等方面的发展趋势进行了展望。张学敏( 2014) 指出近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。大数据主要包括两方面特征: 一方面整个社会的信息量急剧增长,另一方面个人可获取的信息也呈指数增长。从科技发展的角度来看,“大数据”是“数据化”趋势下的必然产物,并且随着这一趋势的不断深入,在不远的将来我们将身处于一个“一切都被记录,一切都被数字化”的时代。在这种背景下,对大数据的有效存储以及良好的分析利用变得越来越急迫。而数据分析能力的高低

37、决定了大数据中价值发现过程的好坏与成败。该论文以大数据时代的数据分析为主题,简明地阐述了国内大数据分析的发展现状、大数据的分析模式以及主要的分析技术、大数据时代数据分析的几个核心概念等相关问题。耿直 ( 2014)认为针对大数据环境,需要研究新的适应性、序贯性、动态的抽样方法以及研究如何确定满足统计目的和精度所需的样本。由此可见,抽样作为一种经典的统计方法,在大数据时代仍然可以发挥重要的作用。在大数据分析中,随机抽样是一种很受欢迎的方法。而人们往往更关心的是抽样后的估计结果能否代表总体或者近似于总体的程度。然而,我们知道高杠杆点出现的同时也有可能存在异常点或强影响点。由于异常点具有较大的残差,

38、因此我们希望能从样本中将其探测出来,从而去除其对估计的影响。中国政府统计部门近几年在大数据方面做了大量的工作,有力地推动了我国的大数据研究。众所周知: 当前政府越来越需要更及时、更精细和更可靠的统计数据作为决策依据。但 20 世纪的统计思想和方法显然难以解决 21 世纪的问题。中国的体制和社会改革正在深入进行,例如户籍制度改革、代码系统更替、国家基础数据库建设以及统计 2. 0 支持现代管理和多领域的应用,需要顶层系统设计、高质量的数据整合、基于非随机收集数据的统计推论。赵彦云等( 2015) 认为可把中国政府统计粗略地划分为三大类: 计划经济下的政府统计、市场经济下的政府统计以及现代互联网信

39、息技术下的政府统计。依据这三大类来讨论政府统计的核心统计设计就比较清楚了,这说明政府统计是根据内外部条件决定其发展及统计设计的,核心统计设计只是进一步突出了核心统计内容的设计特点。计划经济下的政府统计,主要是用统计数据检查计划完成情况和制定下一轮计划。市场经济下的政府统计,主要特征是在统计法约束下的公共统计数据的生产和使用,理论上讲应该为产品市场和要素市场有效运行提供以价格为中心的公共统计数据,促进技术创新和管理及组织等创新,引领要素合理流动和资源最优配置,追逐高效率,不断为国民增加财富。现代互联网信息技术下的政府统计的核心设计应该体现统计法 +技术基础设施支持下的政府统计的生产和使用。二、价

40、值和意义面临大数据时代的来临,传统的统计理论会如何变化,这正是本文选题的原因所在。本文旨在研究大数据时代下统计学理论的传承性、复杂性、前沿性、综合性等现实问题,以人文社会科学为基础,进行跨学科研究,以此推动经济、金融、统计学、数学、教育学等交叉学科体系、学术观点和研究方法的创新发展,推进学科之间的交叉融合和学者之间的交流互动。( 一) 大数据时代统计学理论创建工程当今科研的前沿领域随着科学技术的飞速发展,大数据时代诸多科学研究领域将产生多种多样的海量超高维多元复杂大数据。面对这些高速增长的复杂超高维海量大数据的挑战,要求当代统计学家具有快速提取所需信息的能力。因此,就统计学学科自身而言,通过对

41、这些复杂大数据的分析,研发出强有力的数据分析工具,形成相应的大数据统计学理论,以解决一些复杂性、前沿性、综合性的重大现实问题。我们不难发现目前一些学术造诣深厚的研究者已经将他们的研究兴趣转移到了高维多元复杂数据分析工程上来。( 二) 大数据时代统计学理论创建工程当今科研的交叉领域我们知道统计学背后牵涉到更多数学导向的领域,如概率论,或是从经验科学如天文学中获得的经验证据设定估计参数等。在今日世界统计学已经不仅仅在国家或政府的事务中使用,更延伸到商业、自然及社会科学等更多方面。因为统计学拥有深厚的历史以及广泛的应用性,统计学通常不仅被认为是数学所处理的对象,而是与数学本身的哲学定义与意义有密切的

42、关联。随着大量产生于当今各领域复杂数据不断的快速增长,统计学家一直在积极参与跨学科领域的科学研究。从统计学的发展史可以看出,随着数据量增大,统计学家面临的机遇也越多,相关的统计学理论和方法也得到了空前的发展。反过来,推动着许多重要领域或科学前沿取得突破。( 三) 大数据时代统计学理论创建工程意义重大1 我们可以在大数据时代下关于高维多元复杂数据分析中形成一整套相关的大数据统计学理论和方法,促进交叉科学的“大数据时代超高维多元复杂数据分析”这一国际前沿研究; 2 将我们的大数据时代新的统计方法应用到国民经济和社会发展中,具有广阔的应用前景。例如在金融风险管理方面的应用,包括大数据时代高维空间里的

43、风险值的快速而精确地计算; 事实上,当人们仍然在把微博等社交平台当作抒情或者发表议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,并用其预判市场走势,取得了不俗的收益。这些都是大数据分析中统计学理论有效应用的结果。( 四) 大数据时代统计学理论创建工程抢占制高点国内外的研究表明,大数据时代下统计学中高维多元复杂数据工程正需要从各前沿研究领域中收集数据,挖掘有用信息,它亟需与多学科交叉,亟待发展新的理论与方法。前期研究结果表明,整合统计学中高维多元复杂数据工程研究的优势力量,加强学科交叉,针对大数据时代下复杂数据统计推断的需求开展具有源头创新性的大数据理论及方法研究以及进行大量

44、的实证研究的条件已基本成熟。我们必须把握机遇,迎难而上,尽快发展出具有源头创新、拥有独立知识产权的大数据高维多元复杂数据分析理论、方法及软件,为我国大数据时代下统计学的发展提供推动力。总之,大数据统计学重构研究,能够部分整合国内外相关学科的学术力量,积若干年的持续研究,产出一批具有原创性和学术价值、在国内外具有较大学术影响、能够传之后世的重大学术成果及若干学养深厚的学术大家,奠定我国在该领域的学术领先地位。三、问题与方向本文重点介绍一些大数据时代下统计学基本理论框架的重新构建,以及这些理论与其他学科交叉应用研究等一系列重大理论与应用问题,这些前沿研究主要包括:( 一) 大数据统计学基本理论的发展研究1. 大数据时代统计学总体理论框架构建。传统统计学认为样本数据来自总体,而总体是客观存在的,我们可以通过观测到的数据来认知总体。在大数据时代,样本渐趋于总体,不是随机样本,而是所有数据,我们还需要假定一个看不见、摸不着的总体吗? 否则的话,我们又该怎样来修正总体的“公理化”定义?2. 大数据时代下的抽样理论。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报