1、大数据与宏观经济分析研究综述 刘涛雄 徐晓飞 清华大学经济学研究所 摘 要: 大数据对宏观经济分析具有革命性的意义。在大数据时代,纷繁复杂的数据实时可得,整个社会经济产生了根本的变化。大数据在宏观经济分析应用中最活跃也是最重要的四个领域为:宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策。本文对大数据背景下宏观经济数据挖掘的来源和宏观经济预测方法进行了评述,探讨了大数据分析技术如何将机器学习算法引入宏观经济分析,利用 LASSO 算法解决“维数灾难”。本文还研究了大数据对宏观经济政策制定的影响,并在此基础上对大数据背景下的中国宏观经济分析提出了对策建议,认为政府应加大扶持力度,搭
2、建平台,及早建立基于大数据的宏观经济分析模型,并加强学科和专业教育。关键词: 大数据; 宏观经济; 数据挖掘; 机器学习算法; 预测; 基金:中国博士后科学基金面上项目“大数据与宏观经济现时预测研究”(2014M560068)的阶段性成果一、引言随着互联网的普及,信息总量正以空前的速度爆炸性增长,人类社会进入了一个以“PB”( 1PB = 1024TB,1TB =1024GB) 为单位的数据信息新时代,即大数据时代。大数据,是指巨大而多样化的数据集,这些数据的处理超出了目前主流软件的能力,因此必须改进处理数据的工具。“大数据”术语最早可以追溯到Apache 公司的开源项目 Nutch ( 一个
3、开源软件实现的搜索引擎) ,伴随谷歌的Map Reduce ( 映射和归 约, 是一种编 程模型,用于大规模数据集的并行运算) 和 GFS ( 可扩展的 Google 文件系统) ,大数据不仅代表着数据规模,而且包含了数据处理的速度。目前一般认为,大数据的典型特点可以用“4V”即大量化 ( Volume) 、快速化 ( Velocity) 、多样化 ( Va-riety) 和价值化 ( Value ) 来概括。一是数据体量巨大。据估计,人类至今生产的所有印刷材料的数据量大约为 200PB,而历史上全人类说过的所有的话的数据量大约为 5EB ( 1EB = 1024PB) 。当前互联网上的数据以
4、每年 50% 左右的速度增长,人类 90% 以上的数据都是最近几年产生的,到 2013 年,全球存储的数据预计能达到约 1. 2 ZB ( 等于 2 个字节,约 10 亿 TB) 。二是处理速度快。在如此海量的数据面前,处理数据的效率就是企业的生命。社交媒介、移动设备、网上交易和网络设备更新的速度非常快,巨大的数据流会导致传统数据分析的软硬件被淘汰,产生从快速生成数据中实时获取价值的专门技术和数据分析系统。三是数据类型繁多。构成大数据的信息类型来源不同,包括网络日志、音频、视频、图片、地理位置信息等。其中大概只有约 10% 属于结构化数据适合整齐地进入相关数据库的行和列,其余 90% 是非结构
5、化数据。四是价值密度低。价值密度的高低与数据总量大小成反比。例如,一部 1 小时的视频,在连续不间断监控过程中,可能有用的数据只占一两秒时间。如何通过强大的机器算法更迅速地完成数据的价值“提纯”变得十分重要,也是数据挖掘的关键。大数据正在深刻地影响着整个社会和经济的发展。从经济分析的角度看,国际上的大数据研究首先在行业研究、商务分析和企业应用层面快速发展,并逐渐影响到经济分析的各个领域。当前,在宏观经济分析中如何充分利用大数据方法和技术已经开始在国际上引起重视,从国内的情况来看,将大数据与宏观经济联系起来的研究还鲜有见到,宏观经济政策制定者对此也重视不够,而这正是本综述的目的和意义所在。二、大
6、数据对宏观经济分析的革命性意义大数据开启了巨大的时代转型,就宏观经济分析而言,大数据时代带来的转变是重大且具有革命意义的。首先,大数据极大地拓宽了信息来源。大数据时代的重大变化是海量的可得数据。传统经济分析依靠的数据主要是样本,而在大数据时代,得到的数据可能就是总体本身,例如就物价而言,每一笔在电子商务网站成交的交易信息都能记录在案。大而全的可得数据对宏观经济分析是极其重要的,可以准确了解宏观经济形势,正确做出宏观经济发展预测,合理制定宏观经济政策。这些优势是传统经济分析方法无法想象和实现的。其次,大数据时代信息获得的速度大大提高,很多信息实时可得。传统的经济分析主要依靠结构化数据,这些数据最
7、明显的缺陷就是具有很强的时滞性。例如,政府公布的季度 GDP 往往会有 1 个月的滞后期,而反映全面经济社会状况的统计年鉴的滞后期会达到 3 个月左右,这对及时了解宏观经济形势、预测与预警都是非常不利的。大数据时代信息产生和传递的速度空前加快,如互联网上的大量信息是实时的,移动互联网和物联网使每个人随时随地都可能制造数据。大数据经济模型可以充分利用数据的实时性,提高分析或预测的时效性,为经济预警和政策制定提供最快速的资料和依据。第三,大数据带来宏观经济分析的方法论变革。传统的经济计量模型建立在抽样统计学的基础上,以假设检验为基本模式。随着信息量的极大拓展和处理信息能力的极大提高,经济分析可能从
8、样本统计时代走向总体普查时代。这一点对宏观经济分析意义重大,因为宏观经济系统纷繁复杂,如果能将对整体宏观经济变量的分析建立在尽可能多的关于经济主体行为的信息以及其他诸多经济变量的信息的基础上,甚至抛弃原有的假设检验的模式,无疑将会极大地提高宏观经济分析的准确性和可信度。同时,经典计量模型以因果检验为核心,而大数据分析则往往将相关性发掘作为首要任务。在复杂的宏观经济系统中,当许多宏观经济中的因果关系往往难以准确检验、因果结论经常广受质疑时,更重视可靠相关关系的发掘,充分利用相关关系对于经济预测、政策制定与评估的作用,无疑为宏观经济分析打开了另一片广阔的空间。正因为如此,维克托迈尔 - 舍恩伯格
9、( Victor Mayer - Schonberger) 与肯尼思 库克耶 ( KennethCukier) 认为建立在相关关系分析基础上的预测是大数据的核心。第四,大数据促进了宏观经济分析技术的革新。传统的分析技术基于关系型宏观经济数据,而分析模型主要基于统计数据,而大数据中的大量信息是非结构化的,数据的来源和形式复杂多样。如互联网信息包含文本、图片、影音等多种形式,在此状况下进行宏观经济分析,有必要借鉴计算机领域已经出现、但在现有经济领域还少有应用的数据处理技术,例如机器学习。机器学习已经在图像识别、语音识别、自然语言处理、智能机器人等领域取得了巨大成功,是当前进行大数据分析的基本手段。
10、此类技术在宏观经济领域的应用会极大地提高经济分析的能力,改进分析结果、提升分析价值。另外,传统的经济计量对海量数据难以分析,发展适合大数据的分析模型是经济计量面临的重大挑战。国际学术界和宏观经济政策制定者已经意识到大数据对宏观经济分析的革命性影响,将大数据的概念、方法、技术和宏观经济分析结合起来的做法正逐步得到重视,一些意义深远的研究工作逐步兴起。综合起来看,这些研究主要集中在宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策四个领域。三、宏观经济数据挖掘数据挖掘正在成为一个热门行业。简单地说,数据挖掘就是大数据时代的统计调查。随着互联网信息技术的逐步发展,获取的数据种类越来越多,
11、数量越来越庞大,更新速度越来越快,数据中有大量“噪声”存在。显然,传统的统计调查方法不能适应大数据时代信息收集的需要,比如在内容形式上,互联网上的诸多信息是以多媒体方式存在的,统计调查无从下手; 面对海量信息,统计调查速度慢,效率低。因此,充分依靠计算机进行信息收集的各种新技术应运而生,被称为“数据挖掘”。数据挖掘多在利用网络爬虫软件的基础上建立机器学习模型。其过程一般包括: 先利用网络爬虫软件将原始信息从网上抓取下来; 然后通过一定方法对这些数据进行 清洗,将大量内 容无用的“噪声”过滤掉,保留值得加工的信息;最后对剩下的内容进行加工提取,并转化为一定程度结构化的可用数据,如标准化为时间序列
12、等。这一过程已经成为大数据方法中的标准程序之一。从宏观经济分析的角度,根据信息来源的种类,数据挖掘大体可分为两类。第一类是对数量信息的收集整理。这一类工作要解决的问题是信息来源量大面广和快速更新的问题,比如麻省理工学院的“10 亿价格项目” ( The Billion PricesProject ,BPP) 。研究团队在经济学家阿尔伯托卡瓦洛 ( Alberto Cavallo) 和罗伯托瑞格本 ( Roberto Rigobon) 的带领下,通过“网络抓取技术” ( web scraping) ,利用网上购物交易数据计算日常通胀指数,收集世界来自 70 个国家、300 个零售商、共 500
13、万种在线商品的价格,建立了通胀指数的日发布系统。相比传统 CPI 的月发布机制, “10 亿价格项目”仅有 3 天的滞后期,几乎实现了通货膨胀的实时预测。第二类是对非数量信息的收集整理。比如如何从文本、图片、视频等素材中挖掘出结构化、数量化的信息。这类工作除了要解决前述问题,还面临将非结构化数据转化为结构化数据这一更困难的艰巨任务。对一项典型的文本数据挖掘工作而言,假定任务是从日常的新闻报道中挖掘出媒体对经济的信心指数,那么基本过程包括四步。第一步是选取部分文本,请专业人士进行标注以便分类,如可分类为“乐观、中性、悲观”三类,同一个文本可由三人分别标记,然后采取一定方法来计算语料标注的一致性,
14、只有通过,方能被用于观点分类。第二步是对文本进行特征抽取和选择,特征抽取方法包括基于规则的特征抽取和基于统计的特征抽取。第三步是在特征抽取信息的基础上建立分类器,可同时考虑来源单位、作者身份、文本性质这三类信息,对已标注文本通过机器学习 ( 如采用支持向量机算法) 建立分类器。第四步是将此分类器应用于分类未标注文本,并将分类结果转化为时间系列数据。数据挖掘是在借鉴众多领域研究思想的基础上逐步发展的,借鉴了统计学的抽样估计、人工智能和机器学习的搜索算法、建模技术和学习理论,还借鉴了信息论、最优化、可视化、信号处理和信息检索等思想。目前广为接受的数据挖掘处理模型是法耶德 ( Usama Fayya
15、d) 等人设计的多处理阶段模型。利用该模型数据挖掘,意在集中寻求数据挖掘过程中的可视化方法,便于人机交互; 利用该模型也可以增强对多媒体数据、文本数据和图像数据等各种非结构化或半结构化数据挖掘的准确性。四、大数据与宏观经济预测大数据时代信息的实时和快速为及时高效的预测提供了可能,信息的规模庞大为准确合理的预测提供了机会。大数据背景下的宏观经济预测将更加有效、实用。国际上利用大数据进行经济分析与预测取得了一定的进展。BPP 项目利用网上购物交易数据计算日常通胀指数。例如,BPP 的数据显示,在雷曼兄弟公司 2008年 9 月倒闭后,大部分美国企业几乎立刻开始削减价 格,这表明总 需求已经 减弱。
16、相比之下,官方通胀机构公布的数据直到当年 11 月,即在 10 月 CPI 数据公布后,才对通货紧缩有所反应。崔玄英( Hyunyoung Choi) 和瓦里安( Hal Varian)介绍了谷歌趋势( Google Trends) 如何可以用来为预测当前经济变量服务,发现失业和相关福利的搜索可以提高对于失业救济首次申请时间的预测。阿斯基达斯( N.Askitas ) 和齐默尔 曼 ( K. F. Zimmermann)、阿穆里( F. DAmuri)以及苏霍依( T. Suhoy)也发现,互联网搜索可以预测德国、意大利和以色列有关劳动力市场的状况。崔玄英和瓦里安以及吴 ( L.Wu) 和布林
17、约尔松 ( E. Brynjolfsson) 发现,与住房有关的搜索可以改善传统模式对美国住房销售的预测。韦博( G. K. Webb) 认为,“止赎权”的检索次数和取消抵押品赎回权的实际数目是美国住房市场问题的一个早期预警。麦凯伦( N. Mc Laren) 和山波霍格( R. Shanbhogue) 检验了在线搜索对英国就业和住房市场预测活动的重要性,指出包含因特网搜索的模型提高了预测效果。利用大数据对宏观经济进行预测最重要的方面当属宏观经济的现时预测 ( nowcasting) 。“现时预测”一词最初源于气象学领域,是针对现在已经发生的事可能因为信息获取困难等原因难以直接知道准确情况,因
18、而根据可得信息来进行推测。比如对宏观经 济而言,在月底估 测本月 GDP 总量是现时预测,因为“本月 GDP 是多少”这件事已经发生了,只是我们还不能马上拿到相关数据。因为信息技术的发展导致大量实时信息容易采集,崔玄英和瓦里安强调应充分利用大数据方法为经济现象的现时预测服务。目前对宏观经济的判断依赖于各种统计调查系统发布的统计数据,但面临的最大困难之一便在于关于宏观经济统计的数据滞后太多,基于此统计进行的预测甚至被认为助长了宏观经济波动。大数据时代大量实时数据的产生,为更快捷地估测宏观经济提供了可能,大数据理论与方法的发展则为现时预测提供了新的条件。大数据也使得宏观经济预测模型产生了变化。传统
19、的经济预测往往通过建立时间序列、截面或面板方程等几个模型来进行,变量的完整被认为是不可能的。由于模型变量选择、参数设置、估计方法以及滞后期选择等的不同,预测结果会产生很大的偏差。大数据时代可以应用大量模型进行研究,并应用完备的数据信息,这对预测模型的改进提出了挑战,同时提高了预测的准确性。麦凯伦和山波霍格指出,大数据对分析预测意想不到的事情也是特别有帮助的。例如经济形势的变更、暂时的工厂关闭和罢工等,传统的调查数据须根据预定的问题进行收集,而大数据时代搜索数据更灵活,可用于评估这些特殊情况,对宏观经济进行合理预测。五、大数据分析技术与宏观经济分析人类对大数据特别是结构化的、甚至看似杂乱无章的海
20、量数据的分析能力的大大加强,有赖于机器学习 ( machine learning) 算法的迅速发展。简单地说,机器学习就是让计算机经过“训练”在输入变量和输出变量间建立起某种“最佳”的匹配关系。所谓 “训练”,是指把输入和输出信息都已知的样本输入计算机,然后根据一定的算法,由计算机生成由输入变量预测输出变量的方法。“机器”能够伴随计算、运行次数的增多,通过学习逐步自我提高和改善,使挖掘和处理更为准确。机器学习的主要算法包括线性模型、拓展的线性模型、决策树、支持向量机、人工神经网络、自组织映射网络、遗传算法等等,并仍在蓬勃发展。机器学习已经在图像识别、语音识别、自然语言处理、智能机器人等诸多领域
21、取得了巨大成功,是当前进行数据挖掘和大数据分析的基本手段。大数据推动数据的分析向机器学习方向发展。从根本上讲,机器学习力图通过计算机模拟或实现人类的学习行为来获取新的知识或技能,并且重新组织已有的知识结构使之不断改善。宏观经济分析也必然会成为机器学习模型的重要消费者;同时,宏观经济研究分析的需要也必然会反过来促进机器学习方法的进一步改进和发展。在宏观经济模型中,通过大数据挖掘,可得解释变量会大大增加,因此研究中会出现高维数据问题,即因可得信息“过多”,往往会出现和被解释变量 ( 如 GDP) 相关的解释变量数量过多,产生所谓的“维数灾难” ( curse of dimensionality)
22、。如在线性回归问题 Y = X + 中,其中 Y 为 GDP,X ( 向量) 为可得的解释变量。样本为时间系列,其数量受限于可得的时间间隔数,当X 中的解释变量数大于样本数时,无法用最小二乘法得到系数 的估计。目前机器学习理论中对此问题已有不少 方法,采用最多 的是 LASSO( Least Absolute Shrinkage and Selection Operator) 算法。这种算法可直观理解为在最小二乘法基础上,增加一个惩罚项 1。通过惩罚项的引入,LASSO 可以对一些次要变量赋予系数为 0,同时实现对变量的选择。“高维”数据问题已经成为当前经济计量模型研究中的一个前沿和热点领域。
23、处理高维数据能力的提升将大大增强大数据对宏观经济分析的意义,使得“大”成为有用之“大”。另外,基于大数据的社会网络和社会计算等其他分析技术也在蓬勃发展,并在大数据宏观经济分析方面有着重要的应用前景。六、大数据与宏观经济政策制定大数据革命为政府的宏观经济政策制定提供了机会。政府在政策制定上可以通过大数据分析系统提升公共服务质量,增加服务种类,并为公共服务提供更好的政策指导。同时,在大数据分析的运用、提高效率、与其他政策和技术协同以及为公共服务领域带来变革等方面,政府可以加大重视和投入力度,为经济的进一步发展提供支持。大数据给政府的经济统计工作带来了巨大影响。首先,面对大数据带来的技术变革,政府应
24、该将其纳入政府统计之中。经济统计要充分利用大数据时代提供的技术和条件,促进政府统计工作的变革。例如“10 亿价格项目”便是政府应对大数据变革的成功典范。其次,面对大数据带来的统计对象扩充,政府不但应当重视结构化数据,更应当重视挖掘非结构化数据,以期找寻出恰当的经济统计指标。大数据时代,非结构化数据包含更多信息,而且利用互联网进行的数据挖掘,不仅可以得到数字资源,文本数据也可以通过挖掘获得。第三,面对大数据带来的统计资源的拓展,政府应该将其统计资源拓展到政府以外,重视拓宽其他数据资源。在过去,政府靠自己的力量收集数据,但在大数据时代,人人都是数据的制造者。例如,谷歌和百度等数据巨头拥有大量政府无
25、法获取的数据资源。政府要想办法让数据巨头将数据放到统计中来,而不能仅靠自己调查统计。西方国家已经重视利用大数据来提高宏观经济政策的决策性,美国和澳大利亚就是成功的典范。2012 年 3 月,美国奥巴马政府推出“大数据研究和发展计划”,涉及美国国家科学基金、国家卫生研究院、能源部、国防部、国防部高级研究计划局、地质勘探局等 6 个联邦政府部门。政府承诺投资超两亿美元,大力推动和改善与大数据相关的收集、组织和分析,以推进从巨大而复杂的数据集合中获取信息的能力。美国普查局在将大数据与统计调查相结合方面也走在了前列。2012 年,美国普查局向公众开放了普查应用程序接口,通过软件开发商专门设计了网络和移
26、动应用程序,用户可通过手机 APP 对人口、社会普查数据下载使用。在 2020 年的普查中,美国普查局计划采取“网络抓取技术”等多模式进行数据收集。美国未来试图实现企业数据与普查、调查数据的全面融合,提高统计调查的效率和质量。澳大利亚大数据政策由澳大利亚信息管理办公室于 2013 年 8 月正式提出方案,并对与之相关的政府部门进行了界定,对涉及相关隐私和安全的内容进行了阐述。目前,一系列大数据的试点项目已经展开。这些试点将对大数据工作组和澳大利亚政府数据分析重点科研中心 ( 隶属于澳大利亚税务局) 提供支撑。七、结论与建议大数据时代极大地拓宽了信息来源、提高了获取信息的时效性,同时,新信息的非
27、结构化对宏观经济分析的技术和方法提出了新的要求。在大数据背景下,由于数据噪声的存在,宏观经济数据挖掘变得十分重要,这就要改进技术,加强对非结构化和半结构化数据的挖掘。实时、快速、海量的数据为更加准确的宏观经济预测提供了可能,宏观经济预测模型也有待于进一步更新。在大数据时代,可以将机器学习算法引入宏观经济分析,改进宏观经济分析技术,解决“维数灾难”,提高宏观经济分析的准确性。大数据也将促进政府经济政策制定的变革,提升政策的时效性,提高政府服务效率。与西方国家相比,中国目前在利用大数据进行宏观经济分析方面尚显薄弱,工作尚待加强。为了在大数据时代更好地发展经济,应该挖掘更多的宏观经济数据资源,实现计
28、算机实时在线数据收集,尽快建立基于大数据的宏观经济分析模型,开发大数据上线软件,以尽早完成基于大数据的宏观经济预测分析系统,为宏观经济提供更及时、更准确的预测,为中国经济发展做出贡献。第一,政府和相关研究机构应该加大投入,开展相关科研或立项,为大数据与宏观经济分析的研究提供环境和宏观层面的支持。特别是跨学科领域,目前正需要信息技术和经济学相关领域学者的合作,国家要采取措施创造合作的机会。第二,决策者应加快步伐,搭建平台,充分利用大数据服务于宏观经济政策的制定。决策者要明确大数据带来的机会和挑战,摒弃旧俗,加快相关改革,更新观念,整合资源,跟进大数据时代的步伐,开发新技术,探讨新理论,及时应用大数据与宏观经济分析的研究成果改善宏观经济政策。第三,科学合理的预测模型是经济政策合理的基础,中国应尽快建立一批基于大数据的宏观经济分析和预测模型,开发大数据预测上线软件,使宏观经济预测更早、更及时、更准确。第四,应加强大数据与宏观经济相关方面的学科与专业教育,建立经济数据分析新专业,培养相关人才。