收藏 分享(赏)

(11.2)--第十一章课外阅读:政治科学视角下的大数据方法与因果推论.pdf

上传人:职教中国 文档编号:13949780 上传时间:2022-11-09 格式:PDF 页数:11 大小:408.11KB
下载 相关 举报
(11.2)--第十一章课外阅读:政治科学视角下的大数据方法与因果推论.pdf_第1页
第1页 / 共11页
(11.2)--第十一章课外阅读:政治科学视角下的大数据方法与因果推论.pdf_第2页
第2页 / 共11页
(11.2)--第十一章课外阅读:政治科学视角下的大数据方法与因果推论.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、政治科学视角下的大数据方法与因果推论*内容提要 : 伴随着科技进步和治理实践 的不断演进 , 日新月异的组织制度环境 、学科间融合和新兴方法的广泛应用 , 持续驱动着政治科学理论和方法创新 。大数据既是新兴研究方法 , 为政治学研究提供丰富数据源 , 更是政治学研究新议题 , 日益为政治学的知识生产提供新动力 。针对政治科学对因 果性知识的严格要求 , 大数据方法被认为重视相关性分析而非因果性研究 。近年来 , 伴随着大数据方法在方法论层面日趋成熟 、方法技术日益丰富 、研究议题逐步拓展 , 且与传统社会科学方法逐步融合 , 大数据方法推进因果推论的能力逐步完善 , 革新着数据采集 、概念测量

2、 、相关性分析 、因果性与预测性分析等因果推论的各环节 , 形成了大数据 与统计方法 、大数据与小数据分析 、大数据与实验研究 、大数据模拟方法等多种生产和检验因果性知识的方法路径 。关键词 : 大数据 研究方法 因果推论 小数据 实验研究一 、引言21 世纪以来 , 人类社会进入科 技突破和治理演进的新时代 , 世界各国在技术革新的驱动下纷纷开展了一系列制度改革 , 推动着国家和 全球治理的发展 。这对政治科学及时应用创新方法探讨新议题提出了迫切要求 。国内外政治学家 认为 , 政治学发展的前沿正在经历探究政治现象背后之因果关系的变革, 而这一变革的推进源于过去半个 世纪以来政治科学理论与方

3、法的长期积累 , 更源于人类社会对政 治学知识生产之内容 、质量和价值的重新定义。简言之 , 政治学迫切需要生产兼具规范性和 经验性 、描述性 ( 相关性 ) 与因果性 、解释性与预测性的政治学理论和知识 , 构建知识体系, 为人类社会的治理进 步提供更为坚实 、可行和有效的知识贡献 。政治92*本文为国家社会科学基金青年项目 “治理能力视域下政府质量评估体系及提升路径研究 ”( 15CZZ036) 、北京市社会科学基金一般项目 “大数据时代网络舆论引导机制及效 果研究 ”( 16ZGB005) 的研究成果 , 受到清华大学社会科学学院和数据研究院合作计划支持 。King G. , Keoha

4、ne . O. , Verba S, Designing Social Inquiry: Scientific Inference in Qualitative esearch, Princeton, NewJersey: Princeton University Press, 1994. p. 3. 宁骚 : 我国政治学研究的新方向 , 新视野 , 1999 年第 5 期 。Gerring J., “The Mechanismic Worldview: Thinking Inside the Box”, British Journal of Political Science, Vol. 3

5、8, No. 1,2008. 孟天广 : 从因果效应到因果机制 : 实验政治学的中国路径 , 探索 , 2017 年第 5 期 。张桂琳 : 多重因果路径分析述评 , 政治学研究 , 2008 年第 5 期 。Henry Brady, “Causation and Explanation in SocialScience”, in Janet Box-Steffensmeier, Henry Brady, and David Collier ( eds. ) , The Oxford Handbook of Political Methodology,Oxford: Oxford Univer

6、sity Press, 2008, pp. 217 270 唐世平 : 超越定性与定量之争 , 公共行政评论 , 2015 年第 4 期 。学 ( 乃至整个社会科学 ) 的发展始终与科技进步紧密联系 , 科技进步为政治学研究创造着新议程 , 提供了新方法 , 更直接介入政治过程 , 推动着国家或社会治理的理论与实践发展 。作为互联网 、ICT 技术和机器学习技术革新的重要成果 , 大数据无论是作为新兴研究方法 , 还是作为新议题 , 都对政治科学的理论和方法更新产生了重大影响 , 为大数据时代政治学知识的生产和积累提供了创新途径, 政治分析 还专门刊出 “政治科学中的大数据方法 ”网络专刊。尽

7、管对政治科学研究的使命有着不同理解 , 金 ( King, G. ) 等学者在经典著作 社会科学中的研究设计 中尝试着对 “科学研究 ”提出四项基本要求 : 其一 , 以 ( 描述性和因果性 ) 推论为研究目的 ;其二 , 采用公开的研究程序 ; 其三 , 结论是不确定性的 ; 其四 , 科学研究的要核是关于方法的。此后 , 大量政治科学家围绕政治科学的知识贡献 、研究议题和方法展开了激烈辩论 , 但几乎所有学者均认为政治科学研究的目标应该是探索有关政治现象的描述性或因果性知识, 为人类社会提供政治现象 “是什么 ? 为什么 ? 怎么样 ? ”的系统性知识 。其中 , “因果性 ( Causa

8、lity) ”更被视为社会科学研究的 “圣杯 ”。探究因果关系并非仅为了满足人们理解社会现象的好奇心 , 更重要的是通过科学研究促进知识积累 , 为改善或干预人类社会提供知识库 。政治科学对因果性知识的追求使得研究者对政治现象 ( 制度 、组织 、行为等 ) 开展定性 、定量或实验式的 “科学化 ”研究 , 探求政治现象背后的特定概念 、变量或因素间的因果关系 , 尤为重视中观和微观层面的因果关联及相应的因果机制 。作为新兴研究方法 , 大数据方法传统上被认为是数据驱动的知识发现过程。大数据方法是用一系列算法从海量非结构化数据中发现反映社会现象的特定模式 、特定关系或特定趋势 , 其目标是运用

9、机器学习把非结构化的 、高维的 、海量的数据 , 转化为结构化的 、可被理解的社会知识 , 因此被视为探索性 ( 相关性 ) 分析而非因果性分析方法 。譬如吉姆 加里 ( Jim Gray) 强调大数据方法利用相关关系即可建立预测模型 , 满足政府 、企业等知识消费者预测社会行为的知识需求 , 精准指导社会或经济干预。因此 , 有学者认为大数据方法是 “数据驱动 ”而非 “理论驱动 ”,大数据方法在描述性 ( 相关性 ) 研究中具有优势 , 有助于对社会现象 “是什么 ”做出更为全面 、精准 、实时的呈现 , 但在因果性 ( 解释性 ) 研究中却表现乏力。然而 , 伴随着大数据方法在方法论层面

10、日益成熟, 方法技术层面日益多元化 , 大数据方法与传统社会科学研究方法的深度融合 ,大数据方法推进因果推论的方法功能逐步完善瑏瑠, 在因果推论的数据采集 、数据管理 、概念 ( 变03政治学研究 2018 年第 3 期瑏瑠孟天广 、郭凤林 : 大数据政治学 : 新信息时代的政治现象及其探析路径 , 国外理论动态 , 2015 年第 1 期 。Monroe B. L. “The Five Vs of Big Data Political Science: Introduction to the Virtual Issue on Big Data in Political Science”,Po

11、litical Analysis, Vol. 21, No. V5, 2013.King G. , Keohane . O. , Verba S. , Designing Social Inquiry: Scientific Inference in Qualitative esearch, Princeton, NewJersey: Princeton University Press, 1994. pp. 7 9.Gerring J., “The Mechanismic Worldview: Thinking Inside the Box”, British Journal of Poli

12、tical Science, Vol. 38, No. 1, 2008.左才 : 政治学研究中的因果关系 : 四种不同的理解视角 , 国外理论动态 , 2017 年第 1 期 。Lazer D. , Pentland A. , Adamic L. , et al., “Computational Social Science”, Science, Vol. 323, No. 5915, 2009.Jim Gary, “eScience-The evolution is Starting”, in Hey Tony ( ed. ) , The Fourth Paradigm: Data-Inte

13、nsive ScientificDiscovery, Microsoft esearch, 2009.Clark W. . , Golder M., “Big Data, Causal Inference, and Formal Theory: Contradictory Trends in Political Science? ”Political Science Politics, Vol. 48, No. 1, 2015.Grimmer J., “We Are All Social Scientists Now: How Big Data, Machine Learning, and C

14、ausal Inference Work Together”,Political Science Politics, Vol. 48, No. 1, 2015. Monroe B. L. , Pan J, oberts M. E. , et al., “No! Formal Theory, CausalInference, and Big Data Are Not Contradictory Trends in Political Science”, Political Science Politics, Vol. 48, No. 1, 2015.Gary King, Jennifer Pan

15、, and Margaret E oberts, “How Censorship in China Allows Government Criticism but SilencesCollective Expression”, American Political Science eview, Vol. 107, No. 2, 2013. 刘涛雄 、尹德才 : 大数据时代与社会科学研究范式变革 , 理论探索 , 2017 年第 6 期 。量 ) 测量 、探索性 ( 相关性 ) 分析 、因果性和预测性分析等各个环节均呈现出创新性 , 形成了大数据与统计方法相结合 、大数据与小数据相结合 、大数据

16、与实验研究相结合 、大数据模拟研究等多种生产和检验因果性理论或知识的方法路径 。二 、因果推论框架下大数据方法的方法论功能人类探求因果关系的努力自古有之 , 东西方哲学家老子 、苏格拉底等都曾提出探究原因与结果之联系的命题 。进入近代社会 , 科学研究从神学和哲学体系中独立出来 , 因果性成为科学知识的终极目标 。尽管学者们在不同意义上使用因果 、原因 、结果等概念 , 但科学研究普遍相信 “凡事必有因 ”, 而因果性 ( Causality) 即是 ( 社会 ) 规律 , 掌握因果关系就可以预测未来 。学术界关于因果关系已经形成多元化理解 , 布雷迪 ( Henrry Brody) 总结了政

17、治科学构建因果关系的四种逻辑传统 : 1. 依据充分条件来定义因果关系的休谟传统 ; 2. 反事实逻辑 ; 3. 实验 ( 科学 ) 逻辑 ; 4.因果机制逻辑。对因果关系的上述理解为政治科学研究创造了巨大空间 , 为采取多元化路径对政治现象的竞争性解释 ( 理论猜想 ) 的检验提供了方法论依据 。因果性的识别与判定 ( 因果推论 ) 是一项系统工程 , 要求研究者利用规范程序采集经验资料 、定义和测量抽象概念 ( 变量 ) 、探索原因与结果的关联模式 、识别因果关系的效应 ( 方向 ) 与机制 ( 过程 ) 。在因果推论视角下 , 大数据方法具有这些方法论功能 : 第一 , 数据采集 。帮助

18、研究者获取既有方法无法采集或处理的海量数据 , 为政治科学研究提供新素材和新问题 。第二 , 数据管理和挖掘 。帮助研究者有效地管理海量的非结构化数据 , 比如利用数据库技术和自然语言过程对非结构化数据进行数据清洗 、检索和实体识别等 , 为数据挖掘和统计建模做好准备 。第三 , 测量方法 。大数据方法 ( 数据挖掘 ) 作为概念 ( 变量 ) 测量的工具 。数据挖掘可以将高维 、复杂和非结构化数据转化为低维的结构化数据 , 其本质就是测量模型 。以文本数据为例 , 对非结构化文本资料进行挖掘所获得的诸如主题 、聚类或情感 , 就是将文本资料结构化的过程 。这与传统因子分析 、项目反映理论等测

19、量方法类似 。第四 , 描述性 ( 探索性 ) 推论 。大数据方法可以利用分类 、聚类等方法分析对政治现象开展描述性分析 , 为理解政治现象或行为的状态 、分布或趋势变化积累描述性知识 , 作为因果推论的前期准备 。第五 , 相关性推论 。基于数据挖掘考察政治现象之间的相关关系 。以文本数据为例 , 譬如利用大数据方法在识别主题和情感倾向之后 , 通过可视化或者相关系数以理解不同主题之间 、主题与情感之间的相关关系 , 或者比较不同群体之间在主题偏好 、情感倾向或行为模式上的差异 。第六 , 因果推论 。对基于以上方法所测量的概念 ( 变量 ) 、相关关系 , 利用大数据方法与传统统计方法 、

20、小数据方法 、实验方法 、定性方法等相结合 , 构建 、检验并解释政治现象间的因果关联。第七 , 预测性分析 。考虑到社会科学日益兴起的预测性取向 ,通过大数据方法利用回归模型 、决策树 、神经网络等各类机器学习算法 , 在复杂社会系统中实时预测政治倾向 、政府开支 、政府决策等特定现象或趋势。目前政治科学研究越来越多地进行预13政治科学视角下的大数据方法与因果推论Henry Brady, “Causation and Explanation in Social Science”, in Janet Box-Steffensmeier, Henry Brady, and David Colli

21、er( eds. ) , The Oxford Handbook of Political Methodology, Oxford: Oxford University Press, 2008, pp. 217 270Nagler J. , Tucker J. A., “Drawing Inferences and Testing Theories with Big Data”, Political Science Politics, Vol. 48,No. 1, 2015.Konstantin Kashin, Gary King, and Samir Soneji, “Explaining

22、Systematic Bias and Nontransparency in US Social SecurityAdministration Forecasts”, Political Analysis, Vol. 23, No. 3, 2015. Gary King, Benjamin Schneer, and Ariel White, “Howthe News Media Activate Public Expression and Influence National Agendas”, Science, Vol. 358, No. 6364, 2017.测研究以响应政府或社会政策干预

23、的需求 , 而大数据基于多主体 、海量数据 、时效性 ( 时间序列 ) 数据和多模态数据 , 可以有效地提升预测研究的效度和效率 。与此同时 , 大数据方法基于可视化方式呈现相关或因果关系 , 这在促进知识传播方面很具优势 。伴随着大数据方法的应用 , 社会科学界逐步形成计算社会科学这一新兴学科 , 以充分利用社会现象的数字化记录 , 借助数据分析 、模拟计算和社会实验以发现社会规律。计算社会科学汇集了社会科学应用大数据方法探求因果性知识的新范式 , 其促进因果推论的方法进展包括 : 其一 , 算法智能化趋势 。计算社会科学为算法带来革命性进步 。然而 , 在算法变得更准确和高效的同时 , 其

24、复杂程度也不断增加 , 其开发和应用过程的智能化趋势逐步呈现 。一些高度复杂的元算法可在研究者指明研究需要和标准的前提下 , 根据既有案例和算法库自行推荐和部署适用的算法 。其二 , 大数据模拟技术的广泛使用 。社会科学中模拟技术的使用有赖于社会系统参数的规模化 、精确化 、动态化收集 。目前 , 既有的数据收集 、参数处理和数据建模手段尚难以满足此类要求 。然而 , 随着计算社会科学的不断发展 , 大数据模拟研究将日益强化 。其三 , 移动互联网和 V/A 等虚拟现实技术在社会科学实验领域的广泛使用 。社会科学长期使用实验法检验因果联系 。但既有实验技术受到实验干预施加 、控制实验环境等限制

25、而不得不受制于有限的物质条件 。基于大数据的实验方法将对实验的灵活性 、即时性 、丰富性 、动态性和微观性提出更高要求 。譬如 , V/A 技术有助于研究者通过设定虚拟实验环境来便利地开展实验研究 。其四 , 社会科学知识生产与扩散模式的网络化趋势 。新的智能研究工具 、新的知识发布方式 , 以及计算设施的标准化 、规模化建设 , 驱动着 “众包式 ”“自助式 ”“平台式 ”知识生产模式 , 譬如众智 “立宪 ”、比较政党 “众包 ”研究等 , 也扩大了社会科学知识的潜在受众, 在与受众互动中积累社科知识 。三 、因果推论框架下大数据方法的创新作为新兴研究方法 , 大数据方法从采集数据资料 、

26、创新分析方法 、改造社科研究模式和再造学术 社会互动关系四个维度深刻地影响着研究范式 、议题和方法的变革 , 推动着描述性或因果性理论和知识的生产 。第一 , 大数据方法的最直接贡献是为社会科学研究提供更全面 、客观和内涵丰富的研究素材。这体现在如下方面 : 1. 数据模态多元化 。目前 , 社会科学研究中不仅可以处理结构化数据 , 而且越来越多地处理非结构化数据 , 而后者在传统社会科学研究中由于技术能力局限而被丢弃 。2.“全量数据 ”而不是 “样本数据 ”。大数据可以获得一个接近总量或全量的数据 , 相比抽样数据具有很大优势 。如对某社会现象的观测可获取数万或数亿量级的数据量 , 会使研

27、究者对该现象的理解更为全面和充分 。3.“真实数据 ”而不是 “设计的数据 ”。与传统的社会科学研究方23政治学研究 2018 年第 3 期张小劲 、孟天广 : 论计算社会科学的缘起 、发展与创新范式 , 理论探索 , 2017 年第 6 期 。Pietsch W., “The CausalNature of Modeling with Big Data”, Philosophy Technology, Vol. 29, No. 2, 2016.Susan Burgess, “Occupy the Social Contract! Participatory Democracy and Ice

28、lands Crowd-Sourced Constitution”, NewPolitical Science, Vol. 35, No. 3, 2013.Benoit K. , Conway D. , Lauderdale B. E. , et al., “Crowd-sourced Text Analysis: eproducible and Agile Production ofPolitical Data”, American Political Science eview, Vol. 110, No. 2, 2016.Williamson V., “On the Ethics of

29、Crowdsourced esearch”, Political Science Politics, Vol. 49, No. 1, 2016.Mcfarland D. A. , Lewis K, Goldberg A., “Sociology in the Era of Big Data: The Ascent of Forensic Social Science”,American Sociologist, Vol. 47, No. 1, 2016.法相比 , 大数据会获得更加真实和客观的行为数据。传统定量或定性研究所使用的数据采集方式强调人为设计 , 在理论先行和研究设计基础上的有目的

30、、有选择 、有裁剪地采集研究素材 , 这在一定程度上妨碍了社会科学研究理解 “社会真实 ”的努力 。大数据方法所获取的是社会主体的原始行为记录 , 如网络行为痕迹 、或地理位置移动痕迹等 , 是不被设计的 、可信的 、来自于人们真实的行为记录。4.“大样本数据 ”为小概率事件分析提供可能 。传统方法很难对社会中 “小概率事件 ”进行系统研究 , 如政治科学研究社会运动 、极端性政治行为或意识形态 , 通过抽样调查很难获得大量 “小概率事件 ”的有效样本 , 因而无法做深入系统的经验分析 。大数据方法可以通过扩大总样本规模而使得 “小概率事件 ”的观测值达到一定量级 , 便于开展分析 。5. 数

31、据蕴含丰富的时空维度信息 ( Spatial and Time Dynamics)。大数据方法蕴含丰富的时空信息 , 通过数据融合将虚拟网络空间与现实物理 ( 地理 ) 空间整合起来形成 “厚数据 ”, 有助于对社会现象在时空上的演变趋势或异质性特征的理解 , 发展时间或空间政治学理论 。第二 , 大数据方法对政治科学研究方法的创新 。1. 为研究者提供了更为丰富的方法工具箱 , 提升了政治科学对非结构化和结构化数据分析的综合能力。大数据方法提供了从数据抓取 、数据清洗 、检索分析 、自然语言过程处理 、分类或聚类分析 、主题模型 、情感分析 、视频 /影像分析 、文本分析 、社会网络分析 、

32、空间模型等研究方法 , 丰富了社会科学学者的工具箱 。2. 机器学习的广泛使用不仅提升了社会科学研究的效率 , 更为海量数据分析提供了有监督机器学习 、无监督机器学习等模式选择 , 而机器学习所贡献的潜在狄利克雷分布 ( LDA) 、决策树 、朴素贝叶斯等新算法有效地推动了社会科学方法创新 , 而且基于机器学习的新兴回归模型如岭回归 ( idgeegression) 、拉索回归 ( Lasso egression) 促进了统计方法 。3. 为传统的定性 定量方法分野搭建了一个桥梁。大数据方法可以让人们有能力对非结构化数据 ( 即定性资料 ) 进行规范化 、系统化分析 , 即定性资料的定量化分析

33、 ; 同时也可以让研究者对定量分析结果开展定性化解读或诠释 。第三 , 大数据方法还影响着社会科学研究模式的转变 。1. 相比调查或实验研究等 , 大数据方法采集数据 ( 素材 ) 的成本通常更低 , 但其产生的信息量却更大 、时效性也更强 。譬如 , 全国性调查研究的经济成本可能达到年均上百万 , 且由于人力 、物力的巨大消耗 , 实施周期通常为一年或两年 。而大数据方法获取数据并不需要如此巨额成本 , 其运用计算机在线不间断进行数据采集 , 数据记录的测量误差更低 。2. 驱动了政治科学对于强时效性知识的探索 。大数据方法自动采集和存储时效性数据 , 允许研究者通过对及时性数据的分析来研究

34、突发性事件 ( 干预 ) 对社会行为或偏好的短期 、中长期影响 , 这对于分析和评估制度 、政策或社会干预的影响 , 探究社会或经济波动的政治过程和后果 , 挖掘基于互联网的政治传播 、信息扩散等因素对制度运行 、政治行为的影响至关重要 。3. 推动着社会科学研究的跨学科趋势 , 这表现为数据采集平台化 、算法开发33政治科学视角下的大数据方法与因果推论Shmueli G., “esearch Dilemmas with Behavioral Big Data”, Big Data, Vol. 5, No. 2, 2017.Lazer D. , Pentland A. , Adamic L.

35、, et al., “Computational Social Science”, Science, Vol. 323, No. 5915, 2009.Marc T. atkovic and Kevin H. Eng, “Finding Jumps in Otherwise Smooth Curves: Identifying Critical Events in PoliticalProcesses”, Political Analysis, Vol. 18, No. 1, 2010.Monroe B. L., “The Five Vs of Big Data Political Scien

36、ce Introduction to the Virtual Issue on Big Data in Political Science”,Political Analysis, Vol. 21, No. V5, 2013. Gary King, “Preface: Big Data is Not About the Data! ”In Computational SocialScience: Discovery and Prediction, edited by . Michael Alvarez, Cambridge: Cambridge University Press, 2016.S

37、liva A. , Neal eilly S., “A Big Data Methodology for Bridging Quantitative and Qualitative Political Science esearch”,Social Science Electronic Publishing, 2014. Delyser D. , Sui D., “Crossing the Qualitative-Quantitative Divide II: InventiveApproaches to Big Data, Mobile Methods, and hythmanalysis”

38、, Progress in Human Geography, Vol. 37, No. 2, 2013.普及化和社会科学研究 ( 跨学科 ) 问题导向三种趋势的持续互动和合作 。第四 , 大数据方法与互联网的无缝对接再造着学术影响的模式 。传统上 , 社会科学所产生的知识对政策或社会的影响比较有限 , 非专业领域人士无兴趣也无专业素养来接受或传播社会学科知识 。然而 , 进入大数据时代 , 学术界与外部环境的互动日益频繁 , 突出表现为社会科学知识的平民化扩散 、日益强化的政策或社会影响力 。基于大数据方法的很多研究在与互联网的无缝对接条件下 , 以可视化呈现向社会各界推介或传播专业性社会科学

39、知识 , 降低了知识接受的专业门槛 , 对社会科学知识的普及具有很大贡献。传统上专业的模型和复杂的术语以可视化方式呈现 , 将专业化社会科学知识的受众扩大到社会各界 , 进而产生政策和社会影响力。因而 , 在这一新时代 , 社会科学研究与社会影响之间的互动模式产生了重大变革 , 研究者通过专业化研究对政策制定和实施提供了依据 、产生了影响 , 企业亦希望借助于学术研究 , 能够对社会实践产生积极影响 。这是新的时代环境所产生的知识需求 。四 、大数据方法推动因果推论的方法路径在大数据时代的背景下 , 社会科学研究者如何探索因果性命题仍然是重要议题 。伴随着大数据方法在社会科学领域应用的逐步深入

40、 , 大数据方法正日益走出探索性或相关性分析的窠巢 ,逐步构建出若干因果推论的方法路径。简言之 , 基于大数据方法开展因果推论不仅是可行的 ,而且应该是社会科学研究追求的目标 。经过近年来大数据方法与传统社会科学研究方法的深度融合 , 逐步形成了基于大数据方法进行因果推论的四个代表性方法路径 。( 一 ) 大数据方法与统计分析的结合大数据因果推论的第一个路径是将大数据方法和传统统计分析相结合 , 使得二者互补性地实现因果推论的研究目标 。大数据方法发挥着海量非结构性数据获取 、概念 ( 变量 ) 测量 、探索性分析等功能 , 将高维 、非结构化数据降维 、结构化 , 帮助研究者回答 “是什么

41、( What) ”描述性推论的问题 , 加深对研究对象之状态 、分布 、变化趋势的全面理解 。此外 , 大数据方法还借助可视化 、相关分析等方法开展社会现象的比较研究或社会现象间相关关系的探索等活动 。统计分析则扮演着素材深加工的作用 , 利用各种线性或非线性统计模型在解决统计控制 、内生性或选择性偏差等问题的情境下开展因果推论 , 回答 “为什么 ( Why) ”“怎么样 ( How) ”等问题 。简单地概括 , 大数据方法与统计方法的结合可以视为测量模型和结构模型的结合 。测量模型的目标是有效地测量理论上定义的概念 ( 变量 ) , 而结构模型的目标是在统计控制意义上检验概念 ( 变量 )

42、 间关系 。大数据方法帮助研究者基于海量数据测量抽象概念, 而定量分析解决研究者关于概念 ( 变量 ) 间因果关系的检验或解释的问题。大数据方法所测量的概念 ( 变量 ) 既43政治学研究 2018 年第 3 期Mcfarland D. A. , Lewis K, Goldberg A., “Sociology in the Era of Big Data: The Ascent of Forensic Social Science”,American Sociologist, Vol. 47, No. 1, 2016.Gary King, Benjamin Schneer, and Arie

43、l White, “How the News Media Activate Public Expression and Influence NationalAgendas”, Science, Vol. 358, No. 6364, 2017.Titiunik ., “Can Big Data Solve the Fundamental Problem of Causal Inference? ”Political Science Politics, Vol. 48, No. 1,2015.Bond . , Messing S., “Quantifying Social Medias Poli

44、tical Space: Estimating Ideology from Public evealed Preferences onFacebook”, American Political Science eview, Vol. 109, No. 1, 2015.孟天广 、李锋 : 网络空间的政治互动 : 公民诉求与政府回应性 基于全国性网络问政平台的大数据分析 , 清华大学学报 ( 哲学社会科学版 ) , 2015 年第 3 期 。可以作为因变量 、自变量或者混淆变量 。以文本数据为例 , 大数据方法利用聚类分析 、主题模型 、情感分析等数据分析学从海量文本资料中自动挖掘出研究者关心的诸

45、如文本主题或情感偏好等变量 , 然后利用统计模型估计文本主题与情感间的因果联系 , 或者考察文本之外的其他变量对上述变量的影响。大数据方法与统计分析的结合除了常用的两步法之外 , 罗伯茨( oberts) 等人提出结构主题模型 ( Structural Topic Model) 将上述两步进行有机整合 , 将测量模型和结构模型同时进行估计 , 既挖掘非结构化数据中蕴含的潜在概念 , 又有效地估计不同变量与元数据 ( Meta Data) 之间的因果联系。该方法被应用于比较政治和美国政治研究 。当非结构化数据成为同时影响原因 ( 自变量 ) 和结果 ( 因变量 ) 的混淆变量时 , 即原因对结果

46、的影响存在方法论上的内生性或选择性偏差时 , 研究者可以借鉴传统量化分析基于反事实框架开展因果推论 。大数据方法与时空模型的结合可以视为一种特例 。伴随着移动互联网 、可穿戴设备 、导航类应用的普及 , 近年来依托于时空信息将虚拟空间数据与现实物理空间数据进行融合的趋势日趋凸显 , 提供了将大数据方法与时空模型整合的新机遇 。考虑到社会科学理论的时空特性 , 时空因素在理论建构上作用甚大 , 更对理论的可推广性有重要影响 。基于融合数据 , 研究者可以使用诸如时间序列模型 、面板模型 、空间模型等计量方法对大数据资料进行因果性分析 , 寻找经济波动 、科技进步与政治发展的动态关系 , 挖掘社会

47、现象之间的时间或空间依赖模式 。( 二 ) 大数据方法与小数据分析的结合第二个路径是将大数据方法与小数据分析有效结合 。该方法目前在社会科学界较为流行 ,将大数据 ( 接近 “总体数据 ”) 与小数据 ( 抽样数据 ) 相结合 , 大数据方法在总体层面描述社会现象的特征 、变化趋势和相关关系 ; 然后在大数据中随机抽取小数据开展深度 ( 结构化 ) 调查 , 以小数据分析探究因果关系 。大数据方法的优势在于利用海量数据的一系列特征 , 如通过全样本 、高密度数据流或关联性数据来进行对社会现象更全面 、精准和可预测的观察和分析。小数据分析的优势是在大数据中随机抽取样本进行深度调查或访谈 , 采集

48、承载更多具有理论价值的更深 、更厚数据 。简言之 , 就是用小数据做因果分析 , 用大数据做描述或者相关的分析 。当然 , 小数据分析也包括基于特定案例或比较案例的定性研究 。大数据方法与小数据分析并非互相排斥 , 而是存在二者互补与结合的发展前景 。伴随着方法论讨论的逐步深入 , 越来越多的学者主张在社会科学研究中结合大数据和小数据分析。二者结合具有三方面方法论价值 : 1. 功能互补性 , 大数据的优势在于描述性分析 , 而小数据方法借助统计分析或逻辑演绎在解释性分析上具有优势。2. 二者方法论路径迥异 , 大数据是数据驱动 , 利用数据挖掘技术来获知数据中存在的模式 , 小数据分析是理论

49、驱动 , 重在利用统计推论或逻辑推理来建构和检验理论 。新一代社会科学研究完全可以同时从理论驱动和数据驱动两个角53政治科学视角下的大数据方法与因果推论Su Z. , Meng T., “Selective esponsiveness: Online Public Demands and Government esponsiveness in AuthoritarianChina”, Social Science esearch, Vol. 59, 2016.oberts M. E. , Stewart B M, Tingley D, et al., “Structural Topic Mod

50、els for Open-Ended Survey esponses”, AmericanJournal of Political Science, Vol. 58, No. 4, 2014.Lynch, C., “Big data: How do Your Data Grow? ”Nature, Vol. 455, No. 7209, 2008.Grimmer, J., “We are All Social Scientists Now: How Big Data, Machine Learning, and Causal Inference Work Together”,Political

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 大学课件

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报