收藏 分享(赏)

重新认识数据驱动及因果关系——知识发现图谱中的数据挖掘研究.doc

上传人:无敌 文档编号:174296 上传时间:2018-03-23 格式:DOC 页数:14 大小:95KB
下载 相关 举报
重新认识数据驱动及因果关系——知识发现图谱中的数据挖掘研究.doc_第1页
第1页 / 共14页
重新认识数据驱动及因果关系——知识发现图谱中的数据挖掘研究.doc_第2页
第2页 / 共14页
重新认识数据驱动及因果关系——知识发现图谱中的数据挖掘研究.doc_第3页
第3页 / 共14页
重新认识数据驱动及因果关系——知识发现图谱中的数据挖掘研究.doc_第4页
第4页 / 共14页
重新认识数据驱动及因果关系——知识发现图谱中的数据挖掘研究.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、重新认识“数据驱动”及因果关系知识发现图谱中的数据挖掘研究 舒晓灵 陈晶晶 美国加州大学戴维斯校区社会学系 摘 要: 作为跨学科的一种方式, 知识发现和数据挖掘是个多学科综合的领域。它的目标是识别和描述数据模式, 向使用者传递有意义的数据模式信息, 并运用一系列预测变量和它们的多重组合形式来高度准确地预测结果变量。数据挖掘实际上是知识发现的过程, 包括理解问题领域、理解数据、数据准备、数据挖掘、评估新知识和使用新知识等环节, 融合了归纳和演绎两种研究方法。该过程不仅回应了“数据为本”、“数据驱动”的误解, 且为发现新理论与创新思维提供了新方式, 为来自因果关系的挑战提供了新的解决途径。相较于传

2、统社会科学研究方法, 数据挖掘更关心对整个事件的完整阐述, 利用多元、复杂和细节化的丰富数据, 关注因果异质性和多重非线性关系, 因此相比传统统计模型能更准确有效地预测解释结果。关键词: 数据挖掘; 大数据; 知识发现; 定量; 量化分析; 因果关系; Reconsidering Data Driven and Causal Relationship:Data Mining in the Spectrum of Knowledge Discovery in DatabaseShu Xiaoling Chen Jingjing Abstract: Knowledge discovery in d

3、atabase (KDD) or data mining is a multidisciplinary field.Its goal is to identify and describe the data schema, to convey meaningful data schema information to the user, and to use a series of predictive variables and their multiple combinations to accurately predict the outcome variables.Data minin

4、g is actually a process of knowledge discovery, including business understanding, data understanding, data preparation, data mining, new knowledge evaluation and deployment.It integrates the methods of induction and deduction.The process not only clarifies peoples misunderstanding of“data-oriented”o

5、r“data-driven, ”but also provides a new approach for discovering new theories and innovative thinking as well as a new solution for the challenges in causal relationship.Compared with traditional social science methods, data mining is more concerned with the description of entirety of an event.On th

6、e basis of multiple, complex and detailed data, it can focus on the heterogeneity and multi-nonlinearity of causality, therefore, is more effective in predicting and interpreting consequences.我们当前正面临着大数据的浪潮。数据收集量达到了史无前例的规模;基于大数据的分析和知识推动着几乎所有社会层面的发展零售、保险、无线移动业务、商业管理、城市规划、科学技术、社会科学和人文学科。麦肯锡在 2011年的一份报

7、告中指出, 企业和用户储存了多于 13 艾的新数据, 也就是 5 万倍于美国国会图书馆的贮存量。全球个人定位数据的潜在价值大约为 7000 亿美元, 足够把产品开发和组装的成本减少一半。事实上, 技术的进步、日益发展的网络、电脑、数字传感器和录音设备使得可分析的数据大量增长且日益复杂化。数据获取、管理和处理的难度已经变得越来越高, 数据在研究过程中扮演越来越重要的角色。我们正站在这个新时代的门槛。随着大数据时代的到来, 大量丰富的信息和知识被埋藏在数据矿中。因此, 运用数据挖掘技术发现有意思、有意义和稳定的数据模式已经在研究中越来越重要。数据挖掘的方法与传统研究的方法有许多不同之处。本文强调,

8、 与以“数据为本”、“数据驱动”的指责恰好相反, 数据挖掘是融合了归纳和演绎方法的知识发现过程, 为理论发现与创新思维提供了新方式;这种知识发现过程, 也为传统研究方法中因果关系面临的挑战, 提供了新的解决方法。一、数据挖掘中理论与数据的关系在当下的学术研究中, 人们对量化研究的认知存在误区, 加之部分量化研究者自身的局限性, 量化研究被认为是以“数据为本”和“数据驱动”的研究。然而, 在作为量化研究新进展的数据挖掘研究中, 这是一种误解, 事实并非如此。数据挖掘是一个涉及统计学、计算科学、机器学习、人工智能、数据库技术和模式识别的交叉领域, 利用了这些学科中常见的方法, 包括传统统计的多重回

9、归, 以及人工智能、机器学习等以计算机为基础的方法。数据挖掘还发展了统计学之外的方法, 例如结构树构造、结构树修剪, 支持向量机、链接分析、遗传算法、菜篮子分析和神经网络分析。此外, 数据库技术也被大量使用。数据挖掘与传统统计方法有很大不同。具体表现为:第一, 数据挖掘基于自动或者半自动化的寻找模式。传统统计方法使用人工调整模型, 是一个较为漫长的手工过程。数据挖掘发展应用现成的工具, 自动化比较强, 可以自动检索、计算和寻找大量多样的数学模型, 有效减少知识发现的时间与人力资源成本。第二, 数据挖掘涉及多学科交叉与合作。知识发现和数据挖掘是个多学科综合的领域, 包括统计、计算机科学、机器学习

10、、人工智能、数据库技术和模式识别等, 呈现跨学科合作的趋势。不同学科的学者正在积极寻求合作, 以期在各学科领域以及学科交叉领域有所突破。而社会科学家们, 则在最近几年才将数据挖掘的新技术运用于研究与教学中。面对这种崭新的研究方式, 社会科学家们需要加强交流与合作, 拥抱机会, 迎接挑战。第三, 数据挖掘提供了新的知识发现技术。曾经受限于技术的发展, 我们很难侦探和发掘隐藏于大数据中的有意义的规律。而数据挖掘通过提供一系列知识发现的技术能够帮助我们找到过去未被发现、甚至无法被发现的一些非常有意义的隐藏的数据模式, 这些模式具有协助我们创新与发现新理论的潜力, 从而可能对各学科的进步产生革命性的影

11、响。这是数据挖掘最有吸引力的一点。在以上三个特点的协助之下, 作为量化研究新发展的数据挖掘不是由数据来统领一切的研究, 也不光是探索性的研究。做数据挖掘的学者需要强大、深厚的理论基础, 如果仅仅是数据科学专家, 只懂数据却不了解社会科学相关专业领域理论知识, 是无法完成这个研究的。数据挖掘过程既运用总结归纳, 也运用演绎推理。这是一种双向同时进行的过程, 常常由数据到规律发展成临时的理论, 然后又从重新设计理论假设到数据分析, 继而再证实理论假设。有时候这个过程在一个研究项目中就完成了, 有时候则要分开进行, 即一部分数据采用归纳的方式进行研究, 一部分数据采用演绎的方式进行研究。有时候完成整

12、个研究过程需要一系列的研究项目, 所以数据挖掘并非人们所想象的是由数据来领导的一个研究过程, 理论基础和相关领域专家仍然起着导航作用。数据挖掘依据知识发现过程模型, 同时运用演绎和归纳两种科学研究方法, 充分运用和处理多元化的数据形式, 并更强调多重因果以及因果异质性。这种研究模式相较于传统统计模型, 极大地提高了模型预测的精度和对事件完整阐述的能力。事实上, 尽管通常被误认为探索性研究, 数据挖掘应该被更准确地叫做演绎和归纳两种研究方法论的综合, 这类似于扎根理论研究方法。扎根理论研究方法是运用系统研究方法去创造系统性理论研究方法的统称, 运用了一系列严谨的信息数据收集和分析方法, 从而展现

13、概念类别 (conceptual categories) 。尽管定性研究者更常运用这种研究方法, 但它并不专属于定性研究。信息数据可以是定量数据, 也可以是访谈、影视、图像、文字、观察、口述等资料。扎根研究方法帮助研究者通过对数据进行不断的比较和挖掘发现, 识别出研究领域中隐藏的社会规律和结构, 形成概念。扎根理论研究过程包含了归纳和演绎两种研究方法, 研究者通常先用归纳的方法去发掘数据中出现的显著规律, 继而围绕新理论进行研究设计、数据收集、分析数据和理论检验, 分析和理论检验的过程就是扎根研究中演绎研究的过程。归纳和演绎的过程可以表示如图 1A 和图 1B。演绎的研究方法更固定, 并注重对

14、研究假设的检验, 而归纳的研究方法更具开放性和探索性。多数社会科学研究在某种程度上同时运用归纳和演绎两种逻辑。图 1 A“自上而下”的演绎性研究 下载原图图 1 B“自下而上”的归纳性研究 下载原图与扎根理论研究方法相似, 数据挖掘领域也在小心翼翼地避免掉进数据驱动的陷阱, 并从中发展成熟。知识发现过程模型的建立始于 20 世纪 90 年代中期的学术界, 正值数据挖掘领域逐渐发展成型时期。严谨的研究方法被运用于数据挖掘和知识发现的过程。在 1996 和 1998 年, 两个更加著名的过程模型分别得到发展。1996 年的知识发现过程模型 (KDP) 包括九个步骤:理解领域内知识;选择数据集;数据

15、预处理;数据降维;选择数据挖掘方法;选择数据挖掘运算法则;数据挖掘;数据分析;巩固新知识, 研究者将新知识与既有的知识体系连接, 向科学界进行记录和报告, 有时这一步会包括发现或者化解既有知识中的冲突。这个过程是循环往复的, 通常在任意两个步骤中的周转也很常见。最近发展的新的 KDP 模式建立在这个初始模型基础之上, 由 Cios 等人为了协助学术研究发展而来。新模型包括六个步骤。1.理解问题领域:研究者定义研究问题, 有清晰的研究目标, 并学习了在该领域中重要的知识和术语。研究问题被转化为数据挖掘的目标, 并选择完成数据挖掘的方法。2.理解数据:研究者收集并决定要使用的数据。同样的, 研究者

16、运用领域内的知识来做指导, 检测数据的完整性、重复性和数据丢失情况。3.数据准备:包括抽样、进行相关性分析和显著性检验、数据清理。运用特征选择 (feature selection) 和提取算法 (extraction algorithm) 来对数据减维, 以及通过离散化 (discretization) 和总结法 (summarization) 来获取新的数据特征。4.数据挖掘:研究者用多种数据挖掘方法处理数据、发现新知识。5.评估新知识:评估包括理解数据分析结果, 检查已发掘的知识是否新颖有趣, 运用该领域的专业知识来解释结果, 并检验新知识的影响力。只有通过检验的模型被留下, 研究者重复

17、所有的过程来检查是否需要完善研究结果。6.使用新知识:最后一步包括计划使用新知识的地点和方法, 包括延展到其他的领域。新知识的使用是经过监控和记录, 并有计划地展开的。图 2 描述了此模型下知识发现和数据挖掘的过程。基于研究者的经验, 图 2 强调了循环往复的过程和一些回溯的步骤。图 2 知识发现过程模型 (1) 下载原图1.理解数据 理解问题领域:更好地理解数据, 同时也需要该领域的其他知识。2.数据准备 理解数据:需要关于数据的其他知识来指导数据处理算法的选择。3.数据挖掘 理解问题:当选择数据挖掘的方法产生不理想的结果时, 需要修改项目目标。4.数据挖掘 理解数据:如果对于数据理解有偏差

18、, 会导致对数据挖掘方法的选择错误, 以及使用方法的错误, 需要回到理解数据的步骤。5.数据挖掘 数据准备:当数据挖掘方法需要某一种数据时, 需要回到数据准备的步骤, 有针对性地整理和准备数据。6.对新知识的评估 理解问题:当新知识无法正确有效解释现象, 或者出现不正确的研究设计, 对于问题的限定、要求和目标理解错误, 整个知识发现过程需要重新开始。7.对新知识的评估 数据挖掘:当发现知识并非新颖有趣或者有用时, 解决之道是选择不同的数据挖掘工具, 并重复以上步骤。图 2 实际上展现的是一个从理论到数据, 再从数据到理论发现的不断进行归纳、演绎的循环往复的过程。严格执行的数据挖掘模型, 再现了

19、知识发现的过程及理论与研究之间的关系。如果说扎根理论研究方法是以定性资料为对象的归纳与演绎过程并存的研究方法, 那么数据挖掘也是一个归纳与演绎并存的研究方法, 只是其数据资料包含了结构化的定量数据和非结构化的定性数据。二、数据挖掘对因果关系的新视角严格意义上的数据挖掘研究实际上融合了归纳与演绎两种方式, 对于理论与数据的关系给出了新的解释, 除此以外, 它也对因果关系给出了新的理解。(一) 传统统计模型中来自因果关系的挑战科学探索的一项基本任务是找出因果关系。因果关系可以用反事实的关系来描述:“X 和 Y 出现在这样一种情况下, 如果 X 没有发生, Y 不会出现”。当因果关系表现为反事实关系

20、时, 原因对于结果的出现是“必要且充分”的。这种“情境充分性”在反事实的意义上来讲, 意味着“如果 Y 没有发生, X 不会发生”。几乎所有的结果都是多种必要且充分的起因共同作用形成的。这种起因的多元性有两种结构:多元交集起因和多元并集起因。多元交集起因在有多种原因同时存在的时候发生, 比如 A 和 B 共同作用产生 Y, Y 只有 A 与 B 共同出现的时候 (AB) 才产生, 但是如果只有 A 或者 B 单独出现, Y 不会出现。例如, 电路短路 (A) 出现在易燃材料 (B) 附近发生, 形成了对火灾的充分必要条件。该例可以用 ABY 来表示。同样的, 一支燃烧的蜡烛 (M) 会引燃易燃

21、物 (N) , 形成火灾的充分必要条件, 我们用 MNY 。第二种起因结构是多元并集起因, 常常被当作是真正的“多重因果性”或者“独立原因”。每一个多元并集起因的子因能够单独影响结果, 每一种原因都相互独立, 并且两种或两种以上起因同时出现也并不改变结果。例如, 房子火灾有多种原因, 比如短路出现在易燃物附近 (AB) , 或蜡烛出现在易燃物附近 (MN) , 或有人纵火 (O) , 或油溢出导致火灾 (P) , 或闪电导致的火灾等其他原因。每一种原因单独出现都会导致火灾, 火灾的出现也并不随着这些原因共同出现而改变。我们可以用 Py|A (B) M (N) OP=1 来表示这种所有独立原因联

22、合出现肯定会导致火灾, 即火灾出现的概率是 1。多元交集起因和多元并集起因展示了原因可以是多重的并且同时还是“必要且充分”的。这种情况在历史社会学研究方法中非常常见。例如, 在著名历史社会学家 Theta Skocpol 的一部影响深远的关于大革命的书中, 她提出了出现大革命的决定性理论。她的理论包括两个交集充分条件, 当这两个条件同时形成时, 革命一定会出现。她作出了一个非常强有力的预言, 即当“政权危机” (A) 和“阶级统治模式” (B) 共同出现时, 革命就要到来。“政权危机”常常受国际因素影响, 比如逐渐增长的经济安全竞争。而“阶级统治模式”决定哪一个社会群体会抓住革命机会。我们可以

23、用 Py|A (B) =1 来表示, 当 A 和 B 共同出现时, 革命就会出现。所以, A 和 B 都是革命的必要和充分条件。但是, 尽管起因通常是由交集和并集多重因素组成的, 且单一起因常常并不单独影响结果, 然而通常情况下社会科学研究者更愿意找出单一起因。这么做的原因有两个:首先, 我们更愿意相信一个起因的单独作用, 特别是那些具有侵入性或者破坏性的起因更显著地导致结果, 而不是一直存在的条件。这是因为被认为是不合时宜的或不正常的事情更容易引起人们对因果的兴趣, 而那些被认为是正常的、合适的或正确的条件并不容易被当作因果关系的一部分。比如说, 尽管火花和易燃物同时是火灾的必要和充分条件,

24、 我们更容易认为是火花而不是易燃物导致了火灾。其次, 因果关系的决定和选择依赖于场景和环境, 因为因果判断反映了哪一个变量不同于“背景”。 (3) 研究者的研究重心决定了因果场域的广度与其他替代起因的数量和显著程度。例如, 当警察调查火灾原因时, 会倾向于把注意力放在火花的来源上 (蜡烛、短路或者纵火等等) 。然而, 如果是材料科学研究者, 就会寻找与火灾相关的易燃材料, 他们更容易认为周边易燃物是火灾的原因。举另一个例子, 如果教育研究专家被告知某个学校很多学生数学考试不及格, 他们会认为是教学方法出了问题。然而, 当社会学家分析这些结果时, 会把注意力放在学校和学生的弱势社会经济地位以及缺

25、乏社会资源上。我们常用的社会科学研究统计分析的单个起因, 也就是单个自变量, 很多时候既不必要也不充分。单个自变量往往被错误地认定为是起因, 其实应当被称作“不充分却是不必要充分条件中的非冗余条件” (INUS, an Insufficient but Nonredundant part of an Unnecessary but Sufficient condition (4) ) 。例如, 在火灾的例子里, Py|A (B) M (N) OP=1, 传统的统计学模型预测某个单个原因, 例如 A (电路短路) 作为 Y (火灾) 的预测变量。因为 Y 的出现必须有 A (短路) 和 B (易

26、燃物) 同时存在 (A 和 B 是交集的充分条件) , 仅仅有 A 是不能形成 Y 的充分条件的。传统的统计模型因此由因果关系的概率理论衍生而来。研究者运用统计模型去预测当 A 存在时, Y 有多大可能性出现的时候, 是只考虑 A 的主要效应是什么, 而忽略 A 与其他变量的共同作用的联合效应 (交集起因) , 尽管这是在控制其他变量的主效应的情况下进行的。(二) 对因果关系挑战的回应数据挖掘对因果关系的贡献是多方面的。社会科学研究运用传统的统计方法, 侧重由理论假设引导的一部分因果机制, 并用其作为对一个或多个理论的检验;而数据挖掘更关心对整个事件的完整阐述。传统统计模型强调一小部分的起因,

27、 而一两个理论假设往往只能对结果进行部分解释, 并不能穷尽所有原因。此外, 传统统计模型采用简单方程式的表现形式, 这些模型被认为是直接、简洁且富有理论吸引力的。而数据挖掘更关注对事件的完整阐述, 并不回避多元、复杂、细节化且内容丰富的数据分析, 因为这些多元化的起因对于结果往往有更强的解释力。传统社会科学研究方法通常注重对因变量的简单主要效应分析, 而数据挖掘强调复杂因果关系的异质性;传统方法往往强调线性直接效应, 但数据挖掘考虑多重非线性和联合效应;传统方法强调对预测系数的评估, 而数据挖掘的目标是最大化模型的预测能力;传统方法局限于数字数据, 对非数字数据无能为力, 而数据挖掘能处理多种

28、形式的数据, 包括文字图像录音等等, 并且用相应的算法来分析预测结果。当然, 要真正确立因果关系, 还要依靠领域专家根据变量之间的相关性, 从理论上阐述因果机制。数据挖掘方法和所有的计量方法一样, 提供变量之间的相关性的信息。此外, 数据挖掘还能高效地筛选变量之间复杂且多维的相关性, 从而为我们对因果关系的复杂性、结合性与异质性的认识提供数据线索。传统统计方法与数据挖掘并不是对立的, 笔者只是强调数据挖掘相对于传统统计方法而言, 能突破某些局限, 从而提供一些新颖有效的思维与研究方式。1. 传统统计模型专注简单主要效应, 数据挖掘方法研究复杂因果效应。传统的统计模型很少考虑联合因果效应 (两个

29、及两个以上的变量的共同作用) 和因果异质性。尽管统计模型可以通过两个或几个预测变量的交互项来预测联合变量的因果效应, 但在社会学领域内大多数研究仅仅预测解释变量的主要效应。社会科学研究因此忽略了因果异质性, 并仅仅考虑主要效应来估测平均效应。这种做法避免了预测大量多重交互项的复杂计算, 使得模型简洁经济。如果我们有 m 个解释变量, 一个模型将产生 个交互项, 也就是 p 重交互。例如, 当 p=2 时, 一共有 m (m-1) /2 个二重交互项;p=3 时, 有 m (m-1) (m-2) /6 个三重交互项;p=4 时, 有 m (m-1) (m-2) (m-3) /24 个四重交互项,

30、 等等。当一个模型共有 10 个解释变量, 就有 45 个二重交互项, 120 个三重交互项, 210 个四重交互项!逐个探究这些交互项的效应在统计模型中耗时巨大, 难怪这些效应都通常被忽略了。知识发现和数据挖掘技术使得搜索、评估异质和并集合成起因自动化了。新数据挖掘技术可以迅速地产生和测量千万个交互项和预测变量的不同组合, 大大提高了对因变量进行预测的准确性。例如, 决策树程序中卡方自动交互探测 (Chi-squared Automatic Interaction Detection, 简称 CHAID) 以及分类和回归树 (Classification and Regression Tre

31、e, 简称 CART) 运用可以分类的多元变量方法, 自动进行大量的自变量组合效应的测量。在神经网络的预测模型中, 神经网络能够自动生成许多复杂的交互关系。神经网络是一种新的计算机技术, 它可以具有 10 层或者 20 层的神经结, 里面包含非常复杂的变量相互关系。由于数据挖掘模型可以考虑复杂的相互关系, 由此所建构的模型与实际数据的因变量结果匹配度非常高, 模型的预测力也非常强。正如前文已经强调的, 数据挖掘是一个从理论到数据, 再从数据到理论发现的不断进行归纳、演绎的循环往复的过程。严格执行的数据挖掘模型, 再现了知识发现的过程及理论与研究之间的关系。新数据挖掘技术可以迅速产生和测量大量交

32、互项和预测变量的不同组合, 为各领域专家们搜寻有意义并稳健的模型提供线索。但这些初级模型要通过一个不断归纳、演绎的循环往复的过程, 达到对新知识的发现。研究者们通过对交互项和预测变量的不同组合反复检测, 并结合理论, 从而达到对理论异质性与复杂相关性、因果关系的深刻认识, 推进理论发展进步。2. 传统统计模型分析线性主要效应, 数据挖掘方法扩展包括了非线性联合效应。在传统的统计模型中, 自变量与因变量的关系通常被当作线性, 被用于广义线性模型。大多数传统模型会自动应用线性方程来描述自变与因变量的相关性, 除非研究者有极强的理论或实践证据支持非线性方程的存在。仅有少数几个变量例如年龄 (二次方)

33、 、GDP (自然对数) 和收入 (自然对数) 通常被看作是非线性关系。这种逻辑的原因有三:第一, 尽管把一个连续区间变量转变为虚拟变量来观察非线性效果非常简单, 展示和解释这种非线性的规律却不容易。因此, 传统统计模型的运用常常选择简单线性方程, 而不是一系列的非连续变量, 尤其当该变量是控制变量, 并且在理论上并不重要的时候。第二, 仔细评估每一个解释变量和其与结果变量之间的方程式 (尤其是当解释变量数量很多的时候) 非常耗时耗力, 因此研究者常常选择不这么做。第三, 传统的统计学家常常不是用相关就是用方差/协方差阵来总结整个数据库。这种矩阵式的总结假定整个数据库的所有变量都是线性关系,

34、即某变量一个单位的增长和另一个变量的单位增长单方面同步。尽管这种粗略的数据简化使得数据储存和移动更方便, 它对于模型本身却有严重影响。除了忽略变量之间的非线性关系之外, 还导致无法准确地掌握变量关系本身的复杂性。数据挖掘提供了许多自动化或者半自动化的工具来帮助研究者寻找非线性关系, 从而提高模型预测精准度。数据挖掘可以自动地为连续自变量产生断节点, 来获得自变量和因变量之间的非线性关系。例如, 一款广泛使用的标准统计软件SPSS, 现在可以提供自动分组 (binning) 和离散化非线性变量。按照因变量的变化模式将自变量分段分组, 从而根据预测结果来分离自变量, 这被称为最佳分组 (optim

35、al binning) , 因为该做法能够最好地预测某种结果变量。另一软件 CART 也有自动分组的程序来处理非线性关系, 该程序被称为最佳组合或者基于熵的离散化 (entropy-based discretization) 。这些软件一般是基于结果变量来区分每个组合中案例与其他组合的差别, 然后选择每个组合的边界, 这样大大提高了对于每个因变量的预测准度, 继而也提高了整个模型的预测能力。此外, 数据挖掘也提供了可视化工具, 我们可以从任何角度做任何旋转来观察变量间的关系, 探测非线性关系。这些工具包括简单绘图、散点图、3D 图像和其他可视化过程。研究者已运用这些工具, 通过看到当其他变量变

36、化的时候, 结果变量是如何变化的, 来精确地描述某个自变量与因变量之间的非线性相关性, 改进模型预测力。3. 传统统计模型侧重预测系数估计, 数据挖掘方法关注模型预测能力。当运用传统统计模型时, 社会和行为科学研究者强调预测在理论上重要的单独起因以及与结果变量之间的关系的效应。他们看重对于自变量与因变量之间相关性机制的理解, 且分析和解释集中在预测系数上, 包括系数大小、显著性程度。这些信息直接回答了主要解释变量和因变量之间联系的本质。这样的模型有时会忽略大量未解释的方差, 有些来自于模型中缺失的因果变量或者效应, 有些来自于测量误差和数据缺失。但是, 模型的拟合优度 (goodness of

37、 fit) 并不是研究者的主要考虑因素, 所以拟合优度很低的模型也被容忍接受。因此, 我们在顶尖的社会科学杂志中并不难见到中等甚至很低的预测能力的模型。比如, 大多数模型只具有 25%甚至更低的解释方差, 即便是模型有低于 0.1 的可决系数 (coefficients of determination) R 也被认为是无可非议的例如大多数的关于性别态度的已发表文章, 基于个人层面微观自变量的模型一般只解释 6%7%的方差。而数据挖掘强调模型预测的准确性。数据挖掘源于人工智能对于应用预测模型的专长, 并由此发展而来, 最初的预测模型包括预测保险诈骗、疾病诊断、模式识别 (pattern rec

38、ognition) 等等。一个重要的模型成功与否的标准是其在社会实践中准确预测结果的能力。数据挖掘使用了多种多样的方法来保证预测的准确性, 例如, 机器学习是动态的有学习能力的智能系统, 从数据中掌握信息, 产生模型, 并预测结果。基于代理的模型运用单个代理之间的互动来构建全面的智能系统。神经网络相比于多重回归和其他多变量的技术更擅长预测结果。通过结合不同方法, 最大化模型的整体预测能力, 数据挖掘使用了机器学习中的许多工具包括人工智能、数据库和统计, 相比传统统计模型具有更好的解释力。4. 传统统计模型限于数值数据, 数据挖掘方法广泛应用多样数据。传统的统计分析主要基于调查问卷, 变量多为数

39、值型数据。其他类型的数据, 比如文本数据或者访谈数据, 常常被认为是定性数据。定性研究者花大量时间沉浸在定性数据里寻找数据规律。当这些数据量很小时, 这种劳动密集型的研究方法完全能够进行数据处理和分析。但是, 当数据量变大, 数据维度变复杂时, 要求用人类的眼、耳和大脑快速认知和查找模式和变量间关系就变得几乎不可能。大量的专业机构记录、个人账户、人与人之间的交流数据格式是文本、语音或者图像。网络和线上社区包含大量文本和图像, 比如脸书 (Facebook) 、微信朋友圈、推特发文、电邮、博客和 Instagram 的图像, 等等。这些数据往往得不到充分运用, 社会科学研究者没有有效的工具来处理

40、数据, 导致这些数据难以管理分析与利用。数据挖掘为预处理非结构数据提供了多种工具, 并为非数值型数据 (比如语言分析) 提供了分析的方法和模型。这些类型的数据之所以难以分析, 是因为有不同的长短、顺序和杂乱的结构。例如, 不合文法的句子、拼写错误、非常规缩写、随意停顿、专业术语和语境, 这些问题可以由预处理数据步骤完成, 从而把数据从输入格式转成数据挖掘算法的可用数据, 形成了数据挖掘的一个重要步骤。文本的数据挖掘有一系列算法, 有可以将单词变成词袋的词袋模型法 (Bag of Words) , 有采用一系列相邻词汇的 N 元序列法 (N-gram Sequence) , 有识别常见命名实体 (named entities) 的用名字输入提取法 (Name Entry Extraction) , 还有把一组话题作为集群单词的主题模型法 (Topic Models) 。例如, 经济学者可以通过挖掘新闻信息流来预测股市走向。三、大数据时代数据挖掘面临的挑战尽管数据挖掘可以在一定程度上弥补传统统计方法出现的问题, 提供新方法新途径, 找出数据中有意义的模式, 为拓宽社会科学研究视野提供新的机会, 但是数据挖掘也面临挑战和问题, 需要我们找出办法, 补足缺陷。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报