1、基于互联网平台的大数据收集在社会认知研究中的应用 申学易 买晓琴 刘超 北京师范大学认知神经科学与学习国家重点实验,IDG/麦戈文脑科学研究院 北京师范大学脑与学习协同创新中心 中国人民大学心理学系 摘 要: 基于互联网的大数据收集是社会认知领域的新兴研究手段.本文主要介绍了基于以 MTurk,Micro Turk 等为代表的、具有交易功能的大型行为数据网络收集平台进行的社会认知领域的研究,从网络平台大数据采样的数据质量和大数据对社会认知领域新方向的启发两方面进行阐述,总结了网络大数据在样本范围和数量、分析方法和实验情境上相比传统实验室数据采集的优势和不足.虽然互联网平台的大数据收集还有无法完
2、全控制被试完成任务、存在难以通过大量样本平衡的变量等一系列问题,但这一研究方式的社会性生态效度佳,且在纵向研究和社会行为的网络化分析等方面表现出独有优势,在社会认知领域的研究中具有广阔的应用前景.关键词: MTurk; 大数据收集; 社会认知; 网络平台; 作者简介:买晓琴,E-mail:作者简介:刘超,收稿日期:2014-10-13基金:国家重点基础研究发展计划(2011CB711000,2013CB837300)Application of Internet-based big data in social cognitive scienceSHEN XueYi MAI XiaoQin L
3、IU Chao State Key Laboratory of Cognitive Neuroscience and Learning Department of Psychology, Renmin University of China; Abstract: Internet-based big data acquisition has recently been developed as a method used in psychological research. The present work focuses on presenting social cognition rese
4、arch that has been implemented on the massive platforms of transactional websites such as MTurk and Micro Turk. We elaborate on the attributions of Internet-based big data from two perspectives: qualities of Web-based big data and what the data has clarified in the field of social cognition. Compari
5、sons to traditional laboratory findings are also made in terms of sample scale, analysis and research environment. Though demographic diversity of Internet-based big data is still limited and its authenticity in knowledge quiz has been questioned, its prominent social ecological validity, convenienc
6、e in conducting longitudinal research, and distinct networked analyzing method has solidified its strengths over traditional data acquisition methods.Keyword: MTurk; big data collection; social cognition; networked analysis; Received: 2014-10-13在信息化时代, 随着媒体技术的爆炸式发展, 人们在工作与生活中所产出的信息也在高速增长. “大数据 ” 这一概
7、念 最初由 John Mashey 在矽图科 技 (Silicon Graphics)的报告中提出, 主要阐述了由大型复杂数据的挖掘所带来的新的发现1. 而这一概念也随着科学技术的发展, 尤其是互联网平台的日益宽广和其效率的突飞猛进而发生巨大的变化. 时至 2012 年, 全球平均每天约产出 25 亿吉字节, 而这一数字每隔约 40 个月将翻一番. 而互联网使用者也在其中收集人们所产出的各类信息. 例如, 沃尔玛集团每小时可以从用户的业务办理活动中搜集超过 2000 万 Gb 的用户数据2. 随着信息千变万化, 怎样规模的数据足以被称为“大数据”始终在发生变化, 然而 Mcafee 等人3提出
8、的大数据的几大属性被广泛认同而成为大数据时代的主流观点. 他认为, 大数据之“大”体现在数据的样本量大小、数据采集和分析的速度以及数据的多样性这3 个维度. 也正是因为大数据在以上 3 个方面的特征, 其分析方式和所得到的结果从本质上区别于传统数据.以互联网为平台的数据采集与分析在大数据领域中占有重要地位. 社交网络、云计算等基于互联网的网络数据交流及加工平台促使人们不断尝试将传统活动投放在网络平台上, 从而使经济学、社会学、 心理学及计算机科学等多个领域的研究者越来越多地从网络平台获取人们的活动数据, “谷歌流感趋势系统”就是研究者利用网络信息跟踪、分析和预测社会信息的典型案例. Ginsb
9、erg 等谷歌公司研究者并未采用任何疾病控制与防御中心(Centers for Disease Control and Prevention, CDC)的数据, 却成功地通过网络搜索记录快速追踪到了全美国范围内的流感动态. 谷歌公司的追踪仅比当地疫情延迟约一天时间,而相同的工作需要 CDC 中心通过收集医生的诊疗记录, 花费一周或更多的时间才能完成4. 由此可见 ,网络平台中不仅仅储存了大量的既得数据, 而且通过有效的分析, 可以利用此类数据得到在传统研究方式中难以获得的研究结论. 正是基于网络平台的大数据的显著优势, 越来越多的研究和经费计划集中于网络大数据的研究和数据共享5. 而其现实价值
10、亦是吸引了众多企业加强了对网络大数据的开发和分析. Mc Afee 等人3对多达 330 个北美公司进行调查并对其主管进行了访谈. 研究发现, 较多主管认为公司决策依靠网络大数据的企业在财政和管理上表现更为出色. 而在行业内排名前 1/3 的企业中, 这种大数据导向决策的方式所引起的优势更为显著, 表现为在产量上高于同类型企业 5%, 在收益上领先 6%.网络大数据以其独特的价值和可靠性吸引着研究者、 实业家乃至政府对其应用逐步加深, 因而在生产和生活中起着较之以往更为重要的作用.1 大数据与心理学研究近年来, 以网络为平台的社会行为吸引着越来越多的心理学领域研究者的关注. 以网络为平台的大数
11、据分析主要体现在 2 类数据上, 一类为以Twitter,Facebook 等社交网站用户操作为对象的网络社交行为分析6,7; 另一类则是心理学研究者将实验程序从实验室移户到互联网平台, 身处不同地点的被试自行在网站操作完成实验, 这类研究主要依靠亚马逊的 MTurk 平台等具有交易功能的网站进行. 在社会学、经济学等众多领域, 网络收集大数据已成为众多研究者的选择. 大数据具有样本量大、样本分布广等优势. Paolacci 等人8收集了 1000 名使用 MTurk 平台参加实验的被试的人口变量, 发现样本在地区、年龄、 性别、教育程度方面都有较好的分布, 较之以往研究中的样本多集中于特定的
12、在校大学生明显具有优势.然而在网络环境中完成实验, 被试能否正确地理解实验规则并且完成实验等质疑也时常存在. 随着网络平台的运营方式不断完善, 被试任务完成质量的监控也日趋精密, 数据质量也得到了较好的控制. 近年来, 各领域的研究者对网络大数据的信度进行了系统的检验. Germine 等人9在 MTurk 平台和实验室分别进行了剑桥面孔记忆(CFMT)、情绪认知 (RMIE)等一共 5 项认知加工测验, 其中网络数据采集样本大小超过 4000. 研究发现, 在被试的性别、年龄和任务完成成绩上均无显著差异. Schnoebelen 和 Kuperman10则针对多项语言认知加工任务在 MTur
13、k 平台上获得的数据进行了信度检验, 发现传统实验室方法获得的数据可以有效地预测网络数据. 更有研究者进一步用测谎问题进行被试在完成任务过程中注意程度的测试 , 发现 95%以上的被试可以通过11. 互联网平台的大数据收集的便利性和可靠性,使其逐渐成为心理学大数据领域的热点.2 基于互联网平台的大数据采样在社会认知领域应用的优势2.1 在保障社会心理学实验的数据质量方面的优势( ) 系统性的高信度 . 数据信度关乎结论质量, 在各实证研究领域中, 研究者通过改进测量方法和数据采集方式不断提升数据的信度. 近年来, 在社会心理学领域研究信度的问题引起了广泛的关注,众多的社会心理学实验的信度问题引
14、起了 Science,Perspectives on Psychological Science 等杂志的专题讨论. 在讨论中 , 检验研究结果能否被重复是解决信度问题的最为直接有效的方式. 而总结对研究信度的检验情况, Makel 等人14基于 Wo S 网站进行检索, 发现自 1950 年开始, 在影响因子排在前 100 位的心理学研究杂志中, 重复研究率虽然在 2000 年以后有明显增长, 但也维持在较低的 2%以下. 而且,在被调查的重复研究中, 他人直接重复实验成功率仅 72.9%. 可见, 对以往研究所进行的信度检验, 其结果在数量和结果上都表明, 心理学研究亟需对其可重复性和结论
15、的可靠性提出更高的要求.为进一步进行系统的检验, Klein 等人15对 13 项社会心理学行为进行了研究, 每个实验采集了相互独立的 36 个样本, 共 6344 名被试, 范围涉及巴西、荷兰、英国、美国等众多国家和地区. 这一大型重复研究发现, 13 项研究中有 9 项的平均效应量小于原始研究发现的效应量, 甚至有 3 项研究的平均效应量接近零. 研究者认为, 除实验操作的差异外, 样本的多样性是效应量差异的重要原因. 研究被试的教育程度、 所在地区、年龄等众多因素都会对实验结果产生影响, 而更为广泛和大量的采样是解决假阳性结果的关键手段.由于重复实验数量较少, 且以往研究的信度还存在质疑
16、, 为解决社会心理学研究颇受诟病的信度问题, 扩大采样的数量和范围是较为可行的办法. 依靠网络平台采集大数据, 速度快、成本低、面向人群广, 所以可以方便地解决大量收集数据的问题. Mason 和 Suri16统计了在 MTurk 平台上收集行为实验数据的速度和样本分布, 发现在短短的 10 d 以内就可以完成 500 次测查, 而样本的分布与以往传统大数据收集样本的结构相似. Casler 等人17则直接对样本的多样性进行比较, 发现 MTurk 平台的样本人种多样性显著高于传统样本. 然而近年来, 随着越来越多的研究人员采用网络平台收集数据的方式进行研究, 网络研究平台也日臻正规和完善.
17、MTurk, Clickworker,Micro Turk 等站点通过开发各项适合实证研究采样的功能, 进一步对样本类型有了精密的控制. 例如,MTurk 平台作为其中最为著名、发展时间最长的研究数据收集站点, 可以根据研究者的要求, 平衡各地区的被试数量, 并通过多种方式严格控制任务完成情况, 从而保障了在传统实验中需耗费大量成本才能确保的系统性的高信度.() 匿名程度更高. 在社会心理学实验中, 由于所研究的问题涉及人际互动, 为了严格控制变量,常需要研究者尽可能地控制被试之间的非实验性质的社会交互. Warkentin 等人18发现面对面的互动更容易建立稳固的社会关系. 更有研究发现细微
18、的社会线索, 包括身份信息、面部表情、目光交流等都会影响人和人之间的利他偏好, 更多更直接的社会线索会导致个体在与他人交往时表现更为利他. 这一现象被发现具有相应的神经基础19, 从而进一步验证了社会线索对于个体的社会行为形成和变化的显著作用.社会行为实验中, 参加者是否匿名参与实验对实验效应有明显影响. 而在实验中难以对被试的表现加以外在控制, 因而容易产生预期之外的干扰. 平衡面对面的交互所造成的影响是在社会心理学实验中特殊的要求, 区别于其他心理学领域的研究, 因而很多社会心理学实验采用了匿名的方式进行20,21.在实验室情境中, 被试往往被分隔在不同的房间完成任务22,23, 但这样的
19、防护也难以匹及网络平台实验中更为严格的匿名效果.2.2 在创造新的实验情境方面的优势() 利于研究社会群体对个体行为的影响. 社会是共同生活的个体及其关系的总和24. 个体行为寄居于群体中, 与人和人之间的关系息息相关, 进而作用于群体活动模式. 这一关系在社会心理学、经济学等领域的研究中均得到证实. 例如, Grerk 等人25发现个人如果做出维护公平合作的行为, 组内的合作程度将得到整体提高. 类似地, 在计算机模拟中也有相似的发现26,27. 然而, 群体与个人的关系不仅仅局限于个体行为的扩散上, 群体属性也会对个体行为产生影响, 这种影响主要表现为文化乃至信仰差异26.Barchard
20、 等人28使用网络平台招募 388 名被试对色彩的情绪属性进行判断, 发现在蓝色和黑色与情绪之间的连接判断上, 印度被试与美国被试存在显著差异, 美国被试普遍认为蓝色与忧郁、阴沉的情绪有关, 而印度被试则认为蓝色代表平安快乐和多子.其原因在于与情绪有关的宗教人物形象和国家标识 (运动员服饰惯用颜色)有国家间的差异, 从而导致了认知上的差异. 网络大数据研究不仅仅涉及个体层面的社会认知跨文化差异研究, 近年来, 更复杂的多人社会行为研究也采用了网络收集的方式. Raihani 和 Bshary29采用独裁者博弈范式对不同文化下的利他偏好差异进行研究. 独裁者博弈是经典经济学范式, 该范式中包括分
21、配者和接受者 2 种角色. 在实验之初, 分配者将获得实验者所给予的资金, 并需要决定如何分配这部分资金, 且接受者没有权利对方案提出任何异议, 需无条件接受分配者提出的分配方案, 故而称此范式为独裁者博弈. 按照经典经济学理论“经济人”假说, 担任分配者的个体应尽可能地将所有资金收归私囊, 但大量行为实验证实分配者不会选择用绝对利己的方式进行分配, 而是仍会给毫无话语权的对家保留一定金额, 这部分金额则被用于衡量分配者的利他偏好. 研究招募了 700 余名被试,随机设定分配者或接受者的角色, 对全球 4 个主要文化背景下的个体进行了利他偏好的分析(包括欧洲基督背景、英语国家、东正教背景、南亚
22、文化), 发现文化背景具有显著影响, 在经济市场化程度更高的地区(如欧洲大陆、北美)的利他偏好相比其他地区更高. 分析原因, 可能在于公平主义在市场经济体制较为完善的地区是更加普遍的认知方式, 因而在公平主义偏好下表现得更加利他.比较以往的跨文化研究, 采用传统研究方法的研究往往样本量较小, 通常每个独立地区的样本量在 2030 左右22,30,31, 但网络平台下的大数据样本量常高达 100 甚至数百以上28,29,32. 且这种更大的样本所反映的群体间差异可以更好地说明文化差异问题.之所以网络平台采集数据样本量较大, 是因为网络平台采集大数据的速度和成本都不是传统方法可以相比拟的, 完成一
23、项数百人的跨文化研究往往仅需要几天时间, 而成本也远小于传统方法16,33.() 方便研究社会心理效应随时间的变化. 纵向研究, 亦即追踪研究, 是用于分析现象随时间变化的研究, 主要用于探究几个时间点上相同或不同个体变化的差异34,35. 然而纵向研究相对应用较少, 主要原因在于此类研究成本高, 完成难度大. 采用网络平台收集数据较为容易, 近年来已有研究者根据网络大数据的纵向分析有所发现.纵向研究在网络领域分为 2 种. 一种是对既有的网络行为进行分析, 其中主要包括 Twitter, Linkedin,Facebook 在内的社交媒体使用行为 . Archambault和 Grudin7
24、对多达 1000 名社交媒体使用者进行了使用情况的追踪研究, 发现日常使用 Facebook 的比例随时间显著增长, 原因在于个体在网络社交活动中会更多地卷入集体性活动, 而非常规的生活事项陈述,表明社群性的行为对社会个体的重要性. 类似的也有关于愧疚感、社交焦虑等方面的研究36. 另一种纵向研究的方式是将实验室纵向研究移植到网络平台上. 例如, 有研究者使用MTurk 平台对多达 369 名被试的酒精日常摄入情况进行了跟踪调查, 跟踪时间长达 2 周, 详细记录了个体每天的酒精摄入情况和过往酒精使用历史. 发现个体使用酒精量与过往是否滥用酒精以及社会交往情境有关. 且在该样本中由于包含了大量
25、非在校大学生, 所以日常摄入酒精比例明显低于以往研究, 进一步说明大而分布广泛的样本在纵向研究中的必要性37. 在社会认知领域 ,也有研究者采用这一方法研究奖赏学习条件下的学习效应38. 这类使用网络平台进行的追踪研究 , 对于时间的控制更加严格且记录更加精确. 此外, 正是因为网络操纵的环境较为私密, 被试参与研究的环境更为友好, 社会性生态效度更好.() 发展新的分析方法. 网络大数据因其方便性而在各项以往难以达成的研究上体现出其独特的优势. 然而, 网络大数据在社会认知中的新颖贡献不仅局限于此, 还体现在对已有实验结论的扩充上.由于数据量大, 研究者可以灵活地根据被试类型分类进行“切分”
26、(slicing)分析. 大多数传统研究中针对由实验者操纵的自变量的效应进行分析. 所谓 “切分”, 即根据个体的反应, 对一类型的个体行为进行分析, 将个体的反应类型作为被试间的自变量37.Rand 和 Nowak39使用 MTurk 进行了群体合作与惩罚的关系的研究, 其中针对被试的群体反应进行了切分分析. 该研究采用的是公共物品博弈范式, 4 名被试一同进行实验. 被试在实验之初都有等额的私人资产, 在实验过程中需要选择将私人资产的一部分投入公共账户中, 公共账户中的资产按比例增长, 增长后均分给各被试40. 在该范式中 , 存在个人利益和公共利益的此消彼长, 如果被试投入得多, 那么团
27、队共有的资产将会增长; 但如果被试投入得少, 依附他人的投资来赚取利益, 则团队共有的资产会减少,但被试可以通过这种方式赚取更多的利益. 这一范式是用于研究多方合作的经典案例, 在现实社会中也有广泛印证(例如, 二氧化碳排放的各国多方合作). 以往研究发现惩罚可以促进合作, 另又有行为实验证明在公共资产增长率较高的情况下, 惩罚并非最优选择44. 对于惩罚能否促进多人合作 ,一直存在争议45,46. 在该研究中 , 采用了大量的样本, 在不同公共资产增长率和惩罚选项上广泛进行实验, 发现在不同惩罚策略下存在合作频次在不同资产增长率上的正态分布, 正是由于不同实验参数的使用导致了前人研究中的不同
28、结果, 进而得出结论, 惩罚对合作产生的作用仅在限制对象的惩罚策略下有显著作用. 其中对于不同惩罚策略的反应进行切分的分析正是利用了网络数据的大样本特点,从而得以进行. 这种基于多种实验条件的、对被试行为类型进行分类分析的方法对样本量有很大的要求,而在多人互动的社会行为实验中, 对样本量的要求更是成倍增长, 以往的样本量在切分后进行分析, 难以达到大样本统计的基本要求. 网络平台下的大数据采集则解决了这一问题.针对社会交互行为研究, 基于网络平台的人际合作行为可以采用网络分析的方式. 以往的多人互动研究主要针对两人互动, 而现实日常的社会互动往往脱离两人的限制, 转而涉及更广的互动范围, 呈现
29、网络内多方交互的景象. 小到幼儿园中儿童的团队游乐, 大到涉及多个研究机构的大型研究项目, 合作的范围往往远远超出两个人. 随着网络媒体的疾速发展, 在网络环境中的合作和互动则更为高效, 自然也更加复杂. 由于以往研究中实验条件的限制, 缺乏对被试的网络化合作行为的分析, 仅有的少量研究中对行为实验中个体合作的网络化分析也比较简单, 较为精细的网络分析通常在计算机模拟中使用,还需要规模接近计算机模拟的行为实验对模拟的结果进行验证. Mason 等人24,47采用“勘探井”范式研究团队合作中的探索行为. 该范式要求多名被试一同根据极少的线索在地图上寻找“矿井”, 前人研究发现在群体数量较大的时候
30、由独裁者领导团队完成任务效率更高, 然而在团体数量并未达到数十人的大型规模的条件下, 团队合作共享信息是更为有效的合作方式48. 然而尚需探明怎样的信息共享模式最有利于合作. Mason 等人47使用这一范式在传统实验室情境下完成, 研究者根据连接模式进行分类, 研究不同连接模式的合作效率. 连接模式在计算神经、信息传播等领域均有丰富的研究. 连接模式是用于描述网络中代表个体的节点(nodes)以及节点之间互相联系的边(edges/ties)的概念. 通过阐述节点和节点之间的关系即可对信息传播的方式进行描述和分析.研究者将个体间的连接模式分为全连接、栅格连接、 “小世界”和随机连接, 这 4
31、种连接方式是网络连接中较为常见且被广泛研究的网络类型. 对这些网络模式的合作效率进行分析, 发现各种连接方式分别适用于解决不同的问题, 例如, 全连接对于探索性强的任务是一种效率更高的合作模式. 在随后进行的基于网络平台的数据采集在保障了更大的样本量之外还扩充了网络的大小, 从而可以在对网络模式进行分类的基础上进一步分析网络的属性, 包括介数、最小平均簇、最大紧密度等16. 这些网络属性相较连接类型, 是对网络连接方式更为具体的描述, 通过定义网络属性, 就可以确定网络的类型, 同时也可以更确切地描述混合多种类型的网络模式. 研究发现网络中与网络能效有关的属性都能够较好地预测团体合作的效率,
32、即理论上信息传播更经济的网络在实际合作中的效率也更高. 此类网络研究不仅对样本大小有较高的要求, 同样也要求实验过程中可以进行大范围的实时交流, 充分运用了网络平台信息交流快速的特点.3 存在的问题与展望大量实验研究对基于互联网的大数据采样信度进行了系统的检验, 然而仍有问题尚未解决, 基于互联网的采样还无法完全替代实验室行为研究. 首先,由于实验条件的限制, 实验者无法完全控制被试完成任务的资源. 有研究者检验了被试在网络平台完成任务时是否采用互联网搜索正确答案, 发现如果被试回答得正确与否与报酬相关联, 通过网络舞弊的比例高达 40.1%; 而如果回答正误不影响报酬, 被试的舞弊比例虽然减
33、少很多, 但仍达 27.2%11. 因而,涉及知识的记忆类任务得到的数据可能会质量较低.此外, 还存在部分变量, 即使加大样本也难以平衡.由于现有的网络平台主要使用英文, 所采集到的数据也多数来源于以英语为母语或第二语言的国家.虽然样本在各国家和地区的分布明显优于传统实验方式, 但构成仍然单调, 绝大部分为美国和印度被试17. 在其他国家采集的样本仍然较少 , 并且由于语言学习环境的限制, 能够熟练使用英语的、来自其他国家的被试往往教育程度较高, 可能带来难以在地区间平衡的人口学变量.此外, 已有的基于网络采样的大数据, 虽然大量地被证实与实验室研究结论相差无几, 但仍有部分研究发现基于网络的
34、数据采样与传统实验数据的差异. 在行为表现上, MTurk 被试对于金钱的价值评价更高, 类似地, 也发现 MTurk 进行的经济决策实验中, 被试表现得更加规避风险11. 在情绪特征方面,网络被试抑郁的评分相比传统方法招募的被试更高49, 但另有研究发现 MTurk 被试在大五人格量表中的外倾性评分比社群被试更高11. 类似的对 2 类被试的特质进行比较研究, 发现两者之间产生差异的结果时常出现, 研究结论也偶有矛盾, 带来这种差异的关键因素也尚未探明, 但也说明网络平台收集数据所得结论在与以往研究进行比较时, 需考虑两类被试的特质性差异, 谨慎推论.尽管存在以上问题, 基于互联网平台的大数
35、据研究仍然为社会认知领域的行为研究带来了崭新的发展方向. 在我国, 由于其起步晚, 还尚未得到完全的推广. 现有的少量研究主要集中探讨网络大数据平台的建立和对数据分析的设想上50.网络平台的实证研 究大数据 采集所采 用的手段 也比较局 限 .Wang 等人51使用网络方式对社交网络隐私保护偏好进行调查, 样本来自美国、中国和印度. 其中印度和美国样本在 MTurk 平台采集, 而中国样本使用 ZBJ 网络平台进行收集. 研究发现, 中国受试者对社交网络的信任度和隐私尊重的程度高于印度受试者, 低于美国受试者, 其差异主要来源于网络社交习惯的不同. 该研究使用问卷测查的方法进行比较, 手段简单
36、、对网络平台的要求也较低, 因而得以实施. 然而因功能欠缺和推广不足, 在我国实施网络平台的大数据采集难度较大, 且尚未有针对性地对我国网络数据的信效度进行检验. 未来研究需要进一步使用实验方法检验网络大数据的信效度, 系统地对样本进行测查. 其次, 网络大数据还局限在它的高效率和低成本上, 对网络数据中的分析尚以个体分析为单位, 本质上没有完全脱离传统行为实验的分析方式,甚至在分析所得结果上表现得比传统研究更为描述性, 而非解释性52. 人类所具有的心理理论能力和镜像神经系统表明个体在对客观刺激的认知受到社会线索的调节, 个体之间的交互是多方向的, 具有网络特征53. 在未来针对社会认知内容
37、的研究中 , 应更多地将人类社会行为以群体为单位进行网络化分析, 充分发挥网络平台的信息传播优势. 国外已有研究涉及社会行为的网络化分析, 然而我国的此类研究尚且欠缺. 正是这种原因, 社交行为网络化模式的跨文化比较研究也同样欠缺. 未来需要在对国内网络平台大数据的信效度得到有效检验的基础上, 进一步对国内外的群体社交行为进行比较. 总之, 网络大数据在社会认知领域正发挥着日益重要的作用,其数据质量还需采取手段保障, 分析方法还需要在未来进一步挖掘.参考文献1 Fan W,Bifet A.Mining Big Data:Current Status,and Forecast to the Fu
38、ture.ACM SIGKDD Explor Newsl,2013 2 Harford T.Big data:Are we making a big mistake.Financ Times Mag,2014,711 3 Mc Afee A,Brynjolfsson E,Davenport T H,et al.Big data.Harvard Bus Rev,2012,90:6167 4 Ginsberg J,Mohebbi M H,Patel R S,et al.Detecting influenza epidemics using search engine query data.Natu
39、re,2008,457:10121014 5 Howe D,Costanzo M,Fey P,et al.Big data:The future of biocuration.Nature,2008,455:4750 6 Broniatowski D,Paul M,Dredze M.Twitter:Big data opportunities.Inform,2014,49:225 7 Archambault A,Grudin J.A longitudinal study of facebook,linkedin,&twitter use.Proc SIGCHI Conf Hum Factors
40、 Comput Syst,2012,ACM:27412750 8 Paolacci G,Chandler J,Ipeirotis P.Running experiments on amazon mechanical turk.Judgm Decis Mak,2010,5:411419 9 Germine L,Nakayama K,Duchaine B C,et al.Is the Web as good as the lab?Comparable performance from Web and lab in cognitive perceptual experiments.Psychon B
41、ull Rev,2012,19:847857 10 Schnoebelen T,Kuperman V.Using Amazon Mechanical Turk for linguistic research.Psihologija,2010,43:441464 11 Goodman J K,Cryder C E,Cheema A.Data collection in a flat world:The strengths and weaknesses of mechanical turk samples.J Behav Decis Mak,2013,26:213224 12 Pashler H,
42、Wagenmakers E J.Editorsintroduction to the special section on replicability in psychological science:A crisis of confidence?Perspect Psychol Sci,2012,7:528530 13 Carpenter S.Psychologys bold initiative.Science,2011,4:579 14 Makel M C,Plucker J A,Hegarty B.Replications in psychology research:How ofte
43、n do they really occur?Perspect Psychol Sci,2012,7:537 542 15 Klein R A,Ratliff K A,Vianello M,et al.Investigating variation in replicability.Soc Psychol,2014,45:142152 16 Mason W,Suri S.Conducting behavioral research on Amazons Mechanical Turk.Behav Res Methods,2012,44:123 17 Casler K,Bickel L,Hack
44、ett E.Separate but equal?A comparison of participants and data gathered via Amazons MTurk,social media,and face-to-face behavioral testing.Comput Human Behav,2013,29:21562160 18 Warkentin M E,Sayeed L,Hightower R.Virtual teams versus face-to-face teams:An exploratory study of a web-based conference
45、system.Decis Sci,1997,28:975996 19 Delgado M R,Frank R H,Phelps E A.Perceptions of moral character modulate the neural systems of reward during the trust game.Nat Neurosci,2005,8:16111618 20 Rand D G,Tarnita C E,Ohtsuki H,et al.Evolution of fairness in the one-shot anonymous Ultimatum Game.Proc Natl
46、 Acad Sci USA,2013,110:25812586 21 Boyd R,Gintis H,Bowles S,et al.The evolution of altruistic punishment.Proc Natl Acad Sci USA,2003,100:35313535 22 Herrmann B,Thoni C,Gachter S.Antisocial punishment across societies.Science,2008,319:13621367 23 Xu C,Ji M,Yap Y J,et al.Costly punishment and cooperation in the evolutionary snowdrift game.Phys A Stat Mech Appl,2011,390:16071614 24 Mason W,Watts D.Collaborative learning in networks.Proc Natl Acad Sci USA,2012,109:764769 25 Grerk O,Irlenbusch B,Rockenbach B.The competitive advantage of sanctioning institutions.Science,2006,312:108111