1、基于多源异构大数据的学术不端监督有效性研究 鲁晓峰 南京邮电大学纪委办公室 摘 要: 多源异构大数据背景下, 学术不端监督具有主体更加多元化、识别更加便捷和高效、监督更加全面以及能够实现预测等特点, 但同时也存在诸如各类数据库开放和共享程度不高、大数据技术尚不成熟、易被不良动机者利用、缺少相应法律法规约束等新的问题, 要实现对学术不端的有效监督, 应当进一步推动学术数据开放共享, 加强学术信息数据库平台建设, 加强技术研发和人才培养, 加强法律和制度建设, 从而完善学术不端监督体系。关键词: 多源异构; 大数据; 学术不端; 基金:2017 年度江苏高校哲学社会科学研究项目“高校学术不端行为预
2、防和处理机制有效性研究” (项目编号:2017SJA005) 大数据是近年来的科技热点, 越来越受到各行各业的关注, 也为各行业带来跨时代的变革。麦肯锡在大数据:创新、竞争和生产力的下一个前沿研究报告中指出:“数据已经渗透到每一个行业和业务职能领域, 逐渐成为重要的生产因素。”1国务院在 2015 年印发了促进大数据发展行动纲要 (以下简称纲要) 明确指出:“坚持创新驱动发展, 加快大数据部署, 深化大数据应用, 已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。”在学术诚信建设方面, 大数据为学术不端的监督提供了强大的数据信息和先进的技术支撑, 在学术资料的收
3、集、学术成果的发表和传播、学术合作和学术评价等各个阶段, 都开辟了崭新的空间, 同时也为学术不端的监督带来了新的机遇和挑战。本文通过分析多源异构大数据的特点以及此背景下学术不端监督现状, 讨论多源异构大数据为学术不端监督带来的便利性、大数据下学术不端监督存在的问题, 进而对多源异构大数据背景下如何提高学术不端监督的有效性提出对策建议。一、多源异构大数据背景下学术不端监督的特点“大数据”是 20 世纪提出的一个概念。纲要中将大数据定义为“以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”。多源异构是大数据的基本特征, 从数据产生方式看, 台式电脑、手机、平板、GPS 等都是数据的来源
4、;从数据类型看, 结构化、半结构化甚至非结构化数据占据了多数;从数据存储看, 越来越多地开始采用新的存储方式来应对海量数据, 存储数据的各系统在操作步骤、网络平台、数据模型、运行方法以及所使用的编程语言等方面形式各异。多源异构大数据背景下, 学术不端的监督具有如下特点。(一) 学术不端监督的主体更加多元化大数据服务于国家治理能力建设的核心是正确处理好“政府市场社会”三者的关系。政府力量主导大数据产业建设是关键, 市场运作能够充分释放大数据红利, 社会和公民的广泛参与是大数据时代国家治理能力现代化的保障。随着业界加大对学术不端现象的重视, 越来越多的机构和人员成为学术不端行为的监督主体, 除了政
5、府管理部门、高校、科研机构、学术期刊等监督主体外, 同行以及社会公众也开始关注监督相关领域的研究成果和数据, 反对学术不端的意识不断增强。近年来揭露的国内外若干学术不端行为, 都源于同行或公众的质疑和投诉。大数据背景下, 人们获得信息的途径更加便捷, 大数据的网络监督逐步成为学术不端监督的一柄利器, 极大地拓宽了监督渠道, 提高了不同监督主体对学术不端行为实施监督的可能性和积极性。(二) 对学术不端行为的识别更加便捷和高效大数据为学术不端监督提供了一个庞大而且易于索取的“信息来源”和“数据仓库”, 可以通过设置“关键词”等形式, 将大数据检索成小数据, 从而使得信息能够有序地排列, 并获取有价
6、值的信息。在大数据时代以前, 所有的论文等学术资料尚未数字化, 对学术不端行为的发现和鉴定需要靠人工查阅, 即便是很少的学术不端行为也需要花费大量的人力和时间去排查, 对学术不端行为的认定可能只有少数专家才能做到。而在大数据时代, 高校等科研机构对各项科研信息均能形成数据资料, 绝大多数学术期刊都采取了电子化投稿, 并开展了不同程度的数字出版工作, 纷纷加入中国知网、万方、维普等大型数据库, 这为学术不端的便捷查询认定提供了可能性。大数据让学术不端的识别更加高效。全球第一个论文检测网站 Turnitin 在高峰期每天能收到 2 万篇论文, 成功阻止了 600 万学生和科研人员的抄袭。依靠互联网
7、和相应的数据库软件, 发现文章抄袭等学术不端行为相对简单高效许多, 对学术不端行为的发生也起到了有效的遏制作用。(三) 对学术不端行为的监督更加全面大数据的分析对象具有全面性, 即样本等于总体, 这能克服统计抽样的局限性, 捕捉到相关的细节。维克托认为“通过使用所有的数据, 我们可以发现如若不然则将会在大量数据中淹没掉的情况”2。在大数据背景下, 数据的记录、储存和分析工具进一步优化, 可以处理的数据量大大增加, 计算机对研究人员信息、项目立项、研究过程、研究成果等信息, 甚至论文作者的网络检索记录等全部数据进行处理。大数据时代衍生的海量数据使得网络犹如一个巨大的“信息蓄水池”, 网络曝光密切
8、地监督着社会, 一张图片、一篇报道、一个表情都可能变成反腐风暴的导火索。通过对所有的数据进行判断和分析, 把学术不端行为的相关数据与正常的学术研究数据进行比较, 可以发现传统的统计方法无法发现的学术异常状况, 从而更加全面地监督学术不端行为。(四) 能够实现对学术不端行为的预测建立在相关分析法基础上的预测是大数据的核心。大数据的相关分析法更准确、快速, 不易受到先入为主的影响。在大数据背景下, 数据库大而且复杂, 通过计算机的计算和分析, 可以预测天气的变化, 预测个体未来的行为, 甚至预测某些社会事件的发生。在学术不端监督中, 不再需要事先人工判断哪些因素与学术不端行为有因果关系, 运用大数
9、据的相关分析, 可以自动找到那些与学术不端行为最相关的关键词, 从而更容易、更快捷、更清楚地预测学术不端行为。二、多源异构大数据背景下学术不端监督存在的问题多源异构大数据为学术不端行为的监督提供了更为有效的途径, 大数据的技术在学术研究中也越来越受到重视, 可以说, 目前学术不端的监督已经离不开大数据, 与此同时, 大数据背景下的学术不端监督也存在一些问题。(一) 各类数据库开放和共享程度不高尽管数据共享对研究结论核查具有重要意义, 但社会学家和数据科学家对处理可能涉及隐私的问题仍没有达成共识。公共科学图书馆 (PLOS) 通过相关调查发现, 数据共享率仅为 10%。我国学术研究的各个阶段的信
10、息和资料基本上能够实现数据化, 但是这些信息和资料都是在各自的系统独自存储, 目前知网、万方、维普等数据库也都是互不兼容, 并未实现真正的开放, 不能满足大数据时代对信息的集约化要求。这样分散的数据缺乏政府的统筹规划, 使用效率较低。其他机构和社会公众无法获得研究人员的有关信息, 诸如具体研究过程, 论文的投稿、修改、发表等情况, 因而不能获得对学术不端行为最高的监督效率。目前各类学术研究数据库中, 存储的多是期刊、会议等文献, 而对学术专著却很少收录, 对抄袭专著的学术不端行为, 通过大数据和互联网技术也很难发现。(二) 大数据技术尚未成熟, 学术不端监督手段比较单一大数据网络技术还不成熟,
11、 在大数据挖掘的数据收集、数据存储、数据处理、数据结果的可视化呈现这几个环节中, 大数据技术的运用仍存在一些困难与挑战。在算法结构、后台核心数据库、用户数、用户选择等各方面与国际一流水平还存在一定差距, 而其在学术不端监督方面的运用还缺乏完整统一的处理方法和程序, 人才建设与基于大数据的学术不端监督需求脱节。麦肯锡预计, 截止 2018 年, 美国大数据领域中深度分析人才职位的需求会超过供给, 缺口为14 万到 19 万个职位。而国内真正能理解和应用大数据的创新性人才缺口更大, 能够既熟悉学术不端的监督又了解大数据应用的管理者更是属于稀缺资源。各监督主体中, 很多由于自身素质和技能的缺乏, 无
12、法对富有含义的数据进行专业化的处理和分析, 起到监督作用。基于大数据的学术不端检测软件还不完善, 目前国内常用的知网科技期刊学术不端文献检测系统 (AMLC) 、万方论文相似性检测系统、维普通达论文引用检测系统、ROST 反剽窃系统等基本上是对同一种语言的检测, 而对跨语言的检测则显得无能为力。多数软件只能实现对文字的检测, 对 PDF 图片、数据集成等形式的抄袭行为也无法有效地检测, 文章的格式不同对检测的结果也有一定的影响, 论文的相似性检测结果仅仅作为参考, 学术不端监督的有效性受到影响。(三) 大数据和网络技术易被不良动机者利用, 加大监督难度大数据和网络技术在提高学术不端监督效率的同
13、时, 也会被不良动机者利用, 为学术不端行为提供了便捷。由于存储数据库的开放性、数据资源共享性以及通信技术、网络技术的全面普及, 社会公众很容易获得各类学术成果, 这同时也为抄袭、剽窃学术成果等学术不端行为的发生提供了便利, 导致了学术不端行为激增。中国科学技术发展战略研究院赵延东通过对全国三万名科技工作者的抽样问卷调查结果显示, 超过一半的科技工作者表示确切知道自己周围的研究者有过学术不端现象3, 中国地质大学高等教育研究所黄文彬、李祖超在科研人员学术不端行为的社会学分析及防治对策研究中指出, 79.35%的人身边都发生过不同程度地违背科研道德与诚信的事件4。各类学术不端的检测软件虽然能够检
14、测抄袭行为, 却也容易被有不良动机者恶意利用, 用增加词语、变换语序等方式来改写本来抄袭的文章, 刻意逃避软件的检测, 使学术不端行为更加隐蔽, 不易被发觉。目前网上就有不少“应对学术不端论文检测系统的修改论文攻略”的帖子, 并出售所谓的“反检测软件”, 甚至出现了大量论文代写代发的网络中介“行业”, 形成学术不端的产业链, 使监督难度加大。(四) 数据资源的归属和使用缺少相应法律法规约束大数据的价值不再单纯来源于它的基本用途, 而更多源于它的二次利用, 这个性质使得我们现在采用的保护隐私的法律法规已经不再适用。大数据背景下要有效地监督学术不端行为, 就避免不了监视科研工作者的搜索记录, 分析
15、其个人信息, 预测判断研究人员的潜在行为, 这些信息可能会被用于很多创新性的无法预料的用途, 也很可能对科研人员的隐私造成一定程度的侵犯。目前, 我国尚缺少相应的法律法规对大数据背景下的隐私进行监管, 对数据资源的归属和使用作出界定。虽然通过了一些互联网信息服务、管理、保护的相关办法和规定, 但这些规定在实施过程中仍然有很多不足, 与目前学术不端监督的制度法规也不能有效衔接。如果这些涉及隐私的信息被不法分子利用, 将使学术不端的监督陷入尴尬的境地。三、多源异构大数据背景下提高学术不端监督有效性的对策在多源异构大数据背景下, 要实现对学术不端的有效监督, 应当在数据开放和共享的基础上, 对各类学
16、术信息数据进行整合, 结合互联网信息挖掘技术和分析技术, 主动发现学术不端行为线索, 准确识别学术不端行为, 掌握学术不端发生规律并做出预测, 完善相关法律法规, 建立健全学术不端监督体系, 有效地预防和减少学术不端行为的发生。(一) 推动学术数据开放共享, 建立信息收集平台推动学术数据信息开放和共享。美国、英国、日本等发达国家在发展大数据产业之初便不遗余力地开发公共大数据。2013 年 6 月, 八国集团首脑在北爱尔兰峰会上签署了开放数据宪章, 越来越多的国家同意政府开放数据。2015 年中国在促进大数据发展行动纲要中将开放数据作为工作重点。在大数据的决策中, 90%基于数据, 10%基于直
17、觉。要实施有效的学术不端监督, 必须加快学术信息数据化, 要收集大量的数据, 包括实时数据, 推动科研管理部门、高校、科研机构、期刊、学术成果数据库等信息共享, 包括科研人员的学历背景, 研究方向, 学术经历, 科研成果, 工作经历, 项目的立项审批、研究过程、研究成果及产生效益等, 甚至还有科研人员诚信教育情况以及诚信记录等信息, 在依法加强安全保障和隐私保护的前提下, 提升数据开放共享标准化程度, 引导高校、科研机构、期刊以及社会公众等主动采集并开放数据, 建立政府和社会互动的大数据采集机制, 丰富面向多元主体的信息服务, 提高学术不端监督的完整性。加强学术信息数据库平台建设, 并将学术信
18、息数据纳入政府数据统一共享交换平台, 加强与社会大数据的汇聚整合和融合运用。维克托认为:“应当建立专门的官方机构来公布民用和商业数据, 而且数据必须以标准的可机读形式展现, 以方便人们处理, 否则, 信息的公开只会是徒有虚名。”5我国现有知网、万方、维普等大型的学术文献数据库, “中国高层次科技人才数据库”“科技项目信息数据库”“国际科技创新与决策支持平台”等科研信息数据库, 在此基础上, 应加快完善科研人员信息库、科研项目管理信息库、学术文献数据库和科研诚信情况数据库, 充分运用云计算技术, 整合现有学术信息资源、学术资源数据库和社会数据资源等分散学术文献数据中心, 依附国家政府大数据信息平
19、台和信息系统, 注重对现有数据中心及服务器资源的改造和利用, 构建布局合理、规模适度、保障有力、绿色集约的学术信息数据库, 完善学术信息数据标准规范体系, 充分发挥标准在监督管理中的作用。在平台上可以整合来自高校、科研机构、期刊编辑部、BBS、网站、社会公众等有关学术不端行为的举报和讨论。进一步推广使用 ORCID (科研工作者标识符 Open Research and Contributor ID) , 便于实现不同系统之间数据交互和相互贯通, 将同一科研工作者在不同系统中的科研产出进行关联和汇聚, 提升多元监督主体对学术不端的总体监督水平, 提高学术研究人员的自觉性和自律性。(二) 让技术
20、成为学术不端监督的支撑加速大数据关键技术研发。麦肯锡认为, 要通过大数据获取价值, 必须部署存储、计算和分析软件等新的技术和技能。大数据背景下, 学术不端监督要以信息技术的最新进展作为手段, 充分利用文本挖掘技术、互联网爬虫技术、自动聚类技术、自动标引技术、情感判断技术等计算机和互联网技术, 研究学术信息数据的感知和融合, 对学术信息数据的实体、类别和属性进行提取与分析以及对海量学术数据进行存储, 从而实现自动采集学术数据库、网站、论坛等平台学术数据信息, 将异构、低质量的网络学术数据信息转化为结构统一的高质量数据, 实现对多源异构数据的有效分析比对, 自动判断这些信息与学术不端行为的相关性,
21、 主动挖掘学术异常线索。维克托认为:“大数据的预测技术可以运用到疾病诊断、推荐治疗措施, 甚至是识别潜在犯罪分子上。”6把数学算法运用到海量的学术信息数据上来, 通过识别关联物, 可以帮助我们预测学术不端行为发生的可能性, 进而了解学术不端行为的发生规律, 为有针对性地进行学术不端的治理提高监督实效。加快学术不端检测系统研究。总结借鉴国际 Turnitin、Cross Check、afeassign、爱思唯尔的 PERK 等数据库的算法、功能、技术方面的经验特点, 建立新型学术不端检测系统, 使其与大数据技术充分融合, 实现多层次的检测。包括:实现对作者信息检测, 如作者电话号码属地与作者单位
22、属地不一致, 论文内容与研究方向和工作单位不一致, 投稿邮箱多次投寄不同作者的稿件;实现对论文的细节的检测, 如文档中存在非正常编辑符号, 图片格式的表格, 表格边框被隐藏, 正文字体、字号和字间距格式不统一, 出现“手动换行符”, 文字上存在“超链接”等;实现图片相似性检测, 研究图片相似度检测系统和相应的算法, 在海量数据库中快速准确匹配, 并结合标题、上下文、内容进行相应的处理;实现跨语言文本的检测, 研究机器翻译工具在中英文文本相关性检测中的可行性, 研究跨语言机器翻译相关算法, 实现国内国外学术资源数据库之间的有效对接, 力求突破不同语言的现状, 有效监督跨语言文本抄袭问题。加强大数
23、据相关人才培养。麦肯锡的研究报告中指出:“政府可以采取多种措施增加大数据相关人才供给, 包括实施教育培养计划、消除从其他国家地区引进人才的障碍等。”7目前, 国内很多高校都设立了大数据相关的专门研究机构和专业, 培养大数据人才, 在学术不端监督方面, 除引进大数据相关专业人才外, 还应当加强对相关工作人员大数据方面的培训, 积极开展大数据知识普及和教育培训, 提高社会整体认知和应用水平, 从而适应大数据学术不端监督的需求。(三) 突破大数据本身的局限性, 完善学术不端监督体系大数据并不是否定传统的科学方法和工具, 而是对社会科学现有研究体系的完善和补充, 使之更加多元多样和精确有效。任何将大数
24、据妖魔化的狂热想法或行为都是有悖于大数据精神的, 对学术不端行为的监督也要杜绝对数据的过分依赖, 而完全忽视对学术不端内在发生原因和规律的分析, 应建立集教育、预防、惩治于一体的学术不端监督体系。完善大数据背景下学术不端监督的相关制度和程序。多源异构大数据背景下, 发现的学术异常线索是复杂多样的, 获取的数据是混杂的。随着数量越来越多的数据被数字化, 数据在跨越组织边界而流动着, 一系列政策问题将会变得越来越重要, 这包括但不限于隐私、安全、知识产权和责任。近日, 于艳茹起诉母校北京大学案由北京市第一中级人民法院做出终审判决, 最终北大败诉, 虽然北京大学捍卫学术尊严值得称道, 但这一案件却表
25、明, 对学术不端行为的监督必须依赖完善的制度和程序。国家应当进一步完善管理大数据的相关法律, 相关部门必须制定学术大数据相应的规章制度, 明晰学术信息开放的权利和义务, 明确学术不端行为多元监督主体的责任, 对纷繁复杂的学术不端行为建立相对统一的判断标准, 明确学术不端的各类情形以及受理、调查和处理机制, 为学术不端的监督提供制度保障。保护研究人员隐私和信息安全。公众隐私是当前大数据发展中亟待解决的问题。发达国家已考虑采取各种方式保护公众隐私, 如美国政府公布了消费者隐私权利法案, 提出要改进、通过关于国家数据外泄的立法, 修正电子通信隐私法等, 欧盟数据保护工作组也正致力于解决隐私保护的问题
26、。在我国的学术诚信建设中, 必须规范学术信息开放和共享制度, 界定数据开放的范围和责任, 规范学术科研数据的收集、存储和使用程序, 对科研大数据的使用进行正规评测及监督, 更着重于数据使用者为其行为承担责任, 为学术不端的有效监督创造前提。加强学术诚信教育。大数据的预测作为工具, 可以帮我们找到与学术不端行为具有相关关系的“关联物”, 但是对学术不端行为进行评判和处理, 必须基于学术研究过程中真实的动因和行为, 在大数据时代, 个人可以并应该为他们的行为而非倾向负责。要从根源上治理学术不端, 不能单纯依赖大数据的分析, 而应探究“关联物”与学术不端行为的因果关系, 并重视对个人动因的分析, 从
27、而有针对性地对科研人员开展诚信教育, 提高其学术诚信素养, 使其自觉遵守学术诚信规范和法律制度, 从内因上防范学术不端行为, 以预防、教育与惩戒相结合的原则, 提高学术不端的监督实效, 创造良好的学术环境。注释()1麦肯锡.大数据下一个创新、竞争和生产力的前沿.赛迪译丛, 2012 (25) . ()2维克托迈尔-舍恩伯格, 肯尼思库克耶.大数据时代:生活、工作与思维的大变革.盛杨燕, 周涛, 译.杭州:浙江人民出版社, 2013:38. ()3赵延东, 邓大胜.科技工作者如何看学术不端行为问卷调查的结果.科研管理, 2012 (8) . ()4黄文彬, 李祖超.教育调查:高校科研人员学术不端行为分析. (2014-11-04) .http:/ ()5维克托迈尔-舍恩伯格, 肯尼思库克耶.大数据时代:生活、工作与思维的大变革.盛杨燕, 周涛, 译.杭州:浙江人民出版社, 2013:150. ()6维克托迈尔-舍恩伯格, 肯尼思库克耶.大数据时代:生活、工作与思维的大变革.盛杨燕, 周涛, 译.杭州:浙江人民出版社, 2013:17. ()7麦肯锡.大数据:下一个创新、竞争和生产力的前沿.赛迪译丛, 2012 (25) .