1、学位论文学术不端行为检测系统 介绍与演示,同方知网技术有限公司 2018/9/2,大 纲,引入学术不端检测的必要性 系统简介 检测原理及方法 检测指标 类型及实例介绍 系统功能及实例分析 下一步工作,引入学术不端检测的必要性,培养良好的科研诚信对于研究生的一生至关重要如果不能从研究生培养环节遏制学术不端行为,带有不端治学态度的研究生毕业后,不断涌入各级研究机构,不端行为就将形成“长江之水,滔滔不绝”,就不能从根本上扭转不端行为不断恶化的事态。,系统简介(1),CNKI自适应多阶指纹()特征,比对资源库,检测文献,文献比对,检测结果,系统简介(2),待检测测文档,段落,句子,改写,组合,支持超长
2、文章,学位论文,图书专著。,指纹 XXX-YYY-CCC-DDDD-KKK-FFFF,CNKI自适应多阶指纹()特征检测速度快,准确率,召回率较高,抗干扰性强,检测系统框架,文章特征库,待检测论文,重复内容,比对,文章比对库 期刊 会议 学位论文 专利 报纸 图书 工具书,注册文章,抄袭,伪造篡改,专家复合审查,事实数据库 学者规范数据 科研规范机构 科研成果 引文统计,Yes,No,系统简介(3),系统主要功能: 已发表论文检测 论文检测 问题库查询 自建比对库管理 其他功能,系统简介(4),目的: 辅助人的工作 提供一台高性能“仪器”,生成一套检测指标,为审查人员判断学位论文的性质提供相关
3、依据。 原则: 查全率优先,检测原理及方法(1),采取的技术有: 文本数据库加工技术 文本数据库技术 知识挖掘技术 中文自然语言处理技术 ,检测原理及方法(2),依据的资源有: 文献数据库 事实型数据库 知识库 知识元库 ,检测原理及方法(3),用户提供的资源: 检测论文内容* 论文作者* 作者单位 发表时间 只有论文内容是必需的。但我们建议,最好输入作者信息。,检测原理及方法(4),检测论文内容 检测文字复制情况的基本数据,是必须提供的资源 发表时间 发表时间是判断论文抄袭的基本数据之一,谁抄袭了谁的判断基础就是时间。若用户没有明确指明时间,则系统认为用户提交的论文的发表时间为当前时间。,论
4、文作者 作者单位 将自己过去发表的文献放入到学位论文中是一种合理的行为。提供作者信息,系统能够自动按照本人文献和非本人文献分类,便于审查人员审查。 将作者已发表文献列出来,为连环抄袭判断提供依据。 避免“冤枉好人” A- B -A,检测原理及方法(5),检测原理及方法(6),检测结果包括: 重合文字来源文献信息 比对信息 检测指标 诊断类型 检测报告 ,检测原理及方法(7),重合文字来源文献信息 详细列出重合文字来源文献,这些文献都是真实存在,而且应是公开发表或得到发表确认的 比对信息 检测论文和来源文献的详细比对信息,这主要是便于人的审查。 检测指标 总检测指标和子检测指标 指标从多个角度对
5、检测文献中的文字复制情况进行了描述。 诊断类型 系统根据指标参数以及其他元数据相关信息,自动给出对抄袭严重程度的一个判断。供审查人员参考。 检测报告 详细列出了检测论文中的抄袭情况。,系统示意图,检测指标,总检测指标 学位论文一般篇幅较长,检测系统会自动按章节切分(无章节信息则按字数切分)。 总检测指标指对论文全貌的检测描述。 子检测指标 对于学位论文每一章节,检测系统对每一章节均生成一套指标系数。详细描述每一章节的检测情况。,总检测指标,总重合字数(CCA) 总文字复制比(TTR) 总文字数(TCA) 疑似章节数(QCA) 总章节数(TCA) 首部重合文字数(HCCA) 尾部重合文字数(EC
6、CA) 段落最大重复字数(MAXA) 段落最小重复字数(MINA),总重合字数,学位论文一般篇幅大,少则35万字,多则十几万字,若以文字复制比来衡量一篇论文的文字重合情况,不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。 对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。,总文字复制比、总文字数,总文字复制比 总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。 总文字数 指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字
7、数。,疑似章节数、总章节数,疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。 总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一切分段落为一章节)。,首部重合文字数、尾部重合文字数,首部重合文字数指学位论文前1万字中重合的文字数量。 尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。 对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。,段落最大重复字数、段落最小重复字数,论文所有段落中,每一段落最大的段文字数比较,最大的为段落最大重复字数 论文所有段落中,每一段落最大的段文字数比较,最小的为段落最小重复字数反应每一切分段
8、落是否都有较严重的文字复制情况。,子检测指标,文字复制比(TR) 重合字数(CNW) 最大段长(LPL) 平均段长(APL) 段落数(PN) 段文字比(PR) 首部复制比(HR) 尾部复制比(ER) *引用复制比(RR),文字复制比(TR),文字复制比是指论文的每一章节与比对文献重合文字在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献。,文字复制比(TR),反映该章节“抄袭”总文字数量比例。 一般来说,文字复制比越高,存在学术不端行为的可能性越大。,论文每一章节与比对文献重合的总字数。 不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。,最大段长(LPL)
9、,论文每一章节中,当连续文字超过一定比例时,称之为段,与比对文献重合的最大段长度即为最大段长。 反映成段抄袭特征。一般连续200以上文字为抄袭段。 连续的文字越长,抄袭的可能性越大。,平均段长(APL),论文每一章节中,所有段的长度的平均值即为平均段长。,段落数(PN),每一章节中,所有段的数量为段落数。 平均段长和段落数反映了重合文字在文献中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。,段文字比(PR),所有段的字数之和在论文每一章节中的比例为段文字比。 反映抄袭连续特征。 一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。,首部复制比(HR),
10、论文每一章节的前20称之为首部,首部的文字复制比为首部复制比。 就中文文献来说,一般每一章节开头部分出现的是综述性语言。就重要性来说,相对偏低。,尾部复制比(ER),论文每一章节的后80称之为尾部,尾部的文字复制比为尾部复制比。 就重要性来说,比前部文字要高。,子检测指标(续),我们仔细查阅比较上面两部分内容,首部文献是综述他人工作,而尾部则是阐述自己的研究工作的目的和意义,这部分应是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多。,引用复制比*,与存在引证关系的文献的文字重合部分的比例。 存在引证关系与不存在引证关系应区别对待。,类型及实例,抄袭 篡改 伪造,抄袭,按文字复制比例分
11、作者不同,轻度句子抄袭,句子抄袭,轻度段落抄袭,段落抄袭,整体抄袭,抄袭(续),按来源分 单源 重合文字全部来自于一篇文献 多源 重合文字来源于两篇及以上文献,篡改(1),篡改指:按照期望值随意篡改或取舍数据,以符合自己的研究结论,一般有主观取舍数据和篡改原始数据等形式。,篡改(2),篡改(3),通过以上检索,我们有理由对检测文献中的分词准确率产生怀疑。,伪造(1),伪造的特点是:新研究成果中提供的材料、方法、数据、推理等方面不符合实际,无法通过重复试验再次取得,有些甚至连原始数据都被删除或丢弃,无法查证。,伪造(2),伪造数据 伪造基金 伪造项目 伪造数值、表格、图形等 ,伪造(3),伪造基
12、金/伪造项目:需查询政府相关基金项目库。 伪造数值、图表等知识元,则可以通过CNKI的数值搜索技术、图表搜索技术进行查证,起到警示作用。伪造是检测难度最高的不端行为。,其他,引用杜撰 别人根本没有说过的话,自己编造,却作为他人的话引用。尤其是杜撰引用国外学者。 引文杜撰 根本就不存在的文献,杜撰一篇引文。,类型及实例(续),学位论文的定性比期刊要复杂 作者以前发表的文献复制 同一导师的学生论文引用共同的工作 前人工作的综述,类型及实例(续),学位论文的前面一至两章一般综述前人工作、介绍原理及方法。 各项指标偏高,也在合理范围之内。 每章小结部分又应是个人心得,若抄袭,则又较前面抄袭要严重。 博
13、士论文至少应有两章(核心章节)指标较低,我们认为低于20%为低指标。 硕士论文至少应有一章(核心章节)指标较低,我们认为低于20%为低指标。,系统功能,已发表论文检测 论文检测 问题库查询 自建比对库管理 其他功能,已发表论文检测,各单位注册用户可在权限范围内查看本学校已毕业且被CNKI收录学位论文的检测结果。,重合文字来源文献列表,原版比对,论文检测(1),用户上传待检测学位论文,系统自动处理各种文档格式以及压缩文件。,选择文件夹,上传论文,系统检测,浏览检测结果,查看原版比对,生成报告单,放入问题库,放入个人比对库,文件夹系数设置,子检测指标,非本人文献,本人文献,重合文字,主要重合文字索
14、引,来源文献重合文字,检测论文重合文字部分,论文检测(2),文本复制检测报告单 整体报告单 章节检测报告单,整体报告单,整体报告单包括: 整体检测指标信息 每一章节的检测指标信息 每一章节的检测结果主要重合文字索引 整体报告单是在各章节终审报告单的基础上生成的。,上传论文信息,整体检测结果信息,各章或各段检测结果信息,章节报告单,检测论文篇名、作者、字数等信息 重合文字来源文献的篇名、作者、发表时间、发表刊物、字数等信息 重合比例、重合文字索引(即每段重合文字开始的前20字符)等信息 用户可自己添加类型和审查意见,问题库查询(1),将确认有问题的论文放入问题库,问题库是档案库。 已发表论文中的
15、问题论文也可以放入问题库。 便于集中管理确认有问题的论文,提供快速检索功能。,问题库查询(2),检测论文问题库,已发表论文问题库,自建比对库管理,用户可以将个人文献或文献库上传到服务器,或者把某篇检测论文放入到个人比对库。 以后上传的论文,用户可以选择与个人比对库中的文献进行比对。 该个人库完全属于用户个人,其他用户无权使用。,其他功能-引文核对,在“其他”项,我们将陆续提供其他各类实用功能。 引文核对 迅速确定参考文献各项信息是否属实。 比较参考文献与比对库中的作者信息、刊物信息等,链接到知网节,其他功能-两两比对,两两比对 快速确定两篇文献的相同之处。 快速确定两篇文献的不同之处。,选择文
16、献上传,不同之处,下一步计划(1),检测内容 概念、定义、公式等知识元抄袭检测 伪造、篡改等不端行为检测 检测对象 英文文献检测 中英文文献对照检测 比对资源 英文资源 网络资源 ,下一步计划(2),学术文献产权保护系统 可检查自己的文献是否被他人抄袭、剽窃。 资源注册中心 保护用户文献的首发权。用户可将文献加入资源注册中心,经过资源注册中心检测,不存在问题的文献将进入资源注册中心。用户可以选择是否将该文献加入比对资源库。并且,在加入比对资源库后,还可以选择是否公布该文献内容等信息。 为各用户提供最新、最全的文献比对资源。一篇文献,一旦进入资源注册中心,在用户授权的情况下,该文献可以自动进入学术不端文献检测系统比对资源库。而该比对资源库是为所有用户所共享。这样,可以在文献还没有被CNKI正式收录的情况下,快速进入比对资源库,最大限度防止一稿多投、抄袭的发生。,敬请各位老师多提宝贵意见!,