ImageVerifierCode 换一换
格式:PPT , 页数:41 ,大小:181KB ,
资源ID:3490841      下载积分:15 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-3490841.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(信息检索3.ppt)为本站会员(tangtianxu2)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

信息检索3.ppt

1、信息检索,2,第五章 学术论文与学位论文的撰写,学术论文的写作 学位论文的写作,3,5.1学术论文的写作,1.学术论文含义 学术论文也称科学论文、科研论文或研究论文 定义 国家标准GB7713-1987科学技术报告、学位论文和学术论文的编写格式 某一学术课题在实验性、理论性或观测性上具有新的研究成果或创新见解和知识的科学记录;或是某种已知原理应用于实际中取得新的进展的科学总结,用以提供学术会议上宣读、交流或讨论;或在学术刊物上发表;或作其他用途的书面文件。 学术论文是对某一学科领域中的问题进行探讨与研究后,将研究成果总结表述而成的文章。,4,5.1学术论文的写作(Cont.),2.学术论文的特

2、点 学术性 将专门性的知识系统化,加以探讨、研究 学术论文的基本要求 学术性要求材料选择、用词和言语表达的专业性,推理论证的逻辑性与表达的简洁性。(人称代词不用我你他) 科学性 论文内容客观真实,数据准确可靠,方法切实可行,论证严谨,观点前后一致,表述全面清晰,研究成果,能够经得起实践得重复实验 创新性 指创造性与新颖性,5,5.1学术论文的写作(Cont.),3.学术论文的类型按出版形式划分: 期刊论文(小论文) 发表在科学期刊上的学术论文。 篇幅大多不长,一般在3000-5000字,多者6000-10000字。选题不能太大。 会议论文(小论文) 为参加国内外的各学科专业的学术会议撰写的论文

3、,供学术会议上宣读(中心思想和主要解决问题)、交流、讨论。 篇幅与期刊论文类似。 学位论文(大论文) 为申请学位而撰写的论文。 有规范的操作程序,写作之前要作开题报告,中期检查,论文写作 篇幅较长(硕士论文在40页以上),6,5.1学术论文的写作(Cont.),4.学术论文的基本结构 题名(Title标题或题目) 题名要求准确、精练和新颖,对全文起画龙点睛得作用 中文一般不超过20个汉字 题名位于论文的最前面一行的居中位置 名字以名词开头(如基于某某某的什么什么) 作者姓名和单位(author and department) 作者姓名位于题名下一行,位置居中 另起一行居中位置标明单位、所在城市

4、及邮编 若有多个作者,按其对研究工作与论文撰写得贡献大小降序排列,在下一行注明各个作者的单位、所在城市及邮编 若多个作者为同一单位,则不需要分别注明,7,5.1学术论文的写作(Cont.),摘要(abstract)(中心思想) 摘要是论文的内容不加注释和评论的简短陈述。 摘要能使读者不用阅读全文,就能获得必要的信息,决定是否需要阅读全文。 摘要结构要严谨,表达要简洁,语义要确切。 要用第三人称的写法。如采用“对进行了研究”、“报告了现状”等。 关键词(key word) 关键词是为文献标引工作从报告、论文中选取出来用以表示全文主题内容信息款目的单词或术语。 38个关键词,排在摘要的左下方(一定

5、是正文中出现过的术语) 关键词可以从学术论文的题名、摘要和正文中的各级标题与全文中提取,有时需要综合全文内容提出论文涉及主题的上位概念或相关概念做关键词。,8,5.1学术论文的写作(Cont.),正文(main body) 学术论文的原文 一般由引言(不超过10页)、本论、结论三部分组成 引言(绪论或序论) 简要说明为什么要研究这个题目 解释这一论题讨论、研究的意义,言简意赅 本论 论文的核心内容,占全文的三分之二左右。 要详细阐述所研究的成果,包括:调查对象、实验方法、仪器设备、材料原料、实验结果,计算方法、数据资料、经过加工整理的图表、论证的过程、形成的论点和导出的结论等。 正文中的图或表

6、应有自明性。 结论是学术论文最终的、总体的结论。不是正文中各段的小结的简单重复。结论应该准确、完整、明确、精练。若不可能导出应有的结论,也可以没有结论而进行必要的讨论。可以在结论或讨论中提出建议、研究设想、尚待解决的问题等。,9,5.1学术论文的写作(Cont.),参考文献(references) 学术论文中引用的有关文献信息资源。 参考文献的著录方法有顺序编码制和著者-出版年两种,前者居多。 在正文中标注引用的文献时,按出现的先后顺序从1开始连续编码,并将序号置于方括号中,然后设成上标。如:信息检索1。(在标题中不能使用上角标,一般放置在一句话的最后),10,5.1学术论文的写作(Cont.

7、),5.学术论文的写作步骤 选题 选定学术论文所要研究的主要问题 资料的收集与整理 确定主题,初步确定论文的题名 主题是指作者在一篇论文中提出的基本观点或中心论点。 拟定写作提纲 包括:题名、中心论点、内容提要、章节标题 撰写初稿 引言本论-结论 修改定稿,11,5.1学术论文的写作(Cont.),6.学术论文的投稿 要了解学术期刊的详细情况 尽量投正刊,不要投增刊 不要一稿多投,12,5.2学位论文的写作,1.学位论文的特点除具有学术论文的学术性、创新性、科学性的特点外,还具有其独自的特性。 有规范的操作程序 写作之前要作开题报告,中期检查,论文写作 篇幅较长 学士论文:1万字左右 硕士论文

8、:2-4万字左右 博士论文:5万字以上 格式、装订与版式有特殊要求,13,5.2学位论文的写作(Cont.),2.学位论文的组成部分 前置部分 封面 论文题名 论文作者 导师姓名 封二 学位论文使用声明 版权声明 作者及导师签名 题名页 中图分类号 学校代码 英文题名页 内容提要 500字左右 包括关键词 目录,14,5.2学位论文的写作(Cont.),2.学位论文的组成部分 主体部分 各个章节; 另页开始,每一章另起页; 一般从引言开始,以结论或总结结束; 引言(绪论)应包括论文的研究目的,流程和方法;论文研究领域的历史回顾,文献回溯,理论分析等; 主体部分由于涉及的学科、选题、研究方法、结

9、果表达方式等有很大差异,不能统一规定; 图、表应该有统一编号,从1开始; 参考文献 要求有固定的格式; 致谢 中英文摘要 2000字左右 附录 可有可无,15,5.2学位论文的写作(Cont.),3.学位论文的开题与写作部分 选题 是学位论文写作的关键性一步,是撰写学位论文的基础; 选题应该具有新颖性与创新性,不能有歧义,以免产生误解; 应该根据自己的专业特点、研究条件与科研能力,选择大小适中、难度得当的课题 工程硕士选题应该具有工程背景; 选题可以从以下几方面考虑: 所学的专业课中选; 结合导师的科研项目; 与自己工作相关的内容; 当前的研究热点、前沿问题; 查阅文献资料 以免进行毫无意义的

10、重复研究;同时可以启发思路、借鉴方法;,16,5.2学位论文的写作(Cont.),选题一般要查询以下几类文献: 学位论文 学术论文 科研成果、专利与产品数据库 撰写开题报告 是对论文选题的系统总结; 开题报告的质量直接影响学位论文的写作与质量; 开题报告包括的内容: 论文选题的理由与意义,说明课题的来源,理论和实际意义、价值与可能达到的水平; 国内外关于该论题的研究现状几趋势(文献综述); 研究内容、方法与技术路线。包括研究目标、内容、拟突破的难题或攻克的难关、论文的创新点或实用价值,拟采用的研究方法、实验方案或可行性分析; 研究计划与进度安排(包括中期报告及答辩时间); 主要参考文献(有的单

11、位要求文献不少固定的数量);,17,第六章 信息检索的数学模型,信息检索系统的形式化表示 集合论检索模型 代数论检索模型 概率论检索模型 其他信息检索模型与数学理论,18,6.1信息检索系统的形式化表示,信息检索的基本原理概括:检索系统在用户信息需求集合与系统存储的信息资源集合之间所进行的某种匹配与选择。 实现信息检索涉及对以下的三个关键要素的处理 信息资源集合原始信息一般不能直接进行信息检索,需要从原始信息文档中抽取其逻辑视图。 用户信息需求进行查询的依据,系统将据此搜索文档集合。 匹配选择 一种相似形的匹配,查询结果需要按照某种相似形排序算法有序输出。,19,6.1信息检索系统的形式化表示

12、(Cont.),1.信息检索系统的形式化表示四元组:System=(D,Q,F,R(dj,q) (1)信息资源集合DD=d1,d2,dn(N=0)若以文本信息为例,集合D表示N篇文档 (2)用户信息需求集合QQ= q1,q2,qmqi(I=1,2,m)表示一个具体的用户提问,提问式可以理解为用户信息需求的一种逻辑视图表示。 (3)信息资源与信息需求的匹配处理框架FF是寻求在D与Q之间建立一种沟通与联系机制,提供对文档视图、提问式以及它们之间关系进行模型化处理的框架与规则。,20,6.1信息检索系统的形式化表示(Cont.),(4)匹配函数R(dj,q)用于计算任一文档dj(dj D)与任一提问

13、q (qQ)形成的文档-提问对(dj,q)之间的相似度大小,一般情况下, R(dj,q)的函数值为一实数,其取值区间为0,1(当值等于0时,表示没有可用的内容)。匹配函数具备以下特点: 计算方法简单,计算量小; 函数值在取值区间均匀分布; 针对某一提问所获取的相关文档集合,能够实现合理的排序输出。,21,6.2集合论检索模型,1.布尔检索模型建立在经典集合论和布尔代数的基础上。(1)布尔模型的基本原理布尔模型在解释信息检索处理过程时,主要遵循以下两基本规则:a.系统索引词集合(K)中的每一索引词在一篇文档中只有两种状态:出现或不出现。则每个索引词的权值wij 0,1;b.用户提问式q由3种布尔

14、运算符“and”、“or”、“not”连接索引词构成。如:q=k1 and (k2 or not k3)布尔模型对于任一篇文档dj D,定义dj与用户提问q的匹配函数为,22,6.2集合论检索模型(Cont.),(2)布尔模型的分析与评价布尔模型具有简单、容易理解、简洁的形式化优点。主要问题:(a)精确匹配策略问题;(b)布尔逻辑表达用户需求的能力问题。,23,6.2集合论检索模型(Cont.),2.模糊集合模型系统中每一个检索词对应一个模糊的命中文档集合,而每一文档对于这个命中集合而言,都具有各自不同的隶属度值。这种信息检索过程的解释成为各种模糊检索模型建立的共同基础。这里涉及:(1)模糊集

15、合论的基本知识 模糊集合的定义; 模糊集合的基本运算; 模糊关系;(2)模糊检索模型 索引词关联矩阵; 文档的隶属度; 用户提问及表示;,24,6.2集合论检索模型(Cont.),3.扩展布尔模型一种基于布尔逻辑框架的、混合有布尔向量特性的检索模型。这里涉及:(1)扩展布尔模型的基本原理(2)扩展布尔模型的主要特点 与传统布尔检索中的倒排文档技术相兼容,支持使用标准布尔逻辑表达式的提问式结构; 允许在文档和提问式中进行词加权处理; 支持按相似度的大小排序输出检索结果; 通过调整参数的取值,可以灵活选择并得到不同的检索结果。,25,6.3代数论检索模型,代数论检索模型以线性代数、矩阵计算等数学理

16、论为基础,利用代数论知识揭示信息间关系的检索模型。 1.向量空间模型(Vector Space Model-VSM)(1)向量空间模型的基本原理 文档向量的构造(基于数据库中的); 提问向量的构造;(2)向量空间模型技术 采用部分匹配策略,实现多值相关性的判断; 采用基于统计学方法的词加权处理模式,使检索效率得到显著改善; 采用对检索结果排序输出的策略,对检索结果数量的控制与调整具有相当大的自由度。,26,6.3代数论检索模型(Cont.),(3)向量空间模型的应用 引入量化处理思想充分发挥计算机的计算特长。 (4)典型的基于VSM理论的文本信息处理主要包括以下几个分支领域: 文本检索(Tex

17、t retrieval) 文本分类(Text Classification) 文本过滤(Text Filtering) 文本挖掘(Text Mining) 文本浏览与可视化(Text Browsing and Visualization) 存在的问题: 处理结果的可解释性较差; 大规模和超大规模真实文本环境中有效性需要验证; 如何与自然语言理解技术进行融合,27,6.3代数论检索模型(Cont.),2.潜在语义索引模型(Latent Semantic Indexing-LSI)基于VMS理论框架,提出的一种新的信息检索模型,源于自然语言中词语的多义性和同义性现象。潜在语义模型的基本原理主要建立

18、在对索引词-文档矩阵的奇异值分解计算上。主要涉及奇异值矩阵的分解等。 3.神经网络模型 信息检索处理中需要具体定义一个人工神经网络模型来模拟文档、用户提问及其匹配操作。,28,6.4概率论检索模型,概率论检索模型主要基于概率论原理来解决信息检索问题。 1.经典概率模型基本原理:给定一个用户提问,则信息检索系统中存在一个与该提问相关的理想命中结果集合R,若能已知集合R的主要特征及其描述,则用户的检索得以实现。但在用户提出检索要求时,不知道结果集合的特征。需要在检索开始时对R的特性进行某种猜测,据此得到一个初步的命中结果集合。在此基础上,用户可以对初始检索结果集合中文档相关与否进行判断,根据这些反

19、馈信息,在后续的检索处理中不断优化与改进。 经典概率模型的基本原理; 经典概率模型的分析与评价。,29,6.4概率论检索模型(Cont.),2.基于Bayesian网络的检索模型Bayesian网络是概率理论的一个主要分支。通常Bayesian网络可以看作一个有向无环图(DAG)。图中的节点一般用来表示随机变量,有向边表示随机变量之间的因果关系,它由表示原因的随机变量指向结果的随机变量,因果关系影响力的大小(权值)用条件概率表示。 推理网络模型用数学方法从文档文本内容推理得出该文档满足用户信息需求得概率,将这个概率值作为文档与用户查询提问得匹配程度,并根据匹配程度得大小对文档进行排序。以上需要

20、得出一个推理网络模型,文档部分和提问部分在网络中不分离。 信念网络模型信念网络模型与推理网络模型具有共同得理论基础,不同点是二者得网络拓扑结构不同。文档部分和提问部分在网络中是被分离的。,30,6.5其他信息检索模型与数学理论,集合论模型、代数论模型、概率论模型的共同点 信息内容特征的提取 新型信息检索系统模型的特点 信息的结构特征及其提取1.结构化检索模型(经典的是从数据库上进行检索) 是一种基于信息的结构特征匹配的检索模型。 如:某文档的某页内容中有一幅图片,图的标题文字中包含“earth”一词,而围绕该图的文字内容还包含字符串“our family”。 代表性的模型 基于非重叠链表的模型

21、 基于邻近节点的模型,31,6.5其他信息检索模型与数学理论(Cont.),2.其他新型数学理论 遗传算法 粗糙集理论(70年代后由荷兰提出),32,第七章 信息检索系统及其构成,信息检索系统的及其类型 信息检索系统的基本结构 信息存储功能模块 信息查询功能模块,33,7.1信息检索系统及其类型,1.信息检索系统的定义 (1)系统的概念及特征 概念 三元组:System=(Input,Processing,Output)其中:Input=i1,i2,im (m=0);输入有限集合Processing= p1,p2,pk (k=0);处理函数集合Ouput=o1,o2,on (n=0);输出有限

22、集合 特征 整体性 关联性 层次性 目的性 适应性,34,7.1信息检索系统及其类型(Cont.),(2)信息检索系统的定义 定义 具有存储和信息查询功能的一类信息服务设施(或工具)。通常是人机交互信息系统。 系统基本要素 明确的目标 检索系统应具有明确的服务对象、专业范围及用途 不可缺少的资源 检索系统必须搜集、加工、存储一定数量的信息资源 技术装备 存储信息的载体、匹配选择、信息的输入/输出/显示/传递等设备 方法与措施 检索系统应提供一定的方法与措施,保证检索系统的查全率和查准率 功能 检索系统所应具有的检索及其他信息服务功能,35,7.1信息检索系统及其类型,2.信息检索系统的类型 (

23、1)按照设备划分 书本式检索系统 卡片式检索系统 穿孔卡片式检索系统(机械化检索系统) 缩微式检索系统 计算机化检索系统 网络检索系统 (2)按功照能划分 文献检索系统(DRS) 数据库管理系统(DBMS) 自动问答系统(QAS) 管理信息系统(MIS) 决策支持系统(DSS),36,7.2信息检索系统的基本结构,1.信息检索系统的物理结构 (1)系统的物理构成角度 硬件部分 软件部分(信息检索的程序) 信息资源集合(信息检索的数据源DB) (2)按物理空间分布情况 集中式检索系统 分布式检索系统 2.信息检索系统的逻辑结构是指包括的功能模块(或子系统)及其相互关系。 信息存储 信息查询,37

24、,7.3信息存储功能模块,1.信息资源及其选择与采集模块根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛、连续地从各种信息源或信息渠道完成信息资源的采集工作,为系统提供充足适用的数据来源。 2.信息标引处理模块 标引(Indexing)是指对信息资源的各种检索特征进行分析并使之显形化,以便存储和检索这两个环节提供某种连接的一种重要的信息加工操作。 信息标引处理模块功能对信息资源中具有检索价值的特征信息进行提取与标识,并组织成索引文档,为用户的查询和访问提供准确有效的入口。,38,7.3信息存储功能模块(Cont.),标引处理的类型 人工标引 自动标引 自动标引 全自动标引 半自动标

25、引 自动抽词标引 自动赋词标引,39,7.3信息存储功能模块(Cont.),3.数据库创建与维护模块 数据库的设计 数据库创建与维护,40,7.4信息查询功能模块,1.用户(检索)接口模块 基本构成 用户模型 信息显示 交互语言 反馈机制 用户接口设计的基本原则与技术 基本原则 提供反馈原则 减轻记忆负担原则 为不同用户提供不同接口原则 技术 字符用户界面 图形用户界面 多通道用户界面(目前处于探索与研究阶段),41,7.4信息查询功能模块(Cont.),2.提问处理与检索匹配模块信息检索系统的核心模块。 功能接受并处理用户输入的检索词或提问式,将它们与数据库倒排索引文档中存储的数据项进行匹配运算,然后把运算结果返回给用户。 提问处理与检索匹配模块的操作流程 1.接收用户提问 2.提问校验 3.提问加工 常用的加工方法:表展开法、逆波兰法、准波兰法、析取范式变换法 4.检索匹配,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报