收藏 分享(赏)

信息检索热点.doc

上传人:hwpkd79526 文档编号:7715401 上传时间:2019-05-24 格式:DOC 页数:2 大小:26.50KB
下载 相关 举报
信息检索热点.doc_第1页
第1页 / 共2页
信息检索热点.doc_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、热 点智 能 检 索 或 知 识 检 索 传 统 的 全 文 检 索 技 术 基 于 关 键 词 匹 配 进 行 检 索 , 往 往 存 在 查 不 全 、 查 不准 、 检 索 质 量 不 高 的 现 象 , 特 别 是 在 网 络 信 息 时 代 , 利 用 关 键 词 匹 配 很 难 满足 人 们 检 索 的 要 求 。 智 能 检 索 利 用 分 词 词 典 、 同 义 词 典 , 同 音 词 典 改 善 检 索效 果 , 比 如 用 户 查 询 “计 算 机 ”, 与 “电 脑 ”相 关 的 信 息 也 能 检 索 出 来 ;进 一 步 还 可 在 知 识 层 面 或 者 说 概 念

2、 层 面 上 辅 助 查 询 , 通 过 主 题 词 典 、 上 下 位词 典 、 相 关 同 级 词 典 , 形 成 一 个 知 识 体 系 或 概 念 网 络 , 给 予 用 户 智 能 知 识 提示 , 最 终 帮 助 用 户 获 得 最 佳 的 检 索 效 果 , 比 如 用 户 可 以 进 一 步 缩 小 查 询 范 围至 “微 机 ”、 “服 务 器 ”或 扩 大 查 询 至 “信 息 技 术 ”或 查 询 相 关 的 “电 子技 术 ”、 “软 件 ”、 “计 算 机 应 用 ”等 范 畴 。 另 外 , 智 能 检 索 还 包 括 歧 义 信息 和 检 索 处 理 , 如 “苹

3、 果 ”, 究 竟 是 指 水 果 还 是 电 脑 品 牌 , “华 人 ”与“中 华 人 民 共 和 国 ”的 区 分 , 将 通 过 歧 义 知 识 描 述 库 、 全 文 索 引 、 用 户 检 索上 下 文 分 析 以 及 用 户 相 关 性 反 馈 等 技 术 结 合 处 理 , 高 效 、 准 确 地 反 馈 给 用 户最 需 要 的 信 息 。 知 识 挖 掘 主 要 指 文 本 挖 掘 技 术 的 发 展 , 目 的 是 帮 助 人 们 更 好 的 发 现 、 组 织 、 表 示信 息 , 提 取 知 识 , 满 足 信 息 检 索 的 高 层 次 需 要 。 知 识 挖 掘

4、包 括 摘 要 、 分 类( 聚 类 ) 和 相 似 性 检 索 等 方 面 。 自 动 摘 要 就 是 利 用 计 算 机 自 动 地 从 原 始 文 献 中 提 取 文 摘 。 在 信 息 检 索 中 ,自 动 摘 要 有 助 于 用 户 快 速 评 价 检 索 结 果 的 相 关 程 度 , 在 信 息 服 务 中 , 自 动 摘要 有 助 于 多 种 形 式 的 内 容 分 发 , 如 发 往 PDA、 手 机 等 。 相 似 性 检 索 技 术 基 于文 档 内 容 特 征 检 索 与 其 相 似 或 相 关 的 文 档 , 是 实 现 用 户 个 性 化 相 关 反 馈 的 基础

5、, 也 可 用 于 去 重 分 析 。 自 动 分 类 可 基 于 统 计 或 规 则 , 经 过 机 器 学 习 形 成 预定 义 分 类 树 , 再 根 据 文 档 的 内 容 特 征 将 其 归 类 ; 自 动 聚 类 则 是 根 据 文 档 内 容的 相 关 程 度 进 行 分 组 归 并 。 自 动 分 类 ( 聚 类 ) 在 信 息 组 织 、 导 航 方 面 非 常 有用 。 异 构 信 息 整 合 检 索 和 全 息 检 索 在 信 息 检 索 分 布 化 和 网 络 化 的 趋 势 下 , 信 息 检 索 系 统 的 开 放 性 和 集 成 性要 求 越 来 越 高 , 需

6、要 能 够 检 索 和 整 合 不 同 来 源 和 结 构 的 信 息 , 这 是 异 构 信 息检 索 技 术 发 展 的 基 点 , 包 括 支 持 各 种 格 式 化 文 件 , 如TEXT、 HTML、 XML、 RTF、 MS Office、 PDF、 PS2/PS、 MARC、 ISO2709 等 处理 和 检 索 ; 支 持 多 语 种 信 息 的 检 索 ; 支 持 结 构 化 数 据 、 半 结 构 化 数 据 及 非 结构 化 数 据 的 统 一 处 理 ; 和 关 系 数 据 库 检 索 的 无 缝 集 成 以 及 其 他 开 放 检 索 接 口的 集 成 等 。 所 谓

7、 “全 息 检 索 ”的 概 念 就 是 支 持 一 切 格 式 和 方 式 的 检 索 , 从 实践 来 讲 , 发 展 到 异 构 信 息 整 合 检 索 的 层 面 , 基 于 自 然 语 言 理 解 的 人 机 交 互 以及 多 媒 体 信 息 检 索 整 合 等 方 面 尚 有 待 取 得 进 一 步 突 破 。 另 外 , 从 工 程 实 践 角 度 , 综 合 采 用 内 存 和 外 部 存 储 的 多 级 缓 存 、 分 布式 群 集 和 负 载 均 衡 技 术 也 是 信 息 检 索 技 术 发 展 的 重 要 方 面 。 随 着 互 联 网 的 普 及 和 电 子 商 务

8、的 发 展 , 企 业 和 个 人 可 获 取 、 需 处 理 的 信息 量 呈 爆 发 式 增 长 , 而 且 其 中 绝 大 部 分 都 是 非 结 构 化 和 半 结 构 化 数 据 。 内 容管 理 的 重 要 性 日 益 凸 现 , 而 信 息 检 索 作 为 内 容 管 理 的 核 心 支 撑 技 术 , 随 着 内容 管 理 的 发 展 和 普 及 , 亦 将 应 用 到 各 个 领 域 , 成 为 人 们 日 常 工 作 生 活 的 密 切伙 伴 。相对于传统的集中式或分布式搜索引擎,构建于 PZP 技术之上的系统在伸缩 性、开发利息和容易度、数据的即时性、健壮性、信息源的多样

9、性等方面都有相 当的优势,因此受到越来越多的重视。然而, PZP 技术依然处于不时的发展之中, 还面临着很多技术难题函待解决。 首先,文档分布和节点分布不一致。文档随机分布在网络的节点中,保守 PZP 网络中 ( 如 gnutena kazaa emul 相邻的节点存储的内容并不相似。为了 保证检索的效果,就必须遍历比较多的节点以获得较高的检索召回率。对于稀疏 资源就更加难以定位了不只网络接受的带宽压力较大,而且网络节点由于需 要频繁处置检索而负担较重。 其次,如何均衡负载也是个很大的难题。网络中存储热点内容的节点将会 被频繁访问而消耗较多的主机资源和带宽资源。关键的问题在于如何能够调动网 络

10、更多的节点来均摊这些负载,使得 PZP 服务更加公平。 BT 4 这方面提供了 一个很好的思路。 BT 下载过程是个协作的过程,所有在同时下载一个文档的 节点能够互相分担负载,从而降低热点内容提供者的负担。 另外,如何实现较好的可扩展性和鲁棒性。由于 PZP 网络中的节点都是处于 边缘网络的节点,这些节点动态变化性较强,这自然要求 PZP 网络要有高可扩展 性和容错的性质,以使得局部节点的变化不会影响整体网络的运行。当前的研究热点:加强异构数据库系统信息资源一体化整合和检索、知识库、数据仓库的研究。著录法是对信息与文献形式特征和内容特征进行分析、选择和记录的方法。研究内容包括国内外著录标准与规则、格式、各种信息与文献著录方法、CNMARC、UNIMARC、USMARC、Dublin Cor(都柏林核心)元数据、XML等的研究,目前较重视电子型文献及网络信息的著录研究。标引是通过对信息资源的分析,选用确切的检索标识反映资源内容的过程。组织法即排检法,是指按一定次序将标引标识(如主题词、分类号)排列起来的反方法。检索服务是根据用户需求,由专门人员帮助查找信息,并将结果提供给用户的工作,研究内容:服务手段、服务方式、用户培训、检索效果(查准率、查全率)等。目前应加强个性化信息服务研究。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报