收藏 分享(赏)

智能检索概要设计(初)-2.doc

上传人:dcs1276 文档编号:6870429 上传时间:2019-04-25 格式:DOC 页数:6 大小:3.11MB
下载 相关 举报
智能检索概要设计(初)-2.doc_第1页
第1页 / 共6页
智能检索概要设计(初)-2.doc_第2页
第2页 / 共6页
智能检索概要设计(初)-2.doc_第3页
第3页 / 共6页
智能检索概要设计(初)-2.doc_第4页
第4页 / 共6页
智能检索概要设计(初)-2.doc_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、1. 功能需求1、 实现对应急平台数据库及文件系统的全文检索,为业务系统查询、检索信息、资料提供底层的技术支持;2、 实现应急办对互联网(国内外主要新闻媒体、应急相关机构)相关网络信息(包括突发公共事件信息)的监测、获取、及整理。2. 总体设计2.1.系统构成根据业务需求,整个智能检索系统由两大部分组成,分别实现不同的功能: 全文检索系统 网络信息雷达2.2.系统架构门户 / 应用系统 ( 用户检索入口 )关系数据库文件系统索引库中文知识处理组件应急数据库信息采集( 网络爬虫 )W e b资源库w e b 信息管理用户全文检索核心软件包 ( L u c e n e )数据库适配器分类配置管理中

2、文分词信息过滤文件系统适配器检索应用接口管理设置 数据监控主题设置消重词表管理2.2.1. 全文检索系统: 实现对系统内存储的数据库系统、文件系统等应急数据资源的全文检索功能。1、技术路线:基于先进的全文检索开源软件包 Lucene, 由 Java 进行扩展实现。Lucene 源码中共包括 7 个子包,每个包完成特定的功能:Lucene 包结构功能表 包名 功能org.apache.lucene.analysis 语言分析器,主要用于的切词,支持中文主要是扩展此类org.apache.lucene.document 索引存储时的文档结构管理,类似于关系型数据库的表结构org.apache.lu

3、cene.index 索引管理,包括索引建立、删除等org.apache.lucene.queryParser 查询分析器,实现查询关键词间的运算,如与、或、非等org.apache.lucene.search 检索管理,根据查询条件,检索得到结果org.apache.lucene.store 数据存储管理,主要包括一些底层的 I/O 操作org.apache.lucene.util 一些公用类2、模块构成整个全文检索功能的实现,主要基于 Lucene 的软件包扩展实现;重点包括系统数据监控、中文分词的扩展实现、检索应用接口、文件系统适配器、数据库适配器、管理设置维护、词表管理等构成。索引库全

4、文检索核心软件包 ( L u c e n e )数据库适配器中文分词文件系统适配器检索应用接口管理设置 数据监控词表管理 Lucene: 实现核心的全文检索功能; 数据监控:实现对系统存储数据变化的动态监控管理,以便进行实时地建立动态索引。 文件系统适配器:实现将不同类型的文档格式 Text、HTML、XML、RTF、MS OFFICE 文档 (Word/Execl/Powerpoint)和 PDF 转换成标准的 Lucene 文件格式,以建立索引。 数据库适配器:实现将不同类型数据系统的数据转化成标准的 Lucene 文件格式,以建立索引。 管理配置: 实现相关系统的参数配置功能。 词表管理

5、:实现词表(中文分词表、主题词典、同义词典等)维护功能。 检索应用接口:负责各种复杂查询的解释及扩展实现。 中文分词: 实现对中文文档的切分,采用成熟的分词软件实现。3、接口设计要求提供标准的 Java API 接口。2.2.2. 网络信息雷达实现对设定的目标网站的信息进行实时监控,及时获取最新的相关网页采集到本地,并进行内容分析和过滤、归类等操作。1、模块构成中文知识处理组件信息采集( 网络爬虫 )w e b 信息管理分类配置管理信息过滤主题设置消重 信息采集模块(网络爬虫):对所设置的网站 URL 信息进行解析,并实现对感兴趣相关网页的下载; 信息过滤模块:实现对网页的过滤功能,自动去处广

6、告、栏目等无用垃圾等信息。 配置管理: 实现对网络信息雷达的相关参数的设置,如监控网站、自动监控时间、线程数量等等; 主题设置: 实现对要监控信息主题的设置, ,及关键特征词的维护管理。 Web 信息管理:实现对所下载内容的浏览、展示; 消重: 根据网页的内容进行是否重复网页的判断。 分类:实现根据文本的内容进行自动分类处理; 建议外购。2、技术要求 采用 Java 语言开发 采用多线程技术 数据可按照文件系统及数据库模式进行存储。3、技术实现采用开源软件 Heritrix 实现,Heritrix 是一个爬虫框架,是可扩展的,基于整个 Web 的,归档网络爬虫工程。3. 接口设计要求提供标准的 Java API 接口。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报