收藏 分享(赏)

游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统开题报告.doc

上传人:wo7103235 文档编号:6260686 上传时间:2019-04-03 格式:DOC 页数:8 大小:71.50KB
下载 相关 举报
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统开题报告.doc_第1页
第1页 / 共8页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统开题报告.doc_第2页
第2页 / 共8页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统开题报告.doc_第3页
第3页 / 共8页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统开题报告.doc_第4页
第4页 / 共8页
游戏垂直搜索引擎 基于Heritrix网络爬虫的搜索引擎DEMO系统开题报告.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

1、厦门大学软件学院毕业设计(论文)开题报告学生姓名 班级 学号校内指导教师姓名 职称所在单位 厦门大学软件学院毕业设计(论文)题 目 垂直搜索引擎:搜索新未来毕业设计(论文)的目标:开发关于游戏的具有全文(中文)检索的垂直搜索引擎系统。根据收录的多个信息格式相对单一的垂直门户和论坛,通过分析工具分析其信息特点和关键词分布状况,然后基于现有的信息格式建立索引库,以及相应的数据库。用户通过网页的方式查询,查询后的结果也以网页的方式显示。实现方法:基本环境:开发工具:MyEclipse,Dreamwear,Photoshop开发语言:Java,Javascript开发平台:windows测试工具:Ju

2、nit数据库: MYSQL工作原理:搜索引擎是对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。信息搜集:通过使用网络爬虫从网络上抓取想要的资源。网络爬虫是搜索引擎出现的前提。信息整理分为构建文本库、建立索引。1.构建文本库在开发检索功能前,一个信息检索系统需要做些准备工作。首先,必须构建一个文本数据库,亦词库。这个文本数据库用来保存所有用户可能检索的信息。这个文本数据库具有可识别、冗余程度低等特点。该文本数据库是基本之前网络爬虫抓取的资源而建立的。2.建立索引有了文本数据库之后,就应该根据词库内的文本建立索引。索引可大大提高信息检索的速度。用户查

3、询又可分为搜索以及对结果的过滤两部分。1.搜索该部分通常是由用户提交一个检索请求,该请求将被分析,然后利用文本操作进行处理。2.对结果的过滤通常,在系统检索到用户需要的信息后,还需要做一步操作,就是将信息以一定的规则进行排序或过滤,在返回给用户。这一步关系到最终用户的体验。如果总是将一些无关信息返回给用户,那么它一定不是一个成功的搜索引擎。时间进度安排:2008 年 11 月 20 日-2009 年 1 月 11 日:查阅相关书籍资料,所有概念细节的敲定。2009 年 1 月 12 日-2009 年 1 月 20 日:征求导师意见后进一步改进,整理提交毕业设计开题报告。2009 年 1 月 2

4、1 日-2009 年 2 月 13 日:完成相应文档资料。2009 年 2 月 14 日-2009 年 4 月 30 日:对必要技术及工具进一步了解和学习,完成基本代码修改和编写,整个系统的基本完成。2009 年 5 月 1 日-2009 年 5 月 10 日:集成测试,整个软件主体基本完成。2009 年 5 月 11 日-2009 年 5 月 20 日:系统测试,以及各种性能分析。2009 年 5 月 21 日-2009 年 5 月 30 日:确认软件功能,确认所需功能均已完成,并完成具体功能检查。2009 年 6 月 1 日-2009 年 6 月 30 日:项目文档终稿完成,提交毕业论文,

5、准备毕业答辩。指导教师审核意见:校内指导教师签名: 2009 年 月 日厦门大学软件学院毕业设计(论文)中期检查报告学生姓名 班级 3 班 学号校内指导教师姓名 职称所在单位 厦门大学软件学院毕业设计(论文)题 目 垂直搜索引擎:搜索新未来毕业设计(论文)的目标和主要任务:设 计 构 建 一 个 关 于 游 戏 的 垂 直 搜 索 引 擎 , 以 Eclipse 作 为 开 发 环 境 。后 台 数 据 处 理 使 用 Lucene 索 引 工 具 和 Heritrix 爬 虫 技 术 , 前 台 使 用 JSP技 术 进 行 页 面 设 计 , 后 台 数 据 库 使 用 MySQL 数 据

6、 库 。 设 计 的 目 的 是 让 用 户可 以 在 网 站 上 搜 索 其 需 要 的 游 戏 信 息 , 并 能 从 搜 索 结 果 中 打 开 一 个 有 关 游 戏详 细 参 数 的 页 面 进 行 浏 览 。 在 系 统 中 , 游 戏 信 息 是 从 新 浪 游 戏 、 17173 和迅 雷 游 戏 上 利 用 Heritrix 抓 取 下 来 的 。 网 页 经 过 HTMLParser 解 析 后 , 得到 的 游 戏 详 细 信 息 插 入 到 MySQL 数 据 库 中 , 并 为 该 游 戏 建 立 词 库 和Lucene 索 引 。 最 后 构 建 一 个 简 单 的

7、 Web 平 台 , 对 建 立 的 索 引 和 数 据 库 进 行整 合 , 为 用 户 提 供 真 正 的 搜 索 服 务 。已经完成毕业设计(论文)任务的情况:经 过 团 队 成 员 的 讨 论 , 已 完 成 对 项 目 的 大 概 了 解 , 进 行 了 可 行 性 分 析 、需 求 分 析 等 。 并 已 经 编 写 好 了 项 目 的 详 细 设 计 说 明 书 , 现 在 正 在 按 照 项 目 的详 细 设 计 开 发 项 目 的 几 个 核 心 模 块 , 包 括 网 络 爬 虫 模 块 、 网 页 解 析 模 块 、 数据 库 和 索 引 模 块 以 及 前 台 试 图

8、模 块 。 按 照 计 划 再 经 过 两 周 , 项 目 既 可 完 成 。存在的问题和困难(包括需要学院协助解决的问题和困难):主要有以下两个问题:1.这个垂直搜索只能做游戏领域吗? 我们现在想换其他领域可不可以啊?2.我们现在是抓取了新浪游戏的游戏资料库,但是都是下面这种 urlhttp:/ ID 来建立索引,不会解析网页,不知道怎么从这些页面中提取出我们所需要的信息。特向您请教指导教师审核意见:校内指导教师签名: 2009 年 月 日学院检查组意见:学院检查组组长(签章): 2009 年 月 日毕业论文任务书题 目:垂直搜索引擎:搜索新未来目标要求:毕业设计(论文)的目标:开发关于游戏

9、的具有全文(中文)检索的垂直搜索引擎系统。根据收录的多个信息格式相对单一的垂直门户和论坛,通过分析工具分析其信息特点和关键词分布状况,然后基于现有的信息格式建立索引库,以及相应的数据库。用户通过网页的方式查询,查询后的结果也以网页的方式显示。支持条件:基本环境:开发工具:myeclipse,dreamwear,photoshop开发语言:java,javascript开发平台:windows测试工具:junit数据库: mysql校内指导教师(签名) 职称 学生(签名) 分阶段进度安排阶段起讫时间 计划完成内容1 2008 年 11 月 17 日-2009 年 1 月12 日 阅读文献资料,理

10、解任务,完成开题报告2 2009 年 1 月 13 日-2009 年 3 月20 日 对必要技术及工具进一步了解和学习,完成中期检查报告3 2009 年 3 月 21 日-2009 年 4 月30 日 进行开发阶段,完成整个系统的开发4 2009 年 5 月 1 日-2009 年 5 月 14日 系统测试,撰写毕业论文初稿5 2009 年 5 月 15 日-2009 年 6 月10 日 论文撰写、论文答辩教师分阶段指导记录第一阶段:第二阶段:第三阶段:第四阶段:第五阶段:论文评语拟评成绩 校内指导教师(签名) 职称 2009 年 月 日论文评阅 评阅成绩 评阅教师(签名) 职称 2009 年 月 日答辩记录 演示成绩 答辩成绩 答辩小组组长(签名) 职务(称) 2009 年 月 日总评成绩 学院负责人(签盖) 2009 年 月 日

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报