收藏 分享(赏)

新闻采集(用户需求).doc

上传人:HR专家 文档编号:5883787 上传时间:2019-03-20 格式:DOC 页数:14 大小:199.50KB
下载 相关 举报
新闻采集(用户需求).doc_第1页
第1页 / 共14页
新闻采集(用户需求).doc_第2页
第2页 / 共14页
新闻采集(用户需求).doc_第3页
第3页 / 共14页
新闻采集(用户需求).doc_第4页
第4页 / 共14页
新闻采集(用户需求).doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、新闻采集发布系统-需求文档目录1 引言 .31.1 编写目的 31.2 项目背景 .31.3 术语说明 .32 项目概述 32.1 软件的一般描述 .32.2 软件的功能 .42.2.1 功能架构 42.2.2 功能特点 42.2.3 功能描述 52.3 用户特征和水平 .72.4 运行环境 .72.5 条件与限制 .82.5.1 开发工具与技术 83 功能需求 83.1 功能划分 .83.2 功能描述 .93.2.1 运行管理 93.2.2 信息管理 93.2.3 统计报表 93.2.3 系统管理 94 外接接口需求 104.1 用户界面 .104.2 硬件接口 .104.3 软件接口 .1

2、04.4 通信接口 .104.5 故障处理 .105 性能需求 115.1 数据精确度 .115.2 时间特性 .115.3 适应性 .116 其他需求 117 数据描述 117.1 静态数据 117.2 动态数据 .117.3 数据库描述 .117.4 数据字典 .127.5 数据采集 .128 附录 121 引言1.1 编写目的信息的自动获取,信息的更新需要大量的人力来完成,而信息自动发布系统能够自动从互联网上获取新的信息,节省了运营的人力成本;丰富 IPTV 的内容,根据调查,用户最希望 IPTV 提供的功能是信息浏览( 63%)和视音频点播 (73%),信息自动发布系统给IPTV 提供

3、了信息资讯的内容;互联网上有各种各样的信息资源,但都是根据 pc 浏览器设计的。而电视上网有各种终端,浏览器各不相同,分辨率不同,支持 html、javascript 的能力也不同。因此互联网上的内容无法很好的在 IPTV 的各种终端上显示,需要对互联网上的内容重新组织、编排。1.2 项目背景基于现有 IPTV 平台 以及 企业信息化应用平台新闻咨询信息全有人工采集,其弊端表现为:采集速度慢,信息更新速度慢,采集信息量小,所采集信息重用性小(不能用于IPTV 平台与企业信息化平台 )等。 基于以上存在的问题,由中国电信成都分公司 IPTV 项目组发起,由上海帕科软件科技有限公司开发。1.3 术

4、语说明I P T V(Internet Protocol Television) 网络电视2 项目概述2.1 软件的一般描述通过新闻采集系统可以对互联网新闻内容进行自动快速采集,并可以根据用户定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或者文章,转化为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。本系统对目标网站进行信息自动抓取,支持 RSS 新闻采集和 HTML 新闻采集,可以采集页面内多种类型的数据,如文本信息,URL,数字,日期,图片等。2.2 软件的功能 2.2.1 功能架构系统功能架

5、构如下图所示:内容采集引擎系统门户 ( I P T V , 电视上网 、 网站 )数据库科目管理来源管理规则管理采集点管理模板管理新闻内容管理统计报表系统主要包括三个模块1. 采集引擎模块2. 后台管理模块3. 门户模块(接口模块)2.2.2 功能特点 用户对每类信息自定义来源与分类 可以下载图片与各类文件,如 PDF,Flash 等 需支持命令行和纯服务格式,可以 Windows 任务计划器配合,定期抽取目标网站 需支持记录 HASHCODE 等唯一索引,避免相同信息重复入库 需支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除 需支持多页面文章内容自动抽取与合并 数据直接进入数据

6、库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合 需支持数据库表结构完全自定义,充分利用现有系统 需支持多个栏目的信息采集可用同一配置一对多处理 需提供基于 Web 的在线内容编辑,可以方便灵活的进行内容调整和预览 需保证信息的完整性与准确性,绝不会出现乱码 需提供基于 XSLT 的模板和帕科自定义格式的模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面 需支持各种主流数据库,如MSSQL、Access、MySQL、Oracle 、DB2、Sybase 等2.2.3 功能描述2.2.3.1 新闻采集引擎新闻采集引擎需包括 RSS 新闻采集和 HTML 新闻采集两

7、个关键模块,分别负责从两种协议进行采集分析。系统采用基于 LUA 自定义脚本的方式,提供高效和可维护的信息采集。2.2.3.2 新闻采集管理后台2.2.3.2.1 新闻科目管理新闻科目管理对所有的新闻进行科目定义,如财经频道、国际新闻、国内新闻等内容。新闻科目支持无限分级,从而可以提供更加人性化的导航和分类。2.2.3.2.2 新闻来源管理新闻来源管理对新闻的出处进行管理、如新浪网、上海热线、网易、搜狐等。从而方便统计和管理。新闻来源管理实现新闻来源的添加、删除、更改等功能。2.2.3.2.3 新闻采集点管理新闻采集点按照新闻来源导航,提供对各个采集分析点的管理,采集点的内容一般呈现为列表数据

8、,访问为 HTML 页面内容或者 RSS 内容,新闻采集点可以设置以下信息 采集地址 采集类型 采集时间间隔 分析规则 列表分析规则 新闻内容分析规则等信息2.2.3.2.4 新闻内容管理包括新闻的审核、发布、撤销、生成静态页面。新闻内容可以按时间、标题、内容提供商、采集点等关键信息进行查询,下面为新闻列表信息,新闻内容包括待审核、待发布、已发布、已撤销等几个状态,管理员通过不同的导航菜单查看系统采集的新闻。提供基于 Web 的在线内容编辑,可以方便灵活的进行内容调整和预览。2.2.3.2.5 模板管理 模板管理对新闻展现或者发布的页面进行模板管理,系统提供基于 XSLT 的模板和自定义格式的

9、模版,从而提供灵活方便标准的模版,方便运营商设计自己的界面。模板管理实现模板的添加、删除、更改,并提供完全基于 Web 的在线模版编辑功能。2.2.3.2.6 统计报表统计报表实现当天新闻点击量排行榜、新闻访问点击数按时间统计等各种报表并且提供柱状图、饼图等图表,可以提供丰富的统计报表功能,并可以导出为 PDF 等报表文件。2.2.3.2.7 新闻门户新闻门户从数据库获取数据并按照门户模版的要求进行展现。新闻门户页面采用基于 XSLT 模版生成,可以生成全静态页面或者动态页面处理。2.2.3.2.8 管理员管理需要对登录进后台管理系统的用户设置角色、权限,方便对管理员进行管理。并可以对管理员进

10、行新建,修改权限等操作。2.2.3.2.9 日志管理需对管理员在后台管理系统里边的登入,登出及所有操作日志进行记录 并可以通过后台管理系统进行查看。2.2.3.3 对外 Web Service 接口需对外提供统一的 web service 接口 以供其它系统进行新闻信息的调用。2.3 用户特征和水平经过开发厂商培训过的后台信息操作人员2.4 运行环境标准软件运行环境Windows 2003 服务企业版SQLServer 2000 或者更高版本数据库2.5 条件与限制2.5.1 开发工具与技术 Visual Studio 2005 MS Sql Server2005 C# Lua C+3 功能需

11、求3.1 功能划分3.1.1 系统功能架构图3.2 功能描述3.2.1 运行管理3.2.1.1 网站管理定义:需要采集信息的网站名称功能 :可以新增采集网站,并对网站进行启用、停用、新增、删除、修改等操作,此处的网站是为了便于对新闻采集点进行管理的一个别名,所有的新闻采集点必须下属于一个网站。3.2.1.2 采集点管理定义:网站下边需采集的新闻版块(社会,财经等等类似版块)功能:采集点全都下属于某一个网站(可以为上边新增的网站增加采集点( 采集板块),可以对采集点进行启用、停用、新增、删除、修改等操作,要能够指定采集点所属采集组、采集地址、采集类型、采集间隔时间、发布类型、列表,内容编码、列表

12、分析规则、内容分析规则等属性。3.2.2 信息管理3.2.2.1 科目管理定义:展现给 web 外部的科目, “运行管理”功能 里边的所有采集点都下属于科目,一个采集点可以加到多个科目管理。功能:便于对所有的采集点分类进行管理,将从各个网站采集过来的信息按 IPTV 平台的方式与科目提供给外部。3.2.2.2 信息审核定义:对采集的信息审核其合法性功能:对采集的信息(未发布 )进行合法性的审核,将其它状态更改为 “已审核”可以对未发布信息进行查找、编辑、删除、排序 等操作3.2.2.3 信息发布定义:对已审核的信息进行发布功能:对已审核的信息进行发布,将其状态从“已审核”更改为“已发布”3.2

13、.2.4 已发布信息3.2.2.5 回收站3.2.3 统计报表3.2.3.1 新闻数量统计3.2.3.2 科目访问统计3.2.3.3 新闻访问统计3.2.3 系统管理3.2.3.1 管理员管理3.2.3.2 系统日志 s4 外接接口需求4.1 用户界面对用户希望该软件所具有的界面特征进行描述。以下是可能要包括的一些特征:将要采用的图形用户界面标准或产品系列的风格;屏幕布局;菜单布局; 输入输出格式;错误信息显示格式;建议采用 RAD 开发工具,比如Visio,构造用户界面4.2 硬件接口描述系统中软件产品和硬件设备每一接口的特征,以及硬件接口支持的设备、软件与硬件接口之间,以及硬件接口与支持设

14、备之间的约定,包括交流的数据和控制信息的性质以及所使用的通信协议。4.3 软件接口描述该软件产品与其有关软件的接口关系,并指出这些外部软件或组件的名字和版本号。比如运行在什么操作系统上,访问何种类型的数据库,使用什么数据库连接组件,和什么商业软件共享数据等。4.4 通信接口描述和本软件产品相关的各种通信需求,包括电子邮件、Web 浏览器、网络通信协议等。4.5 故障处理对可能的软件、硬件故障以及对各项性能而言所产生的后果进行处理。5 性能需求 5.1 数据精确度 输出结果的精度。 5.2 时间特性 时间特性可包括如下几方面:响应时间;更新处理时间;数据转换与传输时间;运行时间等。 5.3 适应

15、性 在操作方式、运行环境、与其他软件的接口以及开发计划等发生变化时,软件的适应能力。 6 其他需求 列出在本文的其他部分未出现的需求。如果不需要增加其他需求,可省略这一部分。 7 数据描述 7.1 静态数据 7.2 动态数据 包括输入数据和输出数据。 7.3 数据库描述 给出使用数据库的名称和类型。 7.4 数据字典 对于数据流图、层次方框图中出现的所有图形元素在数据字典中都要作为一个词条加以定义,使得每一个图形元素都有唯一的一个清晰明确的解释。数据字典中所有的定义必须是严密的、精确的,不可有二意性。 7.5 数据采集 列出提供输入数据的机构、设备和人员 列出数据输入的手段、介质和设备; 列出数据生成的方法、介质和设备。 8 附录 包括分析模型,待定问题图表等。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 规范标准 > 新闻/广播

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报