1、摘要:本文探讨了网络传播中的信息开发利用新技术,包括数据采掘和知识发现技术、XML、自动分类与自动摘要、智能搜索引擎技术,并讨论他们对新闻传播工作的影响。 关键词:网络传播,数据采掘,知识发现,XML ,自动分类,自动摘要,智能搜索引擎 New Technology for Information Utilization of Internet Communication Abstract: The thesis discusses the New Technology for Information Utilization of Internet Communication, include
2、s Data Mining, knowledge discovery, Automatic classification and abstract, Intelligent search engine. Keywords: Internet Communication, Data Mining, knowledge discovery, Automatic classification and abstract, Intelligent search engine. 在网络时代,广大新闻传播工作者和受众面临信息过载的难题。人们一方面被信息淹没,一方面却饥饿于知识和有用信息。大量的信息不能进行及
3、时有效的开发利用。面对信息爆炸,如何才能不被信息的汪洋大 高级工程师职称论文 http:/www.e- 种解决方案。 一 数据采掘和知识发现技术 在某种意义上说目前我们不是缺少信息,而是被信息淹没了。在因特网上有无穷的信息和数据。目前的数据库系统和搜索引擎可以高效地实现数据的统计、查询等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的有用的信息、知识、新闻、或新闻线索的手段,导致了“数据爆炸但知识贫乏”的现象。人们需要有新的、更有效的手段对各种大量数据进行挖掘以发挥其潜能,数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为自
4、动和智能地把海量的数据转化为知识、有用的信息、新闻、或新闻线索提供了手段。 数据采掘与知识发现 (KDD)一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。知识发现() 研究的主要目标是采用有效的算法,从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识,并用简明的方式显示出来。 数据采掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、先前未知的、但又是潜在有用的信息和知识的过程。数据采掘在一些文献中有些相近似的名称,如数据开采、发现知识(KDD)、知识采掘、知识抽取、知识考察、数据融合(D
5、ata Fusion)等。 知识发现是一个从数据中提取出有效的、新颖的、潜在有用的并能最终被人理解的知识、有用的信息、新闻、或新闻线索的过程。知识发现是从数据库和中发现知识的整个过程,而数据挖掘是整个过程中的一个步骤。因为数据挖掘是知识发现整个过程中最重要的步骤,所以我们通常将知识发现和数据挖掘作为同义词使用而不加区分。 数据采掘的工具目前,国外有许多研究机构、公司和学术组织从事数据采掘工具的研制和开发。这些工具主要采用基于人工 助理工程师职称论文 http:/www.e- 知识发现技术可以帮助我们从网上大量的原始数据和信息海洋中,挖掘出能反映其中规律的知识提供新闻工作者和网民。 在知识发现的
6、基础上可以构成虚拟知识共享系统。虚拟团体是一个分布式的组织,它的成员是一组在网络上协同工作的同行,他们依靠网络的支持相互合作、共享知识,可以快速有效地解决问题。新闻工作者之间、网民之间,新闻工作者与网民之间可以构成虚拟团体,进行交互式信息传播,进行新闻、信息、知识的交流与共享。 虚拟知识共享系统包括:(1)先进的知识获取技术。帮助成员搜索、处理知识,从中提炼专家经验。(2)支持多用户的开发,以使成员定制自己的站点。(3) 可以自适应团体需求的自组织式的新闻、信息、知识存储。 二 XML HTML 是目前因特网上广泛应用的标记语言。其优点是非常简单;固定的样式;简易且标准的连接;支持表格;编程简
7、单。但是也存在难以扩展;交互性差;语义性差;单向的超链接:链路丢失后不能自动纠正;动态内容需要下载的部件太多;致使搜索引擎返回的结果过多;缺乏对双字节或多国文字的支持等不足。尤其是目前基于 HTML 的搜索引擎存在着返回结果太多,检索精度差的弊端。而 XML 可以有效地克服这些不足。 XML 句法可标注出文档的结构和目的,这样就可缩小检索范围,提高提高检索精度。例如,用户想购买二手车,就可将查询限制为用于描述“汽车销售”的标识中。 XM 能帮助人们辨别模糊词义。自然语言中的词经常多义、多指, 网络信息检索系统不能分辨哪一种意思是查询中的,哪一种是文档中的。XML 有助于解决词义模糊问题,提高检索的准确性。如,用户使用“brown”作检索词,他有可能想查找由 DonaldBrown 所写的论文,由 Brown University 出版的论文,或有关 brown bear 的论文。 如果用户明确想查询authorBrown/author,university