1、 基金项目:国家自然科学基金资助项目(60972012); 教育部培育基金项目(707006); 铁道部科技研究开发计划重点课题(2008X019); 北京市教育委员会共建项目专项资助(W08I0040); 北京市教育委员会学科建设与研究生建设项目资助(JXKJD20090001); 通信与信息系统北京市重点实验室资助项目(JSYJD20090001)基于态势评估的网络舆论监控与引导系统的研究司夏萌,刘云,程 辉,张彦超(北京交通大学通信与信息系统北京市重点实验室,北京 100044)摘 要:网络舆论信息作为社会万象的映射,能够及时准确反映社会问题。由于网络的无组织、传播速度快等特性,使得网络
2、舆论在传播过程中具有不确定性和时间无序性。现有的网络舆情产品都是将舆论信息收集和信息分析脱离,忽略了信息收集与分析之间的联系,无法动态地根据传播过程中网络舆论的变化做出实时调整。为了动态智能监控网络舆论,本文综合利用专家系统和贝叶斯网络等技术,提出基于态势评估的网络舆论监控方案,根据实时网络舆论数据动态修改网络监控策略,从而解决信息收集与信息分析脱离的问题,具有实际意义。关键词:舆论传播;信息融合;态势评估;贝叶斯网络中图分类号:TP393 文献标识码:AResearch of Internet Public Opinion Monitoring and Guiding System base
3、d on Situation Awareness SI Xia-Meng, Liu Yun, Cheng Hui, Zhang Yan-Chao(Key Laboratory of Communication Information fusion; Situation assessment; Bayesian network1 引言随着网络的进一步普及,我国的网民数量已经得到了很大的突破,网民的意见在互联网中聚集,进一步成为网络舆论,已经对我国的现实生活产生了巨大的影响 【1】 。从总体上来看,网络舆论突发事件会给国家政策安全带来冲击,混淆人民群众的视听,因此,宏观舆论的研究,作为网络内容安全
4、中最重要的一部分,开始受到舆论管理部门和科研院所的高度重视。 网络舆情分析系统发展到现在,出现了许多原型系统和市场产品:国内包括方正智思网络舆情互联网信息监控分析系统及舆情预警辅助决策支持系统、上海交通大学信息安全工程学院的网络媒体内容监管系统、军犬网络科技有限公司的军犬舆情智能监控系统等,对网络舆情的分析提供了多种辅助手段。国外相关产品有:Autonomy公司发布的三大系列专门针对中国市场的应用产品等。这些网络舆情产品都能对网络舆论进行有效引导与合理分析。然而,由于人们的生活习惯等因素,造成了网络舆论在传播过程中并不是随时间规则连续的,有可能在一小段时间内没有人发帖,而在有些时间段内网民高度
5、关注,讨论热烈。这样,就笔者所掌握的材料来看,目前已有的舆情产品尚未针对舆论信息相对于时间的无规律性做出专门的设计。本文通过态势评估的方法,对网络舆论信息实时分析,根据分析的结果及时调整监控策略,从而使网络舆论监控更具针对性,解决了网络舆论信息相对于时间的无序性问题第 期 基于态势评估的网络舆论监控与引导系统的研究 2【2】 。本文以宏观舆论形成中的标志性现象为突破点,采用态势评估的方法来动态监控网络舆论演化,综合专家系统和贝叶斯网络等各种技术与知识,实时跟踪舆论动态,分析舆论倾向。本文提出的基于态势评估的网络舆论监控引导系统解决了网络舆论信息采集与信息分析脱离的问题,可以根据前一周期的舆论信
6、息来动态调整本次监控策略,从而使舆论监控更具针对性,保证了网络内容的安全,提高了网络舆论监控效率。2 态势评估介绍态势评估(Situation Assessment)是信息融合理论的高层功能模型。信息融合,原称数据融合,最初是在20世纪70年代初期由美国海军首先提出的,它是一个对来自多传感器和信息源的数据、信息进行检测、联合、相关、评价及合并的多级、多方面处理过程,最终获得提炼后的状态和目标评估及对局势和威胁的及时、全面的评价【2】 。到目前为止,态势评估还没有统一的定义,只有大量对态势评估的功能描述,最著名的就是美国国防部的联合领导实验室JDL(Joint Directors of Labo
7、ratories)的数据融合处理模型中的描述:态势评估是建立关于作战活动、事件、时间、位置和兵力要素组织形式的一张视图,将所观测到的战斗力量分布与活动和战场周围环境、敌作战意图及敌机动性有机地联系起来,分析并确定事件发生的原因,得到关于敌方兵力结构、使用特点的估计,最终形成战场综合态势图 【3】。由于态势评估根据实体和被观察事件的关系,结合先验知识和多源实施观察数据来确定实体的意义。在态势评估中,尤其强调关系信息,例如实体间的自然亲近关系、通讯拓扑关系、因果关系和隶属关系等 【4,5】 。利用态势评估的这些功能,网络舆论监控系统将其应用到网络舆论监控中。根据分布式网络爬虫收集的网络数据,结合知
8、识库和专家系统,分析当前舆论状态,并根据分析结果,实时调整爬虫爬行间隔、爬行深度、爬行宽度和聚焦内容等设置,从而有针对性地收集数据以更高效地监控网络舆论。这样,在第一轮大范围的从网络上收集舆论信息之后,经过基于知识库的态势觉察后,会发现一些较有威胁、需要加强监控的话题。根据态势评估的思想,系统将把该信息传回爬虫,进行定向爬行,从而在短时间内针对某个话题进行智能监控。3 系统框架网络舆论监控引导平台在态势评估技术的基础上进行研究和设计。借用通信系统的思想,本平台按照流程主要分为四个子系统,分别完成收集、存储、预处理、分类、分析、态势评估、预测、系统管理八个功能。这四个子系统中每个部分都是相对独立
9、的单位,它们分别都有其各自的构建特点及职责功能,但在平台运行时又相互联系、相互协调,呈现系统性、协作性的运作状态。系统框架见图1。 信 息 采 集 信 息 处 理 态 势 评 估 信 息 发 布反 馈 人 为 控 制图 1 系统框架图Fig.1 System Framework(1)信息采集:实时采集网络舆论数据并存储,根据态势评估结果动态调整信息采集策略,实现动态监控网络舆论的功能。(2)信息处理:解析存储的数据,去掉大量页面冗余信息;分析经过去噪后的数据,具体包括:分词、摘要、聚类、热点发现以及敏感话题发现。(3)态势评估:根据本地服务器已存的舆论数据,结合相关知识库和专家系统,分析当前舆
10、论所处的演化阶段,从而调整下一阶段数据采集器即网络爬虫的数据采集策略及引导策略,便于更有针对性地监控引导该话题。(4)信息发布:将态势评估后的结果发布到平台上,实现人机间双向交互。4 态势评估流程本平台在对网络舆论监控引导中态势评估的整个流程是:首先将从一直监测着网络数据的网络爬虫得到的网络舆论数据进行去噪音、分类分析,根据数据挖掘得到的结果,结合知识库进行态势觉察,根据觉察结果得出具体舆论参数数值;在态势理解阶段,根据受到的具体舆论参数数值更新各个备选态势的确信值分配;在态势分析阶段基于之前的确信值分配,利用贝叶斯网络技术评价每个备选态势的可信度,得到最终解,即第 期 基于态势评估的网络舆论
11、监控与引导系统的研究 3该类型网络舆论的演化阶段,预测其演进趋势,并指导网络爬虫进行下一阶段的数据采集。态势评估的具体流程如图2所示:网络网络爬虫态势觉察传播数据态势预测与引导网络舆论信息否数据处理数据反馈指导采集决策是具体数据知识库人工辅助态势理解更新态势确信值分配基于已有的舆论研究基于专业人员的经验和推理能力专家系统态势分析贝叶斯网络图 2 态势评估流程图Fig.2 Situation Assessment Flow Chart基于态势评估的舆论监控引导过程分为六个具体步骤:(1)监测网络:一方面利用网络爬虫对网络舆论进行实时监测,将监测到的数据传入下面的态势觉察步骤中,以备判断目前舆论演
12、进情况;另一方面接受态势分析后的指令,调整数据采集方案。(2)态势觉察:结合知识库,在已有的舆论研究结果的接触上,判断数据挖掘后的舆论信息是否与已判断的舆论类型一致,如果不一致,则继续监测;如果一致,则将该舆论数据传入下一个步骤。(3)传播数据:将新收到的舆论数据传播给态势评估的各个部分。(4)态势理解:根据收到的舆论数据更新各个舆论演进模型的确信值,从而为新一轮的态势评估做准备。(5)数据反馈:更新后的确信值反馈回网络爬虫,引导网络爬虫有目的地采集对于该态势评估有用的网络舆论数据。(6)态势分析:判断更新的确认值是否支持已确定的网络舆论类型,如果是,则确定该网络舆论类型;如果不是,则返回网络
13、爬虫接着监测网络舆论数据。(7)决策:当评估出网络舆论的具体特点,及其模型后,预测其演进趋势,并采取相应的引导措施。5 关键技术5.1 专家系统之所以称为专家系统,是因为通过该方法所获取的知识以及思维推理方式都来自于专家。但目前的专家系统的知识来源也有可能是专业人员或其他学习途径,因此统称为基于知识的系统 【3】 。本文针对专家系统知识的不同来源,将专家系统分为知识库和人工辅助系统。其中,知识库即已有的舆论研究结论,已上升到理论阶段;人工辅助系统即专业人员根据经验和思维推理进行的辅助评估。由于态势评估的分析对象是经过网络爬虫得到的舆论信息,可能是片面、模糊的或不准确的;知识库也是经验性的;求解
14、过程需要反复试探;造成了求解结果也可能具有不确定性。因此,结合专业人员的人工辅助手段,可以解决该病态结构问题。专家系统共包括5个部分:知识库;人工辅助;含有动态、静态数据的全局数据库;推理机;人机接口;知识获取组件和解释组件等。知识库中的专家知识进行知识表达的机制有很多种,例如产生式规则、语义网络、框架、脚本等。推理机根据收到的数据在知识库中进行搜索并得到结果。5.2 贝叶斯网络贝叶斯网络(Bayesian network),也称贝叶斯置信网络,是目前人工智能领域一种很重要的推理技术 【2】 。它是基于概率推理的图形化网络,而贝叶斯公式即式(1)则是这个概率网络的基础。贝叶斯网络是基于概率推理
15、的数学模型,所谓概率推理就是通过一些变量的信息来获取其他的概率信息的过程,基于概率推理的贝叶斯网络是为了解决不定性和不完整性问题而提出的,它对于解决网络舆论信息的不确定性和关联性问题有很大的优势。(1)(,/)(,)/,)12(/,.PHiAiPHiA第 期 基于态势评估的网络舆论监控与引导系统的研究 4式(1)中, P(H,1)、P(H,2)称为基础概率,P(A/H,1)为击中率,P(A/H,2)为误报率。在网络舆论监控引导中,主要应用贝叶斯网络的网络推理能力,实现网络舆论的态势评估。其核心思想在融合多源异类信息的同时,为内涵方法提供一个有效的推理步骤,从而简化系统的计算。根据贝叶斯网络的原
16、理,以概率网络的形式表示网络舆论态势评估过程中的定性关系,建立网络舆论分析中各个变量间以及变量与演化结果间依赖关系的图形模型。根据已有的关于网络舆论的知识库和经验,总结以往网络舆论现象,挖掘内在因果关系,归纳决定网络舆论演化的参数的概率分布。在新一次态势评估中,利用之前的舆论演化参数的概率分布,决定本次态势评估结果。6 结论由于网络这一特殊传播媒介的无组织、传播速度快、匿名制等特性,使得网络舆论具有很大的不确定性和时间无序性。现有的大多网络舆论产品都忽略了信息收集和信息处理之间的关系,即舆论信息采集和舆论分析想脱离。这样,很难实时根据舆论的演化情况实时动态调整舆论监控策略。本文提出基于态势评估
17、的网络舆论监控引导系统方案将态势评估应用于网络舆论监控引导中,解决了以往舆论信息收集和舆论信息分析脱离、盲目收集网络舆论数据的问题,从而实现实时、高效、智能地网络舆论监控引导,有效地保证了网络内容的安全性。参考文献1 陈力丹. 舆论学舆论导向研究M. 北京:中国广播电视出版社, 1999.2 巴宏欣, 赵宗贵, 杨飞, 董强, 张涛. 态势估计概念、内容与方法J. 解放军理工大学学报, 2004, 5(6):10-16.3 林晓强, 常国岑, 杨凡, 燕海涛. 态势评估领域知识的表示方法研究J. 航天电子对抗, 2006, 22(6):62-64. 4 Miao A X, Zacharias
18、G L, Kao S P. A computation situation assessment model for nuclear power plant operations J. IEEE Transaction on Systems, Man, and Cybernetics: Part A-Systems and Hymans, 1997, 27(6):728-742.5 Kempowsky T, Subias A, Aguilar-Martin J. Process situation assessment: From a fuzzy partition to a finite state machineJ. Engineering Applications of Artificial Intelligence, 2006, 19(5):461-477.司夏萌(1984 年 6 月),女,博士生,研究方向为舆论动力学、网络与信息安全刘云(1955 年 1 月),女,博士,教授,博导,研究方向为计算机通信、舆论动力学、信息与网络安全、智能交通程辉(1985 年 1 月),男,博士生,研究方向为舆论动力学、网络与信息安全张彦超(1984 年 12 月),男,博士生,研究方向为舆论动力学、网络与信息安全第 期 基于态势评估的网络舆论监控与引导系统的研究 5