1、文本智能(挖掘)技术在网络内容安全中的应用 贺兆辉 北京拓尔思信息技术股份有限公司2009年11月24日,内容,Web2.0时代的网络内容安全文本挖掘技术在网络内容安全方面的应用TRS文本挖掘技术的典型案例结论,Web2.0时代的网络内容安全,传统的网络内容安全概念,传统网络内容安全主要包括两部分电子邮件访问过滤,主要针对垃圾、病毒邮件Web访问过滤,如:绿坝花季;员工上网管理系统(EIM)等。主要是屏蔽网络黄、赌、毒信息,防止网络泄密行为等,传统的内容安全主要包括电子邮件访问过滤和组织内的web访问过滤。,Web 1.0到2.0传播方式的转变,Web 1.0 的特征单向传播 以政府舆论引导为
2、主政府媒体为导向,党政喉舌控制Web 2.0 的特征个人传播英雄时代(网络意见领袖、“公民记者”)论坛、博客兴起,互联网传播多元化(Twritter、QQ群等微博客已经成为2009年网络舆情的重要传播手段)负面问题互联网病毒式传播会给企业造成巨大的损失互联网变得越来越不可控,对于政府部门来说从管控到监督的转变,舆情监测、研判的三类市场,舆情监测、研判的三类市场地区舆情(省、地市、县等各级政府),突出需求为舆情事件预警。行业舆情(如:质检、出版、税务、工商等行业),突出需求为基于互联网的行业监管。企业舆情口碑(如:电子产品质量反馈检测),舆情监测和研判已经成为网络内容安全的重要组成部分,论坛,新
3、闻,引擎,垂直页面,采集和提取,博客,网络舆论的关键技术之一:采集和提取,近年的QQ群、twitter等微博客,这些主要为动态网页,以松散的非结构化信息为主体,实现准确的舆情采集和抽取存在难度。,网络舆论的关键技术之二:预警、热点分析和主题趋势跟踪,预警:对突发事件、涉及内容安全的敏感话题及时发现或报警;热点分析:利用关键词过滤、语义分析、数值统计识别热点和敏感话题;主题趋势跟踪和分析:对突发事件跨时间、跨空间综合分析,获知事件发生的全貌并预测发展趋势。,网络舆论的关键技术之三:倾向性分析,对文章的观点进行倾向性分析和统计,识别正负面信息。,文本挖掘技术在网络内容安全方面的应用,文本挖掘:文本
4、驱动的商业智能,ClearForest公司是将非结构化的内容转变为有价值的商业智能行业中的领导者,其创始人Ronen Feldman博士被称为文本挖掘之父。文本驱动商务智能这一概念就是QearFont倡导的,并提供了解决方案。,文本挖掘:语义网络的基础设施,2008年4月份在北京举行的Next Web Conference 2008上,Nova Spivack对Semantic Web做出了精彩的描述 : ” 就像Web页对待文件那样对打数据,你逐渐在从Web为数据库之中,你的数据成为了其中的一部分。你的数据成为了全球数据库的一部分。语义网络让你从一个数据记录到另一个数据记录,就像从一个网页到
5、另一个网页一样。“,国内文本挖掘技术,文本挖掘与舆情监控,采集过程的自动化处理自动分类:基于关键词、语料(知识库)自动文摘和关键词自动排重自动过滤,提高海量信息的自动化加工速度,其中自动排重、自动分类(前提是丰富的知识库)都是相对比较成熟的技术。,中文智能处理技术与舆情监控,中文智能处理技术与舆情监控,自动文摘与关键词,文本挖掘技术与舆情监控,人机结合的舆情分析技术热点分析(热词、热点话题)正负面信息分析(如:用于领导人)有害信息过滤(如:法轮功信息)信息抽取和关联关系挖掘,热点分析,中文智能处理技术与舆情监控,中文智能处理技术与舆情监控,中文智能处理技术与舆情监控,结合文本挖掘和数值统计的舆
6、情分析功能,报告指定时间点的各种指数状态。这种报告可以以网站即时显示的形式展示,也可以在每天特定的时刻以公文报表的形式给出。热点:所采集的网络范围内重复程度最高的话题 要点:所采集的网络范围内重复度最高的文章 频点:所采集的网络范围内新鲜的重复度高的文章 敏点:在要点排行榜上排名数上升最多的文章。疑点:对一个问题有正反两种观点的话题。 难点:对一个问题有多种观点的话题。 当前报警指数:最初的定义是按照当前条件重复度 网络舆情摘要:综合上述各点,提取出几条最重要的新闻,进行摘要,称为简报。,热 点,所采集的网络范围内重复程度最高的话题,报警指数,1、按照当前条件重复度(指定时间长度内的重复度:如
7、2个小时)最高的文章重复次数所进入的数值区域进行区分,由此衍生出黑色报警、红色报警、黄色报警概念。2、 综合舆情指数,由各点,各采集源加权计算得。,根据预警内容形成网络舆情摘要,提取出几条最重要的新闻,进行摘要,生成简报。,文章传播链,按照重复文章在网站中的发布顺序,生成特定文章的传播链。,TRS典型案例,政府舆情应用,行业舆情应用,医改舆情系统(中国医学科学院),商业舆情应用日本佳能数码相机情报监测平台,全面检测中英日等相关网站每天提供300条高质量的情报每月投入为1万元产出为6万元,实践的体会,文本挖掘和本地化语言密切相关,本地化厂商有先天的优势。客户对智能技术的研发有更高的期望和要求必须
8、重视知识库的建设,舆情方面成功的应用要有专家介入注重培育面向行业、面向地区的基于SaaS模式的舆情服务,pOXLp7v0djZKylHSJr3WxBmHK6NJ2GhiBeFZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMeR4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1
9、DkaGtgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMeR4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGZ7R4I30kA1DkaGhn3XtKknBYCUDxqA7FHYi2CHhI92tgKQcWA3PtGshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMes02GshLs50cLmTWN60eo8Wgqv7XAv2OHUm32WGeaUwYDIAWGMes02dLPqafkFGlzcvv2YiRQYHbhR8AI1LKULh3xvjDzkEAMGr8xbwF1bH1oIM30E7xp,