1、2015-04,湖南神州祥网科技有限公司,互联网不良图片及长微博监控系统互联网防暴恐图像视频监控系统,系统概述,系统功能,技术特点,1,2,3,目录,Directory,(一)互联网不良图片监控系统概述,系统概述 系统可实现对互联网(包括微博、论坛、微信、QQ群等主要SNS媒体)传播的图片内容进行深入分析,对其中的文字类图片进行检测,文字内容提取,关键字分析,发现其中的不良信息内容并进行预警,同时为用户提供扫描检测报告。,系统主要功能 网络爬虫,支持多网站并行爬取,支持微信、微博、论坛、网媒数据的采集爬取文字类图片检测,快速判断某张图片是否包含大量文字内容关键词检测,采用高性能的AC关键字匹配
2、算法,支持关键字的模糊匹配,算法复杂度不随文本内容的大小线性增加,处理效率高黄色图像识别,采用模式识别和视频指纹技术相结合的方式,支持对图片视频的不良信息检测。,系统总体架构,系统部署方案,系统组成:1.数据采集服务器:负责对微信、微博、论坛中的图片数据进行采集2.图像处理服务器:负责文字类图片的预处理、拼接、OCR识别等功能3.数据库&接口&应用服务器:负责数据的存储、系统配置、数据展现、统计分析等功能,系统处理处理流程,图片检测,数据采集,OCR识别,文本匹配,数据采集:通过API接口、爬虫等方式采集微博数据,结构化微博数据,包括发帖人、发帖时间、微博内容、图片等数据;,文本匹配与预警:利
3、用关键词匹配技术,判断文本是否包含敏感信息。同时利用文本分析算法判断文字的倾向性,提取文本中的关键词,OCR识别:利用OCR识别算法,提取图片中的文字内容,转化为文本格式,图片检测:通过我司特有的图片检测技术,判断图片是否为文字类图片。同时对文字类图片进行预处理,对文字内容进行拼接,系统概述,系统功能,技术特点,1,2,3,目录,Directory,系统功能采集与关键词配置(Step 1),图片检测,数据采集,OCR识别,数据预警,数据采集与关键字配置:1)配置数据采集的网站2)配置过滤的关键词,系统功能图片预处理(Step 2),图片检测,数据采集,OCR识别,数据预警,图片预处理:快速检测
4、图片是否包含大量文字内容,1)二值变化率首先将输入图片进行二值化,例如0和1,然后将图片分成多个不重叠的NxN块,例如8x8,计算每个NxN快中0,1变换的数量。对于同样的一个NxN块,文字类图片中的0/1变化频率将会远远高于普通图像。2)边角点数量由于文字的特征,通常会含有很多的边角(corners)。因此,利用常见的边角检测算法,例如Harris,可以统计一个图像块里面含有的边角数量。当该数量超过一定的阈值之后,也可以认定该图片为长微博图片。,本算法已经申请相关专利保护,系统功能图片OCR识别(Step 3),图片检测,数据采集,OCR识别,数据预警,图片OCR识别:识别出图片中的文字内容
5、,当前在互联网上传播的内容,很多采用了把文字转换为图片后进行传播的方式,典型的应用如微博中的长微博,论坛发帖为了规避关键字过滤而把内容转换为图片。 本系统采用的图片OCR技术,具备以下特点: 快速验证图片中是否包含文字内容 识别宋体、楷体、仿宋等主流的字体 识别准确率90%以上 单幅图片的处理时延85%;2.容错能力强,在出现人物面部遮挡时仍然能有效识别;3.处理性能高,实现视频流的实时线性处理;,视频指纹技术,15,图1:在复杂背景下翻拍的图像图2:通过局部图像找到整幅图像图3:近似角度场景图像匹配系统具有良好的抗干扰能力,如果视频进行各种变化后仍然有效的与原始视频进行匹配系统采用高效的指纹
6、比对算法,可实时的进行视频指纹比对,系统概述,系统功能,技术特点,1,2,3,目录,Directory,全面的互联网数据实时采集,互联网数据采集功能:1.采集范围:全面采集文字、图片、视频数据覆盖新闻网站、热门论坛、微博、主流视频站点2.采集技术:主要论坛、网媒的实时监控元搜索技术,实现对中小网站的监控自主研发搜索引擎实现对互联网信息的广度采集,分布式存储平台,微博采集,视频图片采集,文字采集,黄色视频图像识别,1.分辨率检测用于去除小图标2.肤色检测、人脸检测用于去除非人物图像3.泳装检测用于降低对泳装图像的误判,不良视频图像识别处理流程,11,1.可以识别包括黄色在内所有类型的违规视频,包
7、括反动、暴力、群体事件等2.基于视频指纹的自学习功能,提高识别准确率,长微博的处理技术智能文本语义分析技术,类似于百度、谷歌等搜索引擎的技术,对采集的网页数据进行处理。 1)去掉网页中的标签等内容; 2)格式化文章内容,提取标题、正文、时间等信息 3)基于词库,去掉文章中的停用词,提取文章内的关键词并创建索引,分词与全文检索,文章情感分析,话题自动聚合,分析每篇文章的情感倾向性(正、负面分析) 1)提取文章中包含情感词的语句 2)分析每个语句的倾向性,然后综合加权分析整篇文章的倾向性,把所有讨论相同主题的文章进行自动分类,并提取文章中的热词 1)文章的词频、中心词分析; 2)通过一定的算法,比对两篇文章的相似性。从而进行自动归类 3)自动提取文章的热词,形成话题摘要,我司智能语义分析技术主要包括:分词与全文检索、文章情感分析、话题自动聚合,词库丰富,处理高效,分类准确,系统优势分析,2015-03,湖南神州祥网科技有限公司胡育红17708439719,THANKS!,