1、基于视频结构化图侦系统的应用目前,视频监控系统已经成为治安防控、侦查破案的重要手段。但是,面对海量的视频信息、非结构化的数据形式和内容的多义性,在案发后人工调阅方式耗时耗力,大量视频未经梳理而流失,严重影响了监控系统的建设成效。目前在安全防范领域中,有效分析、组织和管理视频数据,研究基于内容的视频应用系统取代人工方式,已经成为警务信息化应用的研究重点。 本文分析研究了视频数据的规范化采集、结构化存储和全局性共享等问题,提出基于视频内容结构化分析技术,按照“一个证据中心,两个核心应用”方式来构建图侦系统的技术方案和应用模式。主要工作包括: (1)分析了当前公安图侦工作的困难和制约,研究了视频图像
2、从采集、研判,到管理、应用的一体化工作模式,基于视频内容结构化分析技术,提出了“视频证据中心、视频图像取证、视频研判分析”为框架的网侦系统研发思路。(2)从警务一体化的角度,以视频采集、证据管理、研判应用为业务主线,研究了基于视频结构化图侦系统建设的总体技术方案、基本功能点,设计了系统研发的体系架构、逻辑架构、数据架构,以及与外部系统之间的关系。 (3)分析了视频结构化建库的主要任务和核心问题,从视频人、车、物基本要素入手,进行了视频证据中心的模型设计,包括证据中心的体系结构、视频对象结构化定义、对外数据交互视图,以及证据中心实体-关系图(ERD) 。 (4)从工作模式和核心应用出发,分析了图
3、侦业务的主要角色和主要环节,设计了图侦工作的业务流程、关键业务交互顺序、摘要索引业务流程和基本功能点,整合运用视频结构化、视频摘要、视频索引等先进技术,进行了软件的设计和实现。 使用结果表明,基于视频内容结构化开发的图侦系统,能够实现视频监控信息的全程筛选,防止有用信息的流失,再造了视频监控及研判应用的信息流及业务流,能够有效支撑了图侦工作机制的转型发展。第一章 绪论 1.1. 研究的背景和意义 随着国家经济、社会的快速发展,人民群众的安全防范意识不断提高。特别是 2005 年以来,公安部大力推动“3111”工程和城市报警服务与监控系统建设,以“天网工程” 、 “平安城市”项目为引领的社会治安
4、视频监控系统建设迅猛发展,保守估计全国各级公安机关可直接调控的视频监控摄像机已超百万支1;各行各业、各重点企事业单位社会也广泛开展视频监控系统建设,加强对重点部位、重要场所的实时监控。视频监控系统已经成为维护社会稳定、治安安定和创新社会管理的重要手段,在指挥决策、治安防控、侦查破案和执法监督等方面发挥着积极的作用。 当前,视频监控系统已经成为治安防控、侦查破案的重要手段。但是,由于视频数据量庞大且格式复杂,存储代价昂贵且难以管理,面对海量的视频信息、非结构化的数据形式和内容的多义性,在案发后人工调阅方式耗时耗力,大量视频未经梳理而流失,严重影响了监控系统的建设成效。2012 年 2 月公安部下
5、发全国公安机关视频图像信息整合与共享工作任务书 ,要求充分利用先进的视频监控、图像处理技术,深入开展视频图像信息共享应用平台建设。目前在安全防范领域中,有效分析、组织和管理视频数据,研究基于内容的视频应用系统取代人工方式,提升监控系统建设成效,已经成为警务信息化工作的研究重点。 为此,必须充分运用先进的图像处理技术,突破视频监控系统联网、整合与共享工作中存在的发展瓶颈。原有监控工作模式的不足,主要表现在“视频图像采集” 、 “视频图像检索”和“视频要素建库”这三个环节。 (1)视频图像采集不规范 按照公安机关对视频监控系统建设的相关规定,一般要求视频监控系统具备至少 30 天连续视频图像存储能
6、力,并能自动循环覆盖存储。在实际工作中,由于视频图像采集速度慢且过程繁琐,原始视频数据量庞大且格式复杂,备份海量视频需要海量存储空间等原因,难以建立起一套有效的视频图像信息采集机制,只有在查处大要案事件时,办案部门才会调阅视频监控资源,查找嫌疑人或可疑物品,并随案保存相应视频资料,99%以上的视频图像被自动循环覆盖而没有经过图像信息的梳理采集并保存使用,存在有价值的视频图像信息被覆盖、被流失、被放弃等问题,严重降低了视频监控系统的建设成效。 在传统的视频监控系统,即使建设了大量的摄像镜头,但是缺乏对数据的有效分析和利用,大量的有价信息被丢弃或湮没于数据海洋中,成为数据垃圾,投资大、成效低。图
7、1-1 描绘了原有视频监控图像信息的完整生命周期,仅有不到 1%的视频信息经过梳理研判,绝大部分的视频监控信息没有经筛选而直接流失。因此,充分运用先进的图像处理技术,特别是视频信息的结构化分析技术,建立成熟、规范的视频图像信息采集、管理和研判、应用机制已经十分紧迫。图 1-1 传统视频监控图像信息的完整生命周期分析在日常网上监控巡逻工作中,由于缺乏一个可操作性的工作平台,也没有建立健全视频图像信息的采集、管理机制,视频监控有“巡”无“查” ,监控操作人员缺乏有效的可操作性工作指标。因此,构建规范化的视频图像采集机制对于提升视频监控系统运用价值具有积极意义。 (2)视频图像检索困难 当前,视频监
8、控系统深度运用的另一个瓶颈是视频调阅耗时耗力,以人工方式进行检索,效率低下。主要表现在:在案发后对海量涉案视频信息的调阅过程耗时严重,所需人员投入量巨大并随着案情的复杂程度递增;原始涉案视频质量参差不齐,有时还需要另外工具和受过专业图像处理训练的人员。因此,对海量涉案视频的调阅,对人的体能和精力都是极大的考验,从而直接导致检索效率下降,无法有效地快速浏览视频、定位目标。运用视频图像转码技术,可以将非标格式图像转换成标准格式,便于开展统一视频图像信息采集和建库管理;基于视频摘要技术处理后,整合形成的摘要视频远远短于原始视频,从而缩短了人工调阅的时间,便于快速锁定目标,快速提取线索信息,截取可疑目
9、标出现和消失的视频片段,并与警务数据库进行图片或视频的关联标注保存。这样当有案件需要检索线索时可直接查看标注图片或截取视频,提高了检索线索的效率。 (3)视频对网络带宽的瓶颈制约 随着视频监控的联网发展,警务人员在需要倒查录像的时候,都会采用联网下载的方式,这样虽然提升了办案的效率,但也带来了一些弊端,例如对网络带宽的依赖,在倒查录像的时候需要对录像进行下载或者以流媒体的方式进行查看,无论采用何种方式,都会占用非常巨大的网络带宽资源,如果网络无法正常工作或者出现网络堵塞等情况,录像文件往往还有可能出现数据丢失的情况,如何摆脱或者降低对网络的依赖以成为了当前视频监控市场一个迫切需要解决的难题。
10、(4)视频结构化建库不足 目前,各地都在积极探索建立视频信息库,对各部门、警种关注的视频图像信息进行整理、分类存储。但是,在实际工作中,由于视频信息的非结构化、多语义性,所建的视频信息库,只能对案件进行简单标注,各地仍然以人工查看为主。近年来,视频特征提取、视频结构化分析、视频索引、视频检索等技术已经取得了明显的进步,但在整合应用上还有距离,还没有形成一个成熟的工作平台和应用体系。 因此,充分利用视频结构化分析、视频摘要等图像处理技术,从案事件证据的角度,建立案事件视频证据库,用来存储从视频监控系统中提取的视频片段和图像特征信息,构建以视频图像共享应用为核心的工作平台,对强化公安机关视频图像信
11、息资源的综合开发利用,提升公安机关的核心战斗力具有积极的现实意义。 图侦系统是吴江市“1+X”视频监控系统项目建设的核心系统,系统建设的部分成果,例如视频摘要子系统、视频检测子系统等,已经在吴江市公安局进行试用,效果满足公安实战需要,有关基层公安机关视频巡逻、视频取证、视频研判、新机制也在逐步推进之中。 1.2. 项目研究的目的 本文将整合运用视频结构化、视频摘要和数据挖掘等先进技术,研究构建视频图像信息共享侦查应用系统(以下简称“图侦系统” ) ,提供覆盖视频业务从“采集” 、 “研判”到“保存” 、 “管理” 、 “应用”的全局能力支撑,使视频图像成为重要的案件侦破手段和情报来源,前瞻性地
12、推进视频监控系统建设由“信息”到“情报”的演进,并将最终为基层公安民警提供一个“贴近实战、研判高效、管理有序”全局性的视频研判作业环境。主要目标如下: 1、对接视频监控联网系统,实现对联网监控视频图像的统一采集、调取,进行案事件视频处理、研判、统一管理、图像要素布控等提供技术手段。 2、满足案事件现场移动视频图像采集,实现案事件现场视频图像处理、现场研判;能够快速对现场周边图像进行采集、视频转码播放、视频属性编辑等。3、能够实现视频的结构化分析,具有视频摘要、视频索引、视频检索、视频编辑、图片处理等多种视频图像处理手段,提高视频自动分析能力。 4、实现基于 PGIS 系统资源,实现案事件视频图
13、像轨迹标注、作案路线推演。同时通过电子地图,快速调取需要关注的监控点、监控区域图像以及警务资源。 5、对接警务综合信息系统,建立视频图像信息证据数据库,为全警日常警务工作中收集到的可疑或涉案图像资源提供统一的资源管理及存储空间。为重要信息的收集与查询、关联资源的碰撞、串并案分析研判提供基础环境。 总之,通过构建和部署应用图侦系统,要求能够:(1)快速锁定突发事件的嫌疑目标;(2)快速标定嫌疑目标的运动轨迹;(3)发现潜在破案线索可以有更多的机会审视更长的录像文件,发现更多的破案信息。 从而,使公安机关能够:(1)缩短破案时间,节省办案人员;(2)降低警员劳动强度,降低办案成本;(3)极大提升办
14、案效率。1.3. 国内外应用研究现状 在形式上,视频数据具有非结构化、内容多义性和流媒体传播的特征。因此,视频数据不同于传统数据库所处理的数据类型,它不是一种简单的数值或字符型数据,传统数据库中对字符或数值型数据的处理方法己经完全不能适应对视频数据的处理要求。长期以来,人们只能以流媒体的方式按时间段来存储视频数据。同时,由于数据量庞大、非结构化形式,视频数据存储代价昂贵难以长期保存,也不具备传统数据库的结构化管理能力,严重阻碍了用户的交互操作使用。为此,随着视频监控系统在社会治安防控体系中应用的日益广泛,视频监控系统的深度应用研究越来越成为人们的关注和研究的热点,国内外许多研究机构和单位开展相
15、应的研究。 1.3.1 国外应用研究现状 在国外, 对视频结构化分析、摘要技术的研究起步稍早一点,1994 年,卡内基梅隆大学就己经开始研发视频数据库系统,该系统在视频摘要方面有非常系统而深入的研究。它更注重缩略视频的生成,即怎样从一段长视频中抽取出视音频信息生成能够表达原视频语义内容的精简视频。特别地,它运用了熟知的 TF-IDF 方法从脚本中抽取文字。之后,Mannheim 大学也做了与 hiformed 系统类似的研究。他们研究出的系统 MOCA 主要针对的是电影,能生成电影的精彩场景亦或是预告片2。 近年来,国际上有许多研究机构开展了深入的研究,有微软研究院(张宏江、马宇飞和 Yong
16、 Rui 等人 )、IBM 研究院(John R.Smith 等人)、北卡州立大学(Jianping Fan 等人)、南洋理工大学(Yap-Peng Tan 等人)等,并产生了一些“基于内容”原型系统。例如,IBM Almaden 研究中心研究开发的 QBIC 系统3,是“基于内容”检索系统的典型代表。QBIC 系统允许使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、镜头和目标运动等图形信息,对大型图像和视频数据库进行查询。QBIC 技术集成语音识别的成果,形成 CueVidco 系统。WebSeek 系统 4是美国哥伦比亚大学研究开发的一种基于内容的多媒体搜索引擎的原型系统,它通
17、过提取图像/视频的颜色、纹理以及文本等特征实现了运行于网络环境下的基于内容的图像/视频检索5。目前,国外视频内容结构化技术在警务工作中普及应用、成熟应用的案例仍鲜见报道。1.3.2 国内应用研究现状 对于国内来说,关于基于内容的视频结构化技术的研究起步比较晚,从 20 世纪 90 年代后期开始,才逐渐受到多媒体研究领域的关注,因此,相应的技术水平较国外有一定的差距。近年来,为满足案件侦查、治安管理工作的需要,国内一些公安机关还专门组建了视频侦查部门,探索建立视频数据库,对视频图像信息进行整理、分类存储。但是,目前由于视频的非结构化、多语义性和大数据量,加上案事件侦查对智能化手段应用的严密性、成
18、熟度要求高,在实际工作中仍然以人工调阅为主,在视频信息的结构化、体系化共享、整合应用上还在探索、实践阶段,相关的产品和案例不多,还没有形成统一的平台应用模式。具体表现在: (1)在视频数据采集上,大量的视频数据主要在案事件发生以后,根据案件进行事后视频调阅、查看采集为主,而在线实时采集主要运用于道路通行车辆的车牌抓拍识别,对其他方面的识别运用较少。 (2)在视频数据库建设上,目前各地所建的视频数据库主要是对截取的视频片段进行简单的案件关联标注,以原始视频媒体的方式存储,只能通过案件进行关联查询,视频检索仍然靠人工查看方式。 (3)在软硬件产品上,受制于图像识别、成像环境等的复杂性,目前国内基于
19、视频图像系统的设备大都以图像传输为主的,用于视频摘要、证据提取上的产品较少。目前,主要有广东省公安厅研发的 VCS 视频图像采集摘要比对器1、北京能通公司的 S80 视频取证终端、成都索贝科技公司的 i3DSP 视频侦查器等产品。 (4)在应用平台建设上,目前各地都在积极整合运用先进的视频特征提取、结构化分析、视频摘要等技术,结合警务工作,探索建立规范化、系统性视频信息共享工作平台。例如,广东深圳、重庆等地公安机关已经在探索建立图侦系统,江苏吴江市公安局研发的视频图像智能分析系统,能够对 1 小时普通视频录像,经处理形成不到 5 分钟的摘要视频,且不会丢失有效运动对象,便于快速定位嫌疑目标。
20、2000 年以来,国内大学、研究机构积极开展视频内容结构化领域的理论与实践研究,取得了一些积极成果。比较典型的视频检索系统有: 国防科技大学 研制开发的 New VidcoCAR 和 MIRC 系统6,主要用于对对新闻节目和多媒体数据库进行查询和检索多媒体信息;由清华大学研发的 TV-FI 系统7,是一个视频节目综合管理系统,提供浏览、查询等多种模式的视频数据访问方式;中科院计算技术研究所开发的 MIRES(Multimedia Information Retrieval Systern)系统8,是一个基于特征的多媒体信息检索系统,该系统实现了基于内容的图像检索及文本检索,同时还可以应用于视频
21、检索等相关应用领域。 目前,国内“基于内容”视频数据检索方面,已经形成了由视频特征提取、结构化分析、视频摘要,以及视频检索和浏览等五项关键技术组成的视频数据检索系统,其处理流程如图 1-2 所示。 图 1-2 基于内容的视频数据检索系统处理流程1.4. 主要工作 本文对视频信息的规范化采集、结构化存储和全局性共享等问题进行了研究与分析,提出基于视频内容结构化分析理论,整合先进的视频特征提取、视频结构化、视频摘要、视频索引等图像处理技术,按照“一个证据中心,两个核心应用”方式来构建图侦系统的技术方案和应用模式,使图像处理技术成为案事件的侦破手段和情报来源,推进视频图像监控系统建设由“信息”到“情
22、报”的演进。主要工作包括: (1)分析了当前公安图侦工作的困难和制约,研究了视频图像从采集、研判、管理的一体化应用工作模式,基于视频内容结构化分析技术,提出了“视频证据中心、视频图像取证、视频研判分析”为框架网侦系统研发思路。 (2)针对当前图侦工作信息化的迫切需求,结合警务实际,以视频采集、证据管理、研判应用为业务主线,从各个层面研究图侦系统建设的总体技术方案,设计了系统研发的体系架构、逻辑架构、数据架构、基本功能,以及与外部系统之间的关系。 (3)针对非结构化视频建库的不足,从警务一体化的角度和人、车、物基本要素入手,研究并设计了视频结构化证据库的建库模型,包括证据库的体系结构、视频数据结
23、构化定义、对外数据交互方式,以及证据库管理的基本功能。(4)为提升图侦手段的应用水平,研究分析了图侦工作的关键业务角色、业务环节和主要业务流程,明确了视频取证、情报研判对图侦系统的基本功能需求,整合运用视频结构化、视频摘要、视频索引等先进技术,进行了应用软件的设计和实现。 使用结果表明,基于视频结构化开发的图侦系统,能够实现视频监控信息的全程筛选,防止有用信息的流失,再造了视频监控及研判应用的信息流及业务流,有效地支撑了图侦工作机制的转型发展。第二章 基础技术概述 2.1. 视频结构化理论综述 视频数据在形式上是一种完全没有结构性的数据,但是在内容上它又有着很强的逻辑结构。一般来说,一段视频由
24、一些描述独立故事单元的场景(也称作故事单元)构成:一个场景由一些语义相关的镜头组成,它们一般发生在相同的时间和地点,出现相同的人物或事件;一个镜头是由一些连续的视频帧构成,它由摄像机一次摄像的开始和结束所决定。视频结构化分析是指将视频序列按照其语义内容分割为镜头、镜头类、场景等语义单元,从而实现视频序列的层次化组织,使之便于随机访问。 根据内容粒度的大小,视频数据一般被结构化为从大到小的 4 个层次:视频、场景、镜头和图像帧,如图 2-1 所示。 图 2-1 视频内容的层次组织结构在层次组织的结构化视频中,各层次的含义和属性分为为: (1)视频帧(Frame):视频流中的一幅静态图像。帧是视频
25、数据的最小视觉单位,时间上连续的帧合成动态图像序列。帧的属性有:直方图、轮廓图、DC 和 AC 分量图等。 (2)镜头(Shot):摄像机在一次从打开到关闭的操作过程中记录的一组连续图像帧。镜头是视频数据的基本单位。镜头属性有:持续时间、开始帧号、结束帧号、代表帧集合、特征空间等。 (3)场景(scene):在时间和空间上连续的视频背景,由多个连续的镜头组成,描述一段具体的语义内容。场景也称为故事单元(Story Unit)。场景的属性有:标题、持续时间、镜头数目、开始镜头和结束镜头等。 (4)视频(Video):原始的视频数据。可以包含一个或多个场景。视频流的属性有:场景个数和持续时间等。
26、从时间轴上看,视频是由一系列连续的图像帧和相应音频构成的集合,集合中的基本元素是图像帧。视频数据的结构化就是对视频在时间上的层次分割,完成原始的非结构化的视频流到结构化的视频实体的转换。结构化将视频基本元素图像帧划分为多个子集,成为不同层次上的结构实体。其中,视频文件和帧是视频数据本身所拥有的物理层次,而场景和镜头则是概念上的层次。划分的基本问题是镜头边界和场景边界检测问题(scene-change-Detection,SCD),镜头检测使用颜色直方图、边缘、运动以及统计信息的方法来识别摄像机的运动;场景识别可以通过镜头背景相似度和音频特性的内容来识别。越是高级层次的划分越是困难,例如:故事单
27、元的划分,其物理特征的区别并不明显,需要一些高级语义的辅助,其划分的有效性依赖于知识库以及基于知识的判断等人工智能技术的发展。视频的组织过程是从最底层的图像帧开始,借助于镜头检测,将图像帧组合聚合为镜头;通过背景、音频等特性将一系列语义相关、时间相邻的镜头组合为场景;再通过一些高层的语义知识将场景结合为故事。可见,视频数据的组织划分过程就是视频流的不断抽象的过程。 2.1.1 基于镜头的结构化分析 1993 年 Zhang12首次提出了镜头边界检测的思想,奠定了镜头边界检测的基础。基本可以概括为三个步骤:视频帧的特征提取,帧间差的计算,选取准则确定这些差异并判定镜头边界,包括选取适当的阀值。直
28、方图特征的提取是应用最为广泛的特征,在多种颜色空间中,例如 RGB, YUV 或是 HSV,把每一维的信息量化为 N 个槽(bin),然后统计属于每个槽内的像素个数,然后进行归一化便得到帧的颜色直方图特征。由于直方图特征的统计特性,对颜色分布的很好描述,所以帧间差的计算方法多大依靠直方图特征。一般情况下,当差值超过某一阈值时,认为存在一个镜头边界。颜色直方图的比较有如下比较方式,如式(2-1),式(2-2)和式(2-3)所示。2.1.2 基于关键帧的结构化分析 关键帧具有代表性,利用关键帧来描述镜头、场景或是整段视频,以作为结构化分析的基础。这样能保留视频内容的主要信息,可以减少冗余信息的计算
29、。Taniguchi16采用等间隔采样的方法,按照一定的时间段抽取关键帧。这种做法的优点是计算简单、速度快,但是造成选取的关键帧过多,且不具有代表性的缺点。后来,他 17又直接选取每个镜头的第一帧或是最后一帧作为镜头的关键帧。Yeung18等人提出在一个镜头中先将第一帧作为关键帧,随后的帧与当前的关键帧进行颜色特征的比较,超过某一阈值的,则再选取一个关键帧,重复上面的比较,就可完成镜头内的关键帧的抽取。2.1.3 基于场景聚类的结构化分析 场景就是具有相同语义特性的镜头组,许多研究者利用比较镜头相似度的方法,把相关的镜头聚类成场景19,来进行场景分割。时间固定的镜头聚类算法20和时间自适应分组
30、法21,也是场景分割算法的代表性工作。前者在一个特定时间窗口内,利用里边的视频帧来计算镜头的相似性,而窗口外的镜头的相似性则不予考虑,聚类效果由于时间的限制具有不完全的确定。后者提出了时间自适应分组法,克服了固定时间聚类算法的不足,把两个镜头之间的时间距离也作为镜头相似度的考虑因素,距离越大,相似度越小。另外,Alan Hanjalic 和 Wallapak Tavanapong 采用了图像分块的方法来计算镜头相似性度量,从而聚类算法来构造场景,因为图像的每个区域都从不同角度体现视频场景的特征。Hanjalic 对镜头的关键帧图像合并,得到新的一幅图像,并对其进行分块,以块为最小单元,这样代表
31、两个镜头的两幅新图像,求出他们中距离相似度最大的 N 个块的距离值,平均后作为镜头之间的相似度,镜头聚类是基于重叠链接的算法(Overlapping Links Connecting Similar Shots)。他还介绍了一种用于自动提取视频摘要的聚类方法。类似的,Wallapak Tavanapong 则直接把静态帧图像分成几个区域,然后通过依次比较对应区域之间的相似度来确定镜头的相似度,也利用镜头链算法提取场景。Chong-wah Ngo 等26使用张量直方图提取运动特征,再利用 K-means 算法来对体育视频进行了聚类和检索。Vailaya 等提出了基于类别的视频块检索方法。胡晓峰等
32、28提出了基于 HSV 颜色直方图特征提取的自校正镜头聚类算法。目前,国内外学者对基于场景聚类的结构化分析方法,如颜色、纹理、形状、动态、频度等视频图像特征,已经进行了广泛而深入的研究,取得了重大进展,为视频内容的结构化分析技术的广泛应用奠定的强有力理论及技术基础。 2.2. 视频摘要技术综述 所谓“视频摘要技术” ,简单地说,就是通过计算机自动处理技术,对视频的内容和结构进行分析,并从原视频内容中提取出用户需要的信息,通过再整合后形成摘要视频。摘要视频远远短于原始视频,如果一个视频摘要能够做到尽量准确和充分,那么就能够让用户在最短时间内获得最关键的信息,极大地提高效率。这样,当发生重特大案事
33、件时,需要调取大量监控摄像头的视频录像,按照原来人工的方式,需要安排数十上百民警不分昼夜连续观看成千上万小时的视频录像,以期发现短短几秒的视频线索,工作强度和压力是巨大。近年来,国内外在视频摘要技术等方面的研究取得了快速进展,许多新技术应用日益成熟。例如,顾诤、智敏、刘彩云等分别提出了一种新颖的基于近邻传播聚类和频繁镜头、基于场景、对象的视频摘要生成方法。依托先进的视频摘要技术,可以大大缩短视频查看时间,可以快速提取线索、锁定可疑目标。联想在自然语言处理(NLP,Natural Language Processing)研究领域, “主题”是表示文本内容的重要方式,文本的主题抽取在 NLP 中是
34、的基础性的工作,即从文本中抽取出特征词组成若干主题句,用以概括文本的主要内容。在视频处理领域与文本的主题抽取类似,视频摘要(Video Synopsis),又称视频主题抽取(Video Abstraction,Video Summarization),即用一段很短的视频对原始视频中的内容进行高度概括,通过观看这段短视频,就能知道整个视频的大概内容。 根据摘要信息表现形式的不同,可以把视频摘要技术分为静态图像摘要(Video Summary)和动态图像摘要(Video Skim)两种基本类型32。经过摘要以后的缩略视频由于含有丰富的时间以及音频信息,因而更加符合用户的感知。2.2.1 静态视频摘
35、要形式 静态视频摘要是从原始视频中剪取或生成的一小部分静止图像的集合,这些代表了原始视频的图像称为关键帧(Key Frame)。 (1)标题(Titles):是对视频内容的一段简短的文字描述,这种文本方式的视频摘要是最简洁的形式,便于理解和建立索引,也是一种高度抽象的表达形式。标题形式的视频摘要往往需要人工来完成,计算机不能自动生产能够准确概括视频片断内容的文字描述。通常也可以通过计算机自动字幕识别和视频伴随语音识别,来进一步分析生成摘要文字。 (2)关键帧(Key Frame)是指从原视频中抽取或生成一幅或几幅静态图像,能够部分地表达视频的语义信息。基于关键帧的摘要比标题形式的摘要更能从视觉
36、的角度为用户提供更加直观的可视信息。但这种方式只能反映某一时刻视频的静态内容,不能展示视频的时间和动态特性。因此,它一般适合于表现景物内容相似的镜头和场景的视觉特征。另外,关键帧形式的摘要对其他形式的静态视频摘要以及动态的缩略视频的生成也有很大的参考价值,因此,多年来一直受到研究人员的关注。 (3)故事板(Story Board):将多帧从视频片段中抽取出的图像及标题按时间顺序排列起来就形成了故事板。它可以向用户提供视频的总体描述,在浏览过程中也可以方便地定位到视频中感兴趣的部分。故事板不仅能表达视频视觉上的信息,同时还能反映视频的时间信息,更能体现视频的丰富内容。在实际应用中故事本通常与文本
37、标题相结合,更利于浏览和检索。 (4)场景转移图(STG)。场景转移图反映了视频内容的场景转移,它用一种简洁可视的方式来表现视频数据,可以对视频进行层次化的非线性浏览。场景转移图是一个有向图,节点代表含有相似镜头的聚类,两个镜头之间的关系用边来描述,表示镜头的先后顺序。节点与边共同构成了场景图,反映视频内容的场景转移。场景转移图仅仅对视频内容进行了有效的静态描述。 (5)幻灯片(Slide Show):音频对于用户理解视频的内容有着非常重要的作用,幻灯片是伴随音频的时间序列帧,它们是关键帧集合的子集。幻灯片提供了一种相对动态的摘要机制,相对其他动态视频摘要,比较适合在低带宽的网络环境下使用。
38、2.2.2 动态视频摘要形式 动态视频摘要是由一些图像序列以及对应的音频组成,它本身就是一个视频片段,同时比原始视频短的多。 (1)缩略视频(Video Skim):是对原视频内容的剪辑。它本身也是一段视频,由原视频中的一些片段拼接而成。缩略视频保留了原视频的基本风格,具有更好的动态性和连贯性。缩略视频是动态视频摘要的主要形式,一般包含了原视频中主要人物、主要事件片断,故事的开头和结尾和精彩片段,也会包含关键的字幕内容。缩略视频广泛应用于影视预告片、网络视频点播、交互电视和新闻节目制作等领域。 (2)多媒体影片摘要(Multimedia Films Summary):是在缩略视频摘要的基础上加
39、入了文字、镜头图像等其他信息,是一种由多种媒体形式组成的影片内容表现方式。例如,在一个电影的主题网页中,可能包含文字形式的简介、声音形式的精彩对白、视频形式的精彩片段等。这种形式提供了更加丰富的影片内容表现,同时也为用户提供了多种浏览和检索影片的方式。 2.2.3 视频摘要的生成过程 尽管视频摘要的形式有多种多样,采用的算法也不相同,但视频摘要的生成通常都经过这样几个步骤: (1)视频数据的结构化分析:将原始的视频流划分为合理的结构单位,形成视频内容的层次模型,并得到视频内容对象的相关描述。比如视频数据采用不同的边界检测算法被分割为镜头、场景等。 (2)视频内容的提取:视频中包含了许多能够为人
40、类感官直接认知但不能被计算机直接识别的内容,例如字幕、语音、人脸等等。还有一些是需要借助人类的高级思维才能被认知的信息,例如情感、气氛等等,对这些信息,计算机更是无能为力。视内容的抽取,就是采用模式识别或视频结构探测的方法,获取能够被计算机直接处理,或能够被人的感观直接感觉到的信息,是获得视频摘要的基本条件。 目前,视频内容抽取技术主要包括自动语音识别技术、人脸探测与人物识别技术、字幕探侧与识别技术、镜头运动探测技术、徽标探测与识别技术等。经过多年的研究,这些领域均取得了一定的进展。例如,自动语音识别技术的一些产品比如 Microsoft 的 speech SDK 等,对于干扰较少、发音标准的
41、语音已经有了比较高的识别率;人脸探测、跟踪与识别的研究更是开展得十分广泛,技术也趋于成熟。 (3)视频内容对象重要度的评判:以自动或人工提取的视频内容为基础,通过建立一定的重要度评判标准或评判模型,对视频对象重要程度进行分级评判。根据不同需求,视频内容重要度的判定也有所不同。一般在生成视频摘要的过程中,往往先对视频进行结构化分析,形成关于视频内容的层次模型,并得到关于一些对象的描述,然后根据具体的需求结合我们某些领域知识,对视频内容对象的重要程度进行判定,选取某些相关度高,概括性强而又重要程度高的视频内容形成缩略视频。 重要度的判定是一个比较主观的过程,很难用一种定量的方法来描述摘要效果的好坏
42、。目前研究的原型系统中,大多采用了用户评估的方法。这种方法费时费力,能否找到一种合理的定量的视频摘要评价标准,是一个值得研究的问题。 (4)视频摘要合成和表现:将选择的重要视频内容对象以一定的方式组合起来,形成某种形式的视频摘要,并以可视化的形式将摘要展现出来。 以上四条就是视频摘要的基本步骤,有关视频摘要的研究都是围绕着这几个步骤展开的。例如,在视频分割当中包含镜头探测、场景聚类、故事单元探测等技术;在视频内容提取当中包含字幕识别,人脸识别等技术。它们为后续的摘要工作提供铺垫。它们涉及了自然语言处理、人工智能甚至心理学领域的知识,所用技术也相对比较复杂。2.3. 视频检索技术综述 所谓“视频
43、检索技术” ,就是通过对视频内容的分析、表示,提取视频特征信息,建立视频结构化数据库和特征索引,利用被检索的图像特征值与数据库中图像的特征值进行特征的相似性匹配,从而达到对图像检索的目的。 因此,基于内容的视频图像检索技术首先要解决的问题就是视频中图像内容的分析和表示34。视频中图像内容的分析和表示指的是首先提取视频段中的关键帧,关键帧是这一段视频中能反映视频段主要信息的图像,通过对这张图像像素的颜色、纹理、形状信息以及像素的相互关联进行分析,从而可以得到一系列数字特征或者描述特征,通过这些特征可以在一定程度上对图像本身的内容进行描述。然后,利用这些特征值可以对图像建立索引,利用被检索的图像特
44、征值与数据库中图像的特征值进行特征的相似性匹配,从而达到对图像检索的目的。因此,图像内容的描述问题实质上是一个图像特征值的提取问题。2.3.1 视频特征的提取 从广义上来说,图像的特征信息包括文本(比如关键字、注释)和视觉特征。图像的视觉特征可分为两类,一类为通用的视觉特征,另一类为和领域相关的视觉特征。第一类用于表示所有图像共有的特征,与具体的图像类型或内容无关,主要包括图像的低级特征如颜色、纹理、形状以及图像的高级特征如图像中的字幕等信息;另一类主要建立在对所表示图像内容的一些先验知识的基础上,与实际应用紧密相关,比如,人的指纹特征与面部特征等。从这个意义上来说,基于内容的视频检索实质上是
45、基于视频图像特征检索的过程。本文需要采用的是图像中行人与车辆视觉特征的提取与匹配技术,主要涉及到图像的低级特征。 通过对视频进行结构化分析,我们通常可以得到四种级别的视频单元:场景、镜头、事故单元和关键帧。针对不同的级别单元,提取单元特征的方法也不完全相同。如果提取的视频单元为场景,就要提取场景的故事情节;而对于镜头,就需要对运动对象的特定信息和视频的运动信息进行提取;在对关键帧这一层进行处理时,一般需要对图像提取一些低级特征,例如颜色、纹理、形状等。因为事故单元可以由一个或多个关键帧来表示,因此在事故单元级别上的特征提取事实上也属于关键帧特征提取的范畴。要在关键帧层次上提取这些低级特征,相对
46、比较简单,一般可以自动提取。而要在场景、镜头层次上提取那些属于视频高级语义的图像特征,就目前的技术发展来看它的提取难度相对较大,即使可以提取出来,不仅需要大量的人工交互,提取结果也与关键帧本身的特征信息存在一定误差。也就是说就目前而言,基于镜头或场景层次上的提取还不能实现完全的自动提取。 2.3.2 视频数据库技术 在基于内容的视频检索中,首先要解决的是视频数据存储与管理这个最基础的问题,因为在基于内容的视频检索中需要对大量的视频图像数据及图像的特征描述信息进行存储,而这就需要能够对这些数据特征信息支持的数据库视频数据库(VDB)来实现。视频数据库与传统数据库最主要的区别在于所处理的数据不同。
47、传统的数据库一般处理的是一些文本和数字,因此对存储空间的要求不高,并且处理的数据都是结构化的。而视频数据库一般处理的对象为视频、图片以及特征值等,它们对存储空间有较高的要求,并且对数据库的抽象与描述能力也有较高要求,因此视频数据库技术是视频数据库系统研究的重点。本文将结合公安图侦工作需要,分析进行视频图像数据描述与存储的视频数据库模型和数据库体系结构。根据视频数据的特性,视频数据库系统应该具有以下特点: (1)扩展性。视频数据库系统(VDB)体系结构应该是易于扩展的、灵活的,以便于支持对媒体对象或特征信息进行检索。为了满足视频数据库的这些特殊需求,通常 VDB 系统应该包括大量的数据管理模块和
48、功能实现模块,同时还要具备对系统进行更新或扩展时增加新管理模块的要求。 (2)分布性。因为视频数据库中存储的信息量较大,而且不同的媒体对信息的使用和检索方式也可能不同,所以要求 VDB 一般采用分布式的存储方式。视频与图像的网络通信对于视频数据的分布式访问和存储具有重要作用。 (3)查询的多解性。传统性数据库查询一般只对精确的数据进行查询。但在视频数据库系统中不能只要求精确地数据查询,同时相似性检索和非精确性的匹配将占相当大甚至多于精确性的比重,尤其是在基于相似度的检索中。 (4)系统的长事务处理要求。传统数据库中处理的事务一般都是短小而且精悍的,而在视频数据库系统中,仅仅只有短事务已经不能满
49、足视频检索的要求,尤其是在处理视频图像数据时,比如要对一段数小时长的视频查询结果进行播放,这就要对数据库系统对处理长事务的能力有所要求。 (5)系统用户接口的支持。为了体现数据库查询的能力,就要求数据库中面向用户的接口能够很好的描述和表示每一种媒体的性质。视频信息检索的模糊性,就要求能够提供给用户方便检索的描述接口。 2.3.3 网络视频访问技术 作为视频数据管理和处理的技术手段,视频图像的存储、传输和访问技术在网络环境下的应用是实现视频数据信息网络化应用的重要手段。本文阐述了视频网络应用系统的三层结构、视频数据库的网络访问方式以及如何利用流媒体技术实现视频的网络访问、存储和传输。 如果从系统应用的角度来看,要满足处于不同地点和不同时间的用户对同一数据库进行检索和访问这一需求,视频数据库系统必须是存在于网络环境下的分布式检索系统。 当前网络数据库系统的结构主要有 C/S(客户/服务器)结构和 B/S(浏览器/服务器)结构40,41。这些体系架构都是为了解决网络环境下分布式数据的存储与访问而提出的。 B/S 模式的三层或多层体系结构在某种意义上弥补了传统的 C/S 结构开发周期长,可维护性和扩充性差等方面的不足之处。 因此,基于 Internet/Intranet 的三层体系结构是一种浏览