1、视频监控大数据的关键技术和应用随着全国各地平安城市、行业安防等项目的大规模建设,视频监控在安防领域中发挥着越来越重要的作用,成为技术防范的最有力手段。而在新的技术条件和应用需求的推动下,视频监控将迎来系统融合和大数据的新时代,其产生的数据将会迅速地增长,如何从这些数据中获得有效的信息和服务,是我们必须要面对的重要问题。笔者认为,大数据处理技术的应用,将成为下一代视频监控的发展关键。视频监控的大数据趋势视频监控从最早的模拟闭路监控系统开始,经历过模拟监控、数字监控、网络监控等重要发展阶段,如今进入了大数据的时代,并面临着一系列的挑战。视频监控产生的数据正迅速增长视频监控数据的增长有三个主要的因素
2、。首先,视频监控不再是一个独立割裂的系统,系统的融合将催生更丰富的数据。GB/T28181-2011 标准的发布和实施,在很大程度上改善了各大平台厂家各自为战、互不兼容的乱象,在“大联网”的背景下,所有的视频监控数据将能实现深度共享和统一处理。此外,安防监控的发展趋势是融合化,视频监控平台与其它多种系统之间如警综、消防、卡口、门禁等,将实现资源和数据的无缝整合,统一协作,形成社会化的大系统。其次,高清视频的编解码能力不断提高,导致数据生成的厚度和精度不断提升,高分辨率和高帧率已成为视频监控主流需求。再次,数据生成点的规模在不断扩大,视频监控的覆盖范围和监控点、卡口的数量都以 30%以上的增长率
3、在快速增加。我国安装的监控摄像头目前已超过 3000 万个,每年产生数万 PB 的数据量。视频监控数据的管理存在瓶颈数据的爆炸式增长,意味着需要投入更多的资源以及付出更多的努力,才能在这些体量庞大的数据中寻找到有价值的信息。目前对视频监控数据的管理能力较弱,其发展没能跟上数据增长的速度,体现在以下几个方面:1.数据的存储和管理视频监控数据具有高并发、大容量的特点。以 1080P 为例,在 8Mbps 的码率下,每个摄像头每天产生的视频数据约 84GB,中等城市的监控规模一般为数千到数万个摄像头,而且这些数据一般要求必须在系统中保存 30 天以上。存储系统还必须具有高级别的容错性,存储介质的故障
4、率通常较高,但故障发生时不应造成监控数据的丢失。此外,由于安防项目本身在不断发展,系统可能要进行在线扩容和升级,这就要求存储系统具有高度的可扩展性,可在系统中简单便捷地增添存储设备。目前主要采用分级集中存储的方案,视频数据按区域存储在不同的子平台中,通常使用 RAID 来进行存储。但 RAID 在性能、利用率、可靠性等方面很难达到理想的平衡,而且成本偏高。另外,各区域的视频数据被分割存放,数据共享流程繁琐,不利于存储和计算资源的集中配置,也不利于数据的统一分析。2.数据的智能分析图像视频的理解和识别一直是计算机视觉领域的难题,由于很难智能地分析出视频中蕴含的丰富内容,我们仍然要耗费大量的人力物
5、力,在海量的视频监控数据中查找有价值的信息。例如在“周克华”案中,为了查找嫌疑人线索,长沙警方投入约两千名民警,花了 1 个多月的时间反复查看监控录像,视频量相当于 83 万部电影。目前,虽然基于内容的智能分析在安防领域得到了研究和推广,但也仅限于较低层次的应用,例如人脸识别、车牌识别、物体检测、人流统计、周界防范等。智能分析除了受限于算法的发展,更受限于计算能力的发展,智能分析的算法复杂度较高,而且其样本数量庞大,非普通计算系统所能胜任。3.数据的融合与协同应用目前,视频监控系统与其它相关系统之间,只是基于视频浏览等基础功能进行有限的对接。但如果能进行更深入的融合,通过对多种关联数据进行分析
6、,可以挖掘出更有价值的应用,例如刑侦线索分析、案件规律分析、社会舆情分析、金融诈骗分析、公共交通优化等。如何对这些海量的融合数据进行清洗和选择,并建立有效的分析模型是一个有趣的挑战。大数据处理的关键技术大数据在近几年成了炙手可热的流行词汇,并经常和云计算联系在一起,它是指大小超出了常用的软件工具在运行时间内可以承受的收集、管理、处理数据能力的数据集。一般将大数据归纳为三个特征,即 3V:体量巨大(Volumn)、类型多样(Variety)、快速处理(Velocity)。在大数据中,绝大部分由非结构化数据组成。据统计,目前在全球所有大数据中占主导地位的是图像视频数据,2012 年其占比已达到了
7、80%,2013 年预计接近 90%。大数据的关键技术涵盖了数据采集、传输、存储、处理、应用等各个环节,本文主要围绕视频大数据的存储和处理来进行阐述。传统的数据处理方法是以处理器为中心,而大数据具有海量和分布性的特点,需要采取以数据为中心的模式,将计算任务分配到数据所在的节点中执行,减少数据移动带来的庞大开销。云计算是大数据处理的核心技术,是大数据挖掘的主流方式。在业界,很多公司已经意识到大数据挖掘的重要意义,研发了一系列针对大数据进行处理的云计算技术,其中最具代表性的是开源的 Hadoop 及其周边的生态系统。1.Hadoop 及其生态系统Hadoop 是一个开源的分布式基础架构,可以让用户
8、轻松构建云计算平台。Hadoop 的优势在于它的灵活性、扩展性、经济性、可靠性,适合对大容量、高速率、多样化的大数据进行分布式的处理,而且具有很高的性能。例如 Visa 公司需要计算两年的记录,包括 730 亿笔交易、高达 36TB 的数据。如果用传统方法需要 1 个月,而采用基于 Hadoop 的处理技术只要 13 分钟。Hadoop 由 HDFS 分布式文件系统和 MapReduce 计算模型组成,可以满足大数据存储和处理的需要。而且,围绕 Hadoop 已经构建了一个庞大的生态系统,如图 1 所示。图 1 Hadoop 及其生态系统其中,HBase 是面向列存储的分布式数据库,Zooke
9、eper 是分布式协同工作系统,Avro 是数据序列化系统,Pig 和 Hive 是基于 Hadoop 的数据挖掘语言和工具,Cascading 是封装了 Hadoop 细节的数据处理工作流 API,Mahout 是机器学习领域经典算法在 Hadoop 上的实现,Sqoop 可以在 HDFS 和 RDBMS 之间转换数据,Flume 是海量日志采集系统。下面将简单介绍较为关键的HDFS、HBase、MapReduce。2.HDFSHDFS 的系统架构如图 2 所示。HDFS 中包括 1 个 NameNode 节点,用于记录文件的元数据;还包括多个 DataNode 节点,提供实际的存储块。存储
10、在 HDFS中的文件被分成块,然后将这些块复制到多个 DataNode,以提高数据的并发吞吐量。存储块的大小(通常为 64MB)和副本的数量在创建文件时由客户机决定,由此保证数据的可靠性。NameNode 可以控制所有文件操作,它与 DataNode 之间通过心跳来传递状态信息。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。图 2 HDFS 的系统架构视频监控数据具有如下特点:1)需要存储大量 GB 级甚至 TB 级的大文件;2)文件具有一次写多次读的特点;3)文件读操作以大规模的流式读和小规模的随机读构成;4)系统需要有效处理并发的追加写操作。这些特点正好与HDFS 的设计理念相
11、符合。因此 HDFS 可用于对以视频监控为主的海量数据提供分布式存储和管理。3.HBaseHBase 是构建在 HDFS 之上的 NoSQL 数据库。NoSQL 数据库是无模式、非关系型的,能支持对海量数据的高并发存储和访问,可以灵活地处理非结构性的数据,而不需要事先定义它们,因此具有良好的可扩展性。NoSQL 在事务的严格一致性、数据实时同步、支持复杂的查询等方面不具有优势,但在大数据时代,这些特点变得不那么重要。在数据管理方面,HBase 将一整张数据表拆分成许多存储于 HDFS 下的子表,并由 Zookeeper 负责数据一致性管理。在数据模型方面,HBase 以行名、列名、时间戳建立索
12、引,表中的数据项由无结构的字节数组表示。这种灵活的数据模型保证 HBase 适用于多种不同应用环境。在安防系统中,HBase 可适用于各类融合数据的存储和访问,为视频监控与其它不同系统的深度整合提供良好的数据平台。4.MapReduceMapReduce 是由 Google 提出的一个软件架构,是目前云计算平台上实际公认的并行编模型标准,运行于 HDFS 和 HBase 系统之上。其执行过程如图 3 所示。图 3 MapReduce 的执行过程MapReduce 包括 Map(映射)和 Reduce(化简)两个阶段,首先将待处理的海量数据分割后执行 map 操作,然后对其输出内容进行合并、排序
13、,再执行reduce 操作,将最终结果进行汇总。整个执行过程的各种细节在 MapReduce 框架中自动处理,包括任务调度、负载均衡、数据分配、容错机制、网络通信、本地化计算等。可以说,HDFS 和 HBase 实现了对海量数据高效的分布式存储,而MapReduce 在此基础上提供由编程框架自动控制的、对用户透明的计算资源和数据资源的并行调度和数据同步机制,可根据业务规模自动伸缩、从而为程序开发者屏蔽了底层的复杂性,简化了分布式并行处理业务的编程开发工作。一个典型的 MapReduce 计算处理通常可以分布到上千个计算节点中来处理上 TB 的数据,这对海量视频监控数据的并行处理尤为重要。大数据
14、技术在视频监控中的应用视频监控产生的数据增长很快,需要构建一个弹性而高效的处理平台,主要解决两方面的问题:1)数据的存储、管理、访问;2)数据的处理和分析,包括转换、挖掘、搜索、智能识别等。基于以上介绍的 Hadoop,可以实现一个视频监控大数据的应用框架,将其部署在可扩展的存储和计算资源之上,以满足大数据所带来的各种新的业务需求。1.视频监控大数据的应用框架应用框架包括了负责对数据进行存储和处理的大数据平台、支持高并发访问的视频分发网络、面向应用的平台调度和服务接口。如图 4 所示。图 4 视频监控大数据的应用框架其中,大数据平台基于 Hadoop 集群来实现,是整个应用框架的核心部分,它接
15、入并存储视频监控数据和其它各类安防数据,然后根据指令对其进行处理。视频分发网络则是为了满足视频访问的需要,这些访问可能是跨地域分布的,因此应考虑网络带宽的优化。平台调度和服务则是面向业务和应用的,是大数据平台和用户之间沟通的桥梁,它可以通知大数据平台即时执行来自业务系统的请求,也可以通过设定任务的执行策略,自动触发大数据平台进行指定数据的处理。此外,与平台管理相关的结构化信息保存在关系型数据库中。2.大数据平台大数据平台中有两层对外的接口,分别是统一数据接入层、统一存储和计算接口层。统一数据接入层负责采集视频监控数据和来自其它业务系统的安防数据,它通过配置不同的适配器来接入种类不一的数据类型,
16、对这些数据进行清洗和转换之后,存入 HDFS 或 HBase 中。对于视频监控数据的接入来说,应支持多种规范,例如 GB/T 28181、ONVIF、PSIA 等主流协议。统一存储和计算接口层封装了云计算处理框架中的复杂细节,向应用层提供简单易用的开发接口。为了高效支撑日益丰富的数据和应用,未来的云计算处理框架中可能同时采用多种相异的技术,例如对存储来说,可以同时支持HDFS、NoSQL、对象存储等,而这些不同技术类型的差异,将被屏蔽在接口层之下,应用层不需要关心具体数据的存储方式和位置。云计算处理框架构建了一个可扩展的 Hadoop 集群,可以实现大数据的海量存储和并行处理。Hadoop 生
17、产环境的部署较为繁琐,需要开发自动化的配置和管理工具,保障平台的快速部署和良好运作。HDFS 可用于存储视频监控录像,HBase 则用于存储卡口数据、告警数据、检测数据、案件数据、分析数据等半结构化的信息。MapReduce 对存储在 HDFS和 HBase 中的数据进行分割,然后进行大规模的并行处理、分析,从价值密度很低的监控大数据中挖掘出有意义的信息。大数据平台在处理功能上不存在限制,只需要开发好相应的处理算法,就可以装载到云计算处理框架中执行。针对安防监控行业,典型的处理可以归纳为视频转码、智能分析、融合挖掘、信息检索等。 视频转码视频转码是安防监控中常见的需求,可在空域、时域上进行重采
18、样后重新压缩,或者转换成更高级别的编码标准,从而可以更有效地利用存储资源、适应更丰富的终端类型。利用 Hadoop 的特点,能实现对视频转码的并行处理,而且由于 MapReduce 框架对 GPU 平台的适应性很好,将它们结合起来可作为视频转码的有效手段。 智能分析对于存储在 HDFS 中的视频录像和其它各类数据,可以通过 MapReduce 并行分析它们的特征,例如人脸特征、指纹特征、物体特征、行为特征等,将特征库保存在 HBase 中,为后续的特征比对做准备。或者针对视频录像进行分析,提取视频中的要素,作为视频的语义描述。进一步形成的视频摘要,也存储在HDFS 中。融合挖掘在一个融合的监控
19、系统中,除了视频监控数据,其它安防类的监控数据也蕴含了丰富的信息,而且它们之间可能存在某些关联,这就需要我们设计有效的模型对其进行挖掘,通过 Hadoop 能很好满足类似的各种应用。 信息检索 在海量的视频录像和繁多的安防数据中查找相关的内容,是一项艰巨的挑战。结合智能分析获得的视频描述,以及从其它各类数据中提取的描述,可以通过 Hadoop 平台为其建立索引,并计算它们之间的相关性,向业务系统提供信息检索服务。3.视频分发网络视频监控的首要应用是对视频录像进行浏览和查看,其特点是高并发、跨地域访问、随机性强、热点相对集中、播放控制手段多。HDFS 虽然支持高并发的访问,但对随机读取的支持较弱
20、,不适合直接向用户提供视频录像的浏览访问,可以通过构建视频分发网络来解决这个问题。视频分发网络从大数据平台中读取视频录像,根据访问情况将视频分发到相应的节点,供用户进行浏览和访问,而且很方便地实现多样化的播放控制。在视频分发网络中,通过内容分布、负载均衡、传输优化、缓存管理等技术,使用户获得良好的访问体验。4.平台调度和服务平台调度和服务承担着如何有效管理和使用整个大数据平台的重任,包括面向上层业务的应用接入服务和面向大数据平台的任务调度管理。应用接入服务是上层各种业务系统的入口,它接收到大数据处理的请求之后,下发给任务调度管理,通过大数据平台来执行相应的处理,并向业务系统返回处理的结果。任务
21、调度管理负责触发、终止、监控大数据平台中的处理任务,既接受来自应用接入服务的请求,也维护周期性的计划任务,通过智能化的任务策略对其进行调度。除了视频监控数据、其它安防业务数据等之外,系统中需要维护另一种数据,即支撑业务运行的管理信息,例如用户信息、权限信息、设备信息、任务计划等。这些大多是结构化的数据,我们将其保存在传统的关系型数据库中。不足和挑战以上介绍的大数据处理平台可以很好地实现视频监控大数据的存储、处理,并且由于其架构在可动态扩展的硬件资源和软件系统之上,可以弹性地满足日益增长的数据和相应的业务需求。但也存在一些不足和挑战,主要表现为以下几个方面。 实时处理MapReduce 是典型的
22、离线计算框架,基于 Hadoop 的大数据处理平台适合对批量的视频监控大数据进行大规模的并行处理,而且效率很高。但其缺点也尤为明显,就是无法适应于在线实时处理需求,而视频监控中有部分应用是需要实时响应的,例如周界防范、入侵检测、可疑行为报警等,需要处理平台能在最新的监控视频中进行及时的分析。在云计算领域中,还发展了增量处理技术和流式计算技术,但大多应用于文本类大数据的近实时处理。而视频内容的前后关联性较强,很难直接应用于类似的计算框架中,暂时尚未看到成功的案例。目前业界对实时视频的处理,一般通过高性能集群的形式来实现,但也存在同步协作困难、数据开销大、成本较高、容错性差、扩展性弱等问题。因此,
23、如何利用云计算技术处理和分析实时视频,是一项很大的挑战。 算法研究大数据处理平台只是提供了大规模存储和计算的能力,如何利用好这些能力,取决于我们在业务功能上的开发,也就是如何建立大数据分析的数学模型,如何设计大数据的处理算法,包括智能分析算法、数据挖掘算法、机器学习算法等各个方面。结语视频监控产生的数据量非常庞大,而且增长迅猛,但其价值密度较低,只有对其进行深度的挖掘,才能使其发挥出数据本身所应具有的应用价值。基于云计算技术的大数据处理平台为海量数据的存储和大规模并行处理提供有力的支撑,可以应对视频监控大数据所带来的挑战。但在实时处理和算法研究等方面,我们还需要更进一步的探索,以期更加充分地发挥大数据处理平台的威力,使得构建在它之上的各类业务系统得以实现深度的整理,成为社会化的融合大系统。