1、书书书第 卷第 期年 月计算机学报 收稿 日 期 :;最终修改稿收到日期 :本 课题 得到国家“九七三 ”重点基础研究发展规划项目基金 ()、国家自然科学基金 ()、国家科技支撑计划 ()资助 黄凯 奇 ,男 ,年生 ,博士 ,研 究员 ,国家自然科学基金优秀青年基金获得者 ,中国计算机学会 ()高 级会 员 ,曾任 北京分 会副秘书长 ,主要研究领域为计算机视觉 、模式识别 、智能视觉监控 :陈晓棠,女 ,年生,博士 ,助 理研究员 ,主要研究方向为计算机视觉 、模式识别康运锋,男 ,年生 ,工程 师 ,主要研究方向为智能视频监控应用 谭铁牛 ,男 ,年生 ,博士 ,研 究员 ,中国科学院院
2、士 ,主要研究领域为生物特征识别 、智能视频监控 、网络数据理解与安全 智能视频监控技术综述黄凯 奇陈 晓棠康运锋谭铁牛(中国科学院自动化研究所 模式识别国家重点实验室智能感知与计算研究中心 北 京 )摘要随着摄像头安装数量的日益增多 ,以及 智 慧城市和公共安全需求的日益增长 ,采用人工的视频监控方式已经远远不能满足需要 ,因此智能视频监控技术应运而生并迅速成为一个研究热点 智能视频监控技术是一个跨领域的研究方向 ,它的研究内容丰富 ,应用领域广泛多样 文中对智能视频监控技术的发展历史 、研究现状以及典型算法的现状给了比较全面的综述 首先从底层 、中层 、高层对智能视频监控技术进行分类 ,分
3、别对目标检测 、目标跟踪 、分类识别以及行为分析算法进行归纳总结 ;然后对典型算法的优缺点进行分析 ,给出了典型算法在现有研究数据库上的性能对比 ,并对待解决问题和难点进行了总结 ;最后对智能视频监控技术在物联网背景下存在的挑战以及未来发展趋势进行了探讨 关键词智能视频监控 ;智慧城市 ;公共安全 ;物联网中图法分类号 号 : ( , , , ) , , , , , , , , , ;, ; ; 引言当今社 会 ,人口众多 ,存在众多安全隐患随着人们对安全性要求的提高以及经济条件的改善 ,监控摄像头的个数增长速度越来越快 ,覆盖的范围也越来越广传统的视频监控仅提供视频的捕获 、存储和回放等简单
4、的功能 ,用来记录发生的事情 ,很难起到预警 和报警的作用若要保证实时监控异常行为并及时采取有效措施 ,就需要监控人员一刻不停的监看视频 ,这种情况下 ,监控人员容易疲惫 ,尤其面对多路监控视频时 ,往往目不暇接 ,很难及时对异常做出反应因此这就迫切需要智能视频监控 ,来辅助监控人员的工作众多的摄像头 ,庞大的监控网络 ,瞬间就会产生海量视频数据 ,如何从这些海量数据中高效地提取出有用的信息 ,就成为智能视频监控技术要解决的问题具体地讲 ,智能视频监控技术就是为了让计算机像人的大脑 ,让摄像头像人的眼睛 ,由计算机智能地分析从摄像头中获取的图像序列 ,对被监控场景中的内容进行理解 ,实现对异常
5、行为的自动预警和报警世纪末以来 ,随着计算机视觉的发展 ,智能视频监控技术得到广泛的关注和研究 ,并随着安全的日益重视 ,也成为当前的研究热点智能视频监控包括在底层上对动态场景中的感兴趣目标进行检测 、分类 、跟踪和识别 ,在高层上对感兴趣目标的行为进行识别 、分析和理解智能视频监控技术可以广泛应用于公共安全监控 、工业现场监控 、居民小区监控 、交通状态监控等各种监控场景中 ,实现犯罪预防 、交通管制 、意外防范和检测 、老幼病残监护等功能 ,能够显著提高监控效率 ,降低监控成本 ,具有广泛的研究意义和应用前景目前已有较多工作对智能视频监控技术的各方面进行总结和阐述 ,等人从背景 建模及行人
6、检测方面对目标检测技术进行了介绍 ,等人、和等人从单摄像机和多摄像机 跟踪方面对目标跟踪算法进行较为详细的介绍 ,等人、等人、等人对图像 中目标分类识别算法进行了介绍 ,行为识别得到了较多的关注 ,等人、等人和等人多次对 行为识别算法及相关数据库工作进行综述性的介绍随着研究的进展 ,相继有很多智能视频监控系统被开发,如早期 卡内基梅隆大学开发的( )系统、英国雷 丁大学和等多个研 发 机 构 合 作 研 究 的( )系统、开 发的( )系统、中佛罗 里达大学研发的系统、中国科学院自动化研究所研 发的系统等不少学 者也对智能视频监控系统进行了较为全面的介绍 ,如等人、等人和等人,在文章中他们对系
7、统 中涉及到的多个部分的算法进行了介绍和算法及系统相对的是 ,在技术应用方面 ,目前还是处于尝试阶段 ,等人介绍了 相关系统在交通 、地铁 、港口等方面的应用 ,等人介绍了 相关系统在地铁 、大型活动中的应用 ,有关综述性的文章尚不多智能视频监控技术涉及的内容比较多 ,已有的文献中相当一部分的综述性工作都是对某一类算法进行介绍 ,如目标检测算法综述、目标跟 踪算法综述等等也有一些学者从系统角 度对多个模块算法进行了介绍 ,如文献 ,这些工作对于智能视频 监控技术的发展发挥了重要的作用然而随着时代的发展 ,智能视频监控技术也在突飞猛进 ,近几年来各类优秀算法层出不穷 ,需要较好的梳理总结 ;另一
8、方面 ,之前的综述性文献更多的侧重于从算法原理进行介绍 ,较少对算法的性能进行比较本文认为 ,智能视频监控技术作为计算机视觉和模式识别技术的重要组成部分 ,是面向安全应用而产生的 ,性能的优劣是评价算法的重要指标智能视频监控技术从年左右 发展至今 ,取得了许多很好的工作进展 ,也得到了一些有效的应用作者及其团队在这一领域的研究和应用方面进行了较为长期的工作 ,本文试图对智能视频分析技术从底层 、中层 、高层个方面对现有技术进行归纳整理 ,不仅仅对这一技术在不同层面的典型算法研究现状 、存在的瓶颈进行归纳整理 ,而且对他们的性能评价等试图进行较为全面地总结和深入地探讨具体地 ,本文分别从底层 、
9、中层和高层个方面对智能视频监控技术进行概述算法部分涵盖了目标检测 、目标分类 、目标跟踪和行为分析个方面 ,分别介绍了相关研究意义及应用领域 、研究现状 ,并给出了各类典型算法在不同数据集上的性能评测 ,同时对待解决的问题与难点也进行了讨论 ;并对物联网时代的智能视频监控技术存在的挑战以及未来发展趋势进行了探讨本文第节对智能视频监控技术的兴起进行介绍 ;第节对智能视频监控系统的算法进行介绍 ;第节对其在大数据环境下的挑战及方向进行讨论 智能视频监控技术的兴起视频监 控是安全防范的重要组成部分 ,监控的第一要务是用最短时间从被监控的地方获取尽可能多的信息反馈 ,从信息获取和处理对象的角度而言 ,
10、早期完全依靠人来获取和处理信息 ,如我国明朝的计算机学报 年东厂 ,通过 密布的耳目源源不断获得各种信息并形成决策 ;之后也有利用其他生物本身特有的感知器官来进行监控 ,如庭院的守门之犬 ,通过灵敏的听觉与嗅觉及时为主人提供异常信息 ;之后生物器官也发展成为一些相关的设备 ,例如 ,中国历史上最早利用外部设备进行探测的监控系统当属乔家大院的“万人球 ”,是在清朝末年由水银玻璃制成的镜子 ,通过它可以看到房间内任何角落的一举一动 ,且不变形 ,有如现在的全景摄像机直到世纪年代真正发展出的视频监控 ,开始利用摄像头来获取信息 ,与这些大部分的信息处理是依靠人来进行处理决策不同的是 ,智能视频监控开
11、始尝试利用机器智能来辅助人类进行信息处理以下将对视频监控技术的发展进行简单介绍随着信息技术的进步和市场的需求逐步发展 ,视频监控技术的发展可以初略的分为个阶段,如表所示表 视频监控技术的发展产 生时 间核 心技术核心设备特点 不 足第一代(模拟化 )世纪年代光学成像技术和电子技术摄像头电视墙技术成熟 、价格低廉 ,安装简单(看得到 )图像质量差 、有线传输 ,难以适应大规模监控第 二 代(数字化 )世纪年代数字压缩编码技术和芯片技术图 像质 量好 、模块化管理(看得好 )视频数据量大 ,不易存储和使 用第 三代(智能化 )年左右计算 机视觉和模式识别尚无智能内容分析 (用得好 )分析算法对环境
12、的要求较高()第一代 :模 拟视频监控系统随着光学成像技术和电子技术的发展 ,监控摄像机的制造和使用成为可能 ,为了满足利用电子设备代替人或者其他生物进行监控的需求 ,大约在世纪年代 ,世界迎来了电子监控系统 ,这个时期以闭路电视监控系统 ( ,)为主 ,也就是第一代模拟 视频监控系统一般利 用同轴电缆传输前端模拟摄像机的视频信号 ,由模拟监视器进行显示 ,而存储由磁带录像机完成这一代技术价格较为低廉 ,安装比较简单 ,适合于小规模的安全防范系统()第二代 :数字视频监控系统由于磁带录像机存储容量太小 ,线缆式传输限制了监控范围等缺点 ,随着数字编码技术和芯片技术的进步 ,世纪年代中期 ,数字
13、视频监控系统随之而生初期采用模拟摄像机和嵌入式硬盘录像机 ( ,),这个阶 段被称为半数字时代 ,后期发展成为利用网络摄像机和视频服务器 ( ,),成为真 正的全数字化视频监控系统的 大量 应用使得监控系统可以容纳更多的摄像机 ,存储更多的视频数据 ,从而使得摄像机的数量得到海量的提升嵌入式和网络通信技术的发达使得图像编码处理单元由后台走向了前端 ,视频图像在摄像机端编码后经网络传到后台 ,数字化的视频监控系统应用范围广 ,扩展性能好 ,使用和维护简单 ,适用于超过路 、路 ,甚至城市级规模的安全 防范系统 ,但监控规模扩大的同时带来了对视频内容理解的需求 ,可以说 ,数字化技术的发展是智能化
14、技术发展的前提和基础()第三代 :智能视频监控系统随着第二代数字视频监控技术的进步 ,大规模布控成为可能同时 ,随着全球范围安全形势的日益严峻 ,全世界范围内对视频监控系统的需求空前高涨 ,各国部署的摄像头越来越密集年英国 有万 个由 闭路电视控制的摄像头 ,每个英国人平均每天会被拍到次;年美国 安装的摄像机已经超过了万台 ;年中国 超过万个监控摄像头用于城市监控与报 警系统摄像头 的增加带来了大规模防范的可能 ,即可以获取海量的视频数据用于实时报警和事后查询但是对以人为主的使用对象而言 ,大规模视频数据也带来巨大的挑战美国圣地亚国家实验室专门做了一 项 研 究 ,结 果 表 明 ,人 在 盯
15、 着 视 频 画 面 仅 仅之后 ,人眼 将对视频画面里以 上的 活动信息视而不见基于以 上需求 ,智能视频监控系统应运而生 ,其中最核心的部分是基于计算机视觉的视频内容理解技术 ,通过对原始视频图像经过背景建模 、目标检测与识别 、目标跟踪等一系列算法分析 ,进而分析其中的目标行为以及事件 ,从而回答人们感兴趣的 “是谁 、在哪 、干什么 ”的问题,然后按照预先设定 的安全规则 ,及时发出报警信号智能视频监控系统有别于传统视频监控系统最大的优势是能自动地全天候进行实时分析报警 ,彻底改变了以往完全由安保人员对监控画面进行监视和分析的模式 ;同时 ,智能期 黄凯 奇等 :智能视频监控技术综述对
16、视频监控技术的划分 ,实际上没有严格的界限 和 定义 ,也有 “模数混合 ”、“高 清时 代 ”、“监控 ”等 ,本文统一称之为数字化视频监控系统 :技术将一般监控系 统的事后分析变成了事中分析和预警 ,不仅能识别可疑活动 ,还能在安全威胁发生之前提示安保人员关注相关监控画面并提前做好准备 ,从而提高反应速度 ,减轻人的负担 ,达到用电脑来辅助人脑的目的这一技术也得到学界和产业界的认可 ,美国电气和电子工程师协会 ()在其成 立周 年大会 上 ,突出展示了项被认为很可能改变世界的技术 ,其中就包括智能视频监控技术的核心图像和 视频的内容分析技术国际知名视 频监控市场网站在年针对 高级会员做了一
17、项投票 ,选出监控行业未来最具影响的技术 ,得票最高的便是智能化背景下的视频分析技术 ,其次是由海量高清监控摄像机带来的大规模视频数据存储接下来本文将对智能视 频监控技术的核心算法的发展进行介绍 智能视频监控算法 智 能视 频监控算法框架智能视频监控研究的主要内容就是如何从原始的视频数据中提取出符合人类认知的语义理解 ,即希望计算机能和人一样自动分析理解视频数据比如 ,判断场景中有哪些感兴趣目标 ,历史运动轨迹 ,从事什么行为 ,以及目标之间的关系等一般而言 ,智能视频监控研究中对视频图像的处理可以分为个层次 ,如图所示图 智能视频监控算法流程()底层主要 是从视频图像采集终端获取图像序列 ,
18、对感兴趣目标进行检测和跟踪 ,以便对目标进行后续处理分析 ,主要解决目标在哪里的问题本文中目标检测部分可分为目标建模和背景建模目标跟踪是为了获得运动目标的活动时间 、位置 、运动方向 、运动速度 、大小 、表观 (颜色 、形状 、纹理 )等 ,可分为单场景目标跟踪和跨场景目标跟踪()中层主要是在底层的基础上提取运动目标的各种信息并进行相关判断这部分内容包括目标识别目标识别是为了对目标进行分类进而识别目标的身份 ,可分为目标分类和个体识别中层的分析为底层处理到高层行为理解搭建了一座桥梁 ,填补了底层与高层之间的语义间隔主要是为了解决目标是什么的问题()高层高层处理完成对目标的行为进行分析和理解高
19、层的语义蕴含着特定的语义场景 ,往往和具体的应用紧密相关行为分析可以分为姿态识别 、行为识别和事件分析 ,主要为了解决目标在干什么的问题总而言之 ,智能视频监控研究的主要目的就是要让计算机回答感兴趣目标在哪里 ,是什么 ,在干什么 ,甚至预测感兴趣目标下一步的行为以下本文将分别介绍相关层次 目 标检 测目标检测是从视频或者图像中提取出运动前景或感兴趣目标 ,也就是确定当前时刻目标在当前帧的位置 ,所占大小因此目标检测在智能视频监控算法中处于基础地位 ,目标检测性能的好坏直接影响了后续目标跟踪等算法 、目标分类与识别的性能根据处理的数据对象的不同 ,目标检测可以分为基于背景建模的运动目标检测方法
20、和基于目标建模的检测方法基于背景建模的方法要求感兴趣目标是保持运动的 ,并且背景是保持不变的当背景发生变化的时候 ,基于背景建模的方法会将变化背景误检为运动前景 ,而在运动目标静止一段时间后 ,也会被归为背景因此该方法难以用于背景变化的场景 ,如手持摄像机或车载摄像机拍摄时该方法一般可以达到实时性的要求 ,因此在采用固定摄像机的应用中广泛使用基于目标建模的前景提取方法不受应用场景的限制 ,不但可以对固定摄像机拍摄的视频进行感兴趣目标的检测 ,也可以处理单帧静态图像或移动摄像机拍摄的视频该方法由于扫描的窗口数目巨多 ,检测速度较慢 ,一般很难实时 ,因此在要求实时性的实际系统中难以应用 ,两者之
21、间的比较如表所示表 目标检测方法分类特点 基 于 背景建模 基于目标建模源数据 视频 图像 视频目 标 运 动 静止 运动背景 固定 固定 运动算法速度 较快 较慢受遮挡影响 影响较小 影响较大 ,容易 漏 检计算机学报 年: 基于背 景建模的目标检测基于背景建模的方法通过分析视频图像的底层特征 ,构建背景模型来分割出运动前景 ,并给出运动前景的位置 、大小 、形状等信息 ,并随时间不断更新背景模型如何构造鲁棒的背景模型是基于背景建模的运动目标检测算法的关键 ,目前已有大量的工作来解决这 个 问 题 ,如 帧 间 差 分 、均 值 滤 波、中 值 滤波、最大值 最小值滤波、线性滤 波、非参数模
22、 型、近似中 值滤波、基于高斯假设的迭代方法、基于聚 类的方法、基于隐马尔科夫的方法、基于自 回归模型的方法、基于在 线学习的方法以及基于时空背景随机更新 的方法其中 ,混合 多高斯背景建模方法 ( ,)是目前普遍应用的一 种前景提取方法图显示了在复杂场景中使用方 法进 行前景检测的结果 ,可以看到检测性能受动态背景 、摄像机抖动等因素的干扰比较严重图 方法的检测结果为了改 善前景分割的效果 ,一些算法对前景物 体也构造模型此外 ,针对监控场景的特殊性 ,对运动前景检测的结果有必要进行后处理 ,如减少缓慢运动或静止的目标突然加速后在原位置留下的“鬼影 ”以及去 除阴影等 基于目 标建模的目标检
23、测基于目标建模的检测方法对大量训练目标进行学习 ,训练分类器 ,在图像多个尺度上做滑动窗口扫描 ,判定各窗口是目标还是背景 ,从而得到该图像中所有感兴趣目标的大小和位置与基于背景建模的方法不同 ,通过目标建模方法提取的目标是一个包围框 ,该方法不能得到目标的轮廓如图所示基于目标建模的目标检测方法不受场景限制 ,可以应用于移动摄像头下的目标检测 ,检测结果不需要再进行个体分割基于目标建模的目标检测方法研究的内容有很多 ,如何从景物的原始灰度图像中提取图像的描绘特征关系到整个系统的可靠性与精度因此 ,如何建立鲁棒高效准确的目标表述模型及分类器是这类方图 背景建模与目标建模的目标检测结果法的核 心问
24、题基于目标建模的检测方法一般采用滑动窗口的策略根据建模的方法不同 ,基于滑动窗口的目标检测主要分为刚性全局模板检测模型 、基于视觉词典的检测模型 、基于部件的检测模型和深度学习模型 ,其他模型中有语法模型以及生物启发特征模型等它的一般框架流程图如图图 基于滑动窗口的目标检测系统框架()刚性全 局模板检测模型假定目 标刚性不变 ,试图通过固定的窗口大小和特征方式完成对目 标 的 表 达最具代表性的工作是来自法国的等人为解决静态图像的行人检 测问题提出的梯度方向直方图 ( ,)特征 ,成为 近年以来最有影响力和最为成功的特征之一()基于视觉词典 ( ,)的目标 检测模型又称为词袋模型 ,这类方法从
25、训练库中目标抽取局部特征 ,如、期 黄凯 奇等 :智能视频监控技术综述等 ,学习一 个视觉词典 (例如 ,使用聚类 ,并把每 个聚类中心作为一个视觉单词 );然后给定一幅图片 ,抽取其局部特征 ,在学习到的视觉词典上进行投票就得到该图像基于视觉词典的特征表述 ;最后采用滑窗搜索加分 类的 方法 ,就可以判定各窗口是否包含目标该方法利用局部特征的尺度不变性 、仿射不变性以及视角不变性 ,来解决目标检测中多视角或部分遮挡等比较棘手的问题()基于部件模型的检测模型视觉词典模型丢失了目标的空间布局信息 ,为弥补这方面的不足 ,提出了基于部件的目标检测方法基于部件模型的目标检测方法将一个目标建模分为整体
26、模型和各个部分模型的综合 ,有利于解决遮挡目标和多姿态目标等情况该方法 最早可以追溯到年和提出的结构 ,它认 为一个目标是由部分和部分之间的结构组成年 ,等人提出星 座模型 ,该模型既考虑了部件的表观信息 ,又考虑了每个部件之间的相对位置信息以及部件的尺度信息在此基础上 ,等人提出可形变部件模型 ( ,)包含部 分 内 容 :全 局 模型 、部件模型和形变描述模型其中 ,全局模型用来刻画目标的全局结构特性 ,部件模型用来刻画目标的局部结构 ,形变描述模型刻画各部件的形变形变部件模型奠定了当今物体检测算法研究的基础 ,也成为后续 竞赛物体检测任务的基础框 架()基于深度学习的目标检测模型近几年来
27、 ,深度学习 ()方法迅速成为研究热点 ,它 主要通过多层神经网络来模仿人大脑的多层抽象机制来实现对数据的抽象表达 ,将特征学习和分类器整合到一个框架中目前深度学习方法在目标检测 、分类识别等领域都取得了很好的性能一个典型的基于深度学习的目标检测方法包括从输入图像上提取区域块 ,用卷积神经网络计算每个区域块的特征 ,最后用线性分 类器对每个区域块进行分类 等步骤深度学 习模型天然强大的数据表达能力 ,必然会将目标检测 、分类的研究推向新的高度当然 ,目前深度学习模型还存在着解释性差 、模型复杂度高 、优化困难 、计算强度高等诸多问题 ,这些都需要研究者们进一步的思考 算法性 能评测本节将分别对
28、背景建模方法和目标建模方法进行评测这类算法通常采用召回率和准确度来反映算法的有效性其中 ,召回率代表的是检测结果中正确检测的个数占全部答案包的比重准确度指的是检测结果中正确检测的个数占全部检测结果的比例()背景建模方法评测为了评测已有的基于背景建模的前景提取方法在不同场景下的性能 ,等人人工合 成了( )数据集,模拟多种对背景建模较 为挑战的复杂场景 ,如噪声 、动态背景 、运动前景与背景表观相似 、开关灯等并在此数据集上对基于背景建模的目标检测算法的性能进行评测 ,结果如表所示表中性能指标为分数,分数是 准确率与召回率的加权评价指标 ,分数越高 反映算法的性能越好各种场景下最好的性能用粗体显
29、示表 在不同复杂场景数据集上的结果方法 原 始动 态背景独立初始化过程变暗 开关灯有噪声的夜晚前景与背景表观相似前景与背景表观不相似压缩编码 为了能 够描述不同复杂场景下背景建模算法的有效性 ,我们对表进一步统计 ,选取了在应用中常见的类场景 ,对表中种算法的平均性能进行统计 ,总结了如图所示的规律可以看出随着场景复杂度的提升 ,基于背景建模的算法性能下降显著 ,其中视频编码等对运动检测的影响不大 ,但是光线 、噪声等对这类算法的影响较大图中性能指标为分数计算机学报 年 :?图 基于背景建模的前景提取算法随场景变化的性能变化()目标建 模方法评测 数据库是目标检测领域最为公认 的测评数据库之一
30、 ,大部分主流的目标检测方法都会在该数据集上进行测试将现有 的多种方法在 数据库的 结果进行对比 ,如表所示是一种刚 性全局模板目标检测模型 ,它采用了种类型的多尺度的特征 ,再利用多核学习算法对这些特征进行融合利用局 部特征的尺度不变性 、仿射不变性等 ,来解决目标检测中多视角或部分遮挡问题 ,是早期主要采用的方法之一方法是 基于部件模型的目标检测方法提出了 一种局部结构化描述子 ,并纳入到局部结构化物体建模框架中 ,取得了年竞赛的 冠军是一种 基于深度学习的目标检测方法 ,相对于其余几种方法 ,深度学习的方法取得了最好的性能表 在 数据集上的目标检测结果(单位 :)类别飞 机 自行车 鸟
31、船 瓶子 公 交车 小汽车 猫 椅子 牛 饭桌 狗 马 摩 托车 人 盆栽 羊 沙 发 火车 显示器 均值 基于目标建模的检测方 法的性能测评一般采用在信息检索系统中广泛使用的平均准确度 (,)指标作 为测评指标分数是 从准确率 召回率曲线计算得到的 ,因此可以准确的反映出系统的实际检测性能具体为 ,在召回率曲线上进行均匀采样得到相应的准确度 ,将这些采样得到的准确度的平均值作为分数表中的 指标均为 待解决问题与难点基于背景建模的检测方法 只适用于固定摄像机拍摄的场景 ,但是在固定场景中干扰因素也很多 ,如光照环境变化 、地板或玻璃反光 、阴影 、局部动态背景物体 (摇晃的树枝 、喷泉 )等这
32、些都是现实场景中常见的问题 ,极大的影响了算法的性能 ,给前景提取带来很大挑战基于目标建模的检测方法在应用中也有诸多挑战 ,如巨大的类内差 、嘈杂的环境 、各式的姿态 、严重的遮挡 、不同的光线条件 、巨大的尺度差异 、很小的类间差 、严重的形变 、低质量图片等等而且在应用中 ,该方法需要事先手工标定大量训练样本 ,并且在不同的应用场合有可能需要重新标定不同的样本 ,训练不同的分类器 ,带来大量的人力开销和费用支出另外 ,由于采用滑动窗口策略 ,该方法时间消耗比较大 ,一般难以实时上述这些问题依然没有很好的解决研究者们依然需要从特征 、物体描述和分类器等诸多方面来思考如何提高算法的精度 、效率
33、与鲁棒性 目 标跟 踪目标跟踪用来确定我们感兴趣的目标在视频序列中连续的位置 ,也就是定位目标 “在哪里 ”目标跟踪问题是计算机视觉领域的一个基本问题 ,是智能视频监控的一个重要环节 ,具有广泛的应用价值目标跟踪可以记录感兴趣目标的历史运动轨迹和运动参数 ,为更高层的目标的行为分析与理解打下基础根据应 用场景的不同 ,可以将目标跟踪算法分为单场景目标跟踪和多场景目标跟踪两类单场景目标跟踪包括单目标和多目标跟踪 ,多场景目标跟踪可以分为重叠场景和非重叠场景目标跟踪表总结了单场景目标跟踪算法 、重叠场景目标跟踪算法 ,以及非重叠场景目标跟踪算法的各项特性例如在单场景中 ,同一目标在连续两帧的空间位
34、置是很接近的 ;在重叠场景目标跟踪中 ,目标经过重叠场景从一个场景进入另一个场景 ,可以利用连续的空间关系确定进入新场景的目标身份 ;在非重叠场景目标跟踪中 ,由于场景之间盲区的存在 ,不同场景对相同目标的观测在时间空间上都会存在很大差异期 黄凯 奇等 :智能视频监控技术综述表 目标跟踪算法分类及特点特点单 场 景目标跟踪重叠场景目标跟踪非重叠场景目 标 跟 踪时 间 空 间 均连续 空间连续 均有很大间断时间同步 严格要求 要求摄像机标定 不需要 一般需要 不需要跟踪范围 较小 较大 很大受遮挡影响 严重 较小 严重应用 范 围 普遍应用 特殊场合 普遍应用 单场景 目标跟踪单场景下的目标跟
35、踪致力于解决指定的单个目标的持续跟踪 ,也就是在单个摄像机拍摄的视频中只跟踪指定的一个目标它与目标检测的关系有两种 ,一种是在目标检测的基础上 ,对前景目标进行表观建模 ,然后按照一定的跟踪策略 ,找到目标的当前最佳位置 (也称之为生成式跟踪 );另一种是目标跟踪与目标检测同时进行 ,也称为基于检测的跟踪 ,基本思路是将跟踪问题看作是前景和背景的二分类问题 ,通过学习分类器 ,在当前帧搜索得到与背景最具区分度的前景区域 (也称之为判别式跟踪 )对于第种目标跟踪算法 ,可以是基于特征点、基于轮 廓或基于 核代表性 方法如基于光流特征的跟踪算法 (,)等第种基于检测的目标跟踪算法日趋成为目标跟踪算
36、法 的主流 ,代表性方法有等人和等 人提出的一种基于在线特 征提 升 ( ,)的 跟 踪 方 法 ,等人提出的 基于多示例学习 ( ,)的跟踪 方法等 ,等 人利用在 线的空时上下文结构信息来辅助跟踪上述目标跟踪算法都涉及两个问题 :目标表观建模和跟踪策略,目标表观模型是对目标的描 述 ,根据目标的表观数据进行建模 ,它是跟踪算法的核心模块 ,表观模型的好坏对跟踪的准确性和鲁棒性起着决定性的影响其代表性方法有颜色直方图、梯度方 向直方图 ( ,)、基 于 核 密 度 估 计 的 表 观 模型、混合高 斯模型、基于子空间学习的表观模 型、基 于 分 块 的 表 观 模 型、稀 疏 表 达 模型等跟踪策 略用来在当前帧图像中找到最优的目标位置 ,代表性方法有均值漂移算法、卡尔曼滤 波、隐