Real-Time Human Detection Using Contour Cues_基于轮廓线索的实时人体检测_2011ICRA.docx-道客多多

资源描述

1、Real-Time Human Detection Using Contour Cue_基于轮廓线索的实时人体检测_2011ICRA摘要本文提出了一种实时并且精准的人体检测架构 C4。C4 在目前最高精确度下可以达到 20 帧每秒的检测速度，并且是在只使用一个处理线程和不使用 GPU 等硬件的情况下达到的。能达到实时而精确的检测源于以下两点：第一，相邻像素差值的符号是描述轮廓的关键信息；第二，CENTRIST 描述子非常适合做人体检测，因为它编码了符号信息并且可以隐式地表达全局轮廓。使用 CENTRIST 描述子和线性分类器，我们提出了一种不需要显式生成特征向量的计算方法，它不需要图像的预处理

2、或特征向量的归一化，只需要 O(1)时间去测试一个图片区域。C4 也非常适合进一步的硬件加速，我们在一个嵌入式的 1.2GHzCPU 上同样实现了 20fps 的高速人体检测。引言人体检测在生活中应用广泛：监控系统和机场安全，自动驾驶和驾驶辅助系统，人机交互，互动娱乐，智能家庭和老人辅助，军方的寻人应用等。广泛的应用和挑战吸引了很多研究者参与到其中来。本文的目的是以最少的误报率进行实时而精确的人体检测。在机器人系统上，计算效率尤其重要，不仅要达到实时的检测，还要做的占用尽量少的 CPU 资源，使得其他任务例如路径规划、导航等不会受到影响。目前的人体检测在很多方面已经达到问题的前沿，例如：特征、

3、分类器、速度、遮挡处理等，引文111做了详细论述。然而，至少还有两个重要问题没有得到解决：(1)实时检测检测速度非常重要，因为实时检测是很多现实应用12的先决条件。(2) 确定最重要的信息源 HOG1和 LBP8特征在人体检测中取得了成功，但我们还不是很清楚的了解这些特征中最重要的信息是什么，或者说，为什么这些特征可以取得这么好的检测效果。在本文中，我们认为这两个问题是紧密相关的，我们证明合适的特征选择会带来高效的检测结果。事实上，特征计算是现有方法的主要瓶颈，现有方法即使使用 GPU 的 100+并行处理线程，也只能达到大约 10fps 的检测速率。大多数时间都耗费在了特征计算上( 包括图像

4、预处理、特征构建和特征向量归一化)。本文主要解决了两个问题。第一，通过一系列精心设计的实验(见 Section-A) 表明表征身体外沿的轮廓特征可以提供人体检测的重要信息。我们发现相邻像素差值的符号对于表示轮廓至关重要，但差值的大小没有符号信息重要。第二，我们提出用轮廓线索(contour cues)进行人体检测，并表示成熟的 CENTRIST13特征非常适合人体检测(见 Section-B)。CENTRIST 编码了像素差值的符号信息，并且可以表示全局(大规模) 轮廓。在 Section-C 中，我们将 CENTRIST 与其他特征进行了对比。CENTRIST 特征在速度上非常吸引人，在 S

5、ection中，我们提出了一种不包括图像预处理和特征向量归一化的评价方法。事实上，没有必要显式地计算 CENTRIST 特征向量，因为它已经无缝的嵌入在分类器中，能够达到视频流检测速度。我们使用层级分类器，所以将此方法叫做 C4：detecting humanContour using aCascadeClassifierand theCENTRISTdescriptor.C4 可以在不使用 GPU 的单线程上实现精确地实时人体监测。在 Section 中，我们用两种评价方法展示实验结果，第一，在一个标准人体检测数据集上的实验结果；第二，在线检测结果，即在 iRobot PackBot 上的实

6、验结果。特别的，我们还展示了基于实时行人检测的行人跟踪。我们将此检测系统提供给其他研究者使用。相关研究工作人体检测的精确度仍是主要研究方向，尤其是在低 FPPI2 (False Positive Per Image)时的高检测率。在此方面的研究主要向两个方向发展：特征和分类器。人体检测中使用过各种特征，例如 Haar7，edgelet10，然而 HOG 是使用最多的人体检测特征1,3,4,6,8 。边缘在不同方向上的强度分布似乎可以有效地在图像中捕获人体。近来，LBP(LocalBinaryPatern)方法的变体也表现出很大潜力58 。最近人体检测趋向于联合多种信息源，例如颜色、局部纹理、边

7、缘、运动等等14,6,8,15，引入更多信息通道会提高检测精度，但同时也会增加检测时间。在分类器方面，线性 SVM 由于速度快而被广泛使用。 HIK SVM(Histogram IntersectionKernel SVM)1617可以达到更高的精度，耗时有所增加4。最近的研究还提高了人体检测的速度。层级(cascade)711和积分图148被广泛用来加速检测。然而，检测速度仍远低于帧率，所以人们使用 GPU 来做并行计算，例如，9中的系统达到了 10fps，8中达到了 4fps，两者都使用了 GPU。在 Section中，我们展示了一种可以在不使用 GPU 的单线程上达到 20fps 的方法

8、(并且此方法非常易于做 GPU 加速) 。表对比了当前的几种快速检测方法的速度和精度，包括本文提出的 C4 方法。表，几种人体检测方法的速度比较。VGA 分辨率是 640*480，qVGA 是 320*240，精度单位是 1FPPI(False Positive Per Image)移动机器人平台上的人体检测系统已有很多相关研究工作18,19,20,21，多数都是利用测距传感器(ranging sensor)1821。3D传感器对于检测和跟踪有很大作用(人体位于地平面之上，可以在深度上被很好的分割) ，此方面也已经有一些不错的系统出现。然而这些方法有一个缺点：测距系统的解析度有限、临时采样率有

9、限、难以处理强烈的室外光。因此，探索被动光电传感器例如摄像机的可用性变得更加重要。使用 CENTRIST 描述子检测人体轮廓A 像素差值的符号对于编码轮廓和人体检测至关重要我们认为轮廓是人体检测中最有用的信息，而相邻像素差值的符号是对轮廓进行编码的关键。这两个假设都在本节有实验支持。假设 1：对于人体检测，最重要的就是编码轮廓信息，而这正是 HOG 描述子的关键。局部纹理可能对检测有害，例如人衣服上的图案可能扰乱检测器。图 1b 是图 1a 的 Sobel 梯度图( 计算图 1a 中每个像素的 Sobel 梯度，归一化到0,255 ，然后替换原像素值)。Sebel 图会平滑局部高频纹理信息

10、，所以图 1b 中剩下的轮廓可以清晰地显示人体的位置。图 1 (a)原图，(b)Sobel 梯度图，(c)梯度符号图Dalal 的 HOG 论文1 中的图 6 也表明在人体轮廓周围的图像块是 HOG 描述子中最重要的。然而，我们还没有清楚地知道 HOG 描述子中编码的到底是什么信息，使得它在人体检测中如此成功。我们要通过实验表明轮廓是 HOG 描述子中编码的最重要的信息。我们使用论文1 中的原始 HOG 检测器，但使用 Sobel 图进行测试。原始 HOG SVM 检测器使用轮廓和其他信息( 例如有衣服上的纹理)交织在一起进行训练，这样训练出来的检测器如果在只有轮廓信息的Sobel 图上能够检

11、测出人体，就表明轮廓信息是 HOG 编码的主要信息。结果，检测精度在 1FPPI 时是 67%，比14中评价的 12 个检测器中的 7 个都要好。因此，我们相信轮廓是 HOG 描述子中用于人体检测的最重要的信息。C4 和其他现有方法的最大不同是 C4 明确地从 Sobel 图中检测人体轮廓。假设 2：相邻像素间差值的符号是编码轮廓的关键信息。我们经常使用梯度来检测轮廓，而梯度是通过相邻像素做差来获得的。我们将说明差值的符号是编码轮廓的关键信息，而差值的幅值(大小) 并没有符号重要。为了证明此假设，对于给定的图像 I，我们生成图像 I，I 与 I 保持相邻像素差值符号的一致，但差值大小被忽略

12、。即其中 p1 和 p2 是任意一对相邻的像素。举例如下：上式中，I 中的 96 对应 I中的 3，因为存在比较路径：2323896。换句话说，虽然 I中忽略了差值的大小，但元素之间的空间相对位置仍会提供一种大小关系。此外，I 和 I中的梯度幅值也会有很大不同。将图 1b 看做 I，则图 1c 就是对应的 I(像素值变换到0,255区间)，可以很容易地从中检测出人体轮廓。我们仍通过实验验证假设 2，使用原始 HOG 检测器在梯度符号图( 类似图 1c)上进行人体检测，在 1FPPI 时达到了 61%的精度，比14中评价的 7 中方法的精度都要高。虽然在 Sobel 图和符号图上的检测精度都比较

13、低，但要注意到，所用的分类器都是在原图上进行训练的，我们在没有改变原始 HOG 分类器的情况下就取得了比现有的一些方法还要高的精度。这充分证明了，人体检测中最有用的信息是人体的全身轮廓信息，而相邻像素的差值符号是编码轮廓信息的关键。B CENTRIST 描述子我们建议使用 CENTRIST 描述子13来识别人体，因为它简洁的编码了关键的符号信息，并且不需要图像的预处理和后处理。CENTRIST 意思是 CENsusTRansform hISTogram。在此节中我们会说明为什么 CENTRIST 描述子适合人体检测，并将 CENTRIST 描述子与其他描述子进行对比(在 Section-C 中

14、)。CensusTransform(CT，普查变换)最初是为了建立局部区域的一致性而设计的22。CT 比较像素点与其周围像素的灰度值大小，如下式所示：如果中心像素值大于或等于周围的某个像素值，对应位置的值为 1，否则值为 0。从像素值比较得到的这 8 个值以一定的顺序( 我们以从左到右、从上到下的顺序)排列在一起，转换为 0,255间的一个十进制数，这个数就是中心像素的 CT 值。CENTRIST 描述子就是这些 CT 值的直方图13。如公式(3)所示，CT 值简洁的编码了相邻像素的差值符号信息。CENTRIST 所遗漏的似乎只有捕获全局(大尺度) 轮廓的能力。对于给定的具有 CENTRIST

15、描述子 h 的图像 I，和有匹配的 CENTRIST 描述子的图像 I，我们希望 I与 I 相似，尤其是在全局轮廓上相似。如图 2 所示，图 2a 是一个 108*36 的人体轮廓，我们将此图分割为 12*4 个块(block) ，每个块的大小是 9*9。对于每个块 I，我们找到具有相同 CENTRIST 描述子的图像 I。如图 2b 所示，根据 CENTRIST 描述子重建的图像与原图很相似，虽然图像的左边有些许错误，但人体轮廓的全局特征仍被很好的保留下来。图 2 从 CENTRIST 描述子重建的图像CENTRIST 描述子不仅编码了最重要的局部差值符号信息，而且还隐式地编码了人体的全

16、局轮廓信息，所以我们认为 CENTRIST 描述子可以很好的表达人体轮廓。C 与 HOG 和 LBP 的比较在本节我们将 CENTRIST 与 HOG 和 LBP 这两个最常用的人体检测描述子进行对比。对于分类来说，同类别样本的特征向量应该彼此相似，不同类别样本的特征向量应该不相似。对于任意样本 x，计算 x 与所有其他样本的相似度。设 xin是同类别的样本中与 x 相似度最高的，x out是不同类别样本中与 x 相似度最高的。s(x,y)表示 x 与 y 的相似度，值越大表明相似度越高。很明显，我们希望 sNN = s(x,xin) s(x,xout)值是正的并且越大越好。s NN是正值表明

17、 x 被最近邻规则正确分类。因此 sNN是一个直观并且易计算的评价描述子是否适合分类的标准。在图 3 中，我们在 INRIA 数据集1上对比了 CENTRIST(在 Sobel 图上)和 HOG(在原始图上)。我们使用 2416 个含人体的正样本，从 1218 个不包含人体的图中随机截取 2436 个不包含人体的负样本( 每个图上截取 2 个)。图 3a 显示了 CENTRIST 和 HOG 的 sNN值分布。相似度被归一化到0,1之间，负 sNN值(在黑色虚线的左边) 表示被最近邻规则分类错误。很明显 CENTRIST 的结果都在正确的一边(2.9%错误)，而近乎一半的 HOG 结果在错误的

18、一边 (46%错误) 。图 3b 进一步表明 HOG 的错误多数都在数据集的前一半，即含人体的正样本部分。图 3a图 3b在13 中已讨论过，HOG 或 SIFT 描述子23描述的更多是图像的详细局部纹理信息，而不是结构属性 (例如轮廓)。我们进一步推测这是由于 HOG 中使用的局部差值大小描述的更多是局部纹理信息。很明显我们也无法从 HOG 或 SIFT 描述子重建一个图像。在图 3 中，HOG 描述子使用 L2 范数归一化，相似度 s(x,y)= xTy；对于 CENTRIST 描述子，使用直方图交叉核 24来计算相似度。CENTRIST 描述子和 LBP 很相似，如果我们将公式(3) 中

19、的所有 1 变为 0、0 变为 1，则修改后的公式就是计算 3*3 区域的 LBP 值25的一个中间步骤。然而，更重要的区别是 LBP 值如何使用。人体检测方法中使用统一 LBP(uniform LBP)58，非统一 LBP 放在一起，由于非统一 LBP 被丢弃了，无法根据 LBP 描述子重构全局轮廓。此外，58中对像素值进行了插值处理，使得描述子只能编码模糊过的重要图像信息(相邻像素差值符号 )。我们计算了统一 LBP 描述子的 sNN分布，有 6.4%的最近邻分类错误率，比 CENTRIST(2.9%)的两倍还多，但要好于 HOG(46%)。我们猜想是 LBP 中不完整且模糊的符号信息对于

20、噪声和局部纹理干扰的敏感度没有 HOG 描述子那么高。快速线性方法和检测框架鉴于 CENTRIST 描述子的优点，我们使用它来进行人体检测。使用 108*36 大小的检测窗口，将检测窗口分为 9*4 个块(block)，每个块的大小为 12*9，含 108 个像素。类似论文1，我们将每个相邻的 2*2 个块组成超级块(super-block)，并从每个超级块中提取CENTRIST 描述子。超级块之间有一半的重叠，所以一个检测窗口内共有共有个超级块，由于每个超级块中 CT 值(取值范围为0,255)的统计直方图为 256 维，所以特征向量的维数是 256*24=6144 维。由于 CT 值的计算

21、需要 3*3 的区域，所以会忽略超级块周围一像素宽的边缘。A 使用线性分类器进行快速扫描假设我们已经训练好了一个线性分类器 R 6144，我们可以根据对应的超级块将分割为小的单元。也就是说，可以看做是 24个 i,jR 256,1i8,1j3 的串接。对于给定的特征向量为 f(同样分割为 fi,j)的图像区域，如果满足下式就将其分类为含有人体：受到论文26的启发，我们采取了一种使用固定二进制机器指令来计算公式(4)的 O(1)复杂度的方法，并通过只使用一个积分图对26中的方法进行了改进。设检测窗口大小为(h,w) ，块大小为(h s,ws)=(h/9,w/4)，超级块大小为(2h s,2w

22、s)。给定图像 I，其对应的 Sobel 图为 S，S 的 CT 图为C。对于左上角坐标为(t,l)的检测窗口，不难得到公式(4)中的 Tf 等于：表示 i,j的第 k 部分， C(x,y)表示 CT 图像 C 中的像素，x 从 2 开始，到 2hs-1 结束，避开一个像素宽度的边缘。然后构造一个辅助图像 Ai,j，1i8,1j3，与输入图像 I 大小相同。辅助图像 Ai,j在(x,y)处的像素值设为：所以，公式(5)变为：使用积分图技巧，公式(7)中括号内的部分可通过三个算数操作计算得到，所以公式(7)( 等于公式(4)可以在 O(1)时间内计算得到。CENTRIST 描述子的优点是不需要

23、进行归一化，而 HOG1描述子必须进行归一化。我们可以通过累加像素贡献的方式计算 Tf，而不需要明确地生成特征向量 f。公式(7)和26中的 ESS 空间金字塔匹配方法很相似，但是不需要生成多个积分图，我们只需要定义一个辅助图像 A：当 nx=8,ny=3 时，有：只需要一个积分图来计算公式(9)，即节省内存空间又节省时间。实际上，公式(9)计算起来要比公式(7)快 3 到 4 倍，并且公式(9)是通用的，可被用来加速其他计算。这里所描述的方法不包括图像预处理(例如平滑)和特征向量的归一化。事实上，特征提取部分是无缝嵌入到分类器中的。这些特性一起构成了一个实时人体检测系统。B 检测框架在训练方

24、面，使用 108*36 的正样本集 P 以及不包含任何人体的负样本原图集合 N，从 N 中随机裁取 108*36 大小的区域得到负样本集合 N1，用 P 和 N1训练线性 SVM 分类器 H1。然后使用二次训练程序(bootstrap 自举法、自助法)产生一个新的负样本集合 N2，也就是用 H1在负样本原图 N 上多尺度穷尽搜索误报的负样本。然后用 P 和 N2训练分类器 H2，继续此迭代过程直到负样本原图 N 中的所有区域都被 H1,H2中的至少一个分类为不含人体。最后使用正样本集合 P 和所有 Ni 的并集训练最终的分类器 Hlin。线性 SVM 分类器可以保证检测速度，但 HIK 核

25、SVM 分类器可以达到更高的分类精度174。所以我们再训练一个 HIK SVM 分类器，使用 Hlim在 N 上自举(bootstrap)出一个新的负样本集合 Nfinal，使用27中的方法训练 HIKSVM 分类器，叫做 Hhik。在检测中，使用有两个节点 Hlin和 Hhik的级联方法。我们将这种方法叫做 C4，因为是使用 CENTRIST 描述子和级联分类器基于人体轮廓信息检测人体：detecting human basedon theirContour informationusing aCascadeClassifier and theCENTRIST descriptor.C 机器

26、人上的行人检测我们将 C4 算法集成到一个机器人 iRobot PackBot 上，目的是实现机载行人检测和跟踪。首先利用 TYZX G2 立体摄像机捕捉图像，然后使用英特尔 1.2GHz 的酷睿 2 双核 CPU 处理图像。我们使用原始图像进行检测，利用距离信息估计到人体的距离，使用粒子滤波进行行人跟踪。最后，向机器人底盘和脖子转轴发出命令进行跟踪。我们将上面描述的方法和使用立体数据的当前最优方法进行比较。我们用距离图像进行人体位置的假设。使用 RANSAC 算法从立体数据中估计地平面的位置，沿着地平线采样深度信息。利用深度信息和地面坐标，可以计算出包含站在给定位置和距离的地面上的人体的包围

27、盒。这个计算出的包围盒大大减少了检测窗口的数量，从而减少计算量和误报率。图 4a,4b,4c 显示了 C4 算法的原始检测结果，根据立体数据预测的结果以及 C4 在预测结果上的检测结果。图 4 机器人上的检测示例。 (a)C4 算法的原始检测结果，(b)C4 结合立体数据的结果，(c)C4 结合立体数据处理后的结果。其中的绿线是用立体数据估计的地平面。在机器人上应用时，C4 算法使用了 3 层节点的级联分类器而不是原来的 2 层节点( 速度更快但精度低)。默认的检测流程如下：检测系统在多尺度空间上进行搜索，每个尺度的每个可能的位置上用分类器判断是否有行人。在缺乏其他信息的情况下，这是唯一可靠的

28、检测方法。然而，当有其他信息可用时，我们应该用这些信息来减少搜索窗口的数目，减少误报率。特别地，我们可以使用从立体摄像机获得的地平面信息。例如，图 4a 显示了使用 C4 算法在所有可能的窗口上进行行人检测的结果，产生了很多冗余窗口，没有考虑到在某些位置是根本不可能出现人体的这一事实28。行人必须站在地面上，根据这一事实可以限制搜索范围，如图 4b 所示的 C4 加立体数据的结果。然后再过滤多余的包围盒，即得到处理后的结果，如图 4c(在 Section-C 中有后处理的详细说明) 。结果我们在 INRIA 数据集上做了实验，在 SectionV-A 到 V-C 中讨论了 C4 的速度和精度，

29、在 SectionV-D 中讨论在机器人上的实验结果。INRIA 数据集中共有 2416 个正样本图片， 1218 个负样本原图。我们去掉样本中人体四周的像素，将样本都裁剪成 108*36 大小。测试时使用暴力搜索查找图片所有可能的位置是否含有人体，对测试图像进行 0.8 倍的连续降采样，并以步长为 2 的网格进行扫描。我们使用 Dollar 的”Pedestrian detection:A benchmark”(CVPR2009)2中的 groundtruth 和评价标准。检测到的矩形框 Rd和groundtruth 的矩形框 Rg之间的关系如公式(10)所示则被认为是正确匹配的：我们同样遵

30、守2中规定的一个 groundtruth 矩形框最多匹配一个检测到的矩形框的。A 检测速度C4 能够达到比现有人体检测算法更高的速度。在 640*480 的 20fps 视频上，使用单核 2.8GHz 处理器，现有的最快系统( 保证有较低的虚警率和较高的检测率)能达到大约 10fps9，但它是使用了 GPU 的并行处理。详细的对比结果见表 1。实时处理是很多人体检测应用所必须的特性。我们的系统在一些领域已经可以应用，例如机器人。然而，还有很多可以提升速度的空间，使得 C4 可以适应更多应用的要求，例如自动驾驶辅助系统。表给出了 C4 系统中不同模块的时间花费，这些模块都对于硬件加速(例如 G

31、PU)非常友好。表，各模块花费时间不需要显式地构造 Hlin的特征向量并不是使得 C4 如此快的唯一原因。在 INRIA 数据集上进行的测试表明，第一级线性分类器 Hlin是一个强大的分类器，可以过滤大约 99.43%的图片区域，只有不到 0.6%的图片区域需要 HIK 核分类器 Hhik的处理。C4 处理 INRIA 测试集中的所有图片用了 27.1 秒，而 HOG 检测器1需要 2167.5 秒(所以 C4 相对于 HOG 大约有 80 倍的加速)。C4 在小分辨率的图片上速度更快，在 480*360 的 YouTube 视频上速度达到 36.3fps，在 320*240 大小的视频上能达

32、到 109fps。B 在 INRIA 数据集上的检测精度图 5 显示了 C4 在 FPPW(False Positive PerWindow)和 FPPI(False Positive PerImage)两种精度指标上与 HOG 的对比。HOG 用的是论文1中的可执行文件，在与其他算法对比时，我们直接使用所发表论文中的精度数值。图 5 C4 与 HOG 的精度对比C4 在 0.96FPPI 时能达到 83.5%的检测率，与 INRIA 数据集上的当前最优结果(state of the art)具有可比性，例如 ChnFtrs14和HOG-LBP8，这两个算法在 1FPPI 时都能达到大约 86

33、%的检测率。这两个方法中都使用了多特征融合， C4 中也可以使用多特征融合来改善效果。C4 比 HOG 的检测精度高(在 1FPPI 时是 74.4%)，并且比14和2中对比的很多其他方法都要好。图 5b 显示了 Hhik的 FPPW 结果( 计算 FPPW 曲线时没有使用 Hlin)。FPPI 与 FPPW 并不是线性相关的，但有相似的趋势。在误报率大于 10-4(FPPI 曲线中是 0.1)时，C4 的结果要优于 HOG，在较低的误报率时不如 HOG 好，但两者的曲线在最左边会收敛在一起。C 后处理的重要性图 5 中，C4 和 HOG 的曲线分别在 10-1FPPI 和 10-4FPPW

34、处相交，这是由非极大值抑制( NMS)引起的。在 C4 中，如果某个位置检测到的矩形框小于 3 个，就会将其看做误报。这个要求不会影响正确检测，因为由于滑动窗口步长为 2 所以真正有人的位置周围往往有很多检测到的矩形框。较小的移动步长意味着非极大值抑制会大大减少误报的个数，如图 6 所示，在两幅图像中分别有 17 个和 5 个(中间有两个距离非常近)误报窗口，进行非极大值抑制后，第一张图只有 1 个误报，第二张图中的误报全部消除了( 不懂为什么)。图 6 非极大值抑制消除误报图 5a 中的 HOG 曲线与论文14中的略有不同。在图 5a 中，HOG 在所有测试图只有 1 个误报的情况下检测率为

35、 34%，而在14中仅为 10%。相反，14中 HOG 在 1FPPI 时能达到更高的检测率(77%)，我们的实验中为 74%。虽然不能清楚地知道造成这些差别的原因是什么，但我们认为非极大值抑制和检测窗口的紧缩是重要原因。在训练时我们使用非常紧凑的 108*36 大小的窗口，在后处理阶段将检测窗口松弛到 120*42 大小。在2 或1中使用的过度松弛的检测窗口对于降低误报率是有害的。D 在机器人上的检测结果为了更好地了解机器人上使用的联合方法(C4 加立体数据) ，我们在 iRobot 的 Bedford 设备搜集的图像上进行了测试。图 7a 和图 7b显示了详细分析结果，图 7a 是 ROC

36、曲线，图 7b 是 precision-recall 曲线，其中还有不同级联级别的结果分析。图 7a图 7bROC 曲线表明加入立体信息后误报减少，然而，检测率的峰值小于无立体信息的独立 C4，这可能是由于独立 C4 并不是由在地平线上的人体所训练得来的。precision-recall 曲线同样表明在高 recall 率时加入立体信息 precision 会增加，同样 recall 率的峰值不如独立 C4高。图中展示了 ROC 和 precision-recall 曲线在不同级联级别的对比结果，表明了级联分类器对性能的提升作用。总之，加入立体信息的联合方法有助于减少误报率，增加检测速度。联

37、合方法可以减少 60%的计算量，并将漏检率降低 5 倍。总结和未来的工作在此论文中我们提出了一个实时而精确的人体检测器 C4，它使用轮廓线索、级联分类器和 CENTRIST 描述子检测人体。首先，我们通过精细设计的实验，证明轮廓是人体检测中最重要的信息源，并且相邻像素差值的符号是编码轮廓的关键。CENTRIST13特别适合人体检测，因为它简洁的编码了符号信息，并且可以捕获全局轮廓信息。本文的主要贡献是快速人体检测，C4 可以在 640*480 的图像上只使用一个处理线程达到 20fps，并且达到与当前最优的检测精度可比的精度。CENTRIST 不需要耗时的预处理和特征向量归一化操作，并且，使

38、用线性型分类器和 CENTRIST，我们不需要显式生成特征向量，只需要 O(1)时间来表示一个图像块。当前 C4 的检测精度不如8和2中描述的方法，然而，通过使用 8和2中的多特征融合方法，C4 也可以改善检测精度。此外，C4对于硬件加速非常友好。最后，我们在配备 Intel 酷睿 2 双核 1.2GHz CPU 的机器人 iRobot PackBot 上，将 C4 与立体视觉信息融合，在不影响机器人其他功能的前提下达到了精确的实时人体检测效果。论文下载： 2011 ICRAReal-Time Human Detection Using Contour Cues南京大学吴建鑫教授的主页：http:/ C4 的源码

展开阅读全文