1、计算机视觉进展,一. 立体视觉的概念,1. 计算机视觉的概念2. 立体视觉的概念,1.计算机视觉的概念,什么是计算机视觉?模拟人眼接收客观世界中可见光信息,并由大脑解释可视信息的过程,使用算法对真实图像或视频中的内容给予有效的解释。入口数据:图像、视频(可视信息) 出口数据:对可视内容的某种解释(非可视信息),应用实例:汽车牌照识别 车辆形状识别 人脸识别 拍摄场景中的人数统计 动态目标分割、定位、跟踪、行为分析,计算机视觉的三维感知,获取场景中各点相对于摄象机的距离是计算机视觉系统的重要任务之一。场景中各点相对于摄象机的距离可用深度图来表示,即深度图中的每一个象素值表示场景中某一点与摄象机之
2、间的距离。计算机视觉系统获取深度图的方法可分为两类:(1)被动测距传感(2)主动测距传感被动测距传感是指视觉系统接收来自场景发射或反射的光能量,形成有关场景光能量分布函数(即灰度图象),然后在这些图象的基础上恢复场景的深度信息。主动测距传感是指视觉系统首先向场景发射能量,然后接收场景对所发射能量的反射能量。主动测距传感与被动测距传感的主要区别在于视觉系统是否是通过增收自身发射的能量来测距。,2. 立体视觉,一、概述 立体视觉或双目立体视觉(Stereo或binocular Vision),或简称为体视。体视是人类获取环境三维信息的主要途径。 人类视觉系统 体视可经受各种干扰, 在各种光照条件和
3、光度学及几何学畸变的条件下仍能可靠地提供立体信息。体视可经受对比度的变化,在一幅图相对于另一幅图有明显的模糊或扩展时,仍能工作良好。 体视的处理是快速和实时的,并能很好地处理物体运动的情况 体视对深度信息检测的分辨率很高。 理想条件(孤立边缘)下能可靠地分辨小于1秒弧的视差。这相当于在1米的观察距离上确定大约相距0.8毫米的两个特征的相对深度,或在50厘米远处的0.2毫米的相对深度。,立体视觉是计算机视觉领域的一个重要课题,它的目的在于重构场景的三维几何信息。立体视觉的研究具有重要的应用价值,其应用包括移动机器人的自主导航系统,航空及遥感测量,工业自动化系统等。,一般而言,立体视觉的研究有如下
4、三类方法: (1) 直接利用测距器(如激光测距仪)获得程距(range data)信息,建立三维描述的方法; (2) 仅利用一幅图象所提供的信息推断三维形状的方法; (3) 利用不同视点上的,也许是不同时间拍摄的,两幅或更多幅图象提供的信息重构三维结构的方法。,第一类方法,也就是程距法 (range data method),根据已知的深度图,用数值逼近的方法重建表面信息,根据模型建立场景中的物体描述,实现图象理解功能。这是一种主动方式的立体视觉方法,其深度图是由测距器(range finders)获得的,如结构光(structured light)、激光测距器(laser range fin
5、ders) 等其他主动传感技术 (active sensing techniques)。这类方法适用于严格控制下的环境(tightly controlled domains),如工业自动化的应用方面。 第二类方法,依据光学成象的透视原理及统计假设,根据场景中灰度变化导出物体轮廓及表面,由影到形(shape from shading),从而推断场景中的物体。线条图的理解就是这样的一个典型问题,曾经引起了普遍的重视而成为计算机视觉研究领域的一个焦点,由此产生了各种各样的线条标注法。这种方法的结果是定性的,不能确定位置等定量信息,该方法由于受到单一图象所能提供信息的局限性,存在难以克服的困难。 第三
6、类方法,利用多幅图象来恢复三维信息的方法,它是被动方式的。根据图象获取方式的区别又可以划分成普通立体视觉和通常所称的光流(optical flow)两大类。普通立体视觉研究的是由两摄像机同时拍摄下的两幅图象,而光流法中研究的是单个摄像机沿任一轨道运动时顺序拍下的两幅或更多幅图象。前者可以看作后者的一个特例,它们具有相同的几何构形,研究方法具有共同点。双目立体视觉是它的一个特例。,2D 和 3D 的关系,现实存在的问题 一般的物体(Objects)都是三维的; 图像(Images)却是有关灰度,颜色等信息的阵列; 3D的深度(Depth)信息在一幅图像上不能明显的显示出来。 2D的分析需要3D的
7、信息 物体表面是连续,平滑(Smooth)的; 物体都有特定的形状和边界。 3D的信息可以通过2D的图像计算出来 视差(Disparity),深度(Depth)信息等等。,为什么需要两个眼睛?,物体的深度信息不能通过单眼所获得,为什么需要两个眼睛?,1、工作原理,双目立体视觉三维测量是基于视差原理,由上式可知,对于一组给定的摄象机参数,提高场景点深度计算精度的有效途径是增长基线距离T,即增大场景点对应的视差。同时也带来一些问题,主要有:(1)随着基线距离的增加,两个摄象机的共同可视范围减小;(2)场景点对应的视差值增大,则搜索对应点的范围增大,出现多义性的机会也增大;(3)由于透视投影引起的变
8、形导致两个摄象机获取的两幅图象中不完全相同,这就给确定共轭对带来了困难。,极线几何,基线:左右两像机光心的连线; 极平面:空间点,两像机光心决定的平面; 极点:基线与两摄像机图像平面的交点; 极线:极平面与图像平面的交线。,外极线几何(Epipolar geometry),外极线几何(Epipolar geometry),外极面(Epipolar plans) 所有通过二个摄像机光心的平面 每个空间点有一个外极面 外极线 (Epipolar lines) 外极面与图像的交线 外极面上的空间点投影到每个图像平面中的外极线上 外极点( Epipoles) 每个图像中的外极线都通过该图像中的外极点
9、外极点与另一个摄像机的光心的投影对应 立体视觉摄像机的光轴平行时外极点在无穷远处,外极线-如果已知空间点在一个图象平面中的成象点要寻找在另一图象平面中的对应点时,只需沿此图象平面中的外极线搜索即可,图示系统中,视差与光轴交角有关。对于任一光轴交角,在空间中总存在一个视差为零的表面。比这一表面远的物体,其视差大于零;比这一表面近的物体,其视差小于零。这三组视差可用于解决匹配不确定问题。,距离和深度 距离是指从观察者到物体的客观实际距离; 深度(depth)是指由观察者感觉到的主观距离,通常是测量相对于定位点或某个空间点的距离。 立体视觉处理的组成: 寻找在两幅图象中都便于区分的特征,或用于匹配的
10、基元(primitive) 把左、右两幅图象中的有关特征进行匹配,即解决特征匹配的方法问题 确定摄象机的相对几何位置和有关参数,即摄象机的校准(Calibration) 根据视差计算成象物体相对摄象机的距离 深度信息内插。 (即:摄象机模型、特征提取、特征匹配、视差和深度计算、 深度信息内插五部分),上图是由两个摄象机得到的真实图象对。立体重建的关键是特征点匹配,从左图中任取一点p1,计算机如何找到在右图中与它的对应点p2。即匹配问题。,立体匹配,选取何种匹配基元进行匹配?两种主要的方法 特征匹配 稠密匹配,特征匹配,常用特征边缘线 (长度、方向、平均对比度)角点 匹配算法在立体图对中抽取特征
11、定义相似度利用相似度和极线几何寻找匹配,对于左图像中的每一个特征在右图像中寻找 当相似度达到最大时的偏移量就是视差,稠密匹配,找到对应于场景中同一点的像素 通常假设 经过立体校正 分块平滑表面 朗氏表面 目标: 找到视差图,局部算法 (Local/window-based algorithms): 在匹配点的一个特定窗口中计算相似度。 SSD, SAD, MSE, MAD,etc.全局算法 (Global algorithms): 能量方程: 模拟退火(Simulated annealing), 动态规划 (Dynamic Programming), 最大流(Max-flow), 图像分割(g
12、raph-cut), etc.,特征匹配 VS 稠密匹配,特征匹配 (Feature match): 速度快,匹配效率高; 特征的提取可以到亚像素级别,精度较高; 匹配元素为物体的几何特征,对照明变化不敏感; 重建需要拟合。 稠密匹配 (Dense match): 重建不需要拟合; 速度慢,效率低; 对于无纹理,纹理不明显的图像匹配效果不理想; 对光强、对比度、照明条件敏感。,2、匹配基元的选择,搜索对应点时的多义性的解决 1.在单幅图象作预处理时通过抽取图象局部结构较为丰富的描述来减少错误对应的可能性 2.在两幅图的对应点间作匹配时应用选择性规则来限制搜索空间 匹配基元的类型 1. 在所有图
13、象点上抽取的量测: 这类匹配基元一般是在每个象素位置处都产生一个描述。这些特征表示图象中的局部结构状态.属于这类的匹配基元有以下几种: (1) 象素灰度 (2) 局部区域的灰度函数。在各种大小窗口中求得的灰度分布的导数可用于产生描述各点周围结构的矢量 (3) 卷积图象的符号. 把图象与各种大小的算子卷积后,图象中各点的符号可作为原始图象特征的描述。,2. 图象特征 这种匹配基元较为符号化,它检测图象中包含丰富信息的结构所在的位置,例如图象中的边缘,这些边缘可能与景物中表面之间的边界相对应。与象素相比图象特征数量较少 (1) 卷积图象中的过零点。这种方法是由Marr和Poggio,Marr和Hi
14、ldreth提出和发展的。它虽然也可用于检测边缘,但是更确切说这种方法的目的是检测稳定的、稠密的表面标志。按这种方法任何小的影调变化或小的纹理变化只要稳定都是一个特征 (2) 边缘。这种基元试图抽取景物中表面之间或不同颜色区域之间的实际边界。这种匹配基元上还可以带有如边缘方向、对比度、长度、边缘曲率等附加信息,物体的外轮廓线一般不能作为匹配的特征,如右图,曲面上的外轮廓线不是物体表面法线方向的不连续点,而是曲面可见部分与不可见部分的分界线。与视点有关。,3、匹配规则(matching rules),约束条件-这些约束条件是根据对匹配环境所作的假设产生的 1. 相容性(Compatibility
15、)约束如果两个匹配基元确实是由同一物理标记产生的,那么它们就可以匹配起来 一种是基于光度学不变性的性质 另一种相似性的假设是根据几何学不变性2. 唯一性约束- 图象中的每个匹配基元最多只能有一个视差值3. 连续性约束-视差值的变化在图象中几乎处处平滑,4. 外极线约束利用外极线约束可以将二维搜索问题变为一维搜索问题。如图,空间某一距离区间内的一条直线段对应外极线上的一个有限区间。,图7.3 两个视网膜上成象对应关系的多义性,体现约束条件的匹配规则,1. 对相似性测量的本质作出规定的规则 (1) 区域的统计量 (2) 边界的统计量 (3) 点的统计量 2. 视差梯度限制规则 (1) 排序约束 (
16、2) 视差梯度范围限制 (3) 由粗到细的匹配规则,4、算法简介,立体视觉算法可分成两大类: 以密集的基元测量为基础,称为基于区域(area-based)的算法。这类算法的典型例子是利用小区域上的相关技术 可得到较稠密的深度数据,数据的精度较差 适合于景物中的深度变化小的情形 以在图象中相对比较稀少的、较为符号化的特征为基础,称为基于特征(feature-based)的算法 只能得到较稀疏的深度数据 深度数据的精度较高 可用于深度变化大的景物 混合算法 在匹配的不同阶段分别使用上述两类算法以期达到更高的性能,边缘匹配例,该算法使用的边缘特征是通过高斯函数的一阶导数获得的。在有噪声的情况下,使用
17、高斯梯度来计算边缘更加稳定。使用边缘匹配的立体视觉算法步骤如下:(1)用四个不同宽度的高斯滤波器对立体图象对中的每一幅图象进行滤波,其中前一次滤波的宽度是下一次滤波器宽度的两倍。这一计算可以反复通过对最小的滤波器进行卷积来有效地实现;(2)在某一行上计算各边缘的位置;(3)通过比较边缘的方向和强度粗略地进行边缘匹配。显然,水平边缘是无法进行匹配的;(4)通过在精细尺度上进行匹配,可以得到精细的视差估计。,二、 Marr-Poggio-Grimson算法(MPG算法),以不同大小的 算子与图象卷积,并从中抽取过零点作为匹配基元;采用从粗到细的匹配策略,应用在低分辨率下匹配得到的信息来限制高分分辨
18、时匹配的搜索空间。这样做的优点是既具有较大的深度敏感范围,又有较高的空间定位准确性 1. 匹配基元的选择2. 匹配基元的属性 用过零点两边的符号变化和过零点轮廓来表示匹配基元的特征,的选择 dmax= 概率分布表明在 的间距内有另一个同符号过零点的概率低于0.05。这意味着如果图象中这个区域的视差小于 ,那么在 的范围内搜索时只发现正确的概率是 0.95如果搜索区域扩大到 ,所有匹配中的50%是正确和无多义性的.但可利用连续性约束加以消除 取 后,我们在dmax的距离内只能得到一个点的深度值。这只表示景物在粗通道时的深度图4. 粗通道信息对细通道匹配的导引,图7.6 粗通道信息对细通道匹配的导
19、引,图7.5 特征点的匹配,4. 粗通道信息对细通道匹配的导引,如果粗、细通道算子的宽度分别为 和 。那么在粗细通道中合适的搜索范围分别 为和 。假设 ,那么要发现这点的视差只根据细通道的信息是不行的,因为匹配点在搜索范围以外。但匹配点将在粗匹配的范围之内。因此,这时可求得粗通道中的视差 粗通道得到的匹配可为精确的视差提供一个近似的估计值。如果所选的滤波器的大小合适,则可保证相邻通道之间大致相隔一倍频程,即,通道所用 算子的宽度 大致为63,35,17,9和4个象素,三、Baker-Binford算法,1. 基于图象灰度相关的相似性量测 如窗口是MN的矩形.设,左、右窗口中第 i 行、第j列象
20、素的灰度分别为 和 差异性量测函数定义为 2. 动态规划(dynamic Programming)匹配方法 两个波形之间的对应关系可被概括成路径规划问题(图7-7),路上处点P表示右图在处的点与左图处的点相匹配 路径成本 可用前段中所述差异性量测函数来定义,把路径成本定义为 沿扫描线的积分,图7.7 动态规划匹配问题,DP算法,设, 表示右图中在 处周围灰度分布与左图在 处周围灰度分布的相似性量测,路径成本可定义为沿路径的相似性量测之和。设 是从起点到 点最佳路径的最小成本。DP算法可表示为(1) (2),3.(Baker-Binford)算法,(1) 基于边缘的相关(2) 基于灰度的相关,图
21、7.9 外极线上的边缘以及灰度分布,立体视觉研究中的新动向,三目或多目立体视觉和全景视图 遮挡问题 引入Markov Random Field approach,立体视觉中的不连续性和遮挡问题,O和O是摄像机的光心 不连续性发生在B,C,E,F 遮挡发生在A,C,D,F,立体视觉处理中的困难,噪声: 光照的变化,图像的模糊,传感器的噪声 无纹理的区域 为了得到立体视觉的匹配,纹理区域的信息需要扩展到无纹理区 深度的不连续性 信息的传播应不超越物体的边界 遮挡 在参考视图中被遮挡的象素不能与另一个视图相匹配,有遮挡时立体匹配的问题,在一个台阶处出现的遮挡情况: 前景 F;背景B,C,D,E。按一般的SSD (Sum of Square Distance)方法在有遮挡的区域(如,黑色方块处),如以象素为中心的窗口进行匹配,将出现匹配错误。,解决有遮挡情况下匹配的方法,移动窗口的方法: 白色区域中象素应用移位后的窗口在各种情况下都能得到正确的匹配 黑色区域中象素应用移位后的窗口在左,中二幅图中能得到正确匹配。,全景立体视觉,