1、第六章 基于几何光学的单幅二维图像三维重建88第六章 基于几何光学的单幅二维图像三维重建单幅二维图像进行三维重建一直是计算机视觉领域的难题,因为每一图像点都有无限多个场景点与之对应。故从光学成像的角度分析,单幅二维图像三维重建问题好像不存在较为通用的解决方案。然而反思人类自身视觉经验,仅用一只眼睛观察单幅二维图像,同样能感觉到栩栩如生的三维世界。而且完成这一过程是不需要任何意识努力,好像是全部自动进行的。这些表明人类视觉系统能轻松解决这个问题。人眼与照相机的光学成像机制几乎完全相同,故模拟人类视觉系统,计算机对单幅二维图像进行三维重建又是完全有可能的,这正是本章研究工作的基本思路与逻辑起点。单
2、幅二维图像三维重建问题的难点在于对单幅二维图像深度估计,本文第五章提出解决解决这一问题的有效方法。本章将在第五章提出的深度模型(图 5-1)的基础上,研究基于几何光学的二维图像三维重建算法。本质上讲,大小恒常性变换就是一种单幅二维图像三维重建过程。故本章也对基于心理学的重建方法与基于几何光学的重建方法进行比较,继续探讨在计算机视觉中应用视觉心理学结论的适应性问题。6.1 引言计算机视觉的研究目标是使计算机具有通过二维图像认知三维环境信息的能力,然后达到认识世界的目的,故二维图像三维重建一直是计算机视觉的主要内容。计算机视觉奠基人 Marr 名著Vision的中心内容就是力图阐述如何从二维图像出
3、发,重建客观世界物体的三维模型。从上世纪 60 年代以来,许多学者从不同的角度,提出了不同的三维重建方法,主要分为以下五类:多相机立体视觉、光度学立体视觉、用阴影求形状、基于模型重建及三灭点重建等,下面分别叙述。 (1)多相机立体视觉Stewenius 2005Rajagopalan 2004Cheng 2005 Williams 2005 马颂德 1998, pp72-93。这是指用两架或多架照相机对同一空间场景进行拍照,得到同一场景不同视角的两幅或多幅图像,并用这些图像恢复三维空间几何形状的方法。如图 6-1 所示,用两架照相机 C1 与 C2 同时观察三维空间中 P。如果我们能确定照相机
4、 C1 得到图像上的像点 P1 与照相机 C2 得第六章 基于几何光学的单幅二维图像三维重建89到图像上的像点 P2 都是空间中点 P所成的像,则称 P1 与 P2 为两幅图像间的对应点。因此空间点 P 既位于直线 O1P1,又位于直线 O2P2 上,故 P 是直线O1P1 与直线 O2P2 的交点,所以它的三维位置是唯一决定的。这就是多相机立体视觉的原理。这种方法的优点是,只要找到两幅图像间的对应点,可以精确地计算出空间点的三维坐标,同时可以避免边缘检测、图像分割等难题。这种方法缺点是,在两幅图像间,寻找对应点也是计算机视觉中难题之一。虽然人们已经提出了各种有效约束,如极线约束、相容性约束、
5、唯一性约束、相似性约束、连续性约束等Marr 1982, pp114-121,并提出了多种不同方法,如相关法、特征点匹配法、极线整体匹配法,但是对应点匹配问题并没有得到完美解决,有时不得不使用第三个照相机。(2) 光度学 (Photometric stereo)立体视觉Nayar 1990马颂德1998,pp203-205 。与多相机立体视觉方法不同,该方法使用同一相机在不同的光源照射下对同一物体拍摄多幅图像。因为光源不同,多幅图像的强度值也就不同。图像强度值是物体表面法向量(朝向)、表面照明方式、表面反射率三者的函数。如果已知光源方向,仅考虑表面散射反射率 kd (可看作常数),则计算物体表
6、面某点 P 的单位法向量只有三个独立参数 (单位法向量中有两个,另一个是 kd),故至少需要三个不同光源 (即三幅图像)。图 6-2 显示了这种方法的原理。具体计算过程分两步进行:先计算物体表面单位法向量 n;再由 n 通过求解偏微分方程计算物体的相对几何形状。与一般的立体视觉相比,光度学立体图 6-1 双照相机立体视觉三维重建示意图。视觉心理学在计算机视觉中的应用研究90视觉的一个重要优点是不需要进行图像间的对应点匹配,这是因为物体与照相机的相对位置没有变化。但这种方法也有不少缺点。首先,这种方法需要至少三个已知方向的相同光源,分别照射物体以得到不同的图像,这在现实中很难做到。其次,要假设场
7、景中的照明性质与表面性质处处相同。(3)用阴影求形状 Horn 1989 Forsyth 2003,pp80-85Castelan 2004严涛 2000。这种方法的原理与光度学立体视觉方法的原理基本相同,不同的是该方法只需一个已知光源及在该光源照射下得到的一张图像。如果假定已知表面散图 6-2 光度学立体视觉三维重建示意图。照相机光源 3光源 1光源 2物体第六章 基于几何光学的单幅二维图像三维重建91图 6-3 基于模型三维重建方法示意图。模 型 库( 预 先 设 计 )1.输 入 图 像2.部 分 图 像 特 性4.选 定 模 型 物 体5.部 分 物 体 特 性 6.求 投 影 矩 阵
8、7.物 体 投 影 图 像 8.匹 配 否3.其 它 图 像 特 性 是9.输 出 三 维 坐 标否 , 重 新 选 择 模 型 或 物 体 特 性射反射率 kd,则计算表面单位法向量(朝向) n 还有两个独立参数,但只有一张图像,故需要其它的约束条件。通常假定表面是光滑的,表面法向量(朝向)的变化也是光滑的(即可微的)。对这个假定的通俗理解是:假如我们在一个阳光照射的山坡上行走,通过观察,知道了所站位置的表面朝向及朝向的局部变化情况,那么当沿某一方向在山坡上走动时,就能根据阴影来推断出新的位置的局部朝向。所以这种方法的求解过程要解非常复杂的非线性方程,需要沿图像中的路径进行逐次积分,而这些积
9、分路径也只有在积分的过程中确定Marr 1982, pp260。这种方法在继承光度学立体视觉方法优缺点的同时,只需要一个已知光源,代价是引入更严格的约束与更复杂的计算。它也是从单幅二维图像进行三维重建的最早、最有影响的尝试。(4)基于模型重建 Ryoo 2004Wilczkowiak2001Jelinek 2001Forsyth 2003, PP401-426马颂德 1998, pp229-234。这种方法先要根据形状、几何特征的差异建立物体模型库。因为物体的几何特征不是分散在整个图像中,所以在图像与模型之间,只要对应了图像物体一小部分特征,就可以在模型中发现图像物体的大部分特征。这种方法又被
10、称作假设验证方法,它的主要重建过程示意图见图 6-3,由三部分组成。首先,假设输入图像的一部分特性与模型库中某物体的部分特性对应,并由这些对应关系计算出相机的投影矩阵(图 6-3 中的第2、5、6 步)。然后,用此投影矩阵对整个选定的模型物体进行投影(实质上是一次模拟照相机成像过程),生成模型物体的投影图像(图 6-3 中的第 7 步)。最后,将物体的投影图像与输入图像比较,如果满足规定的相似性要求,则选定的模型物体的坐标即是对应的输入图像重建的三维坐标,否则重新选择模型物体或物体的特性,进行新一轮的计算过程(图 6-3 中的第 8、9 步)。这种重建方法的主要优点是只需要单幅图像,计算过程清
11、晰,模型库可预先设计,可对整个过程进行有效的自上而下的控制。主要缺点是物体模型的表示比较困难;当模型库很大时,计算量很大。所以,这种方法主要适于工业应用场合。视觉心理学在计算机视觉中的应用研究92(5) 三灭点重建 Criminisi 2001, pp94-95。这种方法先求出图像中的三个灭点,设为 VX, VY, VZ,对应空间中的三个方向。设原点为 O = (VX + VY + VZ )/3, 以保证原点 O 不在这三个灭点构成的灭线上,如图 6-4 所示。这样VX, VY, VZ 与原点 O 可形成三个参考面,不要求它们相互垂直。设场景点 Q 的像点是 Q。 沿着 OX 方向,场景 Q与
12、参考面 YOZ 的交点为 QYZ(我们称点QYZ为点 Q在面 YOZ 上的脚点),则 QYZ在图像中对应的像点为QYZ。 QXY、 QXZ 与 QYZ 的物理含义相同,而且只要知道了这三个点的一个,其余两个点的位置就能通过三个给定的灭点的位置计算出来。三个灭点VX, VY, VZ 可用图像中的三组会聚线求出,Criminisi 提出,只要标定了QXY、 QXz 与 QYZ 三者之一,像点 Q 对应的场景点 Q的坐标就能在仿射意义下进行三维重建。此方法的主要优点是只需要一幅图像,对光源也没有要求,计算复杂度也不高。它的缺点是图像中很少同时存在三组会聚线,故得到三个灭点的可能性不大。另一个不足是脚
13、点有时很难从图像中得到。图 6-4 三灭点三维重建示意图。第六章 基于几何光学的单幅二维图像三维重建93总之,学者们已从不同的角度对三维重建问题进行了卓有成效的研究,但用单幅二维图像进行三维重建仍然是一个有挑战性的问题。6.2 单幅二维图像三维重建模型从欧氏几何学的观点,客观世界能被抽象成无限扩展的三维空间。这种三维空间可分解成无限多个相互平行互相紧挨的平面。而平面又可分解为无限多个相互平行的直线,直线可进一步分解成一个个的点。故对三维空间的重建可以归结为构成三维空间所有点的重建。但如果纯粹地从欧氏几何学出发,用单幅二维图像无法完成三维空间的重建任务。这不仅因为一幅二维图像仅仅是欧氏三维空间的
14、一个平面而已,还因为每个图像点是空间中无限多个点中的任意一个形成的(如图 6-1 中,空间直线 O2P2 任何一点 P或 P都可投影产生像点P2)。然而人类视觉系统却能够轻松地完成这种任务,故我们先分析人的视觉空间与视觉环境(Environment) 。6.2.1 人类视觉空间的特点人的视觉空间本质上不同理想的欧氏三维流形。人类视觉空间是各向异性(如上、下、左、右是不同的),有限有界的;而后者是各向同性、无限无界的。人类视觉空间更类似于超几何空间而非欧几里得空间Mach 1999。人类视觉感知是非常实在的。理想的几何空间仅存在于人们的想象中,是无法看见的。人的视觉环境与物理世界也很不相同。从微
15、小的原子到巨大的星体,物理世界无所不包;而视觉环境只是其中的一小部分,是由可用生态尺寸(从毫米到米)测量的陆地物体构成的。人类居住的地球主要由陆地,水与空气组成。大地与空气间的表面即地面(Ground)垂直于重力方向,地面倾向于被感知为平坦的表面。构成地面的单元(沙粒、草地、人工地板等)也倾向于被感知为均匀分布的。水与空气间的表面在视觉环境中可以看作另一种地面。地面上有各种各样的物体。地面为这些物体提供稳定支撑。位于地面与物体之上(或之间)的开放空间构成了天空。地面的特殊情况是室内的地板,天空的特殊情况是室内的天花板。在天地之间,有三种状态的物体:固体、液体与气体。液态的形状是由包围它的固态容
16、器物体的形状决定的。气态物质基本上没有形状,对它们的识别视觉心理学在计算机视觉中的应用研究94是很难的。故在视觉环境中,最重要的是固体物体。计算机视觉领域中的物体一般也是指固体。固体物体是可以存在时间较长的物质,一般由闭合或几乎闭合的、不透明的表面构成;固体物体的一个重要特性是刚性(Rigidity),即它表面的形状是不容易改变的。常见的气体是空气,它充满在地面与物体之上(或之间)空间之中,一般为透明的,能迅速以直线方式传播光线。地面与天空是视觉环境中最重要的、最基本的表面,它们是其它表面的参考面。如果看不见脚底的大地,如果看不见头顶的天空,我们根本无法感知天地之间纯粹的空间(Empty sp
17、ace)Gibson 1979。所以人类视觉空间可以抽象如下模型:以天空云彩为顶,以地面为底,物体附着在地面之上,在它们之间是纯粹的空洞(充满着空气) 。为了从二维图像感知到三维物体,首先必须从图像中把对应天空与地面的图像区域检测出来。其次,从其余的图像中分离出不同的图像物体区域。通过上述说明,现在可以得出人类视觉系统完成单幅二维图像三维重建的两个关键之处,这对本章的重建模型具有最重要、最本质的意义。(1) 因为空气一般是透明的,且能传播光,故三维空间中的不同物体,同一物体的不同表面能同时被投影到同一二维图像平面中,从而使得单幅二维图像平面有可能对应空间中的不同平面。这产生了正反两方面的作用:
18、一方面使图像点所对应的场景点的位置难以确定,这是单幅二维图像三维重建之所以困难的本质原因;另一方面也为从单幅图像三维重建提供了可能,因为该幅图像中已经包含空间三维信息,只是恢复这种信息比较困难。(2) 刚性物体的表面是闭合或几乎闭合的,构成它的空间点是相互连通的,故对物体上任何一点 M,沿着物体上的某条路径,总可以找到它在地面上的垂直投影点,称它为点 M 的脚点 M 脚 。例如,在图 6-5 中,场景点 P是场景点Q的脚点;相应的,P 的像点 P 是 Q的像点 Q 在图像中的脚点。地面是人类图像感知的最重要的参考面。由脚点 M 脚 在地面的位置,运用式(5-4),可以决定像点 M 的相对深度(
19、z 方向坐标)。由像点 M 与它脚点 M 脚 的图像距离可以决定像点 M 对应场景点的离地面的高度(y 方向坐标)。同理,可以决定像点 M 对应场景点的离相机光轴的水平距离(x 方向坐标)。这样,任一像点 M 的空间三维坐标就可由它在图像中的位置与它的脚点 M 脚 在图像中的位置共同决定。如果脚点 M 脚 无法确定,对像点 M 的重建是很难的。人类视觉系统也有这个缺陷,如在黑夜中,我们无法决定空中某亮光点的具体位置。第六章 基于几何光学的单幅二维图像三维重建956.2.2 基于几何光学的三维重建模型模拟人类视觉,现在给出本章使用的单幅二维图像三维重建模型,见图 6-5,它是图 5-1 的扩充。
20、先进行符号约定:(1) 图像点用大写字母表示,如像点 P、 Q, M, N,它们对应的第一个场景点用相应字母加一个单引号标记,如 P, Q, M, N;对应的第二个场景点用相应字母加两个单引号标记,如 Q。(2) 图像点的坐标、坐标轴用小写字母表示,如点像点 M(x, y)、x 轴等,而三维空间点的的坐标、坐标轴用大写字母表示,如场景点 M(X, Y, Z)、X轴等等。(3) 任意两点 P, Q 的距离用 d(P, Q)表示。这个模型的输入是由被动视觉方法得到的单幅二维图像,每个图像点的坐标位置以像素为单位,如像点 M(x, y);它的输出是各图像点对应的场景点的三维坐标,如像点 M 的对应场
21、景点 M(X, Y, Z)。视觉心理学在计算机视觉中的应用研究96图 6-5 考虑实际地面的相机针孔成像模型示意图(图像平面的比例被相对放大了) 。在此模型中,实际地平面 被假定是理想平面,相机光心离地面的物理高度(h c)是重要的感知因素,f 是针孔到像平面的垂直距离。像平面(Image plane) 中的点 U, P, Q, M, N 分别是场景点 U, P, Q ,M, N 所对应的像点。场景点 N 是场景点 M 在实际地面 上的垂直投影点(脚点) ;像点 N 是像点 M 在图像地面上的脚点。灭点(Vanishing point)V 是相机光轴穿过相机图像平面 所形成的交点 , 它一般位
22、于平面 的中心,即相机胶卷平面的中心。在相机光轴(Optical axis)在地平面 上的垂直投影为直线 AEUP,其中点 E 是相机针孔 (Pinhole) O 在地平面 上的垂直投影,场景点 P 是场景点 N 在直线 EUP的垂足,点 A 是灭点 V 在实际地平面 上的垂直投影。线段 QM 与线段 PN 平行,空间四边形 QM PN 是矩形,与像平面 平行。 点 P, P, U,U,Q,Q,E,A,V 与针孔 O 共面的,这个平面记作 , 它既垂直于平面 又垂直于平面 。直线 QQ 与地平面 的交点为 Q,该点应位于直线 AEUP上。 像平面 的中间线 L3 把整个图像平面分成两部分:图像
23、天空(Image sky,下面部分)与图像地面(Image ground, 上面部分) 。图像坐标轴与原点、三维空间的坐标轴与原点如图设置,X m, Ym, Zm 是图像点 M 对应的场景点 M 的三维坐标。相机模型是考虑实际地面的针孔成像模型,在此模型中,相机离地面的高度是针孔模型中重要的因素;相机像平面被假定是与实际地面垂直的。假定图像点的脚点存在( 否则,用本章的方法无法进行三维重建)。图 6-5 中的像平面是倒立的,原点 B 设在图像的右下角;图像坐标的 x 轴第六章 基于几何光学的单幅二维图像三维重建97设为像平面底端边界,方向如图向里;y 轴为右边边界,方向如图向上(在后面实验中,
24、图像是正立的,原点位置、坐标位置与方向要进行相应的调整)。三维空间的原点设为针孔 O 在地面的垂直投影点 E;三维空间的 X 坐标轴为过原点E 与图像平面 平行的、位于实际地平面 上的直线,方向如图所示向外; Y坐标轴为直线 OE,方向如图所示向上;Z 坐标轴为实际地面 的中轴线 EUP(相机光轴在地平面 的垂直投影线),方向如图所示。因为我们的目的仅是验证三维重建模型的有效性,所以对图像地面、天空与物体等图像区域的分割、对脚点位置的标定等工作都是手工进行的。这个三维重建模型有很多实际应用,如移动机器人对空间物体的体积估计、基于计算机视觉的车辆自动导航系统对前面车辆或其它物体准确定位与测量等等
25、。在这些应用中,地面几乎是理想平坦的。地面被假定是平的,这合乎人的感知经验Gibson 1979, pp10,33,131。在日常生活中,平坦的视觉局部参考地面是很容易找到的。人工的地面几乎都是平坦的。当我们欣赏湖光水色时,水面是平坦的。当我们散步时,局部路面看上去一般也是平坦的。6.3 像点三维坐标计算如上章所述,根据几何光学知识与图 6-5 中的成像模型,客观世界中于实际天空与实际地面之间的地平线(灭线),一定会沿着光轴投影到像平面 上,形成一条直线,记作 L3,该线也一定会与地面平行(见图 6-5)。我们称 L3 为像图 6-6 在图 6-5 中的平面 , 点 P, P, U,U,Q,Q
26、,E,A,V 与针孔 O 共面。H c 是相机高度, f 是针孔到像平面的垂直距离。 (图像平面的比例被相对放大了)视觉心理学在计算机视觉中的应用研究98平面的中间线(Middle line),并称 L3 中点为像平面的灭点(Vanishing point)。L 3也必然将像平面分成两部分:图像地面(Image plane)与图像天空(Image sky),它们分别是由实际地面与实际天空投影形成的。当像平面与实际地平面垂直时,L3 与像平面的水平中轴线重合。如图 6-5 所示,图像点 M 的对应场景点为 M。M在实际地平面 上的垂直投影点为场景点 N,它即点 M的脚点。场景点 N在图像平面 投
27、影形成的像点为 N,故像点 N 是像点 M 在图像平面 上的脚点。图像点 M 对应的场景点 M的三维坐标 Xm, Ym, Zm如图 6-5 所示。Z m 就是上一章所定义像点 M 的感知深度,用式(5-4)很容易求出。因为空间四边形 QM PN 是矩形,X m 就是场景点 P 与场景点 N 间的距离 d(P, N);Y m 就是场景点 P与场景点 Q 间距离 d(P, Q), 也即场景点 Q离实际地面 的高度。因为三维空间的对称性,并根据相机成像的高斯放大率公式 刘涤民 1990, pp36-37,只要求出了Ym,X m 也可同理求出。下面详细介绍 Ym 的计算原理。图 6-5 表明,点 P,
28、 P, U,U,Q,Q,E,A,V 与针孔 O 共面的,这个平面记作 , 它既垂直于平面 又垂直于平面 。为了更容易看清各点之间的关系,平面 被单独显示在图 6-6 中。从图 6-6 可以看出,线段 PE 的长度 , 即 Zm, 是像点 P 的感知深度(PD),故根据式(5-4) ,有Zm = d(P, E) = hcf / d(P, V) (6-1) 这里 , f 是针孔到像平面的垂直距离,一般为成像时的焦距。线段 QE 的长度就是像点 Q 的感知深度(PD),故根据式(5-4) ,有d(Q, E) = hcf / d(Q , V) (6-2)也容易看出,三角形 Q Q P与三角形 Q QA
29、 是相似的,即Q Q P Q QA (6-3)Ym 就是场景点 P与场景点 Q 间距离 d(P, Q),故有Ym = d(P, Q) = d(A, Q)d(P, Q ) / d(A, Q ) 第六章 基于几何光学的单幅二维图像三维重建99= hc + d(Q ,V) d(Q, E) - d(P, E) / d(Q, E)+ f (6-4)先分析等式右边第一项。在实际的成像过程中,相机的 CCD 感光器(或胶卷)的对角线尺寸一般 20 毫米,d(Q ,V)最大不到它的一半 (10 毫米);而相机成像时的高度 hc 一般在 1 米 (1000 毫米)以上,即 hc 远远大于 d(Q ,V), 有(
30、6-5) ),(VQdhc再分析等式右边第三项,针孔到像平面的垂直距离 f 一般为成像时相机的焦距,通常小于 100 毫米,而物距 d(Q, E)通常在 1.5 米以上(近距离翻拍除外) ,即 d(Q, E) 远远大于 f, 故有(6-6)fEQd),(),(将式(6-5)、式(6-6)代入式(6-4),可得Ym = d(P, Q )= hc d(Q, E) - d(P, E) / d(Q, E) = hc 1 - d(P, E) / d(Q, E) (6-7) 再将式(6-1)、式(6-2)代入式(6-7),可得Ym = d(P, Q ) = hc 1 - d(Q , V)/ d(P, V)
31、 = hcd(P, Q)/ d(P, V) (6-8) Ym 的计算公式(6-8)比较简单,等式右边由三项构成。第一项是成像时的相机高度 hc,这对同一图像中所有的像点都是相同的;第二项是场景点 P、 Q 对应的图像点 P、 Q 间的图像距离 d(P, Q); 第三项是像点 P 的图像高度(图像高度的概念见本文 5.3 节),即像点 P 在图像平面上到中间线 L3 的距离。摄影时,如果使用三角架,h c 是非常容易测量的,较好的三角架能直接读出相机的高度。后两项能直接从图像中得到。同时,可以看出,在成像过程中,Y m 被放视觉心理学在计算机视觉中的应用研究100大的倍数为 hc / d(P,
32、V)。高斯放大率公式告诉我们,在同一共轭面内,理想透镜成像的放大率是个常数,这也是垂直于光轴的平面物体所成的像与物相似的原因 刘涤民1990,pp36-37 。所以,X m 与 Ym 的放大倍数相同 。 而且,根据三维物理空间的对称性,X m 应与 Ym 有相同的形式,即Xm = d(P, N) = hcd(P , N)/ d(P, V) (6-9)结合式(6-1)、式(6-8)、式(6-9),我们能得到图像点 M 的对应的场景点 M在物理空间的三维坐标如下,Xm, Ym, Zm = hcd(P, N)/ d(P, V), hcd(P, Q)/ d(P, V), hcf / d(P, V) (
33、6-10)在式(6-10)中,各种距离是用米制单位表示的。然而,用图像数据中,d(P , N)、 d(P , Q)、 d(P, V)通常使用像素单位(Pixel unit)表示,而 hc、f 依然是用米制单位表示。现把 d(P, N)、 d(P, Q)、 d(P, V)以像素为单位的距离分别记为 d(P , N)pixel、 d(P, Q) pixel、 d(P, V) pixel。不失一般性,设 CCD 传感器上每像素的高度是s 毫米,即 s 的单位是毫米/像素,类似于式(5-3)有d(P, N) = sd(P , N)pixeld(P, Q) = sd(P , Q)pixeld(P, V)
34、 = sd(P , V)pixel (6-11) 将式(6-11)代入式(6-10),则式(6-10)改写为,Xm, Ym, Zm = hcd(P , N) pixel / d(P, V) pixel, hcd(P , Q) pixel / d(P, V) pixel,hcf /(sd(P, V) pixel) (6-12) 从式(6-12)可以看出,X m, Ym, Zm 都有相机高度 hc 这个因子项,而对同一图像中的所有点 hc 是相同的。如果仅想进行相对三维重建,则可以将 hc 这个共同因子项约掉,故各图像点对应点的相对三维坐标为:第六章 基于几何光学的单幅二维图像三维重建101Xm,
35、 Ym, Zm 相对 = d(P, N) pixel / d(P, V) pixel, d(P, Q) pixel / d(P, V) pixel, f /(sd(P, V) pixel) (6-13)如果用数码相机摄影,从图像文件的元数据(Metadata)中,可直接得到f(Focal length, 一般以毫米表示)。这样,式(6-13)中只剩下因子 s 无法从图像数据中得到。下面介绍一种简单的标定 s 的方法。设输入图像是直立,图像矩阵维数为 mn (宽高),单位为像素,坐标原点在图像矩阵的左上角,成像时保证像平面与实际地面垂直。同时设图像地面中任意一像点 P 在图像矩阵中的坐标为(p
36、x , py),则对上一章中式(5-6)进行整理可得,s = hcf / ( zp| py n/2| ) (6-14) 这里,z p 是像点 P 的感知深度。在摄影时,对实际地面上的某显著点测量可准确得到 zp 的值。其它数据也是非常容易得到的。只需要一个点深度值就可以对 s 进行标定。在实验或实际工作时,往往测量多个显著点的深度值,统计平均,以减少测量误差。一部相机,只要一次标定。这样,对标定好的相机,仅使用图像数据信息,运用式(6-13),就可直接从单幅二维图像进行相对三维重建。 6.4 实验结果与分析实验主要包括两部分。第一部分用式(6-14)对参数 s 进行标定实验。标定时,用同一相机
37、以不同的相机高度拍摄两幅(或多幅)。先用一幅图像对参数 s 标定,再用另一幅进行验证。参数 s 验证的过程实质上是运用式 (5-5)或式(5-6)求图像各标定点的绝对深度。第二部分用标定的相机参数 s 进行三维重建实验。为了便于与测量值比较,实验时测量了相机高度,运用式(6-12)进行绝对三维重建。使用不同的型号的数码相机拍了一些图像,并对每张图像中显著点(加了标签的点)的三维坐标进行了测量。空间坐标轴的选择见图 6-5。视觉心理学在计算机视觉中的应用研究1026.4.1 Nikon-E3700 相机参数 s 标定图 6-7(与图 5-5 是同一张图) 是 Nikon-E3700 CCD 相机
38、拍摄的。各深度测量点如图标示,各点对应的深度值见表 6-1。在拍摄时,保证像平面 与实际地面 是垂直的。图像的大小为 20481536 像素(宽高),原点在图像矩阵的左上角, 相机高度 0.75 米。尽管只用一个深度点就可对参数 s 标定,但为了降低随机误差,提高精度与可靠性,本章用式(6-14) 对多点分别标定,并取各点平均值作为最终的标定结果。实验结果见表 6-1, 从中可以看出各点的计算结果可以被认为是相同的,因为 Relative stdev(s)为 1.89%(小于 5%)。表 6-1 Nikon-E3700 CCD 数码相机的参数 s 标定结果,各图像点来自图 6-7。注:n =1
39、536 像素;hp-pixel = |pyn/2 |=|py768|; 相机高度 hc = 0.75 m; 焦距 f = 5.4 mm; s = hcf /(实际 PDhp-pixel ); Relative Stdev(s) 按式(5-7)计算。序号点 P 在图像中的位置py(像素)hp-pixel(像素)实际PD (米)s(毫米/像素) 1 Closest point 1536 768 2.80 0.001883372 Line 1 1399 631 3.25 0.001974893 Line 2 1188 420 5.00 0.001928574 Line 3 1175 407 5.25
40、 0.00189545 Line 4 1058 290 7.50 0.001862076 Line 5 985 217 10.00 0.001866367 Line 6 943 175 12.50 0.001851438 Bush 1 926 158 13.60 0.001884779 Post 1 864 96 22.50 0.0018750010 Bush 2 838 70 31.00 0.0018663611 Post 2 822 54 39.85 0.0018820612 Bush 3 813 45 48.70 0.00184805Avg(s) 0.00188486Relative S
41、tdev(s) 1.89%第六章 基于几何光学的单幅二维图像三维重建103图 6-8 对表 6-1 中 Nikon-E3700 相机参数 s 的验证的显著点,图像平面是倾斜的,相机高度1.2m。图像的拍摄地点在北京交通大学博士生 9 号宿舍楼前。图 6-7 相机像平面垂直时的图像,图像垂直中轴线上的显著点用于 Nikon-E3700 参数 s 的标定,相机高度 0.75 m。图像的拍摄地点在北京交通大博士生 9 号宿舍楼前。视觉心理学在计算机视觉中的应用研究104为了验证表 6-1 计算结果的正确性,用 Nikon-E3700 CCD 数码相机拍了另外一张图像如图 6-8 所示,相机距地面的高
42、度为 1.2 米,图像平面不与实际地面垂直,图像中间线偏离水平中轴线的程度 Dml-hma 为 8.46%(向图像底端偏),其余相机设置与图 6-7 相同。用式(5-5) 分别计算了图 6-8 中各标注点的绝对深度(记为恢复 PD, 恢复 PD = hcf / (shp-pixel ),参数 s 使用表 6-1 中标定的值),并与各点实际测量的深度值(记为实际 PD)进行了比较,结果列于表 6-2 中。从表中可以看出,恢复 PD 与实际 PD 吻合得非常好,这表明表 6-1 中计算出的参数 s 是正确的。s = 0.00188486 毫米/像素,将在后面的三维重建实验中被使用。表 6-2 对表
43、 6-1 中的 Nikon-E3700 CCD 数码相机参数 s 的验证结果,各图像点来自图 6-8。注:n =1536 像素;h g= 703 像素; hp-pixel = | py n + hg | = | py 833|;相机高度 hc = 1.2m; 焦距 f = 5.4mm; s = 0.00188486 毫米/像素; 恢复 PD = hcf / (shp-pixel ),具体计算过程见第五章。序号点 P 在图像中的位置py(像素)hp-pixel(像素)恢复PD (m)实际PD (m)1 Closest point 1514 681 5.05 5.002 Line 1 1287 4
44、54 7.57 7.503 Post 1 1273 440 7.81 7.754 Line 2 1174 341 10.08 10.005 Line 3 1106 273 12.59 12.506 Line 4 1060 227 15.15 15.007 Bush 1 1045 212 16.22 16.108 Post 2 970 137 25.09 25.009 Line 5 957 124 27.73 27.5010 Bush 2 935 102 33.71 33.5011 Post 3 914 81 42.44 42.3512 Bush 3 895 62 55.45 55.7013 P
45、ost 4 891 58 59.27 59.30第六章 基于几何光学的单幅二维图像三维重建1056.4.2 Canon DIGITAL IXUS 750 相机参数 s 标定图 6-9(与图 5-9(F15)是同一张图 )是用 Canon DIGITAL IXUS 750 数码相机拍摄的。各深度测量点如图标示,各点对应的深度值见表 6-3。在拍摄时,保证像平面 与实际地面 是垂直的。图像的大小为 30722304(宽高,m n)像素,原点在图像矩阵的左上角, 成像时相机离地面的高度为 1.5 米。用式(6-14) 对图中各标示点分别标定相机参数 s,并取各点平均值作为最终的标定结果。实验结果见表
46、 6-3,从中可以看出各点的计算结果可以被认为是相同的,因为Relative stdev(s)为 1.45%(小于 5%)。表 6-3 Canon DIGITAL IXUS 750 CCD 数码相机的参数 s 标定结果,各图像点来自图 6-9。注: n =2304 像素;h p-pixe l = |pyn/2 |=|py1152|; 相机高度 hc = 1.5 m; 焦距 f = 7.7 mm; s = hcf /(实际 PDhp-pixel ); Relative Stdev(s) 按式(5-7) 计算。序号点 P 在图像中的位置py(像素)hp-pixel(像素)实际PD (米 )s(毫米
47、/像素) 1 Line 1995 843 6.40 0.0021407922 Tree1 1871 719 7.40 0.0021708083 Edge 1612 460 11.87 0.0021153074 Tree2 1541 389 13.65 0.0021752035 Tree3 1423 271 20.00 0.0021309966 Tree4 1362 210 26.00 0.0021153857 Tree5 1298 146 38.25 0.0020682258 Tree6 1274 122 44.32 0.0021361049 Tree7 1258 106 50.32 0.00
48、216538710 Tree8 1247 95 56.35 0.00215756811 Tree9 1239 87 62.10 0.002137820Avg(s) 0.002137599Relative Stdev(s) 1.45%视觉心理学在计算机视觉中的应用研究106图 6-10 对表 6-3 中 Canon DIGITAL IXUS 75 相机参数 s 的验证的显著点,图像平面是倾斜的,相机高度 0.87m。图像的拍摄地点在北京交通大学 8 号学生宿舍楼前。图 6-9 相机像平面垂直时的图像,各显著点用于 Canon DIGITAL IXUS 750 参数 s 的标定,相机高度 1.5 m。图像的拍摄地点在北京交通大学 8 号学生宿舍楼前。第六章 基于几何光学的单幅二维图像三维重建107与前面的实验相同,选用 Canon DIGITAL IXUS 750 数码相机拍的另外一张图像来验证表 6-3 计算结果的正确性,如图 6-10 所示,它与图 5-9(F14)是同一张图。成像时,相机距地面的高度为 0.87