1、教师:沈秋 Email: TEL:15005161685航天学院 航天信息与应用系,视频信息与应用,第四章 运动估计,http:/ ,运动估计的应用,计算机视觉 机器人导航,无人驾驶飞机 目标跟踪 军事侦察、地面和空中的交通管制 工业监视 工业自动化控制 视频压缩,特征对应,运动物体上的特征与其在二维图像平面上的投影坐标的对应关系,特征点 特征直线 特征曲线,二维运动估计,估计运动前后相邻时刻两幅图像上对应点的坐标二维运动矢量亮度守恒假设 物体点的亮度(或色度)在其运动轨迹上保持不变,二维运动估计,存在的问题 遮挡问题 由于物体的运动,被物体遮挡或新露出来的部分,二
2、维运动估计,存在的问题 孔径问题 通常只能确定于图像梯度方向一致的运动分量,成为法向流,二维运动估计,存在的问题 噪声问题 噪声不可避免 运动估计对噪声非常敏感,二维运动估计,模型及方法 参数模型:物体运动被建模为某种映射形式。 全局 - 摄像机移动、单个运动物体 区域 - 多个运动物体 (运动区域分割) 非参数模型:对运动场施加平滑约束条件。 光流、像素、随机场 - 估计每个像素运动矢量 块匹配 - 分割成小的规则块,估计每个块的运 动矢量 网格 - 分割成不重叠的多边形单元,可克服块失真,二维运动估计,模型及方法 4种运动模型,基于像素,全局,基于区域,基于块,二维运动估计,基于区域的运动
3、估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于块的运动估计,全局运动估计,多分辨率运动估计,基于光流的运动估计,光流 观察动态物体时在视网膜上产生连续的光强变化,如同光的“流动”。 在视频序列运动估计中,观察到的二维运动。 视频序列空间坐标关于时间的变化率 - 像素的瞬时速度矢量。,基于光流的运动估计,光流方程 亮度守恒假设:运动物体点的亮度(或色度)在其运动轨迹上保持不变,变化的是物体的位置,或,其中 为空间梯度向量, 为光流场。,基于光流的运动估计,光流方程建立在亮度恒定假设的基础上 若存在噪声,方程不能为零 通常采用最小化光流方程的误差来施加光流约束,基于光流的运
4、动估计,光流v的分解 将光流v分解为两个正交的分量:,其中: 为图像空间梯度方向上的单位矢量为切线方向上的单位矢量,只能确定图像空间梯度方向上的分量(法向流)即:孔径问题,基于光流的运动估计,图像梯度的计算 光流方程的要求:亮度函数可微分 数字视频:用有限差分法近似计算图像梯度,基于光流的运动估计,光流方程一个方程,两个未知数 多点邻域约束 假设 的邻域 内所有像素具有相同的光流矢量 运动平滑约束 对整个运动场或局部窗施加全局平滑约束 有向平滑约束 引入有向平滑,减少图像空间梯度方向上的平滑约束,二维运动估计,基于区域的运动估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于
5、块的运动估计,全局运动估计,多分辨率运动估计,基于像素的运动估计,位移帧差 像素法原理 与光流法一样,估计每个像素的运动矢量 光流法:最小化光流方程的误差函数 像素法:最小化位移帧差 位移帧差 像素x从t1时刻到t1+dt时刻的位移帧差为:为x处的位移矢量 在亮度守恒假设下,位移帧差应为0 通过最小化进行约束,基于像素的运动估计,位移帧差 与光流方程的关系,由亮度守恒假设 ,即:,两边同时除以dt,可得:,(光流方程),基于像素的运动估计,多点邻域约束 假设 的邻域 内所有像素具有相同的运动矢量,邻域 上的误差函数为:,其中,w(x)为分配给x的权重。误差函数关于运动矢量di的梯度为:,使用基
6、于一阶梯度下降的方法求解运动矢量di 也可以使用穷尽搜索法寻找di,基于像素的运动估计,像素递归法 沿图像扫描方向逐个估计像素的运动矢量 新像素的运动矢量由已估计像素的运动矢量进行预测 使用基于位移帧差函数最小化的方法更新运动矢量像素的位移矢量无需编码 解码器端使用同样的预测更新机制 估计精度较低,预测误差较大,预测项: 局部平滑约束,更新项: 光流约束,基于像素的运动估计,基于贝叶斯准则的方法 基于运动估计问题的概率公式 随机场 视频图像函数 观察模型 运动场 运动场模型 运动场估计-最大后验概率(MAP)问题,用概率密度函数建模,运动场,给定两帧图像下运动场的后验概率密度函数,基于像素的运
7、动估计,基于贝叶斯准则的方法 根据贝叶斯公式,似然性测度,运动场的先验概率模型,不包含运动矢量,视为常数,二维运动估计,基于区域的运动估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于块的运动估计,全局运动估计,多分辨率运动估计,基于块的运动估计,概述 将图像分成一个个规则的图像块,对每个块进行运动估计。 广泛应用于各种视频压缩编码标准中,基于块的运动估计,块运动模型 块平移模型 假定每个块只做二维的平移运动中的一个块B可由 中一个同样大小的块重建,非重叠块,重叠块,基于块的运动估计,块运动模型 块平移模型 缺点: 不能表征旋转、缩放和局部变形 物体边界和块边界通常不一致,
8、导致块失真 同一块可能包含多个运动物体。,基于块的运动估计,块运动模型 可变形块运动模型 可以对物体的旋转、缩放、变形建模 投影运动仿射运动双线性运动,基于块的运动估计,相位相关法 用于两幅图像自发生全局平移的情况互相关函数利用傅里叶变换两个纯平移关系的图像的相位相关函数为一个冲激函数,冲激所在位置就是两图像的全局平移矢量,基于块的运动估计,相位相关法,全局运动,基于块的运动估计,相位相关法,多目标运动,基于块的运动估计,相位相关法 N1xN2的块,可估计位移范围为dx-N1/2+1, N1/2, dy-N2/2+1, N2/2 优点: 不受照明变化等因素影响 可以为块内多个物体估计运动矢量,
9、基于块的运动估计,块匹配法 在搜索窗内寻找最佳匹配位置 块尺寸的选择,基于块的运动估计,块匹配法 匹配函数 归一化互相关函数均方误差绝对值误差匹配像素数,基于块的运动估计,块匹配法 全搜索块匹配算法 逐一计算当前块和搜索窗内所有候选块的匹配函数 复杂度:一个块需计算减法、绝对值、加法各N1N2(2s+1)2次,基于块的运动估计,快匹配法 降低计算复杂度的方法,减少每个候选块的运算量:部分失真搜索法 (提前退出法) 三角不等式法,牺牲估计精度,不降低估计精度,减少候选块的数目:三步搜索法 新三步搜索法 二维对数搜索法 交叉搜索法 菱形搜索法 其他方法:四步搜索法、遗传搜索法、钻石搜索法等,基于块
10、的运动估计,块匹配法 分数精度 真实运动未必是整数值 分数精度搜索可提高运动估计的精度,基于块的运动估计,可变形块匹配法 可对物体的旋转、缩放、变形等建模 对节点进行运动估计,块内像素的运动矢量使用节点运动矢量内插得到 比多项式表示的可变形运动模型更加直观 估计块节点的运动比估计多项式参数容易,基于块的运动估计,可变形块匹配法 内插公式K=1,退化为平移模型 K=3,对应于仿射运动模型 K=4,对应于双线性运动模型,基于块的运动估计,可变形块匹配法 节点的运动估计 匹配函数其中,最小化匹配函数方法 全搜索法:需较大的计算量 基于梯度的迭代法(Newton-Raphson),二维运动估计,基于区
11、域的运动估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于块的运动估计,全局运动估计,多分辨率运动估计,基于网格的运动估计,概述,基于网格的运动估计,概述 每个网格节点只有一个运动矢量,与其相邻的所有多边形单元共享此运动矢量,单元内像素的运动由节点的运动矢量内插得到,基于网格的运动估计,基于网格的运动估计方法 建立网格 规则网格 自适应网格 节点运动估计 最小化位移帧差函数 先后顺序 光栅扫描 根据节点处图像梯度值 分组,基于网格的运动估计,示例,二维运动估计,基于区域的运动估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于块的运动估计,全局运动估计,多
12、分辨率运动估计,基于区域的运动估计,基本思想: 将视频图像分割为多个区域 每个区域对应一个特定的运动 为每个区域估计运动参数 方法: 区域优先 运动优先 联合区域分割和运动估计,基于区域的运动估计,区域优先法 基于图像的边缘信息进行区域分割 局部区域的直方图 区域连接增长 为每个区域估计运动参数,基于区域的运动估计,运动优先法 首先估计整个运动场 光流、像素、块、网格等方法 运动场分割 聚类: 将具有相似运动矢量的像素进行聚合,形成区域。 分层:分成主导运动和次主导运动,从占主导的区域开始,剔除误差较大的区域,等到第一层;然后进一步剔除区域,直到没有剔除区域。,基于区域的运动估计,联合分割与运
13、动估计的方法 区域分割和运动估计相互依赖,相辅相成。 可交替进行区域分割和运动估计,二维运动估计,基于区域的运动估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于块的运动估计,全局运动估计,多分辨率运动估计,全局运动估计,概述 整幅图像的运动可以用单一的运动模型表示 摄像机运动-全局运动 物体运动-局部运动 方法 直接估计法 间接估计法,全局运动估计,直接估计法 误差函数,表示全局运动参数矢量 可以是仿射、双线性、投影运动模型中的任意一种,为权值系数,调节 可减小与全局运动不匹配的像素对误差函数的影响。,全局运动估计,间接估计法 假设已经得到一些特征点 的运动矢量 匹配误差
14、函数:,二维运动估计,基于区域的运动估计,基于网格的运动估计,基于像素的运动估计,基于光流的运动估计,基于块的运动估计,全局运动估计,多分辨率运动估计,多分辨率运动估计,概述 已介绍方法存在的问题 最小化误差函数可能收敛到局部最小值 最小化误差函数过程的计算量很大 解决方法 多分辨率运动估计,多分辨率运动估计,基本思想 在最小分辨率层进行运动估计 由空间低通滤波和欠取样获得 每层依次进行运动估计 对上一层运动矢量进行内插,作为当前层的初始解 通过最小化误差函数更新运动矢量 最后得到最高分辩率层的运动场 每层的运动估计可使用前面介绍的方法 基于光流、像素、块、网格等运动估计方法,多分辨率运动估计
15、,优点 运动场接近最优解的概率更大 较小分辨率层上,误差函数可以接近全局最小值,通过插值,获得高分辨率上的初始解,最后到达最大分辨率时,误差函数很可能接近全局最小值 计算量比直接在最大分辨率上进行运动估计时要小 较小分辨率层上,搜索范围限制在较小的范围,多分辨率运动估计,分层块匹配法,当前帧,参考帧,多分辨率运动估计,分层块匹配法,目录,三维运动估计,基本任务 分析和估计三维场景中物体的运动情况 应用 机器人视觉,自主导航,目标跟踪,图象监控,智能车辆高速公路系统,基于物体的图象压缩等,三维运动估计,简化模型 假设:刚体运动、物体表面由分段平面组成 方法分类 间接估计法 根据已经给出的二维运动
16、矢量来估计三维运动和结构参数 直接估计法 根据视频图像的空时亮度信息来估计三维运动和结构,三维运动估计,基于光流的运动估计,基于特征对应的运动估计,直接运动估计,基于特征对应的运动估计,概述 物体的特征 反应物体物理特性的点、线、面 通常被限制在图像空间梯度较大的区域内,基于特征对应的运动估计,基于特征对应的运动估计,最小二乘法 特点 不需要任何估计参数的概率统计特性 仅根据一组观测数据直接求解模型的参数 对于线性模型取N次观察,可得,观测数据,模型参数,观察噪声,已知的观测系数,基于特征对应的运动估计,最小二乘法 当NM, ,估计偏差程度为求导为0,则,基于特征对应的运动估计,正交投影下的运
17、动估计或其中,Z为深度参数,基于特征对应的运动估计,正交投影下的运动估计 两步迭代法 每对特征点包含5个运动参数 和一个结构参数Z 给定N对特征点对应 交替估计运动参数和结构参数,基于特征对应的运动估计,正交投影下的运动估计 两步迭代法 1)根据给定的结构参数Z估计运动参数N对特征点可形成2N个方程 使用最小二乘法可以求得运动参数 2)得到运动参数后,将运动参数带入公式,更新结构参数,基于特征对应的运动估计,正交投影下的运动估计 两步迭代法 重复1)2),直到迭代不再改变估计值 理论上需要3对特征点,实际用68对 需要良好的初始深度参数估计,深度估计的误差会反馈到运动估计,反之亦然,基于特征对
18、应的运动估计,透视投影下的运动估计令F=1,,基于特征对应的运动估计,透视投影下的运动估计 消去Z得,E为一个斜对称矩阵和一个旋转矩阵相乘,基于特征对应的运动估计,透视投影下的运动估计若三维向量 共平面,则矢量积 和该平面垂直,则有,基于特征对应的运动估计,透视投影下的运动估计 极线约束,基于特征对应的运动估计,透视投影下的运动估计 矩阵E的估计另 ,作为比例因子,需要8对或以上的特征点使用最小二乘法求解矩阵E,基于特征对应的运动估计,基于特征对应的运动估计,透视投影下的运动估计 旋转和平移估计 特征点对应没有噪声影响 解得,基于特征对应的运动估计,透视投影下的运动估计 旋转和平移估计 特征点
19、对应有噪声影响 由最小化问题求解,基于特征对应的运动估计,平面模型下的运动估计 假设三维物体表面近似为平坦表面,基于特征对应的运动估计,平面模型下的运动估计 使用透射投影,并另纯参数估计: 至少给出4对特征点,建立方程,三维运动估计,基于光流的运动估计,基于特征对应的运动估计,直接运动估计,基于光流的运动估计,概述 利用三维速度矢量在图像平面的投影 步骤 估计二维图像的光流场 根据光流和光流参数模型估计三维运动参数和结构参数,基于光流的运动估计,概述,基于光流的运动估计,正交投影下的运动估计使用迭代法估计三维运动和结构参数,基于光流的运动估计,透视投影下的运动估计,基于光流的运动估计,平面模型
20、正交投影透视投影,三维运动估计,基于光流的运动估计,基于特征对应的运动估计,直接运动估计,直接运动估计,概述 根据二维图像亮度信息直接估计三维运动和结构参数 用图像梯度替换光流矢量,可以将基于光流的运动估计推广到直接运动估计,直接运动估计,平面模型若 ,即运动矢量为零泰勒展开,直接运动估计,平面模型,直接运动估计,平面模型 给定同一平面上8个或8个以上点,计算帧差和矩阵H 再由奇异值分解法估计运动和结构参数 选用的像素点硬位于图像梯度较大的位置 只能估计较小的运动 忽略了泰勒展开的高次项 假设参数和图像变化均较小 估计较大运动,需迭代过程,第四章 运动估计,到此结束, 谢谢大家!,第四章 运动估计,到此结束 谢谢大家!,