收藏 分享(赏)

多视点视频压缩.doc

上传人:hskm5268 文档编号:6931305 上传时间:2019-04-27 格式:DOC 页数:15 大小:512.50KB
下载 相关 举报
多视点视频压缩.doc_第1页
第1页 / 共15页
多视点视频压缩.doc_第2页
第2页 / 共15页
多视点视频压缩.doc_第3页
第3页 / 共15页
多视点视频压缩.doc_第4页
第4页 / 共15页
多视点视频压缩.doc_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、多视点视频压缩Exploiting Inter-Image Similarities.Markus Flierl and Bernd GirodInformation Systems Laboratory, Department of Electrical Engineering, Stanford University, Stanford,CA 94305.显示器和照相机技术的发展刺激了 3D 场景通信的新应用。3DTV 是这些应用中最重要的,它力求为所观察到的场景创建一个逼真的 3D 深度印象。通常情况下,多视点视频指的是由不同视点的多个摄像机从不同视角拍摄同一场景得到的一组视频信号,是一

2、种有效的 3D 视频表示方法,能够更加生动地再现场景,提供立体感和交互功能。多视点视频的数据量随着摄像机的数目增加而线性增加。对于 3DTV 来说,大量的多视图视频数据需要存储或传输。在未来互联网应用中,多视点视频数据预计将消耗更多的带宽。这将包括的单播通信及组播通信。通过先进的多媒体内容分发交付网络和灵活的对等网络,将刺激多视图视频的需求以及现场广播。对于 3D 场景通信来说,由于其巨大的多视点视频原始比特数据,我们必须采用高效的压缩技术。源于同一场景下的视频数据,可利用多视点图像的固有相似性进行高效压缩。这些相似之处可分为两种类型。首先,视点间的相关性是在相邻的摄像机视像中被观察到的。二,

3、时间的相关性是在每个视频的时间连续图像里被观察到的。在众所周知单通道视频压缩编码中可通过运动补偿技术捕捉时间的相关性。扩展这个想法,基于多视图的视点间的相关性的视差补偿技术正是基于此思想进行视频压缩的。基于多视点视频数据的设计数据压缩方案,我们必须考虑一些约束条件来构建其结构。在通信的情况下,多视点视频表示应该是可靠的传输。另外,理想的是这些表示是高度灵活的,即原始数据的子集可以很容易在不同图像质量等级被访问;用户的交互性的等级可以由一个特定的多视点视频表示来支持,将是一个按需应用的重要考虑因素。最后,重建视野的质量和其代表的比特率之间的权衡,将让人在处理庞大的数据量感兴趣。多视点视频(,)是

4、当前多媒体领域的研究热点,与传统的视频不同,多视点视频系统能够提供与场景的交互能力,增加了图像中景物的深度信息,它允许用户在一定范围内选择任意视点或视角观看,用户可以实现对同一场景的多方位体验,这充分满足了用户的交互性和个性化需求,使用户获得更加真实的视觉感受。多视点视频的提出体现了下一代多媒体应用真实感、交互性和网络化的发展方向,它将解决交互视频的表现、交互、存储和传输等问题,具有广泛的应用前景,其编码技术也在过去的几年中得到了飞速发展。在多视点视频的发展过程中,有两项关键技术起着重要的作用并决定它能否被进一步应用。第一项关键技术是三维显示。为提高三维显示效果,使观察者能够得到“运动视差和“

5、环视的效果,多视点三维显示技术成为近年来在显示技术方面的研究重点。目前己有方案中,大部分方案需要在图像分辨率与视点数目之间作折衷,不能得到人们期望的效果。新近提出的多投影机与凸透镜阵列结合使用的方案能够同时提供高分辨率的图像与大量的视点数目,受到众多研究者的青睐,并被认为能在不久的将来实现商业价值, 。多视点视频发展的另一项关键技术是多视点视频内容的存储与传输。多视点视频和单通道视频相比,数据量成倍增加,所以必须采用更高效的编码压缩算法,才能对多视点视频数据进行存储和传输,同时随着人们对视频观看质量的提高,高分辨率、高清晰度、立体感和交互性是今后的趋势,这将带来数据量的急剧增加,仅仅依靠网络带

6、宽的提高和存储容量的提升是无法解决这个问题的,还必须采用高效的编码压缩技术来解决这个问题。在过去的十几年中,全世界很多学者致力于该领域的研究。为得到高效的编码效率,他们提出的方案除了利用视频通道内的空间与时间相关性外,还利用了不同视频通道之间高度的相关性(称为交叉相关性) 。早些时期,大部分的研究者提出的是针对立体视频的编码方案,然后将这些方案做简单的延伸应用于多视点视频;近几年间,由于多视点视频频应用前景的逐渐明朗,针对多视点视频的编码研究成为该领域内学者们的研究重点。在剩下的篇章,我们将首先讨论利用图像间的相似性进行多视点视频压缩的重要性。然后,我们介绍多视点视频压缩的基本方法。一类算法以

7、目前使用的预测编码视频压缩标准进行多个视图扩展。另一类算法采用自适应内次级分解和跨越不同的摄像机的视频序列。我们讨论的相对优势和这些压缩方法的缺点,当面对额外的限制,往往在实际系统中出现。1. 多视点视频图像基于深度图的多视点 3D 立体视频系统具有数据量小、传输效率高、显示内容可自适应调节,用户交互性好等优点。多视点图像是按照一定空间排列规律(平行或会聚)拍摄的同一场景的多幅图象(或多帧视频) 。 视频相机安排是根据所需的 3D 场景表示来安排的。例如,直链摄像机阵列是最简单的安排,并且提供的视差只在一个空间维度。平面相机阵列提供了更广阔的深度印象,但需要相当大数量的摄像机。作为多视点视频图

8、像捕捉相同的动态 3D 场景中,在这些图像中存在固有的相似性。我们将这些相似性分为两种。第一种是视点间的相关性,它是根据相邻的摄像机视图获取的。其次是时间的相关性,它是在每个视频的时间连续图像里被观察到的。这种分类对应的自然排列的多视点视频图像转换成一个图片矩阵(Matrix Of Pictures MOP) 。每一行有一个视图中时间上连续的图片,和每一列都包含有同一时刻捕获的在空间上相邻的视图。为了防止我们偏离摄像机线性阵列,所有的视图序列仍安排到 MOP 的行。在这里,这个想法是仅仅只是区分视图间的相似性和时间相关性。因此,进一步对子分类的视图之间的相似性分析则不是我们的目的。图 1 图片

9、矩阵为 N=4 图像序列,每个 K = 4 时间上连续的图片组成的图 1 示出的图片矩阵,对于 N =4 的图像序列的矩阵,每一个包括为 K =4 时间连续画面。 N =4 形成一组视图(GOV) ,K = 4 时间连续图片时间的图像组(GOP) 。例如,第一个视图序列的图像其中 k =1,2,.,K。我们选择 MOP 与 NK 图像讨论压缩效率,当它们联合处理 NK 图像的编码方案。联合压缩的目的是利用所有这些图像之间的相似性。稍后,我们将讨论 MOP 的大小(N ,K )对压缩性能的影响和权衡在大小为 N 组的视图和大小K 的时间图象组。2. 时间和视图之间的相似性利用多视点视频图像的相似

10、性利用是压缩效率的关键。何时考虑一个视图序列,即一行的MOP,同样的时间连续的影像视点捕捉在不同的时间距离。通常情况下,相同的对象出现在连续的影像但可能在不同的像素位置。如果是这样,对象是在运动和实用的压缩方案利用运动补偿技术来开发这个时间相似。另一方面,在空间上相邻的看法在相同的时刻,即图像在同一列 MOP,显示相同的物体从不同的视点。与以前的情况相似,相同的对象出现在邻近的视图,但在不同的像素位置。在这里,每一个图中的物体的视差和实用的压缩方案的使用视差补偿技术来开发这些视图间的相似之处。A.时间相关性考虑一个视图序列的时间连续图像,即,一行 MOP。如果场景中的物体是运动的主体,同样的物

11、体出现在连续的图像,但在不同的像素位置。要利用这些时间相似性,复杂的运动补偿技术已经在过去开发。经常使用的是所谓的块匹配技术当运动矢量建立从两个连续的图像中选择两幅连续图像之间的对应像素块的一致。实用的压缩方案是这样的运动矢量的解码器的位流的一部分的信号。可变块大小的技术激发了块运动向对象的实际形状的改变。最近,所谓的多帧的技术已被开发。经典的块匹配技术使用一个单一的前面的图像时,选择对应的参考作匹配。多帧技术,另一方面,允许选择从几个先前被传送的图像的参考; 可以选择不同的图像,对每个块。最后,叠加技术也被用于广泛的应用。在这里,指定一个以上的每块的像素的对应信号的一部分位流。用于产生多个对

12、应块的线性组合以更好地匹配时间相似。一个特殊的例子是所谓的双向预测图像相结合,产生两个对应的块。一个对应使用了时间前参考,其他使用时间的参考。广义的版本是所谓的双向预测图像。在这里,两个对应的任意一组的被选择可用的参考图像。B.视图间的相关性考虑在空间上相邻的观点,即在同一时刻捕获的,在一列中的图像 MOP。每个图像中的物体是受视差并出现在不同的像素位置的对象。要利用这个视图间的相似性,使用视差补偿技术。视差补偿的最简单方法是块匹配技术类似于那些用于运动补偿的。这些技术提供的优点是不需要知识的底层的三维对象的几何形状。但是,如果相机稀疏分布,基于块的平移差距模型无法准确补偿。更先进的视差补偿方

13、法是基于深度图像渲染算法。他们合成图像作为从一个给定的通过使用参考纹理和深度图像的视点作为输入数据。这些技术提供了给定的视点的图像进行补偿更加准确的优点,即使当摄像机分布非常稀疏。然而,这些技术依靠准确的深度图象,这是很难估计。最后,这两种方法的优点结合起来的混合动力技术,可能也应考虑。例如,如果一个深度图像的精度是不够准确的基于深度图像的渲染,基于块的补偿技术可用于选择性细化之上。C.性能界限多视点视频编码率失真效率有极大兴趣。对于单视图视频编码,已经为运动补偿预测编码建立了理论性能边界以及运动补偿的子带编码。显然,最简单的方法,多视点视频编码是对独立的各个视频序列进行编码。但是,对于最有效

14、的压缩多视点视频数据,在各视图之间的相似性也必须考虑在内。因此,文献3提出了一个数学模型来捕捉视图间的相关性和时间的相关性。它是基于运动补偿的视频的子带编码的高速率的模型。模型捕捉运动补偿精度和视差补偿精度的影响。对于这一点,它不考虑一个特定的补偿技术。相反,它假定完美的补偿上升到一个给定的运动误差和视差误差。在这种情况下,两者率失真界限完美的和不准确的补偿可以被确定。另外,该模型也捕获编码 N 个视图,与 K 在时间上连续的图片和其整体编码性能的影响。总之,它模拟的 NK 差距和运动补偿画面。这些图片是去相关的 Karhunen-Loeve 变换(KLT) ,以获得最佳的编码和实现率失真边界

15、。在这一点上,我们对在一个特定的编码方案的界限不感兴趣。相反,我们对在MOP 的( N, K)的大小给定的参数有兴趣,如多视点视频图像的压缩界限或不准确的视差补偿。在高频率,可以通过良好的编码界限最佳变换编码 KLT。这将有助于我们了解基本的权衡是固有的多视点视频编码。框 1 中记载的更详细的信号模型。图 2 率降低是由于利用 NK 图片的相似之处在高图像质量。率差异是计算通过模型相对于帧内编码的所有图像在相同的质量和计算为负,如比特率保存合资编码。率的差异给出了不同时间 GOP 尺寸 K 和视图 N.组图 2 示出典型的速率减少,可以实现通过利用 NK 之间的相似性高图像质量的图像。率的差异

16、是包含在数学模型3中并且是被计算通过所有图像的帧内编码在相同的质量。例如,大小为 N= 1 这组视图,意味着每个视频信号独立编码。通过增加时间的 GOP 大小 K,即,共同编码 运动补偿的图象,比特率降低当对比帧内的 MOP。这一观察也持有群体 N,其中 N共同视差补偿图像编码。但请注意,相对减少比特率得到更小的生长组视图 N。这一结果表明一个可能的大小之间的权衡组的视图 N 和 GOP K 时间的大小,当只考虑节省比特率。图中使用的数值。图 2 作为一个例子,共同 MOP 与 N=8 次和 K=4 收益率比平均节约率相似 MOP 与 N=2 次,K=32 暂时的图像。但是请注意,实际的量化值

17、强烈依赖于不同的多视点视频数据,特别是在场景中的运动视差补偿的准确性,噪声电平中的序列。最后,视差补偿的准确度会影响整体的节省比特率显著。可以执行的做法,既不是块匹配技术也不是基于深度图像渲染算法完美的视差补偿。闭塞和不同的照明条件之间的视图具有挑战性的。我们能够提高精度的补偿的情况下,我们将受益整体节省比特率方面。3. 压缩方案大量多视图数据的采集和处理不仅是一个巨大的挑战,但也进行压缩。高效的压缩利用多视角视频的统计依赖关系图像。通常情况下,实际计划完成预测编码子带编码。在这两种情况下,运动补偿和视差补偿,更好地利用统计依存关系。需要注意的是预测编码和子带编码的高效压缩具有不同的约束。预测

18、编码是通过顺序地处理图像。因此,次序在该图像处理是重要的。此外,在开始的序列编码决定会影响到后续的编码决定。另一方面,子带编码,不需要顺序图像处理。要被编码的图像,这是随后的子带分解由独立编码系数。因此,编码在第二阶段做出的决定不影响在第一阶段中的子带分解。在下面,我们考虑这些实际的多视点视频压缩方案,并讨论得更详细。A.预测编码预测编码方案多视点视频图像编码按顺序。两种基本类型的编码图片是可能的:帧内和帧间图像。帧内的图片进行编码,独立于任何其它图像。帧间的图像,另一方面,取决于在一个或多个已被编码的参照之前的图像。按照设计,帧内的图片不利用多视点图像之间的相似之处。但帧间的图片是能够利用这

19、些相似之处,通过选择一个或多个参考图片和产生运动和/或视差补偿图像进行有效的预测编码。基本概述的中的运动补偿的预测编码的想法在框 2 中。在选择的图像的编码顺序,应考虑各种约束。例如,编码效率高,以及良好的时间多分辨性能可能是可取的。有趣的是,这两个目标可以结合得非常好。类似于时空多尺度分解,粗时间遥远的图像分辨率层先后提炼插入帧间编码图片一半时间距离。请注意,这些帧间编码的图片使用的编码图像的粗糙的分辨率层作为参考。分层编码这种方法不仅提供了一个时空多尺度表示,而且编码效率高。分层编码,双向预测图像是非常有用的。它是一种特殊的帧间图像选择两个参考图像产生运动和/或视差补偿。它的编码效率优于“

20、基本”的帧间(预测图像) ,只选择一个参考图像补偿。图 3 与双向预测图像的分层编码的图像(MOP)的一个矩阵 (a)MOP N = 4 的图像序列,每个包括 K = 4 时间上连续的图片( b)评估不同的多视点视频舞厅在平均实现利用在每个 MOP 的大小为(N, K)的相似性为 40 dB 的峰值信噪比的图像质量。图 3(a)示出了可能的分层编码的 MOP 对 N = 4 的图像序列,由每个 K = 4 时间上连续的图片组成。每个 MOP 是被编码成一个内帧图像和 NK-1 双向预测图片。首先,每个MOP 只被分解视图方向在第一时刻。即,序列具有在第 K 个时刻的视图分解。内帧图像I0 在每

21、个 MOP 代表最低视图解析。下一个视图分辨率级别达到包括双向预测编码的图像B01。视图分辨率最高达到双向预测图像 B02。其次,重建 N 视图图像在每隔 K 个时刻的图像作为参考多尺度分解在时间方向双向预测图片。视图中的分解查看每隔 K 个时刻的方向已经代表的时空分辨率级别最低。双向预测图像 B1 是所获得的下一个时间分辨率等级。最高时间分辨率,实现与双向预测图像 B2。因此,每个 MOP 的分层编码双向预测图像生成一个与在时间和视图方向中的多分辨率表示。目前正在研究的多视点视频编码的联合视频组(JVT ) 。 JVT 开发联合多视点视频的模型(JMVM) ,这是基于标准 ITU-T 视频编

22、码 H.264 - ISO / IEC 14496-10 AVC。当前JMVM 建议照明变化的自适应运动补偿和预测结构与层次的双向预测图像。JMVM 使用基于块的编码技术 H.264/AVC 的同时利用时间相似并查看相似之处。编码结构研究在18 ,19。 H.264/AVC 标准的编解码器是一种混合式的视频编解码器,并采用的帧内编解码器和运动补偿的帧间的预测指标。当图像序列进行编码,先进的编码器控制技术从多个区域内和跨双画面模式率失真选择优化效率。一个重要的参数是多少先前解码图像存储在参考帧缓冲器。两者,率失真效率和计算复杂性的增长是随着存储的参考图像的数目。图3(b)示出得到的实验结果的包含

23、分级双向预测图像的多视点视频舞厅。它描述了帧内编码的实现率差异随着每个 MOP 内的相似之处大小(N , K) 。率差异的测量是在 40 dB 的峰值信噪比相对平均图像质量帧内编码率每 1.4 位每像素每摄像头。总之,预测编码方案是被开发良好的,并提供良好的图像质量在低比特率,特别是最新标准 H.264/AVC 的来临。虽然,这样的计划背负了顺序编码的内在约束。回想一下,编码所作出的决定开始的顺序会影响到后续的编码决定。这会影响整体的编码效率并产生多视点视频表示的有限的灵活性。B.子带编码所有图像子带编码方案进行编码子带分解后跟其系数量化和熵编码。这样的计划并不需要顺序的图像的处理,因此,提供

24、了更灵活的多视点视频申述。像预测编码,子带分解使用的多视点视频图像之间的相似性。如相似之处是利用运动视差补偿,自适应子带分解是被感兴趣的。图 4。运动和差距自适应子带编码。多视图视频是由运动和视差的多视点视频补偿子带分解表示。结果视图时空子带被编码和复用通过运动视差成一个比特流中的边带信息。一个典型的运动和差距自适应子带编码方案如图 4。 NK 图像的 NK 子带图像的多视点视频数据被变换成由运动视差补偿子带分解。只有一个子带图像,所谓的低频带图像,积累的主要能源在 MOP 的所有图像。其它 NK - 1 子带图像,即所谓的高频段图像,带着只有轻微的能量成分,那些不能集中到低频带图像。其次是空

25、间的时间视图的子带系数的编码。输出的编码器的比特流包括压缩表示的子带系数以及运动和不一致的信息。相应的解码器简单地反转处理编码器的步骤。在选择一个自适应子带编码的多视点视频变换,各种约束加以考虑。例如,给定的正向变换的未量化的子带系数,自适应逆变换,在解码器应该能够完美地重建输入图像。此外,良好的视图时空多尺度属性是可取的。这两个目标可以被结合得很好通过所谓的运动和视差补偿解除小波。小波实施与起重体系结构是可逆的,即使提升步骤中的操作是非线性的类似运动和视差补偿。此外,多分辨率表示很容易获得小波变换。类似预测编码,预测和双向预测图片利用图像之间的相似性,两种基本类型的运动补偿的解除小波是受欢迎

26、的。该基本自适应小波是运动补偿解除 Haar 小波高频段产生只从一个运动补偿图像。先进的自适应小波是运动补偿解除 5/3 小波高频段产生的两个运动补偿的线性组合图像。与自适应 5/3 小波,这是更复杂的实现更好的能量集中比自适应 Haar 小波。框 3 概述运动补偿提升小波的基本概念。图 5。图片(MOP)的矩阵的分级子带分解。 (a)MOP N = 4 的图像序列,每个 K = 4 时间上连续的图片组成。 (b)评估差异在平均图像的多视点视频舞厅利用在每个MOP 的大小为(N,K)的相似性来实现 40 分贝的峰值信噪比质量。图 5(a)显示了一个可能的视图时空多尺度分解的 MOP N = 4

27、 图像序列,K = 4 的时间上连续的图片的每一个。每个 MOP 被编码通过低频段的图片和 NK-1 高频段图片。首先,一个 2 级多分辨率分解每个查看序列在时间方向是通过运动补偿的小波的。每个视图第一帧表示的是时间的低频段 L2T,每个视图的其余帧时间高频段 H1t。二,2 级多分辨率分解时间低频段 L2 视图方向是通过视差补偿小波。分解后的 N 个时间低频段,我们得到了MOP 低频段 L2 T L2 V 和剩余的 N - 1 视图高频段 H1 v。这分解使用在第一时间即时在MOP 之间的信息差距。图 5(b)给出了实验结果获得的自适应子带的多视点视频舞厅解除小波分解。结果在一个版本的基础上

28、联合可扩展视频模式(JSVM) ,它支持自适应提升小波。情节描绘内实现率差异编码利用在每个大小为(N ,K ) ,MOP 的相似之处。请注意,速率不同的是测量是在 40 dB 的峰值信噪比相对平均的图像质量的 1.4 位每像素的帧内编码率每台摄像机。综上所述,子带编码方案的多视点图像提供更灵活的交涉。对于静态光场,这已被证明在,视差补偿小波被调查。小波的多视点视频编码的另外的例子是27中给出的。虽然,解禁小波分解,产生运动和视差补偿通常遭受补偿不匹配预测和更新的步骤,尤其是多联运动和差距字段。这种补偿不匹配改变由相应的非自适应小波变换提供的属性。例如,非自适应解除 Haar 小波是严格正交的,

29、而如果连接多运动字段的补偿运动补偿解除 Haar 小波失去正交性 。视图时间子带分解的发展,维持其正交任意运动和视差补偿仍然是一个具有挑战性的研究课题。第一次尝试在最近报告的单向运动补偿,子像素精确运动补偿,和双向运动补偿。 (框 4) 。4 压缩额外的限制压缩引擎通常是施加额外的信息或通信系统的一部分压缩方案本身的约束。基本约束是延迟和内存的要求。互动应用程序,如自由视点视频2 施加随机存取的要求,允许获取在压缩的多视点视频表示单个图像序列。另一方面,通信系统要求压缩表现稳固的传输错误并可能受益于率的可扩展性。在下面,我们重新审视上述的压缩方案,而考虑到实际的制度约束。A.延迟和内存限制延迟

30、所造成的等待时间,就是编码方案收集更多的图像源所必需的编码时所逝去的时间。预测计划的顺序编码允许灵活编码订单。此等待时间只在进行前向预测时可以减少到零。对于这种情况下,双向预测在时间方向上不能使用,因此,编码效率降低是看得到的。所允许的延迟,可以实现更高的编码增益。延迟限制是不同的子带编码方案。在一般情况下,必须考虑到 MOP 的所有图像确定低波段图像的子带分解。因此,MOP 的大小(N,K)的最小延迟时间是等待时间需要收集额外的 K - 1 时间连续的影像。内存要求指定大小的内存是必要的,以方便编码或解码。对于预测计划,多帧参考缓冲器的大小决定了内存要求。需要至少一个参考图像存储器用于预测编

31、码。而大参照帧缓冲器有可能提高压缩效率。内存要求不同也有不同的子带编码方案。在一般情况下,子带分解要求所有输入的图像用 MOP 对驻留在存储器中的编码器相关联的。因此,对存储器的要求增加 MOP 的大小,并且因此,增加所需的压缩效率。B.随机访问流媒体应用如互动光场或自由视点视频施加随机存取多视点图像的要求。随机访问是指单个图像的辅助功能或图像序列压缩表现。对于预测编码方案,获得个人图像高度依赖于实际的预测依赖。需要注意的是顺序编码要求所有中间参考图像要被顺序地解码。因此,分层编码需要促进比线性编码更多灵活的接入到单个图像。对于子带编码方案,随机访问被多分辨率子带分解促进,同样,分层表示允许灵

32、活地访问单个图像。此外,子带计划提供了机会去权衡访问和检索到的图像质量之间的负担。C.灵活的表现和坚固性实用的 3DTV 系统需要多视点视频表现抗靠不可信传输。可扩展的表现允许灵活适应网络和渠道条件。例如,视图可扩展性和时间的可扩展性,方便传输原来的多子集查看视频数据。这是通过使用两个预测和子带分层编码结构编码方案。质量可扩展性有利于在不同图像质量的传输的多视点视频水平。对于有效预测编码,在编码器和解码器的参考图片必须完全匹配。如果在不同质量水平的解码需要的话,编码器进行编码所需的全部质量水平完全匹配必要的参考图片。子带编码方案,在另一方面,处理不同的量化噪声,并允许高效优质的可扩展性。最后,

33、解码器,强大的表现应尽量减少传输错误的影响重构的多视点视频。需要注意的是预测编码器的工作在闭环方式。该量化误差能量穿过整个画面内和流离失所的帧差等于相应的重建图像。在传输错误的情况下,解码的参考帧的不同从优化的参考帧在编码器和错误传播从帧到帧,从而导致往往是非常大的传输误差能量放大。另一方面,子带编码器在一个开环的方式操作。特别是节约能源,对于这样的正交变换系数域的总的量化误差的能量等于在图像域。如果对于传输误差,同样的关系成立。因此,误差能量被保留,而不是扩增由解码器,用于预测的解码器的情况下。5 未来的挑战预测编码方案和子带编码方案两种有可能利用间多视点视频图像的相似性。预测编码方案技术先

34、进,在低比特率提供良好的图像质量。虽然背负的内在顺序编码的约束。子带编码方法为压缩表示提供了理想的性能。但这些技术是不是在同一水平的成熟度预测编码方案。庞大的数据量,配备了多视点视频呈现高度结构化的表示较为可取。自适应子带分解的额外的限制是必要的。这是一个未来的挑战,使子带编码预测方案的竞争力,同时这样的分解保持所有理想的特性。认知这项工作已经由马克斯普朗克中心的视觉计算与通信支持在斯坦福大学。附录一框 1:多视点视频统计信号模型该模型生成 NK 差距和运动补偿画面SI,I =1,2,.,NK从一个根图片 v 的两个步骤。首先,根映像序列CK,K= 1,2,.,K与 K 运动补偿的图像生成从根

35、 v。对于这一点,根图片图像移位移误差向量 1k 是由扭曲添加剂残留的视频噪音 NK 产生的。其次,N 视图序列 NK 差距和运动补偿,是从根图像生成心满意足图片序列。这里,图像的根图像序列移视差误差矢量 1,=2,3,.,N,和残留扭曲多视图噪声 zi,i=1,2,.,NK。需要注意的是根图像序列的第一图像是参考图像。其余的 K-1 图片是运动补偿的参考图像对指定的位移误差。该范围的概念也可用于 N 个视图序列。 N - 1 视图序列差距补偿相对于参考视图序列,即,首先查看序列,上升到指定的视差错误。完整的信号模型如图 6。请注意,所有的第 个视图的 K 时空的图片是移动相同的差距错误载体

36、1。我们假设每个摄像机的位置是时间不变的。因此,我们观察到相同的视差误差向量在每个额外的假设,功率谱密度矩阵 NK 运动视差补偿画面ss() = () cc() + zz() (1)其中 ()是 NN 的 N 个特征矩阵 - 1 悬殊误差,cc()是 KK 功率根图像序列的谱密度矩阵,zz()是 NKNK 细胞的功率谱多视图的剩余噪声的密度矩阵。 表示 Kronecker 积和 为载体的在水平和垂直方向上的空间频率。模型的关键参数指定位移误差和差距,以及误差分布残留的视频噪声和剩余的多视图的噪音。位移误差的方差差距错误捕获运动误差和视差不准确。例如,非常精确的运动补偿是由一个非常小的位移误差方

37、差模型构成。残余视频噪声捕获信号分量不能被删除,即使是被非常精确的运动补偿,例如,可视细节在一帧中,但不是在其他。多视角的剩余噪声捕获信号分量不能被删除,例如,相机噪声之间非常准确的视差补偿。进一步详情模型3中给出。附录二框 2:运动补偿预测编码运动补偿预测编码的图像序列是通过帧内和帧间图像作为描绘的图 7。 (a)输入图像xk 是独立编码成帧内图像 Ik。该帧内解码器是用来独立地重建图像 XK。 (b)输入图像xk 是由运动补偿(MC)参考图像 XR 预测的。预测误差,也称为位移帧差(DFD) ,被编码并与帧间的运动信息的组合构成 PK。画面间解码器反转这个过程,但需要相同的参考图像 xr

38、来呈现在解码器侧。如果参考图像在编码器和解码器一边,例如由于网络错误,解码器是不是能够重建相同的图像 xk 即编码器已编码过的。需要注意的是参考图片可以是重建内部图片或其他重建间图片。图 7(b)所示的“基本的”帧间图像(预测图像) ,只选择一个参照图像补偿。更先进的是双向预测图像,使用两个运动补偿参考图片的线性组合。双向运动补偿预测是一种特殊的双向预测图像并且被广泛使用在标准如 MPEG-1,MPEG-2 和 H.263。一般双向预测图像的概念已实现在标准 H.264/AVC 的。帧间图片已被广泛研究,并已经建立了理论性能边界。13中提出的高利率模型预测图像。这项工作已经扩展,以适应小数像素

39、精度,多重假设预测,互补的假说。附录三框 3:运动补偿提升小波运动补偿提升小波受益于具有解除的事实,实施任何小波体系结构是可逆的,因此,双正交的。提升架构具有梯形结构预测和更新步骤修改偶数和奇数样品的信号,以生成低频带和高频带样品。分别在提升步骤进行操作,不影响双正交小波的,因此,运动补偿的非线性操作,如可以被引入到设计运动自适应提升小波。图 8 示出运动补偿的提升 Haar 小波(a)分析及(b)的合成。在分析中,甚至图像的序列 x2 是运动补偿预测步骤(MCP )来生成时间的高频段图像 h 从奇图像 x2+1。时间低频段图像 l 是来自于通过添加经运动补偿的更新(MCU)的图像的缩放的高频

40、段图像 h。简单的合成反转提升步骤,在分析中使用的顺序。为了保持可逆性需要提升步骤,操作不可逆。这是有利的运动补偿一般是不可逆的,由于连接和多连接的像素。但注意,非自适应提升 Haar 小波是严格正交的,而运动补偿版本失去了这个属性,多联式像素补偿。研究已进行了运动补偿解禁小波子带编码的视频。理论性能界限已经衍生为添加剂运动以及互补的运动补偿信号。附录四框 4:运动补偿正交变换运动补偿正交变换(MCOT)保持严格正交性,任意运动补偿。对于下面的讨论中,我们选择了单向运动补偿正交变换作为描绘的图 9(a) 。让 x1 和 x2 两个向量表示的图像序列中的连续的图片。变换 根据这些向量映射成两个向

41、量 y1 和 y2 表示的时间的低频段和高频段的时间,分别变换 T 是考虑到序列的 K增量将 T 像T = TkTk1TT2T1, (3)其中每个增量变换 T 本身正交,即 TTT=I 有的所有 =1,2,K。这保证,也是正交变换 T。增量变换 T 是一个身份矩阵。等于 1 的对角元素表示不变的像素在步骤 。如果一个像素在的 x2 是单向运动补偿在步骤 里,增量变换 T 有两个是不等于 1 的对角线上的元素。在这些两个对角线上的元素和它们相应的非对角线元素是等于一个二维旋转矩阵的四个要素。在这些两个对角线上的元素也显示了两个像素相关联的运动由连接向量和线性操作。此外,如果单向运动补偿不适合的像

42、素或块的在 x2 里,相应的增量变换被设置为在步骤 T= I,其中 I 表示单位矩阵。这就是所谓的在画面 x2 的像素或块的帧内预测模式。需要注意的是一个像素或图像块在 x2 里修改最多的一个增量变换。因此,该类型的增量变换能被自由地选择在每一个步骤 的受影响像素 x2 在不破坏了正交性的属性运动的条件下相匹配。单向运动补偿增量变换仅仅是一个例子。也有双运动补偿和双向运动补偿转换。每一种类型的增量变换有其自己的能量能集中有效去除能源的约束在高频段像素中,同时考虑运动补偿。这些变换的任何组合可用于二进分解,同时保持严格的正交性。当用于多视点视频在视图方向,运动补偿被视差补偿替换,同时保持变换的原

43、则。因此,自适应视图时空是严格正交的子带分解,可以生成多视图视频数据。最后,自适应正交变换在预测更新步骤不遭受补偿不匹配,可以观察到块补偿提升小波。例如,图 10 比较解码的帧的多视点视频霹雳者。舞者的复杂的运动导致的提升 5/3 小波产生恼人的噪音有没有观察到的物品,是双向补偿正交变换。请注意这两个计划以及使用相同的块运动/视差场图中所描绘的相同的视图暂时分解结构在图 5(a) 。图 10。解码的图像多视点视频霹雳者。子带编码方案使用(a)运动和视差补偿提升 5/3 小波或(b)双向运动和视差补偿正交变换。在这两种情况下,相同的 88 块的运动/视差字段被使用。时间视图子带编码以 JPEG2

44、000。REFERENCES1 M. Tanimoto, .FTV (free viewpoint television) creating ray-based image engineering,. in Proceedings of the IEEE international Conference on Image Processing, Genova, Italy, Sept. 2005.2 A. Smolic and P. Kauff, .Interactive 3-D video representation and coding technologies,. Proceeding

45、s of the IEEE, vol. 93,no. 1, pp. 98.110, Jan. 2005.3 M. Flierl, A. Mavlankar, and B. Girod, .Motion and disparity compensated coding for multi-view video,. IEEE Transactions on Circuits and Systems for Video Technology, 2007, invited paper, to appear.4 J. Jain and A. Jain, .Displacement measurement

46、 and its application in interframe image coding,. IEEE Transactions on Communications, vol. 29, no. 12, pp. 1799.1808, Dec. 1981.5 P. Strobach, .Tree-structured scene adaptive coder,. IEEE Transactions on Communications, vol. 38, no. 4, pp. 477.486,Apr. 1990.6 T. Wiegand, X. Zhang, and B. Girod, .Lo

47、ng-term memory motion-compensated prediction,. IEEE Transactions on Circuits and Systems for Video Technology, vol. 9, no. 1, pp. 70.84, Feb. 1999.7 M. Flierl and B. Girod, Video Coding with Superimposed Motion-Compensated Signals: Applications to H.264 and Beyond. Boston . Dordrecht . London: Kluwe

48、r Academic Publishers (now Springer), 2004.8 A. Puri, R. Aravind, B. Haskell, and R. Leonardi, .Video coding with motion-compensated interpolation for CD-ROM applications,. Signal Processing: Image Communication, vol. 2, no. 2, pp. 127.144, Aug. 1990.9 M. Flierl and B. Girod, .Generalized B pictures

49、 and the draft H.264/AVC video compression standard,. IEEE Transactions on Circuits and Systems for Video Technology, vol. 13, no. 7, pp. 587.597, July 2003, invited paper.10 M. Lukacs, .Predictive coding of multi-viewpoint image sets,. in Proceedings of the IEEE International Conference onAcoustics, Speech and Signal Processing, Tokyo, Japan, Apr. 1986.11 L. McMillan and G. Bishop, .Plenoptic modeling: An image-based rendering system,. in Proceedings of the

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报