1、1嵌入音频在电视播出系统中的原理及应用随着数字电视技术的发展,数字播控中心也成为各电视台建设的重点,这也是从模拟向数字化过渡的特殊时期,不可能从采编到播出全部实现数字化,特别是音频系统,从模拟音频到数字音频,再到数字音频的嵌入,这是一个非常繁琐的过程,下面从实际到理论就这个过程作一下介绍。一. 音频嵌入技术在电视播出系统中的应用对于视频、伴音分离的系统,在电视信号模数转换和传输的过程中,视频和音频不同的处理方式和特点,导致视频滞后于音频,图像和声音不协调和谐的问题也显得比较明显。在电视节目播送中,视频信号制约于相应的音频信号,达到互相同步,或利用数字视频信号对数字音频信号加以携带,形成一个有机
2、统一的整体(音频嵌入技术),同时又能安全的解出,以使观众得到声画同步的完美的电视图像,是我们在数字电视播出系统设计中,极为关心的问题。以我们部门为例,简单解释一下音频信号的流程:将模拟音频转换为 AES/EBU 数字音频,AES/EBU 数字音频通过板卡嵌入到 SDI 数字视频当中,为了能够调节输出伴音,又将带嵌入音频的 SDI 信号分解成 SDI 视频和 AES/EBU 数字音频,再将AES/EBU 数字音频通过一个 D/A 转换成模拟音频进行音量调整,然后经 A/D 转换成 AES/EBU 数字音频,再嵌入到 SDI 视频中输出,这是目前音频嵌入式播出系统的普遍模式。音频嵌入式电视播出系统
3、,2相对于音视频分离模式的系统,有着很多优点。一般来说,音频嵌入模式适合于较大型系统中的各种切换,达到灵活轻便。切换中的音视频的协调统一,是靠程序控制中央处理器的统一指令完成的,而中央处理器的程序设计很容易实现,运作简单、实用、可靠。对于小型系统,音频嵌入也有一定的使用价值,当然要看设备系统的性能价格比和需要而确定。 二. 数字音频信号1.AES/EBU 数字音频1992 年,美国音频工程师协会(AES) 和欧洲广播联盟(EBU)共同制定了数字音频的接口标准,即 AES/EBU 数字音频格式。在这个基础上,国际电信联盟将其归纳为 ITU-R BS647-2 号建议书广播演播室数字音频信号的接口
4、。AES/EBU 的构成:由两个信号通道组成。这两个声道可作为立体声的左、右声道,可作为独立的声道,可将两声道传输同样的声音,把一个 AES/EBU 信号作为单声道使用。在视频领域,我们对视频的取样为 8 比特或 10 比特,而对于音频来讲,10 比特是远远不够的,它不能满足声音的动态范围及信躁比的要求。因此对于音频的取样为 16-24 比特。每一个取样组成一个 32 位的副帧,前 4 位为通道状态识别位,指示后面的音频数据是哪一个通道的音频数据,其后 4 位的辅助数据(可以用它扩展 AES/EBU 为 24 比特)然后是 20 位的音频取样数据,音频取样数据之后是一位音频取样有效位,用来指明
5、音频取样的比特位数是否有效。在其之后用户比特位用于携带其它信息,例如:时码。第 313位为音频通道状态位,它可以携带与信号有关的重要信息:例如取样频率、声道类型、辅助比特的应用方式等,最后一位 CRC 奇偶效正位,用于对总的数据通道数据状态进行误码检测。2.AES/EBU 数据结构(如图 2):由 192 个副帧进一步组成一个数据帧,每一个数据帧的起始点由第一副帧的前 4 位的状态位来表述,即前置位表述为“Z”。而其他副帧前置位表述为代表通道状态的“X”或“Y”. 3.AES/EBU 数字音频的优点:AES/EBU 数字音频信躁比高,传输质量好。是独立的音频通道,便于做音频处理(调音处理)对于
6、 75 欧的 AES/EBU 数字音频系统,可用原有模拟视频系统替代。4三. 嵌入数字音频在电视领域,音频信号出现“唇音”是我们非常关注的问题。所谓的“唇音”指的是由于视频信号和音频信号传输路径不同,因此信号的延时也不同,这样就造成了声音和图像出现延时差。在分离的视、音系统中需要一些音频延时器予以克服。而在数字视频SDI 的传输的同时,我们可以利用 SDI 信号的辅助数据区,把数字音频信号嵌入到 SDI 信号中一起传输,从根本上消除了的除了“唇音”问题。这也就是传输音频信号的第 3 种格式嵌入音频格式。1.嵌入数字音频的位置在模拟视频中存在着行、场消隐期。在行、场消隐期内并不存在着有效图象信号
7、。对于数字视频信号,也对应存在这样一个时间区间,这个区间被称为行、场的辅助数据区。行辅助数据区由SMPTE(活动图像和电视工程师协会)定义为“HANC”(Horizontal Anicillary Date),场辅助数据区由 EBU 定义为“VANC”(Vertical Anicillary)。我们清楚地知道,分量数字视频格式的有效行中,625/50 制共有 1728 个取样字(525/60 制为 1716 个取样字),其中对 Y、Cb 和 Cr 取样有 1440 个取样字(01439)。而对行消隐期间的取样可安排 288 个取样字(525/60 制为 276 个取样字)。数据传送中,每行的消
8、隐期间的数据是相同的,对于数字化来说就是所谓的“冗余”部分,在标准中用“SAV”和“EAV”予以界定并作为接收端恢复的标志,就不再需要传送同步和色同步信息了。那么在“EAV”和“SAV”之间就可用来放置 288 个字(525/60 制为5276 个),作为辅助数据(包括“EAV”和“SAV”的 8 个字)。因此,模拟视频中的行消隐期间,在数字视频中被称为行辅助数据区“HANC”(Horizontal Anicillary Data)。同样,模拟视频中的场消隐期间,在数字视频中被称为场或帧辅助数据区,由 EBU 定义为“VANC”(Vertical Anicillary Data)。我国广播电影
9、电视行业标准 GY/T160-2000数字分量演播室接口中的附属数据信号格式,是等效采用 ITU-RBT1364 建议书标准,规定了数字分量演播室应用的嵌入到视频数据信号中的辅助数据格式(图 3)。根据 SMPTE 291M 标准定义的辅助数据包和空间的格式:(1)在每个数据包的最前面,有一个包头(ADF)。对于分量系统是由 3 个字组成,它们为:000H、3FFH、3FFH。(2)其次是表明辅助数据之内容的数据识别码 ID(DID),用于组织嵌入音频所使用的数据包。(3)在数据识别码之后是数据包号码(DBN),接收设备可根据包号码的连续性来判别是否丢失数据。(4)数据包号码之后 1 个字称之
10、为数据计数字(DC),用来表6明包中数据总和。(5)在数据计数字之后就是数据区,有 255 个字。(6)最后是数据效验位(Checksum)。分量视频数据信号的辅助数据区,可用来传输数字音频等辅助数据信号。辅助数据信号以数据包的形式运载,每个包都带有自身的包头标识,在辅助数据区内,不可随意放置。依据标准规定,插入在数字视频的串行数据流中,可以同时发送多达 16 个通道,(8 个AES/EBU 数据流通道)20 或 24 比特的声音信号。但必须紧接在 EAV后面,不能有一个码字的空隙。误码检测信号 EDH(SMPTE RP165 定义)被放置在行辅助数据区的第 5 或 315 行(625/50
11、制),但必须紧邻在“SAV”前面,同样不能有一个码字的空隙。行辅助数据区的剩余部分,可安排其它数据使用。数字音频插入的规则:(1)第 5、318 行用于插入 EDH 的数据。(2)第 6、319 行不插入任何数据,专门用于 SDI 的切换区。(3)第 7、320 行空一行,不插入音频数据。第 8、321 行用于插入音频控制数据:该音频控制包包含以下信息:音频的帧数、取样的频率、有效通道和视、音的相对延时,对于48KHZ 的工作方式下,音频控制数据包的是可选择的,而对于其它频率,必须传送音频控制数据。在广播电视系统中,数字音频的取样频率通常采用 48KHz(其它取样频率有 32KHz 和 44.
12、1KHz),在每秒 25 帧的扫描系统中,一个7视频帧的音频样值数为 48000/251920,即一个视频帧内有整数个音频样值,这时音频的取样频率能和视频时钟保持同步,可称为同步音频。在数字音频中,通常将由同一 AES/EBU 音频源中得到的两个音频通道称为一个通道对,由两个通道对组成一个音频组。这样,一个音频组可以有 4 个音频通道。音频组的编号为 1 至 4,通道编号为 1 至 16。通道 1 至 4 为第 1 组,通道 5 至 8 为第 2 组,依次类推。2.嵌入音频目前辅助数据最大的用途是放置音频,然而被放置的音频称为嵌入音频。采用音频嵌入方案的电视系统,最大的好处是解决了电视信号在传
13、输中的声画同步、协调的问题。由于嵌入音频后的视频信号可用一根电缆同时传送音视信号,还简化了设备系统。被嵌入的音频信号是以块(或称段)为单位,打包传送的。一个块由 192个连续帧组成,每个帧包含有相关的两个子帧,每个子帧(32 比特)表示一个音频通道,放置一个音频取样字,因此一个数字音频码流可以作为立体声、双声道模式使用。 每个子帧定义为 32 比特,其中前置码占有 4 比特,音频数据为 24 比特,在数据位后的 4 比特,分别是有效标志位 V(Validity),用户数据位 U(User Data),通道状态位 C(Channel Status Data)和子帧的奇偶校验位P(Parity)。
14、帧的传输速率与源取样频率要严格对应。如果音频取样频率为 48KHz,一帧的取样时间为 20.83s,每一子帧的取样时间就是 10.415s。帧传输速率与源取样频率要严格对应。嵌入音8频实质上是采用时分复用的方式,将数字音频数据作为附属数据与数字视频数据合为一路数据信号。嵌入音频放置在行辅助数据区内(HANC),按照 SMPTE272M 标准的规定,在行辅助数据区内最多可嵌入 16 个通道的音频数据,16 个通道划分为 4 组,每组含有 4 个(即两对)音频通道。为此需要使用两种用来传送 AES/EBU 音频信息的附属数据包,即音频数据包和音频控制包。这两种音频包均应符合下表所示的附属数据包的格
15、式,它们之间的差别仅在于用户数据部分和相关的标识符。音频数据包中携带有数字音频的样值数据,按照标准规定,它放置在 CB/CR 色差信号并行数据流的行附属数据区内。音频控制包中所含数据则用于音频数据流的解码处理,每场仅传送一次。有关音频数据的嵌入过程和这两种音频包的具体结构,下面分别予以介绍。音频数据包图 4 表示了音频数据的嵌入过程。为简明计,这里只画出了一个9通道对(AES/EBU 1 为第一通道对,AES/EBU 2 为第二个通道对)中一个通道的嵌入示意,通道对 3、4 的嵌入完全相同。音频控制包音频控制包的作用是为接收端提供必要的解码信息,如音频通道对的取样频率和同步异步指示、通道的有效
16、性指示以及通道对音频/视频时延等。它的结构如图 5 所示。音频控制包位于场消隐切换点之后的第二个行辅助数据区内,即位于奇数的第 8 行和偶数场的第 321 行。每场传送一次, 音频控制10包中含有音频帧序号、取样频率和各通道音频/视频间的相对时延等信息,对于 48KHz 同步运行模式,音频控制包的传送是可选的,但对其他运行模式,则是必需的。五. 总结及展望纵观当今科学技术的发展,速度之快、变化之大都是前所未有的。高新技术的发展也同样地冲击着广播电视领域,我们广播电视工作者对其在引进、开发和应用方面,进行了积极的探索和实践,取得了扎实的成果,并在许多方面都获得成功应用的经验。高新技术的进步给广播
17、电视带来了严峻的挑战和激烈的竞争,同时又提供了巨大的发展机遇。我们相信在新的世纪里,电视高新技术必将更广泛、更迅速地发展和普及,其中数字化进程会进一步加快,全面贯彻于电视节目的制作、播出、传输和储存的各个环节,直至千家万户。根据科学进步的规律,嵌入音频的应用就更为重要。从电视节目的制作、播出、微波和光缆传输,卫星节目传送和数字电视广播等,都要有音频嵌入技术的结合,并已逐步地以行业标准的形式予以确认。例如我国参考 ITU-R BT1365 建议书制定了 GY/T162-200HDTV 串行接口中作为附属数据信号的 24 比特数字音频格式,就是确定音频嵌入技术应用的标准。音频嵌入技术将成为电视发展,网络化普及的基础技术之一。