1、高效 FPGA 复数乘法器在无线基站中的使用基于 WiMax 及其派生标准的新兴宽带无线协议需要越来越高的吞吐量和数据速率。这些协议提出的快速芯片速率和数字射频处理可以在使用 FPGA 方案的硬件上得到最佳的实现。FPGA 非常适合作为高性能、高性价比的解决方案来实现这些物理层协议中的数字功能,因为它们包括以下丰富的资源: 1.DSP 模块,可以用来实现各种 FIR 滤波和 FFT/IFFT 操作所要求的乘法器和加法器/累加器功能; 2. SERDES 收发器,可以支持无线前端与基带数字板之间的 CPRI 和 OBSAI 接口; 3. 重要的 FPGA 嵌入式 RAM 块存储器(EBR),可以
2、用来存储滤波器系数,执行块交错以及实现 FEC 解码(Turbo、维特比、ReedSolomon 等); 4. 高速 LVDS I/O,分别支持到 DAC 和来自 ADC 的宽并行接口。这些转换器定义了射频/模拟功能和廉价数字基带逻辑之间的界限。接口的速率越高,低成本 FPGA 解决方案便能集成更多的数字上变频/数字下变频功能。 本文重点讨论第一种资源,即 DSP 乘法模块。通过减少和优化 DSP 乘法模块在 FFT和 FIR 中的实现,设计师可以在尽量减少资源使用的条件下满足吞吐量要求,从而允许用户使用最具性价比的现成 FPGA 器件。下面对这四种乘法器节省技术进行介绍。 用于 WiMaxO
3、FDM 功能的高效复数乘法 WiMax 系统设计的一个重要特征是支持正交频分复用(OFDM) 。FPGA 使得分别使用IFFT 和 FFT 在离散时间内实现 OFDM 发送器和接收器变得特别容易。诸如 802.16a 等协议需要 256 样点的 FFT。而 802.16e 这些协议要求多种 FFT 样点,或者可以灵活调整的FFT 样点以适应动态信道和带宽要求(可扩展 OFDMA)。 复数乘法 在执行 256 和 1024 样点 FFT 时,可通过 Radix4 结构获得乘法器的最高效使用。FFT 算法通过复用 4 样点离散傅里叶变换(DFT)蝶形结构进行分解。例如,一个 16 点的FFT 可以
4、通过按时间抽取、按频率抽取或其他相关分解方式用 2 级 Radix4 DFT 结构实现。第 1 级由 4 个 4 样点 DFT 组成,第 2 级同样由 4 个 4 点 DFT 组成。由于每个 DFT 的输出要求在馈送给下一级之前为结果提供 3 个相位因子,因此第 1 级和第 2 级之间的 9 个相位因子需要 9 次复数乘法。 初看起来,执行一次复数乘法需要 4 个乘法器和 2 个加法/减法器。然而,该表达式可以重新写成另外一种只需 3 个乘法器、3 个加法器和 2 个减法器的表达式。值得注意的是,加法器是在 FPGA 的内核逻辑中实现的,使用了丰富的逐位进位模式(ripple mode)的通用
5、可编程逻辑单元(PLC)片。 如果 DDrjDi 是复数数据, CCrjCi 是复数系数,那么复数乘法的标准表达式如下: E1:RD*C(DrjDi)*(Cr jCi)RrjRi (1) 其中 RrDr*CrDi*Ci, RiDr*CiDi*Cr 上述标准表达式要求使用 4 个乘法器。该表达式可以通过代数方法重新整理为: E2: RrDr*CrDi*Ci (2) E3: RrDr*CrDi*Ci0 (3) E4: RrDr*CrDi*Ci(Dr*CiDi*Cr)(Dr*Ci Di*Cr) (4) E5: Rr(Dr*CrDr*CiDi*CrDi*Ci)(Dr*CiDi*Cr) (5) 复数结果
6、的新表达式是: E6: Rr(DrDi)*(CrCi) (Dr*CiDi*Cr) (3 次乘法) (6) E7: RiDr*CiDi*Cr (复用来自 Rr 的乘积) (7) 如图 1 所示,最优的复数乘法可以用 3 个乘法器、3 个加法器和 2 个减法器实现。值得注意的是,在 FPGA 中,加法/ 减法模块所用的相对裸片面积要小于 1818 的乘法器模块。 图 1:采用 4 个和 3 个乘法器的复数乘法总之,所用乘法器数量减少 25%可以带来下面两大好处之一: 1.在相同 FFT 吞吐量的条件下可以少用乘法器; 2.在乘法器数量不变的条件下可以提高 FFT 吞吐量。 数字上变频/下变频器中
7、FIR 滤波器的高效实现 如下的三个高效乘法器技术可用于实现 FPGA 中的数字上变频和下变频。这已经成为优化的重点领域,因为无线设计师需要满足将数据从非常高的采样速率向芯片处理速率转移的要求。数字下变频器/上变频器 (DDC/DUC)子系统是基站内发送器 /接收器的主要数字器件,以前是用昂贵的模拟/混合信号器件实现的。共有三种技术可以用来减少 FPGA 实现方案中的乘法器数量。 1.系数对称的 FIR 滤波器可节省乘法器; 2.分布式运算操作使用嵌入式块存储器; 3.级联积分梳状滤波器使用加法器。 上变频/下变频概述 如图 2 中上半部分描述的那样,DDC 由以下器件组成:一个基于数控振荡器
8、(NCO)的I/Q 分离器,它通过两个混频器将来自射频部分的输入信号用正弦和余弦波进行调制;一个抽取部分,可以由 3 级 FIR 抽取滤波器或后接级联积分梳状(CIC)滤波器的 FIR 抽取滤波器进行配置。 图 2:DDC/DUC 结构 图 2 中的 DUC 由以下器件组成:3 级 FIR 内插滤波器或后面接 FIR 内插滤波器的 CIC滤波器;一个基于 NCO 和两个混频器的 I/Q 混频器,其在 I、Q 输出信号到达射频部分前对它们进行解调。请记住,抽取用于采样删除以达到较低的采样率,而内插用于增加外推样本以提高采样率。变频器的通用实现指南 DDC/DUC 系统是一个需要大量乘法器的系统。
9、抽取和内插滤波器通常由乘法器和加法器阵列实现,而混频功能就是一个乘法器。利用面积优化方法实现 NCO 要基于使用复数乘法器的相移。 克服需要大量乘法器的系统所带来的挑战首先是要分解和级联滤波器: 1. 一个抽取 /内插系数为 N 的大型 FIR 抽取滤波器或 FIR 内插滤波器可以分解成两个或三个抽取/内插系数分别为 N1、N2 和 N3 的较小、较简单的级联滤波器。抽取 /内插系数满足以下等式: E8: NN1*N2*N3 2. 将 FIR 抽取滤波器或 FIR 内插滤波器分解成两个或三个独立滤波器可以减少实现整个滤波器所需的抽头总数。抽取或内插系数为 N 的单个滤波器需要大量的抽头( 乘法
10、器)才能满足基本的滤波器衰减和噪声特性要求。将滤波器分解成两个或三个更小和更简单的滤波器可以减少整个滤波系统的抽头数量。另外,第二和第三级联滤波器的较低采样率可以实现时间复用,从而进一步缩小实现的尺寸。 当滤波器阶数确定好后,还可以采取多种措施减少实际滤波器中的乘法器数量。下面将对此进行介绍。 表 1:可减少 WiMax 系统设计中乘法器数量的四种技术。 三种专用于变频器的乘法器节省技术 1. 对称抽取和内插滤波器 系数对称的 DDC 抽取滤波器和 DUC 内插滤波器可以用来获得最多 50%的乘法器节省效果。在对称条件下,n 个抽头的 FIR 滤波器系数 h(0)、h(1) 、h(n)满足 h
11、(k)h(n k)0kn. 由于 h(k)h(nk)、h(k)与两个相关样本之和的乘积可以一次完成,因此所需乘法器的数量可以最多减少 2 倍(对于偶数个系数 )。在 FPGA 中,可以利用低成本的逐位进位逻辑实现使用相同系数的两个数据样本的加法。 2. 通过分布式运算功能并利用 EBR 存储器块实现 FIR 滤波器 对乘法器密集应用(如 DDC 或 DUC)来说,FPGA 资源的高效使用特别重要。将存储器和 LUT 结构资源用作乘法器可以显著提升实现效率。EBR 和这种结构的分布式存储器可以用作使用分布式存储器技术的 FIR 滤波器乘法器。分布式存储器技术也被称为软乘法技术,使用这种技术通常可
12、以使 FPGA 器件中的乘法器数量增加 2 到 5 倍。 从图 3 可以看出如何使用 EBR 实现使用分布式算术技术的 FIR 滤波器。样本被串行移位进 EBR 地址总线。在 EBR 内部有一个预计算的结果乘法表以及带合适系数的各个输入样本比特(地址比特)总和。累加器将累加 n 个(n 是样本比特分辨率)中间结果,并在 n 个时钟周期后提供完整的 FIR 滤波结果。 图 3:将块存储器用作 FIR 乘法器 3. CIC 滤波器使用加法器而不是乘法器 用 CIC 乘法器代替某些内插 /抽取 FIR 滤波器链部分是另一种减少实现所需乘法器数量的方法。CIC 乘法器没?/下变频通常要求数百阶的大范围
13、速率变化。高速率变化内插或抽取滤波器在硬件方面非常昂贵。CIC 滤波器也被称为 Hogenauer 滤波器,可以用作低成本的高因数抽取或内插滤波器。它们可以用来在数字系统中取得任意的和很大的速率变化,并能够仅使用加法器和减法器高效实现。因为 FPGA 有很快的进位链用于实现加法器,因此 CIC 滤波器非常适合 FPGA 实现。积分器和梳状滤波器的结构与特性请参见表 2。 表 2:梳状滤波器和积分器的结构与特性。 利用 IP 核实现变频器和 OFDM 用 Lattice 的 FPGA 实现 DDC 或 DUC 变频器相当简单,因为 FPGA 提供了作为 IP 内核使用的重要组成器件。将 CIC
14、滤波器用作数据速率转换中内插器的应用如图 4 所示,它给出了用作数字无线应用中的变频器的 CIC 内插器的使用。 图 4:用于数字无线电应用的数字上变频器数字上变频器使用以下一些 IP 内核配置: 1. FIR 滤波器(63 个抽头的内插滤波器); 2. FIR 滤波器(31 个抽头的内插滤波器); 3. CIC 滤波器(速率在 8 到 2K 之间可编程的内插 CIC 滤波器); 4. NCO(带正弦和余弦输出的 NCO)。 LatticeECP2/M 的优势 LatticeECP2/M 系列低成本 FPGA 具有多种与 WiMax 系统设计高度相关的高性能特性。在其他低成本 FPGA 系列器
15、件中很难找到这些特性,而只能在昂贵的高端 FPGA 产品中才能找到: 1. 带硬连线的乘法器、加法器/累加器模块和管线级的高性能 DSP 模块; 2. 速率高达 3.125Gbps 的 SERDES 收发器通道,支持无线电头部和基带数字板之间的CPRI 和 OBSAI 接口; 3. 在 LatticeECP2/M 存储器增强系列产品中数量众多的 18kB EBR 存储器块; 4. 支持 ADC/DAC 接口的高速 LVDS I/O,输入和输出速率均可高达 840Mbps; 5. 低成本的 LatticeECP2/M 系列器件均可提供这些丰富和高性能的资源,而价格远低于其他 FPGA 器件。WiMax 系统设计师还能使用多种设计技术减少所需 DSP 乘法器的数量,从而让用户有可能使用更小、更便宜的 FPGA 器件。来源:http:/机电之家机电行业电子商务平台!