收藏 分享(赏)

PowerPC和DSP对比.doc

上传人:精品资料 文档编号:10970044 上传时间:2020-01-29 格式:DOC 页数:9 大小:132.24KB
下载 相关 举报
PowerPC和DSP对比.doc_第1页
第1页 / 共9页
PowerPC和DSP对比.doc_第2页
第2页 / 共9页
PowerPC和DSP对比.doc_第3页
第3页 / 共9页
PowerPC和DSP对比.doc_第4页
第4页 / 共9页
PowerPC和DSP对比.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、PowerPC 和 DSP 对比、 主要性能参数对比TigerSHARC TigerSHARC PowerPC PowerPCParameter ADSP-TS101S ADSP-TS201S MPC7455 PPC476FP(IBM 45nm SoI)Core Clock 250 MHz 500 MHz 1,000 MHz 1,600 MHzPeak Floating-pt Performance 1,500 MFLOPS 3000 MFLOPS 8,000 MFLOPS 3,000 MFLOPSMemory Bus Size/Speed 64-bit/100 MHz 64-bit/100

2、MHz 64-bit/133 MHz 128-bit/800 MHz External Link Ports 4250 MB/Sec 4250 MB/Sec None User DefineI/O Bandwidth (inc. memory) 1,800 MB/Sec 1,800 MB/Sec 1,064 MB/sec 64,00 MB/sec Bandwidth-to-Processing Ratio 1.20 Bytes/FLOP 1.20 Bytes/FLOP 0.13 Bytes/FLOP 2.1 Bytes/FLOP 1024-pt cFFT Benchmark 39 sec 19

3、 sec 13 sec (est.) 83.2 sec(双精度)Approx Cycles for 1024-pt cFFT 9,750 cycles 9,750 cycles 13,000 cycles Predicted 1024-pt cFFTs/chip 25,641 per Sec 12,821 per Sec 64,941* per Sec ASDP tigersharp 主要参数Part# Clock Speed (MHz)MMACS (Max) On Chip Memory External Memory SupportedOperating Temp RangePackage

4、 US Price 1000-4999ADSP-TS201S 600MHz 4800 24Mbit Async, SDRAM - 25 x 25 BGA $252.25ADSP-TS202S 500MHz 4000 12Mbit Async, SDRAM - 25 x 25 BGA $209.51ADSP-TS203S 500MHz 4000 4Mbit Async, SDRAM - 25 x 25 BGA $184.49ADSP-TS101S 300MHz 2400 6Mbit Async, SDRAM -40 to +85 19 x 19 BGA, 27 x 27 BGA$193.88C6

5、701 C6201 C6203 MPC7410* PPC476Clock (MHz) 167 200 300 500 1600Instruction Cycle (ns) 6 5 3.33 2Instructions Per Cycle 1 - 8 1 - 8 1 - 8 1 - 3 14Million Instructions/Sec. 1333 1600 2400 500Million Fixed-Point Ops/Sec. 1333 1600 2400 8000Million Floating-Point Ops/Sec. 1000 2000 3000General-Purpose A

6、lgorithm Benchmarks on TIs C66x DSP Core at 1.25 GHz1Benchmark Speed Clock Cycle 32-bit algorithm 1k point FFT (Radix 4) 5.47 s 6840 64k point FFT (Radix 4) 0.58 ms 696588 FIR filter (per real tap) 0.2 ns 0.25 8x88x8matrix multiply (complex floating point) 1.06 s 1327 16-bit algorithm 256 point comp

7、lex FFT (Radix 4) 0.6 s 752 主要 DSP 的浮点性能对比:Speed Scores for floating-point packaged processors BDTImark2000(BDTI 认证结果)(BDTI 主要是针对 DSP 的 benchmark,没有 MPC7410 和 Powerpc 的数据)一些算法,像 FFT,可以充分利用 7410 的矢量数学运算。 1024 点,浮点复数 FFT 可以在 27us 内完成,相比之下,C6701 需要 108us。其他算法,像无线应用中的 turbo 解码器,VLIW 结构处理的更有效率。很明显,具有 Alt

8、iVec 核的 PowerPC G4(74xx)具有较高的核时钟速率与性能。P O W e r P C 的核时钟速率几乎是目前 T i g e r s H A R C 的 33 倍( 不久更快版本的 TigerSHARC 将发布)。 AltiVec 核每个周期执行单条指令,每 128 位向量包含 4 个独立的 32 位数据单元,这就是众所周知的 sIM-D(单指令多数据)结构。当执行一次乘加(MAC)矢量运算时,达到峰值处理能力,每周期可完成 8 次浮点操作。对于 1 GHz 的 MPC7455,峰值处理能力可达 8000M 次s浮点运算。AltiVec 每周期能执行 8 次整数或定点操作,峰

9、值整数运算能力为 8000MOPS(百万次操作s)。相反,TigerSHARC 有两个独立的 32 位处理器核,或称 MIMD(多指令多数据)结构。每个计算单元每周期能执行一次乘法以及和差分运算,对于 300 MHz ADSPTSl0lS 每周期完成 6 次浮点运算或 1800MFLOPS 峰值运算能力。当执行 16 位整数运算时,TigerSHARC 可以利用它的超标量体系结构, 分离两个独立 3 2 位计算单元成 2 个单独的 16 位 S1MD 单元。这样每个操作在两个数据单元, 每个周期总共 12 次操作。另外,TigerSHARC 有另外两个专门的 1 6位整数引擎, 每个周期可以增

10、加超过 1 2 次的操作,这样每个周期共计 2 4 次整数运算,7200MOPS。1.、 IBM 476FPE 在 FFT 方面的性能评 估FFT 算法采用 FFTW3.3.3 的算法(http:/www.fftw.org) ,FFTW3.3.3 算法是优化比较好的算法,性能得到肯定。测试程序采用benchFFT3.1( http:/www.fftw.org).对比的三个芯片是 IBM PPC476FPE,PowerPC7447A ,Intel 四核 Pentium 3.06GHz。以 512 和 1024 transform-size 为参考。配置情况说明:1. PPC476FPE,ubun

11、tu9.0.4,GCC-4.3.3 ,2. Apple iBook G4. 1.06 GHz PowerPC 7447A,linux 2.6.15, gcc-4.0.2, g+-4.0.2, g77-4.0.2. Has Altivec (4-way single precision SIMD).Compilers and flags (unless overridden):C: gcc -O3 -fomit-frame-pointer -fstrict-aliasing -mcpu=7450C+: g+ -O3 -fomit-frame-pointer -fstrict-aliasing -

12、mcpu=7450Fortran: gfortran -O3 -fomit-frame-pointer -fstrict-aliasing -mcpu=74503. Four-processor 3.06 GHz Intel Pentium 4, 512 KB L2. Linux 2.4.25, gcc-3.3.3, g+-3.3.3, g77-3.3.3, AMD Core Math Library (ACML) 3.0.0, Intel Math Kernel Library Version 8.0.1, Intel Integrated Performance Primitives v5

13、.0. Has SSE (4-way single precision SIMD), SSE2 (2-way double precision SIMD). The benchmark uses one processor only.Mflops 计算方法To report FFT performance, we plot the “mflops“ of each FFT, which is a scaled version of the speed, defined by:mflops = 5 N log2(N) / (time for one FFT in microseconds) fo

14、r complex transforms, andmflops = 2.5 N log2(N) / (time for one FFT in microseconds) for real transforms,where N is number of data points (the product of the FFT dimensions). This is not an actual flop count; it is simply a convenient scaling, based on the fact that the radix-2 Cooley-Tukey algorith

15、m asymptotically requires 5 N log2(N) floating-point operations. It allows us to compare the performance for many different sizes on the same graph, get a sense of the cache effects, and provide a rough measure of “efficiency“ relative to the clock speed.变换类型的说明transform-type is a four-character str

16、ing consisting of precision (double/single = d/s), type (complex/real = c/r), in-place/out-of-place (= i/o), and forward/backward (= f/b). For example, transform-type = dcif denotes a double-precision in-place forward transform of complex data.IBM PPC476FPE Apple iBook G4 四核 Intel P4, 476/G4 476/G4

17、476/P4 476/P4transform-typetransform-size mflops time mflops time mflops time mflops time mflops timedcif 512 610.85 3.77E-05 853.33 2.70E-05 2846.6 8.09E-06 0.72 1.40 0.21 4.66dcib 512 583.56 3.95E-05 851.36 2.71E-05 2751 8.38E-06 0.69 1.46 0.21 4.71dcif 1024 596.18 8.59E-05 834.22 6.14E-05 2925.7

18、1.75E-05 0.71 1.40 0.20 4.91dcib 1024 574.75 8.91E-05 834.22 6.14E-05 2844.4 1.80E-05 0.69 1.45 0.20 4.95dcif 512x512 419.03 0.0563036 361.14 0.065329 1282.2 0.0184 1.16 0.86 0.33 3.06dcib 512x512 419.41 0.0562529 359.42 0.065641 1273.7 0.018523 1.17 0.86 0.33 3.04dcif 1024x1024 362.24 0.2894725 377

19、.74 0.27759 1337 0.07843 0.96 1.04 0.27 3.69dcib 1024x1024 356.75 0.293922 379.03 0.276646 1346.9 0.077851 0.94 1.06 0.26 3.78drif 512 688.82 1.67E-05 834.03 1.38E-05 2174.9 5.30E-06 0.83 1.21 0.32 3.15drib 512 618.77 1.86E-05 819.2 1.41E-05 2194.3 5.25E-06 0.76 1.32 0.28 3.54drif 1024 625.38 4.09E-

20、05 860.5 2.98E-05 2307.6 1.11E-05 0.73 1.37 0.27 3.68drib 1024 609.17 4.20E-05 858.7 2.98E-05 2416.5 1.06E-05 0.71 1.41 0.25 3.96drif 512x512 423.9 0.0278287 362.43 0.032548 1501.2 0.007858 1.17 0.86 0.28 3.54drib 512x512 459.76 0.0256577 346.66 0.034029 1487.6 0.00793 1.33 0.75 0.31 3.24drif 1024x1

21、024 383.01 0.1368879 344.84 0.15204 1351.8 0.038784 1.11 0.90 0.28 3.53drib 1024x1024 385.81 0.1358926 331.43 0.158192 1415.1 0.03705 1.16 0.86 0.27 3.67dcof 1024 615.75 8.32E-05 898.25 5.70E-05 3316.6 1.54E-05 0.69 1.46 0.19 5.39dcob 1024 607.62 8.43E-05 898.25 5.70E-05 3303.2 1.55E-05 0.68 1.48 0.

22、18 5.44dcof 512 700.47 3.29E-05 985.67 2.34E-05 3429.2 6.72E-06 0.71 1.41 0.20 4.90dcob 512 691.1 3.33E-05 983.04 2.34E-05 3397.6 6.78E-06 0.70 1.42 0.20 4.92scif 1024 629.96 8.13E-05 2905 1.76E-05 5184.8 9.88E-06 0.22 4.61 0.12 8.23scif 1024 631.44 8.11E-05 2905 1.76E-05 5285.2 9.69E-06 0.22 4.60 0

23、.12 8.37从上表可以看到,在点数满足 2 的幂指数的情况下,ppc476FPE 在双精度 fft 计算的性能至少达到 7447A 的性能 70%。在二维的部分情况下,还有所超越。PPC476 在计算单精度和双精度的情况下,速度没有变化(原因初步分析可能是 ppc476 就一个 FPU 单元,单元本身是双精度的( double format) ,做单精度和双精度的速度是相同的。 ) 。MPC7447A 双精度 1024-pt cFFTs 的完成时间为 83.2us,单精度 1024-pt cFFTs 的完成时间为 17.6us。因为 Tigersharc 和 Altivec 是多个 32

24、位精度的单元构成,做单精度的时候可以并行进行,速度提高了 4 倍。从以上对比来看,1. 从浮点运算能力来看,PPC476FP 的最高浮点运算能力和 TS201 相当;但是 PPC476 是双精度的 FPU,不支持 SIMD,在处理单精度浮点运算时,速度没有提高,在单精度浮点的应用场合下,PPC476 的性能显得落后。2. PPC476FP 的带宽由于使用 PLB6,具有更好的时钟频率和位宽,带宽远高于 TS201;3. 外设接口来看,PPC476FP 可以更灵活地使用 PCI-E 等外设接口,外设带宽更高。 (PCI-E1.0 1x 2.5Gbps,(PCI-E1.0 4x 10Gbps),远

25、高于 TS201.4. MPC7448 及 MPC7448A 目前在信号处理领域应用较多;IBM PowerPC 系列目前应用较多的还是 PPC4xx 系列,主要作为系统控制芯片来应用,用以作为信号处理的很少或没有(完全没有相关论文)。PPC476系列虽然拥有很强的信号处理能力,但是 PPC476 系列推出的时间还较短,应用远不如 MPC 系列广泛。、 PPC476 FPU 介绍PPC476 FPU 是双精度的浮点运算单元。浮点处理器兼容 ANSI/IEEE Standard 754-1985, IEEE Standard for Binary Floating-Point Arithmeti

26、c (referred to as IEEE 754),所有浮点操作兼容 IEEE 标准。每个 FPR 包括 64 位,支持浮点双格式。所有解释 FPR 内容的浮点值的指令使用浮点双格式,单精度使用 32 位单格式来表示,双精度使用 64 位双格式来表示。、 PowerPC 476FP coremarkProfile generation run parameters for coremark.CoreMark Size : 400Total ticks : 14179Total time (secs): 14.179000Iterations/Sec : 7757.951901Iterati

27、ons : 110000Compiler version : GCC4.3.3Compiler flags : -m32 -O3 -ffast-math -DTOTAL_DATA_SIZE=1200 -DPROFILE_RUN=1 -lrtMemory location : Please put data memory location here(e.g. code in flash, data on heap etc)seedcrc : 0x4eaf0crclist : 0x6a790crcmatrix : 0x56080crcstate : 0xe5a40crcfinal : 0xbbb6

28、Correct operation validated. See readme.txt for run and reporting rules.、 PPC 优势总结1. 浮点运算能力PPC476FP 在 1.6GHz 的情况下,拥有超过 3GFLOPS 的浮点运算能力(LSI 已有该内核芯片),具备了在需要大规模浮点运算场合应用的基础和能力。双精度 1024 点复数 FFT 可以在 86us 内完成。在实际的推广中,要充分了解客户的需要,是定点,还是浮点,单精度还是双精度,计算的需求量是多大等。2. 超标量处理器不仅有高的浮点运算能力,也很强的定点运算能力。具有高频率超标量 PowerPC 处

29、理内核,在一个时钟周期可以利用 8 个独立的执行单元执行 3 个指令,即在一个时钟周期内最多可以执行 8 次计算,极大地提高了计算速度。同时具备了浮点运算能力和外设控制能力。3. 外部内存结构PLB6.0 总线的位数 128 位位宽,总线速度达到 CPU 速度的 50%,支持 DMA,支持 DDR3。提供足够宽的内存带宽。高速的数据总线有效的降低了传输延迟,使系统性能大大提高。4. AltiVec 技术(PPC 没有,只有 freescale 的 e600 有)AltiVec 是 Freescale 半导体公司开发的并行向量处理引擎。该引擎为摩托罗拉的第四代 PowerPC 提供了卓越的处理性

30、能,使其数据处理能力有了数量级的提升。例如 PowerPC7410 已具备 4GFLOPS 的处理能力,远远超过了目前绝大多数 DSP 芯片的处理性能。5. 开发环境PowerPC 实际是一种通用 CPU,支持 Vxworks 和 Linux。开发商提供了良好的图形化编程、编译、系统配置和调试环境。同时对底层实现了良好的模块化和屏蔽化的工作,使用户在程序开发时完全不需要了解底层 CPU 的内部结构。大大加快系统的开发速度。6. 标准总线接口更容易做系统的扩展和标准化。支持 PCI-X,PCI-E 等总线进行多片互联,更容易进行系统扩展。参考文献:1. PowerPC 在雷达信号处理算法中的性能

31、评估The Performance Evaluation of Radar Signal Processing Algorithm Based on PowerPC(北京理工大学) 汪精华胡善清龙腾WANG Jing-hua HU Shan-qing LONG Teng微计算机信息(嵌入式与SOC)2010 年第26 卷第7-2 期2. 连续实时信号处理嚣的性能分析 北京理工大学石红艳王华单片机与嵌入式系统应用2005年1期3. Part II: Continuous Real-Time Signal ProcessingComparing TigerSHARC and PowerPC Via

32、 Continuous cFFTsReprinted from COTS Journal December 20034. PowerPC处理器优势及其应用研究作者:李骏1 许稼2 彭应宁1 王秀坛1 1.清华大学;2武汉空军雷达 来源:微计算机信息2005年19期 国防预研基金项目许稼,男,1974年生,空军雷达学院教员现为清华大学电子工程系博士后。研究领域包括雷达及水声领域的目标检测和识别、参数估计、仿真模拟、合成孔径逆合成孔径成像、混沌非线性理论等. (430010武汉空军雷达学院四系)许稼5. 基于4G4平台的雷达信号处理机设计 高媛媛 (南京电子技术研究所,江苏省南京市210039)信息化研究 2010年12期6. G4 PowerPC and C6000: A Comparison http:/

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报