1、硬件 CPU 介绍一、I ntel 公司的新款 C P U1 .P C o p p e r m i n e(铜矿)处理器2000 年最惹人注目的莫过于 Intel 公司采用 0.18 微米工艺生产的 P Coppermine 处理器了。尽 管 Intel 公司早在 1 9 99 年 10 月 25 日便发布了这款代号为 Coppermine 的Pentium 处理器,但其真 正的普及是在 2 0 00 年。虽然取名为“铜矿“,C o p p e r m i ne 处理器并没有采用新的铜芯片技术制造。从外形上分析, 采用 0.18 m 工艺制造的 Coppermine 芯片的内核尺寸进一步缩小,
2、虽然内部集成了 256KB 的全速 On- D i e L 2 C a c he,内建 2 8 10 万个晶体管,但其尺寸却只有 1 0 6 mm 2 。从类型上分析,新一代的 C o p p e r m i ne 处理器可以分为 E 和 EB 两个系列。E 系列的 C o p p e r m i ne 处理器采用了 0 .18 m 工艺制 造,同时应用了 I n t el 公司新一代 O n -D ie 全速 2 5 6 K B L 2 C a c h e;而 EB 系列的 C o p p e r m i ne 不仅集合 了 0.18 m 制造工艺、O n -D ie 全速 2 5 6 K
3、B L 2 C a c he,同时还具有 1 3 3 M Hz 的外频速率。从技术的角度分析,新一代 C o p p e r m i ne 处理器具有两大特点: 一是封装形式的变化。除了部分产品采用 S E C C2 封装之外,I n t el 也推出了 F C -P GA 封装及笔记本使用的 MicroPGA 和B GA 封装;二 是制造工艺的变化。C o p p e r m i ne 处理器全部采用了 0.18 m 制造工艺,其核心工作电压降到了 1. 6 5 V (S E C C 2)和 1 .6 V (F C -P G A),与传统的 P 相比大大降低了电能的消耗和发热量。P C o
4、p p e r m i ne 的整体性能与传统的 P 相比有了较大幅度的提高。作为新一代处理器, Coppermine 强劲的高速 On-Die L2 Cache 值得称道,而且 P Coppermine 的可超频性也是非常出色 的。2 .P C o p p e r m i n e -T 和 T u a l a t in2001 年末,P Coppermine 会进一步改进制造工艺采用 0.13 微 米制造,新版本 T u a l a t in 也即将问世。其核心技术大致如下:最 初时钟频率应该是 1 .1 3 /1 .2 6 G Hz;内核集成 512KB 二级缓存;采用 新的总线结构;封装
5、结构上采用 F C P G A2 替换 F C P GA 。我们注意到 Tualatin 在电压和总线规格上和过去的 P 处理器有 了不同,因此未来似乎应该有全新的平台来支持 P 处理器 。当前 只有一款芯片组宣布支持 Tualatin,它就是 A l m a d or 或者被称之为 i 8 30 。而 P Coppermine-T 内核则可能是过渡产品,它既能运行于当前 的 i815 、694X 等产品,相信也能在 A l m a d or 平台上使用。玉林电脑城 工程师程先生介绍说,从时间表上看这两款处理器都在 2 0 01 年三季度发布。但由于 Intel Pentium 4 战略的延展
6、,也许它们会悄无 声息地来临,甚至缩减至一款。3 .C e l e r o n 处理器为了进一步扩大在低端市场的占领份额,2 0 00 年 3 月 Intel 终于发布了其代号为“C o p p e r m i n e 1 28 “的新一代的 Celeron 处理器-Celeron (Intel 仍称其为 Celeron,但 为了和前面的 C e l e r on 区分,我们暂且这样称呼)。C e l e r on 与老 Celeron 最显著的区别在于采用了与 P Coppermine 相同的核心及同样的 FC-PGA 封装方式,同时支持 S SE 多媒体 扩展指令集。从技术角度分析,C e
7、 l e r o n 与 P C o p p e r m i ne 有着 诸多明显的区别:一是Celeron 的 L2 Cache 容量只是 P C o p p e r m i ne 处理器的一半,并且缩减 P C o p p e r m i ne 的 8 路缓存通道为 4 路,延迟时间也由 P Coppermine 的 0 变成了 2 。由此不难看出,相同主频的 Celeron 在性能方面比 P Coppermine 要 差很多;二是功耗方面。C e l e r o n 的核心电压只有 1 .5 V(最新款有 1 .7 V),而 P C o p p e r m i ne 的 核心电压为 1.
8、65V,功耗相对较低; 三是外频方面。Celeron 出人意料地沿用了古老的 66MHz 外频,面对低端市场早已使用 100MHz 外频的 AMD K6-2,Intel 此举除了商业行为的理由外恐怕无法解释。而 66MHz 外 频的 Celeron 与 100MHz 外频的 P Coppermine 相比, 也就注定了其要在性能方面牺牲更多。C e l e r on 系列向 来有着如奔腾系列一样优秀的浮点运算性能,C e l e r on 集成的全速缓存使得其整数性能也得以大幅度提高。 但是,糟糕的66MHz 外频可能会是 Celeron 最终不敌 A MD 同型产品的致命之处,不过如果将其与
9、老C e l e r on 放在一起,其实还是我们要求太高了。与 C o p p e r m i ne 同样的 FC-PGA 封装方式必定会使 Celeron 的兼容性有 所提高。正是由于高性能的二级缓存和低功耗, C e l e r o n 同样也具有良好的超频性能。4 .P e n t i u m 4 处理器美国东部时间 2 0 00 年 6 月 28 日,I n t el 公司正式宣布将该公司开发的下一代微处理器命名为Pentium4 。新一代的 P e n t i u m 4 处理器即原先研发代号为 W i l l a m e t te 的 W i l ly 芯片,是 I n t el
10、 公 司继 C o p p e r m i ne 处理器之后推出的面向普通用户的主流产品。2 0 00 年 11 月 20 日,I n t el 公司正式发布 P e n t i u m 4 处理器。该处理器采用了不同于 P6 总线的 全新 N e t B u r st 架构,其管线长度是 P6 架构的两倍,达到了 20 级。这将使 P e n t i u m 4 达到更高时钟 频率。现在的 P e n t i u m 处理器由于管线长度的限制,最高时钟频率在 1.2GHz 左右,P e n t i u m 1 .1 3 G Hz 处理器出现的问题就是最好的证明。不过,管 线长度的加长,也意味
11、着 entium 4 每一个时钟周期执 行的指令要比 P e n t i u m 少,这就是为什么在相同的 速度下,P e n t i u m 或 Athlon 处理器的性能看起来要 比 P e n t i u m 4 处理器更强一些的原因。不过,随着 P e n t i u m 4 速度的提升,这一现象会逐渐消失。 Pentium 4 处理器采用新的系统总线代替了原有的 GTL+总线,总线速度达到 400MHz 。最初版本的核心频 率为 1 .4 G Hz 和 1.5GHz,内部集成了 8 KB 一级数据缓存 和 2 5 6 KB 同速二级缓存(I n t el 称之为 L2 超级传输缓 存
12、) ,带宽大于 44.8GB/s,大大超过Pentium 1GHz 处理器的 1 6 G B /s 。初期的 P e n t i u m 4 采用 0 .18 m 工艺制造,包含 4 2 00 万个晶体管,芯片面积为 2 1 7 mm 2 ,核心电压为 1 .7V,目前采用 S o c k e t 4 23 接 口,此外 I n t el 还推出了一款 S o c k e t 4 78 接口的 P e n t i u m 4,这才是最终版本。P e n t i u m 4 的算术 逻辑单元(A L U)以核心频率的两倍运行。此外, P e n t i u m 4 还包含 1 44 条重新设计过
13、的 S S E2 指令。 Intel 预计 P e n t i u m 4 将于 2001 年下半年占其C PU 总产量的一半,并采用 0.13 m 铜工艺制造。 Pentium 4 的架构被 I n t el 称之为 N e t B u r st 。其中最容易被关注到的变化就是它的新系统总线。 虽然真实时钟频率只有 100MHz,位宽还是 64 位,但由于利用了与 APG 4x 相同的工作原理,它的速 度实际相当于 4 0 0 M Hz 是传统 P6 总线的四倍,可传输高达 3.2GB/s 。明显超过 AMD Thunderbird 处理器 266MHz(133MHz 2)2.1GB/s 的
14、数据传输率。Pentium 4 的二级缓存与 Pentium 的二级缓存大小相同,都是 256KB 并皆为 8 路联合方式运作。 但 Pentium 4 的二级缓存每线为 128 字节,并分成 2 个等量的 64 字节。当它从系统(无论是内存、AGP 显卡或是 P CI 等) 取出数据时,都是以 64 字节为单位,这样一来确保批量传输的最大性能。一级缓存方面,P e n t i u m 4 仅有 8 KB 的一级数据缓存,没有指令缓存 ,这样便于降低一级的延迟,采用 4 路联合方式,并使用 64 字节的缓存管道。双端口结构使得能在一个时钟内,一个读取 而另一个写回的方式来同时运作。过去在 P
15、e n t i u m 或 A t h l on 处理器中,都有一级指令缓存。代 码会先被放入此块缓存中,直到要真正被处理单元执行时才会取出。糟糕的是某些 x 86 指令非常复 杂,因此解码过程可能会阻塞整个执行管道,同时这些指令中的部分重复频率很高,常常刚解码一 次后又需要再次解码。基本上讲,P e n t i u m 4 的执行追踪缓存就是在解码器底下的的一级指令缓存, 如果缓存里存放有已经解码过的复杂指令,下一次它进入流水线时就不需要再解码,而只直接提取 微指令即可。另外 Pentium 4 新加有硬件预取的机制。这块新的处理单元可辨认 Pentium 4 核心执行软件的数 据存取样本,
16、并依此猜测下次会被处理的数据,然后将这些数据预先载入缓存中。在应用大量的有 规则数据情况下比如矩阵, P e n t i u m 4 的硬件预取功能将大幅加速执行效能。还有 Pentium 4 最有名的特性之一就是该处理器具有非常长的流水线工位。Pentium 的流水线 工位有 10 个, A t h l on 为 11 个,而 P e n t i u m 4 不少于 20 个。如此多的工位数量保证了每个工位执行的任务足够简单,很显然 Pentuim4 已经做好了足够的准备向更高的 GHz 频率进军,这显然是 Pentium 和 Athlon 所不具备的,也是他们注定无法在更高频率上和 P e
17、 n t i u m 4 抗衡的致命伤。Pentium 4 的流水线能保留多达 126 个将要被执行指令,其中最多可包含 48 个载入及 24 个存储运 算。而追踪缓存分支预测单元,就是用来确保清空整个管道内容的情况不会经常发生的。I n t el 声称 用了这个单元后,可减少 P e n t i u m 3 3%的预测失败。但一旦发生预测失败,所带来的损失也相 当惊人。其余的新特性包括两组双速 ALU 及 AGU 。因为他 们可以每半时钟内处理一个微指令,因此四个中的 每一个时钟皆为处理器时钟的两倍。快速执行引擎 无法处理的指令,将被送到唯一的 S l o w A LU 处处 理。不过好在程
18、序指令绝大部分都是一些简单的指 令。加入流式单指令多数据扩展技术的第二版棗 SSE2 。这一次新开发的 SIMD 指令了包括浮点 S I MD 指令、整形 S I MD 指令、S I MD 浮点和整形数据之间 转换以及数据在 XMM 寄存器和 MMX 寄存器中转换等几 大部分。其中重要的改进包括引入新的数据格式, 比如 128 位 SIMD 整数运算和 64 位双精度浮点运算等等。 玉林工业品市场 电脑批发部工程师张万先生介绍说,为了更好的利用 C a c he, P4 还另外增加了几条 操作缓存的指令,允许程序员控制已经缓存过的数 据。由于 SSE2 更多是在架构内部的加强和优化,其 最大
19、好处是并不需要因此而开发全新的操作系统, 只要稍微打个补丁之类,就能享受到 SSE2 带来的好 处。Intel 公司于 2001 年 8 月底发布的 1.9 和 2.0GHz 的 Pentium 4 仍然采用 0.18 微米的Willamette 内 核。我们曾经很希望看到此次发表的 S o c k e t 4 78 接口 P e n t i u m 4 采用代号为 N o r t h w o od 的新核心。 不过,I n t el 可能在 0 .13 微米制程上碰到了一些麻烦。5 .I t a n i um 处理器大多数熟悉计算机的爱好者一定都听过 M e r c ed 这个名字,现在 I
20、 n t el 已经正式把它命名为Itanium 。这将是 Intel 第一款执行 IA-64 指令的微处理器。它采用了 EPIC(Explicitly Parallel In-s t r u c t i o n C o de,显性并行指令计算 )技术,可实现每时钟周期高达 20 次运算。I t a n i um 有 128 个 整数和多媒体寄存器, 1 28 个 82 位浮点寄存器,64 个论断寄存器,8 个分支寄存器。这么多的寄存器允许 Intel 整合动态寄存器堆栈引擎,这将大大提高处理能力。第一代 IA-64 的处理器通过它们的浮点单元可每秒执行 60 亿次浮点操作。(1)Itaniu
21、m 的主要物理参数 该处理器具有 3 级高速缓存,包括 2 MB 或 4 MB 三级高速缓存、9 6 KB 二级高速缓存和 3 2 KB 一级高速缓存,缩短了内存等待时间。 首批产品采用 733MHz 和 800MHz 主频。 2 2 6 6 M Hz 数据总线,以 2 .1 G B /s 带宽支持快速系统总线处理。 “机器检查体系结构“(M C A)、完善的错误记录、高速缓存和系统总线纠错码(E C C)设计提供了先进的错误检测、纠正和处理能力。 64 位数据总线 (以及 8 位 E C C)。 3 英寸5 英寸插盒,包括安腾处理器和高达 4 MB 的盒上 3 级高速缓存。 专用的边缘电源接
22、头为处理器和高速缓存设备提供单独电压,从而提高信号的完整性。 硬件内建 I A -32 指令二进制兼容性。 C C PU 中晶体管数量为 2 5 00 万个,高速缓存中有 3 亿个。(2)Itanium 的主要性能指标 一体化的 2 MB 或 4 MB 盒上三级高速缓存。以处理器主频全速运行,采用 4 路成组相联设计和 64 字节高速缓存线。采用全面的流水线和优化设计,使用 1 28 位宽高速缓存总线以 12.8GB/s 带宽实 现快速数据访问。 一体化的 9 6 KB 二级高速缓存, 6 路成组相联结构,采用全面的流水线设计和 64 位高速缓存 线。 一级高速缓存为 3 2 KB,数据高速缓
23、存与指令高速缓存分开 (1 6 KB 数据/1 6 KB 指令)。4 路成组相联结构,采用全面的流水线设计和 32 字节高速缓存线。 高度并行的流水线硬件,10 级流水线。 两个整数单元和两个内存单元,每时钟周期能够执行 4 条 A LU 指令。 浮点(FP)计算单元包含两个以 82 位运算数运行的 FMAC(浮点相乘累积) 单元。每个FMAC 单元每 时钟周期能够执行两次浮点运算,支持单精度、双精度和扩展双精度。 两个额外的 FP 多媒体单元,每个单元能够执行两条单精度 FP 运算。与常规的 F M AC 相结合, 每时钟周期能够执行 8 次单精度 FP 运算,最高结果可达 6 .4 G F
24、 L O PS 。 44 位物理内存寻址能力。 集成的系统管理特性,提供温度监测和插盒识别信息。 先进的载入地址表(A L A T),包括 32 个条目,采用 2 路成组相联高速缓存设计,支持推测执行,最小的内存等待时间和更高性能。 两层数据转换后备缓冲器(D T L B)-在 D T L B 1(全部相关联)中有 32 个条目;在DTLB2 中有 96个条目。另外,系统软件(O S)可以单独使用 48 个转换寄存器(T R),存储关键的虚拟到物理地址转换。 指令转换后备缓冲器(I T L B)包含 64 个条目,并且相互之间完全相关。 “显性并行指令集计算“(E P I C)技术,通过最大限
25、度地发挥硬件和软件的协同作用,提高了 指令级并行运算能力。Itanium 体系结构为编译器提供了多种机制,用于与处理器交流编译器时间信 息,如分支和高速缓存提示。此外,这种体系结构使编译代码能够通过创新的指令格式来更有效地 管理处理器硬件。这些交流机制能够最大限度地减少分支损耗,减少高速缓存未命中的次数,同时 实现更强的并行运算能力,而这一点要比代码中固有的并行运算能力显著得多。 推测 :使编译器在进行分支和存储之前提前安排载入指令,以缩短内存等待时间,进而实现 更高性能。 预测:通过消除分支和分支预测错误造成的相关损耗来提高性能。 并行运算 :使编译器能够为处理器提供更多信息,确保处理器能够
26、持续并行执行多项运算,进 而提供更高的性能和可扩展性。 寄存器堆栈:利用由寄存器堆栈引擎(RSE)管理的灵活的整数 寄存器模型来减少呼叫/返回程序开销。 寄存器循环 :在硬件中自动为寄存器重命名,以提高软件循环性能 ,不需要满足传统方式中的额外要求。 分支/存储提示:提高分支预测率并缩短内存等待时间。 SIMD 指令集:通过使每条指令在多个整数运算数或浮点运算 数上执行而显著地提高了多媒体应用的性能。 海量寄存器资源:1 28 个整数寄存器,1 28 个浮点寄存器, 8 个分支寄存器和 64 个分支预测寄存器。 增强的延迟事务处理能力,提高总线效率。 增强版低电压 AGTL+(AdvancedGunningTransceiverLogic)信 号技术。当然 ,这款全新的 CPU 也有缺点,由于它对 I A -64 的关注,使得它在当前的 I A -32 架构上表现 欠佳。我们不知道市场对这种抛弃过去来换取性能的做法到底能承受到什么程度?但一开始,支持 它的软件一定很少,而且售价昂贵,主流市场不可能有它的容身之处,只有高端工作站和服务器市 场才是它适合待的地方。