ImageVerifierCode 换一换
格式:DOC , 页数:9 ,大小:78.50KB ,
资源ID:9453937      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-9453937.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(系统结构要点总结精简版.doc)为本站会员(eukav)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

系统结构要点总结精简版.doc

1、1第 1 章1、掌握透明性的概念,以及对透明性的分析透明本来存在的事物或属性,从某个角度上看不到,称对他是透明的。不同机器级的程序员所看到的计算机属性是不同的,这个属性就是计算机系统不同层次的界面。系统结构设计就是要研究对某级,哪些应当透明,哪些不应当透明。透明的好处是简化该级的设计。2、理解计算机系统结构的定义系统结构是对计算机系统中各机器级之间界面的划分和定义,以及对界面上下的功能进行分配。3、熟悉计算机系统结构的属性(习题 8、9)硬件能直接识别和处理的数据类型和格式等的数据表示最小可寻址单位、寻址种类、地址计算等的寻址方式;通用/专用寄存器的设置、数量、字长、使用约定等的寄存器组织;二

2、进制或汇编级指令的操作类型、格式、排序方式、控制机构等的指令系统;中断的分类与分级、中断处理程序功能及入口地址等的中断机构;系统机器级的管态和用户态的定义和切换;输入输出设备的连接、使用方式、流量、操作结束、出错指示等的机器级 I/O 结构;系统各部分的信息保护方式和保护机构;等等。4、实现软件移植的途径所谓软件的可移植性,是指软件不用修改或只需经少量加工就能由一台机器搬到另一台机器上运行,即同一软件可以应用于不同的环境。根据不同的要求可以有如下三种方法:1. 统一高级语言这种方法可以解决结构相同或完全不同的各种机器上的软件移植。2. 采用系列机思想所谓系列机是指在一个厂家内生产的具有相同的系

3、统结构,但具有不同组成和实现的一系列不同型号的机器。系列机的软件兼容分为向上兼容、向下兼容、向前兼容和向后兼容四种。向上(下)兼容是指按某档机器编制的程序,不加修改地就能运行于比它高(低)档的机器。向前(后)兼容是指按某个时期投入市场的某种型号机器编制的程序,不加修改就能运行在它之前(后)投入市场的机器。3. 采用模拟与仿真方法模拟方法是指用软件方法在一台现有的计算机上实现另一台计算机的指令系统。例如在 A 计算机上要实现B 计算机的指令系统,通常采用解释的方法来完成,即B 机器的每一条指令用一段 A 机器的指令进行解释执行,A 机称为宿主机,被模拟的 B 机称为虚拟机。 如果宿主机本身采用微

4、程序控制,则对 B 机器指令统每条指令的解释执行可直接由 A 机器的一段微程序解释执行。这种用微程序直接解释另一种机器指令系统的方法称为仿真。A 机器称为宿主机, B 机器称为目标机。仿真和模拟的主要区别在于解释所用的语言。仿真是用微程序解释,其解释程序存在控制存贮器中,而模拟是用机器语言程序解释,其解释程序存在主存中。5、并行性的含义、开发并行性的途径,以及典型计算机结构(1)并行性,即计算机在解题中具有可以同时进行运算或操作的特性。并行性包含同时性和并发性二重含义。同时性(Simultaneity)指的是两个或多个事件在同一时刻发生。并发性(Concurrency)指的是两个或多个事件在同

5、一时间间隔内发生。(2) 1)时间重叠(Time Interleaving)是在并行性概念中引入时间因素,让多个处理过程在时间上相互错开,轮流重叠地使用同一套硬件设备的各个部分,以加快硬件周转而赢得速度。2)资源重复(Resource Replication)是在并行概念中引入空间因素。通过重复设置硬件资源来提高可靠性或性能。控制器每执行完一条指令可以同时让各个 PE 对各自分配到的数据完成同一种运算或操作。3)资源共享(Resource Sharing) ,是利用软件的方法让多个用户按一定时间顺序轮流地使用同一套资源,以提高其利用率,这样也可以提高整个系统的性能。计算机系统可以通过各种技术途

6、径,采取多种并行性措施,当并行性提高到一定级别,形成新的结构时,就进入到并行处理的专门领域。并行处理(Parallel Processing)是信息处理的一种有效形式,它着重发掘解题过程中的并行事件,使并行性达到较高的级别。(3) 并行处理计算机是强调并行处理的系统,除了分布处理系统外,按其基本结构特征,可以分成流水线计算机、阵列处理机、多处理机系统和数据流计算机等 4 种不同的结构。1)流水线计算机主要通过时间重叠,让多个部件在时间上交错重叠地并行执行运算和处理,以实现时间上的并行。主要是解决好拥塞控制、冲突防止、分支处理、指令和数据的相关处理、流水线重组、中断处理、流水线调度以及作业顺序的

7、控制等问题。 2)阵列处理机主要通过资源重复,设置大量算术逻辑单元,在同一控制部件作用下同时运算和处理,以实现空间上的并行。主要解决好处理单元间的灵活而有规律的互连模式及互连网络的设计、存贮器组织、数据在存贮器中的分布,以及研制对具体题目的高效并行算法等问题。 3)多处理机系统主要通过资源共享,让共享输入/输出子系统、数据库资源及共享或不共享主存的一组处理机2在统一的操作系统全盘控制下,实现软件和硬件各级上相互作用,达到时间和空间上的异步并行。主要解决的问题是:处理机机间的互连、存贮器组织等硬件结构,存贮管理、资源分配、任务分解、系统死锁的防止、进程间的通信和同步、多处理机的调度、系统保护等操

8、作系统,高效并行算法和并行语言的设计等问题。6、计算机系统分类研究计算机系统分类方法有助于人们认识计算机的系统结构和组成的特点,理解系统的工作原理和性能。通常把计算机系统按其性能与价格的综合指标分为巨型、大型、中型、小型、微型等。根据计算机面向应用领域的不同性质分类:专用计算机和通用计算机。按照处理机个数和种类分,计算机系统可分为单处理机、多处理机、并行处理机、相联处理机、超标量处理机、超流水线处理机、SMP(对称处理机) 、MPP(大规模并行处理机) 、机群系统等。下面介绍三种常用的分类方法:(详见 PPT)1. Flynn(弗林)分类法 2、冯氏分类法:3、按照执行流和多倍性来分类:7、习

9、题1)掌握课后第 1 题各名词 2)教材 P37-384 题、8 题、10 题第 2 章1、数据表示的概念,它与数据结构有何区别与联系1) 、数据表示是指可由硬件直接识别和引用的数据类型。硬件直接识别,就是说在系统中能够直接由硬件实现相应数据的运算,也就是系统结构中有相应的运算指令和运算部件来完成这项任务。2) 、数据结构就是指结构数据类型的组织方式,它反映了结构数据类型中各种数据元素或信息单元之间的结构关系,是通过软件映像,将信息变换成机器中所具有的各种数据表示来实现的。3) 、数据结构和数据表示是软硬件的交界面。数据结构所研究的是软的方面,而数据表示考虑是硬的方面,让计算机能够识别处理,并

10、尽量节约存储空间。2、两种自定义数据表示的异同,标志符的设置是否增加了目标程序所占用的存储空间(1)带标志符数据表示就是对每一个数据都附加一个标志符,由这个标志符来表示这个数据的类型。优点:简化指令系统和程序设计;简化了编译程序;易于对编程查错;能自动完成数据类型转换;支持数据库系统的实现与数据类型无关的要求;方便程序调试。缺点:可能导致存储空间增加,又使指令执行速度变慢。(2)数据描述符数据描述符:主要用来描述复杂和多维结构的数据类型,如向量,数组,多维数组,记录等。(3)带标志符数据表示与数据描述符不同之处是:1)标志符要与每个数据相连,两者合存在一个存储单元中;而描述符则和数据分开存放。

11、2)要访问数据集中的元素时,必须先访问描述符,这就至少增加一级寻址(先访描符增寻址 )3)描述符可看成是程序一部分,而不是数据的一部分。标志符则可看作是数据的一部分(程序部分不是数)4) 标志符用于描述单个数据,描述符数据表示用于描述数据块。3、浮点数据表示方式、尾数基值的选择、尾数的下溢处理方法(误差、舍入规则)(1)浮点数据表示 N=mrme ,其中 e=reg 两个数值:m:尾数的值;e:阶码的值。两个基值:rm:尾数的基;re:阶码的基,通常为 2。两个字长:p: 尾数长度。当 rm=16时,每 4 个二进制位表示一个长度。q: 阶码长度。通常指阶码部分的二进制位数。(2)浮点数尾数基

12、值的选择:结论 1:在浮点数的字长和表数范围一定时,尾数基值取 2 或 4 时具有最高的表数精度。结论 2:在浮点数的字长和表数精度一定时,rm 取 2 或4 具有最大的表数范围。综上结论 1、2 可得:在浮点数的字长确定后,尾数基值rm 取 2 或 4 具有最大的表数范围和最高的表数精度。(3)尾数的下溢处理方法(误差、舍入规则)1) 、截断法舍入规则:将尾数超出机器字长的部分简单截去。优点:实现简单,不增加硬件,不需要额外的处理时间。缺点:最大误差较大,平均误差大且无法调节。2) 、舍入法优点:最大误差小,平均误差接近于零。实现简单,增加的硬件少。缺点:处理速度慢,花费在加 1 控制上。3

13、) 、恒置“1”法舍入规则:将规定字长的最低位恒置成“1”。优点:实现简单,不需要增加硬件和处理时间,平均误差接近于零。缺点:最大误差最大。4) 、查表舍入法舍入规则:基于存贮逻辑思想,用 ROM 或 PLA 存放下溢处理表。当尾数最低 k-1 位为全 “1”时,以截断法处理,即输出 k-1 位为全“1”;其余情况按舍入法处理。优点:速度快,平均误差趋于零。缺点:硬件设置增多,成本高。4、引用数据表示的原则(1)看系统的效率有否提高,即是否减少了实现时间和所需的存贮空间。(2)引入这种数据表示后,其通用性和利用率是否提高。5、掌握三种操作码编码方法及其特点:固定长、Huffman 编码(会画

14、Huffman 树,写出编码,求平均码长) 、扩展编码(写出编码,求平均码长) ;平均码长最3短的和最优化的编码方法(答案不完整)(1)哈夫曼压缩原理:当各种事件发生的概率不等时 ,采用优化技术对发生概率最高的事件用最短的位数来表示,而对出现概率较低的允许用较长的位数来表示,就会导致表示的平均位数的缩短.(2)哈夫曼编码的码长最短,译码难.扩展操作码编码的码长适中,等长二进制编码最长,译码最简单。(3)指令格式的优化:指的是如何用最短的位数来表示指令的操作信息和地址信息,使程序中指令的平均字长最短.操作码的优化:为了缩短指令字的长度 ,减少程序的总位数,利用哈夫曼压缩原理.6、设计 RISC

15、机器的基本原则有哪些(1)确定指令系统时,只选择使用频度很高的那些指令,在此基础上添加少量能有效支持操作系统和高级语言实现及其他功能的最有用的指令,让指令的条数大大减少,一般不超过 100 条。(2)大大减少指令系统可采用的寻址方式的种类,一般不超过两种。简化指令的格式,使之也限制在两种之内,并让全部指令都具有相同的长度。(3)让所有指令都在一个机器周期内完成。(4)扩大通用寄存器的个数,一般不出、不少于 32 个寄存器,以近可能减少访存操作,所有指令中只有存(Store) 、取(Load)指令才可以访存,其他指令的操作一律都在寄存器间进行。(5)为提高指令执行速度,大多数指令都采用硬联控制实

16、现,少数指令采用微程序实现。(6)通过精简指令和优化设计编译程序,以简单有效的方式来支持高级语言的实现。7、在 CPU 中采用重叠寄存器窗口技术的目的(3p83)为了减少访存的次数,减少过程调用时间,更简单实现过程与过程之间的参数传递。第 3 章总线的集中控制方式:串行链接、定时查询、独立请求;掌握三种方式的总线分配特点及过程,各自所需总线的线数是多少中断分为哪几类?为简化中断服务程序入口形成硬件,将中断源分成如下几类:机器校验、管理程序调用、程序性、外部、输入/输出、重新启动。中断响应次序、中断处理次序中断响应的次序是在同时发生多个不同中断类的中断请求时,由排队器硬件实现的,因此响应次序是固

17、定不变的。中断处理次序(中断处理完的次序)可以由操作系统控制进行改变。中断处理程序在执行前或执行中是可以被中断的。方法:在机器中设置中断屏蔽字寄存器硬件,以决定是否让某级中断请求进入中断响应排队器排队;程序状态字中设有中断级屏蔽位字段,由操作系统设置中断处理过程(画图)通道的工作过程通道的流量、极限流量、实际最大流量(公式计算)第 4 章虚拟存储器与 Cache 存储器的透明性分析虚拟存贮器和 Cache 存贮器对应用程序员都是透明的,不需要对应用程序做任何修改就可以在系统上运行。由于 CPU 与主存的速度差只有一个数量级,主存与辅存之间的速度差有 3 至 4 个数量级,所以,Cache 存贮

18、器只能全部由硬件来实现。这样,Cache 存贮器对系统程序员也是透明的,操作系统不参予对 Cache 存贮器的管理。在虚拟存贮器中,为了降低系统的成本,让不少功能依靠操作系统中的虚拟存贮管理软件来实现。因此,虚拟存贮器对系统程序员则是不透明的。替换算法(FIFO、LRU、OPT、RAND) 、堆栈型替换算法及过程随机算法(RAND Random algorithm):算法简单,容易实现;没有利用历史信息,没有反映程序的局部性,命中率低。先进先出算法 (FIFO First-In First-Out algorithm):比较容易实现,利用了历史信息,没有反映程序的局部性。最先调入主存的页面,很

19、可能也是经常要使用的页面。最久没有使用算法 (LRU Least Recently Used algorithm)利用了历史信息,也反应了程序的局部性。:把最久没有被使用的页面作为即将被替换出去的页面,实现起来比较容易最优替换算法 (OPT OPTimal replacement algorithm):是一种理想化的算法。根据未来使用情况,将未来的近期内不用的页替换出去。用来作为评价其它页面替换算法好坏的标准。 虚拟存储器中,实际上有可能采用只有 FIFO 和 LRU 两种算法。替换算法的确定主要是看按这种替换算法替换是否有高的主存命中率,其次是看算法是否便于实现,辅助软、硬件成本是否低。影响

20、主存命中率的因素除了替换算法外,还因地址流、页面大小、主存容量等不同而不同。 (请参见教材图4.22、4.23)堆栈型替换算法任何时刻 t,在 n 个实页中的虚页集合总是被包含在给其增加一个实页,即 n+1 个实页时,在实存中的虚页集合之内,即,满足:n Lt 时,Bt(n) Bt(n+1)4n Lt 时,Bt(n) = Bt(n+1) 式中, Lt 表示到 t 时刻,已遇到过的地址流中不同页的页数,Bt(n) 为 t 时刻在 n 页的主存中的虚页集合。LRU 算法在主存中保留的是 n 个最近使用的页,它们又总是被包含在 n+1 个最近使用过的页中,LRU 是堆栈型的替换算法。堆栈型算法的基本

21、特点:随着分配给程序的主存页面数增加,主存的命中率也提高,至少不下降。 LRU 和 OPT 都是堆栈型替换算法,而 RAND 和FIFO 不是。页面失效与页面争用Cache 的工作原理把 Cache 和主存机械等分成相同大小的块(或行) ,每一块由若干个字或字节组成。(块的大小比页的大小小得多)。每当给出一个主存地址进行访存时,都必须通过主存Cache 地址映象变换机构判定该访问字所在的块是否已在 Cache 中。如果在 Cache 中(Cache 命中) ,经地址映象变换机构将主存地址变换成 Cache 地址去访 Cache,这时 Cache与处理机之间进行单字宽信息的交往;如果不在 Cac

22、he中,则产生 Cache 失效,这时需要从访存的通路中把包含该字的一块信息通过多字宽通路调入 Cache,同时将被访问字直接从单字宽通路送往处理机。为尽力满足与 CPU 速度匹配,Cache 存贮器一般采用与 CPU 同类型的半导体工艺构成,此外,Cache主存间的地址映象与变换,以及替换、调度算法全部都得采用专门的硬件来实现。因此,Cache主存存贮层次不仅对应用程序员是透明的,对系统程序员也是透明的。Cache 的地址映像与变换(全相联、直接、组相联的映像规则、特点)地址映象:把存放在主存中的程序按照某种规则装入到 Cache中,并建立主存地址与 Cache 地址之间的对应关系地址变换:

23、当程序已经装入到 Cache 之后,在实际运行过程中,把主存地址变换成 Cache 地址在选取地址映象方法要考虑的主要因素:地址变换的硬件容易实现;地址变换的速度要快;Cache 空间利用率要高;发生块冲突的概率要小1) 、全相联映象及其变换映象规则:主存中的任意一块都可以映象到 Cache 中的任意一块。如果 Cache 的块数为 Cb,主存的块数为 Mb,映象关系共有:CbMb 种。用硬件实现非常复杂在虚拟存储器中,全部用软件实现优点是块冲突率最低,Cache 的空间利用率最高。2) 、直接映象及其变换映象规则:主存中一块只能映象到 Cache 的一个特定的块中。计算公式:bB mod C

24、b,其中:b 为 Cache 的块号,B 是主存的块号,Cb 是 Cache的块数。整个 Cache 地址与主存地址的低位部分完全相同。地址变换过程:用主存地址中的区号 E 去访问区表存储器把读出来的区号与主存地址中的区号 E 进行比较比较结果相等, 且有效位为 1, 则 Cache 命中比较结果相等, 有效位为 0, 表示 Cache 中的这一块已经作废比较结果不相等, 有效位为 0, 表示 Cache 中的这一块是空的比较结果不相等, 有效位为 1, 表示原来在 Cache 中的这一块是有用的提高 Cache 速度的一种方法:把区表存储器与 Cache 合并成一个存储器直接映象方法的主要优

25、点:硬件实现很简单, 不需要相联访问存储器访问速度也比较快, 实际上不做地址变换直接映象方式的主要缺点: 块的冲突率较高3) 、组相联映象及其变换映象规则:主存和 Cache 按同样大小划分成块,还按同样大小划分成组从主存的组到 Cache 的组之间采用直接映象方式,在两个对应的组内部采用全相联映象方式组相联映象方式的优点:块的冲突概率比较低,块的利用率大幅度提高,块失效率明显降低组相联映象方式的缺点:实现难度和造价要比直接映象方式高地址变换过程:用主存地址的组号 G 按地址访问块表存储器Cache 的替换算法 LRU 的实现过程:比较对法(熟悉表4.2) 、堆栈法(详见课件)发生块失效时,且

26、可以装入新调入块的几个 Cache 块都已经被装满时,要进行 Cache 块的替换。直接映象方式实际上不需要替换算法全相联映象方式的替换算法最复杂Cache 替换算法全部由硬件途径来实现。堆栈法和比较对法一、堆栈法此硬件堆栈既具有相联比较的功能,又要求能全下移、部分下移和从中间取出一项的功能。成本较高,只适用于组相联且组内块数较少的 LRU 替换场合。二、比较对法基本思想:让各个块成对组合,用一个触发器的状态来表示该比较对内两块访问的远近次序,再经门电路就可找到 LRU 块。Cache 与主存内容不一致的解决方法:写回法与写直达5法,二者区别写回法:是指 CPU 在执行写操作时,被写数据只写入

27、Cache,不写入主存。仅当需要替换时,才把已经修改过的Cache 块写回主存。需要有一位修改位来说明。 写直达法:是指 CPU 在执行写操作时,必须把数据同时写入 Cache 和主存。下面比较一下这两种方法:可靠性 写直达法优于写回法,这是因为写直达法能够保持 Cache 是主存的正确副本。控制的复杂性 写直达法比写回法简单.写回法需要设置修改位以确定是否需要写回以及控制先写回后才调入的执行顺序。时间上 写回法花在每次需要替换时,而写直达法则花费在每次写 Cache 时都附加一个比写 Cache 长得多的写主存的时间。采用写回法还是写直达法与系统使用场合有关。一般在单处理机中用写回法,多处理

28、机中用写直达法。 对于共享主存的多处理机系统,大多数是采用各个 CPU都有自己的 Cache 的方式与共享主存连接。由于写直达法不能保证同一主存块在各 CPU 所带 Cache 中对应块的内容都一致,还得采用播写法。播写法是在任何 CPU 写入本 Cache 和主存的同时,也将信息写入其它 Cache 有此单元的块中;或者让其它Cache 中有此单元的块都作废。第 5 章指令重叠解释方式的特点重叠解释优点是能加快相邻两条或多条指令的解释速度,但不能加快单条指令的解释。指令相关的解决办法(不允许修改指令、设置“执行”指令)解决办法是不准修改指令,或是通过设置“执行”指令,将指令相关改为数相关“执

29、行”指令本身并不实际执行,它执行的是由第二地址(X2)+(B2)+(D2)决定的主存单元中的指令。该主存单元在数据区。程序执行过程中,可以先修改这条位于数据区中的指令,然后再执行“执行”指令。主存空间操作数相关的解决办法:推后分析法解决办法:推后“分析” 法,即推后“ 分析”的读。通过由存控给读数、写数设置不同的访存优先级,让写数的级别高于读数级别被响应即可。通用寄存器组相关的解决办法:推后分析法、设置相关专用通路(不准确)通用寄存器中可以存放基址值或变址值,及操作数和运算结果,如上,L1、 L3 分别指示存放第一操作数和运算结果的通用寄存器号,d2 为相对位移量。L2 表示存放第二操作数的通

30、用寄存器号。设操作数的有效地址:(Xd) + (B2 ) (B2 0000) +d2 由分析器内的地址加法器形成。流水方式与重叠方式的区别流水线的分类流水线从不同的角度可以有不同的分类。1)流水线的级别看,有部件级的流水(构成部件内的各个子部件之间的流水)、处理机级流水 (构成计算机系统的各个部件之间的流水)、系统级流水 (构成计算机系统的多个处理机之间的流水,也称为宏流水)2)流水线具有的功能的多少看,分为单功能流水线(只能实现一种功能的流水处理) 和多功能流水线(同一流水线的各个段之间可以有多种不同的连接方式实现多种不同的运算或功能)。3)按多功能流水线的各段能否允许同时用于多种不同功能连

31、接流水,可把流水线分为静态流水线和动态流水线。4)从连接图中看,具有反馈回路的流水线称为非线性流水,没有反馈回路的流水线称为线性流水。5)以机器所具有的数据表示可以分为标量流水处理机和向量流水处理机。静态流水线与动态流水线的区别静态流水线是同一时间内各段只能按一种功能连接流水,只有等流水线全部流空后才能切换成按另一种功能来连接流水。 动态流水线的各功能段在同一时间内可按不同运算或功能联接。线性流水线与非线性流水线的区别(答案太简单)具有反馈回路的流水线称为非线性流水,没有反馈回路的流水线称为线性流水。衡量流水线处理机的性能指标:吞吐率、效率、加速比。(会画流水时空图,进行公式计算)流水的最大吞

32、吐率是指当流水线正常满负荷流动时,才会每隔t 流出一个结果所达到的吞吐率。消除流水瓶颈的方法:瓶颈子过程再细分和瓶颈段重复设置流水线调度(非线性):根据预约表、写出延迟禁止表、初始冲突向量,画出状态图、找出简单循环、最佳调度方案,计算吞吐率和效率。向量的三种流水处理方式:横向、纵向、分组纵横以 DA (BC)为例,A、B 、C、D 都是有 N 个元素的向量,向量的处理可以有多种方式。如果采用逐个求 D 向量元素的方法,即先访存取ai、bi 、 ci 元素,求出 di,再取 ai1、bi 1、ci1 元素,求出 di1 这种方式称为横向处理方式。这种方式宜于在标量处理机上采用循环程序实现,但却难

33、以让流水线连续流动。如果处理方式改为按 bi+ci ki (i 从 1 到 N) ,然后再 ki*ai di(i 从 1 到 N) ,称这种方式为纵向(垂直)处理方式。这种方式可以避免功能的频繁转切,也不会产生大量的先写后读操作数相关,有利于发挥出向量流6水机的性能,是一种向量的流水处理方式。由于向量长度一般较长,这种方式难以用大量的高速寄存器来存放中间向量,所以不得不采用面向存储器存储器型的流水线处理。如果向量长度太长,超出了向量寄存器组中寄存器的个数,可以将该向量分割成若干个组,使每组都能装得进向量寄存器组中。这样,每一组内均按纵向方式处理,而组和组之间则采用软件方法编制循环程序的方法依次

34、循环处理。我们称这种处理方式为分组纵横处理方式。向量的链接技术链接技术:利用向量指令间存在的先写后读的数据相关性来加快向量指令序列执行速度的技术。基本规则:只要操作数向量中的第一个元素可用,而且功能部件有空,向量运算可立即开始, 只要不发生功能部件冲突和操作数寄存器冲突都可以通过全链接机构使数据相关指令功能并行处理。适用情况:即第 1 条指令的结果,是第 2条指令的操作数,这时,所得到的第 1 条指令的中间结果不必要等待全部向量元素都执行完才进行第二条指令的操作,可以将从一个流水线部件得到的结果直接送入下一个功能流水线部件的向量寄存器,形成两条指令的链接 。P223-22414 题、15 题、

35、16 题、17 题第 6 章并行处理机的两种构形(分布式存贮器和集中式共享存储器)在分布式存贮器构型的阵列处理机上,应能根据解题算法要求,解决好将数据合理分配到各个局部存贮器中的存贮器信息分布问题。使各 PEi 主要只访问本局部存贮器 PEMi 中的数据,且各 PEi 均能在同一条向量指令作用下,同时访问本局部存贮器 PEMi 中同一地址单元。在集中式存贮器构型中,存贮器的信息分布应能根据解题算法,着眼于解决好数据如何合理地分配到不同的存贮器分体中,使之可以被多个 PE 同时访问而不发生分体冲突。ILLIAC 处理单元结构、互连函数ILLIAC IV 的处理单元阵列结构(请参看图 6.3)把互

36、连网络的个入端和个出端各自用0、j 、 、N-1 整数编号代表,则互连函数就表示互连网络的出端号和入端号的一一对应关系。三种单级互连网络(立方体、PM2I、混洗交换)的特点、互连函数、传输距离(乱)以 N 个处理单元之间的互连为例,基本的单级互连网络有立方体、PM2I 和混洗交换等 3 种。1)立方体单级网络在 N 个节点的立方体单级网络中, N 个入、出端均用 n(n=log2N)个二进制码 Pn-1Pi P1 P0 来编号。互连函数为:Cubei(Pn-1Pi P1 P0)= Pn-1Pi P1 P0式中,0 i n-1,Pi 为入端号二进制码的第 i 位。当维数 n3 时,称为超立方体网

37、络。单级立方体网络的最大距离为 n,即最多经 n 次传送,就可实现任何二个处理单元之间的数据传送。 (请参看图 6.10)2)PM2I 单级网络 (请参看图 6.11)在 PM2I 单级互连网络中,共可以有 2n 个互连函数,分别是:PM2 i( j )= j + 2i mod N 和 PM2i( j )= j 2i mod N能实现与 j 号处理单元直接相连的号为 j 2i 式中, 0 j N-1 , 0 i n-1,n=log2N。在这 2n 个互连函数中,PM2+(n-1) =PM2 -(n-1),所以,只有 2n-1 个互连函数是不同的,PM2I 互连的最大距离为 3)混洗交换单级网络

38、混洗交换单级网络包含两个互连函数,一个是全混,另一个是交换。其互连函数为:Shuffle(Pn-1Pn-2P1P0) = Pn-2P1P0Pn-1其中,n=log2N, Pn-1Pn-2P1P0 为入端编号的二进制码。Shuffle 函数不是可逆函数;另外,如果把它再作一次Shuffle 函数变换,得到的是一组新的代码,即Pn-3P1P0Pn-1Pn-2。这样,每全混一次,新的最高位就被移至最低位。当经过 n 次全混后,全部 N 个处理单元便又恢复到最初的排列次序。在多次全混的过程中,除了编号为全“0”和全“1”的处理单元外,各个处理单元都遇到了与其他多个处理单元连接的机会。在混洗交换网络中,

39、最远的两个入、出端号是全“0”和全“1”,它们的连接需要 n 次交换和 n-1 次混洗,所以其最大距离为 2n-1。互连函数:传输距离:交换开关的状态:直接、交换、上播、下播;二功能交换单元及四功能交换单元(缺)(1)(2)交换开关是具有两个入端和两个出端的交换单元,用作各种多级互连网络的基本构件。令居于上方的用 i 表示,居于下方的用 j 表示,可定义四种开关状态或连接方式:只有前两种功能的称二功能交换单元,具有全部 4 种功能的称四功能交换单元。不允许两个入端同时连到一个出端的情形;此外, i 入连 j 入,i 出连 j 出称为返回。控制方式特点:级控制、单元控制、部分级控制控制方式是对各

40、个交换开关进行控制的方式,以多级立方体网络为例,它可以有 3 种:(1)级控制同一级的所有开关只用一个控制信号控制,同时只能处于同一种状态;(2)单元控制每一个开关都有自己独立的控制信号控制,可各自处于不同的状态;(3)部分级控制第 i 级的所有开关分别用 i+1 个信号控制, 0 i n-1,n 为级数。7多级立方体网络(STARAN 网络(交换:级控制;移数:部分级控制) 、间接二进制 n 方体网络:单元控制) 、二功能交换单元,会画三级网络拓扑结构图,根据要求标出交换开关的状态特点:第 i 级( 0 i n-1)交换单元处于交换状态时,实现的是 Cubei 互连函数,且都采用二功能交换单

41、元,拓扑结构用立方体,控制方式可以有级控制、部分级控制和单元控制。多级立方体网络有 STARAN 网络、间接二进制 n 方体网络等。 STARAN 网络采用级控制(称交换网络)和部分级控制(其中可实现移数功能的称移数网络) ,间接二进制 n 方体网络用单元控制。后者有更大的连接灵活性。多级混洗交换网络(Omega 网络):单元控制方式、四功能交换单元,会画三级网络拓扑结构图,根据要求标出交换开关的状态(不全)特点是:交换开关用四功能的,拓扑结构为混洗,控制方式为单元控制。具有 N 个入端和 N 个出端的 Omega网络的画法是:用 n 个( n=log2N)相同的单级网络串联组成;每一级都是

42、N 个端的混洗拓扑之后再加一级四功能交换开关;每一级用 N/2 个交换单元,级编号从输入到输出依次为 n-1、n-2、,、1、0。混洗拓扑就是将编号为 0、1、N 1 的入端分成前后相等的两半,前一半和后一半在连至输出时顺次一一相隔。由于 Omega 网络采用四功能交换单元,因此允许同时实现一个处理单元与多个处理单元的连接,从而可实现一到多的播送功能。这种功能在多级立方体网络上无法实现。多级 PM2I 网络,会画三级网络拓扑结构图,根据要求标出单元间的连接状态(不全)多级 PM2I 网络也称数据变换网络。N 个端子经 n 级( n=log2N)连接,从入到出的级编号依次为 n-1、n-2、,、

43、1、0。每一级均把前后两列各 N 个单元以 PM2I 的拓扑互连。即从第 i 级(0in-1)来说,每一个入单元 j (0jN-1)都有 3 根线分别通往出单元 j、j+2i mod N、j-2i mod N。每一级控制信号有平控H、下控 D 和上控 U。若采用单元控制方式的,则称强化数据变换网络 ADM。并行存储器的无冲突访问:一维、二维数组的存放方案,实现无冲突访问(乱)在并行处理机中,存贮器频宽要与多个处理单元匹配,存贮器就必须采用多体并行的组成方式。同时,还要保证在各种访问模式下,存贮器都能实现无冲突地工作。这样,存贮器的实际频宽才不至于下降。对于一维数组,并行存贮器的分体数 m 应取

44、成大于处理单元数的一个质数,这样,只要各元素访问时的变址步距与模数 m 互质,对这些元素的同时访问就不会发生分体冲突。对于 n n 的二维数组,为使各行、列、主 /次对角线等上的元素都不发生分体冲突,除了模数 m 应取成大于每次要访问的元素数 n 的一个质数外,还应让二维数组中各个元素在行、列上分别错开一定的体号来存放。如果质数 m =22p + 1(p 为任意整数) ,则二维数组同一列上相邻的各元素在存贮体中错开的体号距离 1 应为2p,二维数组同一行上相邻的各元素在存贮体中错开的体号距离 2 应为 1。相联检索算法(乱)1) 全等查找算法即找出与比较数寄存器 CR 未屏蔽的那部分内容完全相

45、同的全部字单元。 首先,给字选择寄存器 WSR 设置好状态,来控制只对字选择寄存器相应位为“1”的那些字进行操作。同时,也将屏蔽寄存器 MR 预先置定好状态,控制只对屏蔽寄存器相应位为“1”的那些位片段参与全等比较。 将比较查找的内容装入比较数寄存器 CR 中,然后对屏蔽寄存器 MR 中为“1”的那些位片段,逐位地进行相联查找即可。凡出现与 CR 内容不等,查找产生的信号将 WSR i 置成“0”。这样,只要各位片逐一查找比较完毕之后,WSR 中标志位仍为 “1” 的那些存贮单元就是全等查找的响应单元,其内容必定与比较数完全相等。2)最大值查找算法即找出存贮器中所存的最大数及存放此最大数的所有

46、单元,相同的最大值可能有多个。 首先,将 WSR 置成全 “1”,CR 置初始值为全“1”,MR 的最高位置为“1” ,其余位置为 “0”。 然后,进行比较,看是否有单元响应。 (检查待查单元的最高位是否为 1)若有响应,表明最大值的最高位为 1,让所有未响应单元产生信号,将对应位 WSR i 都置成“0”,使其不再继续参与下一个位片的查找;如果没有一个响应,表明最大值的最高位为 0,此时,将CR 的该位改置为“0”,并维持 WSR 中的内容不变。 将 MR 的次高位置为“1”,其余位置为“0”,再进行类似的比较及处理。 自左至右逐位比较处理完毕,其 CR 中保留的内容就是要找的最大值,而 W

47、SR 中的状态就是存放此最大值所在存贮单元的位置。3) 幅值比较查找算法即在给定某比较数后,要分别找出存贮器中内容大于、等于、小于该比较数的单元位置,也就是将存贮器的单元按给定幅值进行比较,将其分成 3 类。查找开始前,设各单元的标志位 XYZ 为 100,表示未定。然后自左向右逐位查找,结果可能出现下面 3 种情况: CR j =0,B ij=1。表示 i 单元第 j 位的值大于比较数第 j 位的值,可以置标志位 XYZ 为 010,此后,该 i 单元不再参与比较。 CR j =1,B ij=0。表示 i 单元第 j 位的值小于比较数第 j 位的值,可以置标志位 XYZ 为 001,此后,该

48、 i 单元不再参与比较。8 CR j =B ij。表示 i 单元第 j 位的值等于比较数第 j 位的值,让标志位维持 100 不变,此后,该 i 单元仍继续参与下一个位片的比较。 首先,将 WSR 置成全 “1”,CR 置初始值为全“0”,MR 的最高位置为“1” ,其余位置为 “0”。 然后,进行比较,看是否有单元响应。 (检查待查单元的最高位是否为 0,即该单元是否为正数)若有响应,表明该单元为正数,让所有未响应单元产生信号,将对应位 WSR i 都置成“0”,使其不再继续参与下一个位片的查找;如果没有一个响应,表明存储器中没有正数,此时,将 WSR 中的内容全部清 0。 将 MR 的次高

49、位置为“1”,其余位置为“0”,进行比较,看是否有单元响应。 (检查待查单元的该位是否为0)若有响应,表明 CR 中此位 0 有效,让所有未响应单元产生信号,将对应位 WSR i 都置成“0”,使其不再继续参与下一个位片的查找;如果没有一个响应,把 CR的该位置 1,此时,将 WSR 中的内容保持不变。然后依次对后续每一个位片再进行类似的比较及处理。 自左至右逐位比较处理完毕,其 CR 中保留的内容就是要找的最小正数值,而 WSR 中为 1 的位所对应的字单元就是存放此最小正数值所在存贮单元。作业:13,14,15,16P2624 题、5 题、6 题、7 题、8 题、9 题选择题:15*2=30 分填空题/判断题:10*1=10 分简答题: 5*5=25 分应用题:35 分,共 4 道题复习提纲第一章: 实际机器与虚拟机器的区别 计算机系统结构的属性 透明性概念及分析(从计算机系统结构的角度、系统程序员、应用程序员等分别分析

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报