1、常用算法与程序设计,1,第 9 章,并行算法,常用算法与程序设计,2,主要内容,9.1 并行算法的基本概念并行计算机系统结构模型并行计算性能评价 9.2 并行算法设计SIMD共享存储模型SIMD互连网络模型MIMD共享存储模型MIMD异步通信模型 9.3 并行程序开发并行程序设计的概念共享存储系统并行编程分布存储系统并行编程,常用算法与程序设计,3,9.1并行算法的基本概念,9.1.1 并行计算机系统结构模型 SISD:单指令流单数据流。 SIMD:单指令流多数据流。 MISD:多指令流单数据流。 MIMD:多指令流多数据流。,常用算法与程序设计,4,9.1.2 并行计算性能评价,1. 并行算
2、法的成本C(n) 成本C(n)定义为并行算法的运行时间T(n)与其所需的处理器数P(n)的乘积,即 C(n)T(n)* P(n) 它相当于在最坏的情况下求解某一问题的总执行步数。如果求解一个问题的并行算法的成本,在数量级上等于最坏情况下的串行求解此问题所需的执行步数,那么称此并行算法是成本最优的。 。,常用算法与程序设计,5,2. 加速比Sp(n) 并行算法的加速比Sp(n)可定义为 Sp(n)Ts(n)/ Tp(n)式中,Ts(n)是最快的串行算法在最坏的情况下的运行时间,Tp(n)是求解同一问题的某并行算法在最坏情况下的运行时间 。Sp(n)越大,则并行算法越好。,常用算法与程序设计,6,
3、3. 并行算法的效率Ep(n) 并行算法的效率可定义为算法的加速比与处理器数目之比,即Ep(n)Sp(n)/P(n)并行算法的加速比不能反应处理机的利用率,一个并行算法的加速比可能很大,但是处理机的利用率却可能很低。并行算法的效率反映了在执行算法时处理机的利用情况。,常用算法与程序设计,7,并行程序设计包括将一个问题分解成若干部分,然后由各个处理器对各个部分分别进行计算。 一个理想的并行计算是能被立即分解成许多完全独立部分且它们能同时执行的计算,可以贴切地称为自然并行 。 许多问题不是自然并行的,需要使用一些技巧来解决。,9.2 并行算法设计,常用算法与程序设计,8,SIMD共享存储模型是假定
4、有有限或无限个功能相同的处理器,每个处理器拥有简单的算术运算和逻辑判断能力,在理想的情况下假定存在一个容量无限大的共享存储器,在任何时刻,任意一个处理器均可通过共享存储器的共享单元同其他任何处理器互相交换数据,也称之为PRAM(Parallel Random Access Machine)模型,即并行随机存取机器。,9.2.1 SIMD共享存储模型,常用算法与程序设计,9,【例9.1】.广播算法,(1)处理器P1将m复制到自己的存储器中,然后将其写入B(1) (2)for ( i = 0 ;i log N 1; i +)for j = 2i + 1 to 2 i+1 par-do处理器Pj将B
5、(j 2i)复制到自己的存储器中;然后将其写入B(j);end for (3)for i=1 to N par-do处理器Pi从B(i)中读取数据m ;end for,常用算法与程序设计,10,SIMD互连网络模型,简记为SIMD-IN,也称为分布存储的SIMD模型,简记为SIMD-DM。在这种模型中,每个处理器在控制器控制下或处于活动状态,或处于不活动状态。活动状态的处理器都执行相同的指令,处理器之间的数据交换是通过互连网络进行的。其中各处理器(包括算术逻辑单元和本地存储器)可以通过多种互连方式连接。,9.2.2 SIMD互连网络模型,常用算法与程序设计,11,【例9.2】一维线性模型上的并
6、行排序算法 for ( k= 1; k ; k+ )for each Pi : i=1,3,2-1 par-doif XiXi+1 then XiXi+1 ; end forfor each Pi : i=2,4,2 par-doif XiXi+1 then XiXi+1 ;end for ,常用算法与程序设计,12,共享存储的MIMD计算模型是一个异步的PRAM模型,系由多个处理器组成,它的特点是每个处理器都有自己的本地存储器、局部时钟和局部程序;处理器间的通信经过共享全局存储器;没有全局时钟,各个处理器异步地执行各自的指令;处理器任何时间依赖关系必须明确地在各处理器的程序中加入同步(路)障
7、(Synchronization Barrier);一条指令可在非确定但有限的时间内完成。,9.2.3 MIMD共享存储模型,常用算法与程序设计,13,【例9.3】并行求和算法 g = 0; for each Pi:0 i p par-do li = 0 ; for( j = 0 ; j n ; j += p ) li = li + aj; lock(g); g = g + li; unlock(g); end for,常用算法与程序设计,14,MIMD异步通信计算模型可以抽象为一个无向图,其中顶点集对应处理器集合,边集对应处理器间的双向通信链集合。每个处理器都赋予惟一的编号,且只具有知晓与其
8、有线相连的近邻处理器的局部知识。系统中并无共享存储器,各处理器之间的通信是通过发送和接受消息完成的。在算法运行期间,每个处理器除了执行自己的计算任务外,还向邻近的处理器发送消息和接受并处理来自邻近处理器的消息 。,9.2.4 MIMD异步通信模型,常用算法与程序设计,15,【例9.4】MIMD-AC模型上的随机k选择算法 (1)通过对有根生成树的一次扫描,根节点就可计算出总的元素数B。如果B1,则根节点通知该元素所在节点将此元素送往根节点,算法结束;否则执行以下各步; (2)分布随机地从B个元素中挑选出一个元素m(划分元素)送到根节点。其过程是:假定每个进程(节点)给其元素和其孩子都赋予一个固
9、定的序号,并且还假定每个节点都知道t(1),t(p)。其中t(i)是它的第i个子树中所有元素的数目(1ip)。根节点在区间1到n随机地选择一整数i,为了找相应的元素,它首先检查驻留在自己局部存储器中t个元素是否是此元素;如果it,则说明有此元素,否则根节点发送命令LOCATE(j)给第f个孩子,其中jitt(1)-t(f-1)(取最小正整数)。根据接受的LOCATE(j)信息,接收进程就像根节点一样作出类似的反应。当已经定位到一个元素时,它就被发送至根并作为k选择算法的划分元素,发送给所有其他节点。,常用算法与程序设计,16,(3)每个进程i将其局部存储器中的元素按m划分成三个子集合BLi,B
10、Ei,BGi,它们分别包含、m的那些元素。通过对生成树从叶子到根的一次扫描,在根节点可计算出BL,BE,BG。一旦计算出BL、BE、BG,根节点就可以根据B和k决定算法是以选中m而结束,还是继续递归调用。根节点向所有其他节点广播这一决定,以便让每个节点i知道集合BLi和BGi中哪一个应作为下一次递归调用的参数,这一步需要交换的消息数为O(p)。 (4)根据新的参数B和k,算法就可自动递归调用算法了。在分布式环境中,递归调用时其入口和出口均由根节点完成。它分布地计数现有活跃元素的数目。如果很多,则根节点通知所有其他节点,它们都递归调用它们局部的程序。当只剩下一个元素时,根节点就令其它节点将此元素
11、发送给它,从而得到了第k个元素。此时每个进程都可以从递归调用中退出而无需与根节点进一步通信就可结束。,常用算法与程序设计,17,9.3.1 并行程序概念目前两种最重要的并行编程模型是数据并行和消息传递。数据并行编程模型的编程级别比较高,编程相对简单,但它仅适用于数据并行问题;消息传递编程模型的编程级别相对较低,但消息传递编程模型可以有更广泛的应用范围。,9.3 并行程序开发,常用算法与程序设计,18,9.3.2 共享存储系统并行编程 在一个共享存储器系统中,任一个处理器都可以访问全部的存储单元。所谓单一编址空间就是每一个存储单元都由一个单地址范围内的某个特定地址所指定。 OpenMp是一个共享
12、存储器标准,是为在多处理机上编写并行程序而设计的一个应用编程接口,得到许多硬件和软件供应商的支持,常用算法与程序设计,19,“Hello World ”程序,#include #include int main() #pragma omp parallelprintf(“Hello World n”); ,常用算法与程序设计,20,9.3.3 分布存储系统并行编程 对于分布存储系统来说,单一编址空间的假设不成立,组成系统的各计算机有自己的处理器和本地主存储器,不能相互访问各自的主存储器,只能通过传递消息来进行交互 通过在C或者Fortran语言中增加进程间消息传递函数,可以完成大多数的并行程序
13、设计。MPI标准是最流行的并行编程消息传递规范。几乎所有商业的并行机都支持它,同时也有众多支持MPI标准的开放软件库可供使用。,常用算法与程序设计,21,“Hello World ”程序,#include “mpi.h” #include #include void main(argc,argv) int argc; char *argv; int myid,numprocs;int namelen; char processor_nameMPI_MAX_PROCESSOR_NAME; MPI_Init( ,常用算法与程序设计,22,上机:1. MPICH是一种最重要的MPI实现,可以免费从http:/www-unix.mcs.anl.gov/mpi/mpich取得,请下载并安装;然后编译运行“Hello World”程序。 2 . OpenMP官方网站的地址试www.OpenMP.org。可以从该站点下载C/C+和Fortran版本的OpenMP规范与编译器。试编译运行“Hello World”程序。 。 作业:1. 2. 4. 6.,