华为-vhdl设计风格和实现(1).ppt-道客多多

资源描述

1、VHDL设计风格和实现,内容概述,一、同步设计二、速度三、资源四、其他,一、同步设计,什么是同步设计？,同步设计：上游数据到下游逻辑单元的传递是通过时钟来同步的。- 只要能满足时延要求，就可以确保下游逻辑单元能正确采样到上游数据。异步设计：上游数据发生变化的时机是不确定的，甚至会出现中间态。- 下游逻辑对上游数据的采样是不确定的，会发生数据传递的错误。,为什么要做同步设计 ?,两年前我做的FPGA设计，现在却不能工作。FPGA本身有什么变化吗？- 如果采用的是异步设计，能否工作有很多无法控制的随机因素。我的设计原来可以工作，但将FPGA重新布线后，就不行了。怎么回事？- 异步设计也许在特定布线

2、下能工作，但布线改变后就不行了。很危险吧？我的设计通过了时间仿真，但上板调试时不干活。时间仿真对不对？- 对于异步设计，通过了时间仿真也不一定能正常工作。要小心，时钟信号可别产生毛刺啊。要小心，异步复位可别有毛刺啊。快速FPGA中的触发器会对非常窄的毛刺信号作出反应。- 异步设计中，设计者老要想着去消除时钟、异步复位信号以及锁存器使能端的毛刺，但这一点在异步设计中很困难，甚至不可能。,异步设计可能会产生以下问题：,同步设计的一个简单原则: 永远不要将组合逻辑产生的信号用作时钟、异步复位/置位。,门产生的时钟有问题,此例中，计数终点信号会产生毛刺，使用该信号作时钟会引起问题。- MSB布线更短，

3、信号变化先到达与门。与门会“感知”到1111的中间态。由于与门为电平敏感，会输出高电平的毛刺，从而引起寄存器的误动作。,布线更短,此处会产生毛刺，并且与计数器的时钟无关,MSB,0111 1000 计数器的操作为：,0111 1111 1000 因为MSB更快,计数器,flop,MSB,此处的与门为电平敏感,相应的VHDL代码,signal Counter: std_logic_vector(3 downto 0);signal TC:std_logic;signal flop:std_logic;process(Clk)beginif rising_edge(Clk) thenCounter

4、 = Counter + 1;end if;end process;TC = 1 when Counter=“1111” else 0;-TC为组合逻辑输出process(TC)beginif rising_edge(TC) then-使用组合逻辑输出作时钟，是异步设计，禁止！flop = end if;end process;,毛刺和同步设计,组合逻辑的毛刺通常总是存在，难于甚至无法消除毛刺只有在异步设计中（连接到时钟、异步复位、锁存器的使能端）才存在问题在同步设计中，由于寄存器在时钟沿才会动作，只要能满足时延要求，就能确保采样到稳定正确的结果毛刺无法消除，但其造成的问题却可以消除采用同步设

5、计并达到时延要求,安全同步化异步输入一例去抖动逻辑,异步输入,系统时钟,同步输入,设备外围,D,Q,延迟一个周期后才复位，确保D端输入脉冲至少有一个周期的宽度，没有中间态,异步输入的信号变化时机和宽度不确定，有抖动（毛刺），不能直接被同步系统正确采样,该逻辑确保能正确得到异步输入的上升沿。一个时钟周期内的多次电平变化被认为是抖动（毛刺），最后只得到一个上升沿。,相应的VHDL代码,signal AsynInput:std_logic;signal InputReg:std_logic;signal Delay:std_logic;signal SynInput:std_logic;proces

6、s(SynInput, AsynInput)beginif SynInput=1 then-此置位为寄存器信号，为同步设计，可行InputReg = 0;if rising_edge(AsynInput) thenInputReg = 1;end if;end process;process(Clk) beginif rising_edge(Clk) thenDelay = InputReg;SynInput = Delay;end if;,D,Q3,Async R,INPUT,CLOCK,Counter,Q2,Q1,Q0,D,Q,同步设计方法中TC的生成和使用,对照前面异步设计中TC生成和使

7、用的例子,TC,相应的VHDL代码,signal Counter: std_logic_vector(3 downto 0);signal TC:std_logic;signal flop:std_logic;process(TC, Clk)beginif TC=1 then-此复位为寄存器信号，为同步设计，可行Counter = “0000”;TC = -;elsif rising_edge(Clk) thenCounter = Counter + 1;if Counter=“1110” then-注意和异步设计中TC信号的比较-此处TC为寄存器输出TC = 1;elseTC = 0;end

8、 if;end if;end process;,同步设计的更多例子（可行）,D,Q1,INPUT,CLOCK,Counter,Q0,INPUT,CLOCK,DATA,相应的VHDL代码,例2signal Counter: std_logic_vector(3 downto 0);signal TC: std_logic;signal s: std_logic;process(Clk)begin if rising_edge(Clk) then if INPUT=1 then Counter = Counter + 1; end if; if TC=1 then -TC 用在寄存器的CE端，为同

9、步设计，可行 s = DATA;end if; end if;end process;TC = 1 when Counter=“1111” else 0;-TC为组合逻辑输出,例1signal Counter: std_logic_vector(1 downto 0);process(Clk)begin if rising_edge(Clk) then if INPUT=1 and Counter/=“11” then Counter = Counter + 1; end if; -组合逻辑用在寄存器的D端， -为同步设计，可行 end if;end process;,异步设计的更多例子（禁止

10、）,D,Q1,Async R,这些例子有什么问题 ?,INPUT,CLOCK,Counter,Q0,INPUT,CLOCK,DATA,相应的VHDL代码,例2signal Counter: std_logic_vector(3 downto 0);signal TC: std_logic;signal s: std_logic;process(Clk)begin if rising_edge(Clk) then if INPUT=1 then Counter = Counter + 1; end if;end if;end process;TC = 1 when Counter=“1111”

11、else 0;-TC为组合逻辑输出process(TC)begin if rising_edge(TC)=1 then -TC 用作寄存器的时钟，为异步设计，禁止！ s = DATA; end if;end process;,例1signal Counter: std_logic_vector(1 downto 0);process(Counter, Clk)begin if Counter=“11” then -组合逻辑用作寄存器的异步复位， -为异步设计，禁止！ Counter = “00”; elsif rising_edge(Clk) then if INPUT=1 then Coun

12、ter 0);,采用流水线逻辑来提高速度,FPGA触发器资源丰富增加流水线逻辑级数，可提高系统速度,?,?,25MHz,50MHz,4-5输入的逻辑函数对速度和密度最有利,Xilinx FPGA由四输入查找表（LUT）组成。一个查找表能实现其输入形成的任何逻辑函数相当于编址ROM，将输入作为地址，查找出函数结果。 LUT能实现的函数只受输入数目限制，不受函数复杂度限制一个Slice中可用两个LUT和选择器实现5输入的任何逻辑。减少函数输入（扇入）来适合Slice，可以提高逻辑密度和速度。取反不耗费资源（free)。,CLB Lookup Table,状态机的三种类型编码与速度,二进制: 状态序

13、列如同计数器序列，S1 = 001, S2=010, S3=011, S4=100, etc枚举: 状态有指定的值， S1=100, S2=110, S3=101, S4 = 111, etcOne Hot（单热）: 每个状态只有一个寄存器有效，S1=00000001, S2=00000010, S3=00000100, etc在状态机从当前状态跳到下一状态时，二进制和枚举类型有大量的反馈输入。这对CPLD（如XC9500）来说是比较合适的。在FPGA中, 使用二进制和枚举类型可能会占用较少资源但肯定比one-hot 编码慢。- One Hot每个状态只需提供一位反馈输入,状态机的速度,对于较

14、大的状态机，使用One Hot编码二进制或者枚举编码，对于较小的状态机合适。记住四输入查找表！状态机可能会有很多的扇入，和大量的反馈，对速度不利使用One Hot, 并限制输入状态数，使输入限制到4-5，可以达到最高的速度。,Input 1,Input 3,State 4,State 6,State 19,1 LUT,D,Q,fn1,D,Q,fn1,D,Q,fn1,对高扇出网络，通过复制寄存器来提高速度,高扇出网络(16个负载)难于布线，而且较慢考虑在示意图或VHDL中复制资源来改进布线和速度 Foundation工具不会自动完成这种功能将复制寄存器命名为 _a, _b, _c, 不要用1,2

15、,3. 这样，Foundation映射（map）时会更有效.,计数终点信号提前译码以提高速度,对大的计数器而言，译码产生计数终点信号需要逻辑级数较多- 提前一个时钟周期译码计数终点信号，寄存后使用，可以提高速度，并保持时序关系不变。,LD,Q0Q1Q2Q3CO,D0D1D2D3CEC,D,QCEC,DATA0DATA1DATA2DATA3ENABLECLOCK,复制组合逻辑以提高速度,如果Logic Replication选项被选中，Foundation会自动复制组合逻辑速度/面积的交易通过复制组合逻辑，将逻辑合并入一个Slice中，减少了逻辑级数你的逻辑表达会影响映射结果。扇出大于1的网

16、络可能在Slice之外。留意速度关键路径的映射结果,O1,I1,O1,I1,N1,N1 必须输出到两个地方，所以O1需要两级逻辑,复制第一个门，使得逻辑可以合并入一级逻辑中,N1A,N1B,速度关键输入应在逻辑最后一级提供,关键输入应该在逻辑最后一级提供关键输入为芯片、Slice、或者LUT提供的时延最大的输入在示意图中，将关键输入连接在逻辑最后一级在VHDL中，将关键输入放在ifelsif链的第一级,CLB,CLB,IN (Critical),OUT,使用进位逻辑提高速度和密度,使用Slice中的进位逻辑可提高算术运算速度 XCV100-4的例子(具体数据有待验证）16-bit 加法

17、器（不使用进位）10 Slices 例如：XCV100 有30 x20 CLB, 一条进位链最多可以实现40位的加法器，一个48位加法器需要两条链使用库中基于进位的宏(RPM) 或者LogiBLOX许多库中的算术函数是RPM ADDx 加法器, ADSUx 加法/减法器, CCx 计数器 COMPMCx magnitude 比较器RPM 指相对定位宏通过RLOC属性指定布局相对位置。进位逻辑的相对布局需要使用垂直进位逻辑连接,了解进位链流向,XC4000E/L和Spartan/XL进位链流向为上下两个方向XC4000EX/XL/XV和Virtex器件的进位链流向只能向上,XC4000ESp

18、artan/XL,XC4000EX/XL/XVVirtex,LSB,MSB,编码：只有在必要时才使用二进制序列,可以生成各种需要的序列，而不仅限于二进制使用预缩放（prescale）技术来提高速度低位（LSBs）翻转很快参见Application Notes XAPP001 and XAPP014如果要译码输出，使用格林（Gray）码计数器每次只翻转一位，可以避免译码产生毛刺如果只需要计数终点，考虑使用线性反馈移位寄存器（LFSR）提高速度。生成序列可以覆盖的地址空间为2n-1,全0不包含在序列中。n取不同值时，用来生成反馈位的两位不同，参见相关资料在可以采用任意规则序列的情况下，也可以使用L

19、FSR (比如, FIFO),使用预缩放（Pre-scale）提高计数器速度,计数器的速度由从LSB到MSB的进位延迟决定预缩放技术对较大的计数器特别有益- 低位翻转很快，用低位的TC作为高位的CE，可以降低高位的时钟频率- 使用TimeSpecs进行约束预缩放技术限制了载入时间，故计数器不可加载参考XAPP014,I/O 速度：FPGA的建立时间 Tsu,FPGA的输入输出也有时延要求。满足时延要求的FPGA建立时间由: 全局时钟时延Tbufg 、板上时延Tbrd和上游器件的输出时间Tco(up)决定。FPGA建立时间(Tsu)的计算公式:Tsu-fpga = Tcyc -Tco(up)-

20、Tbrd + Tbufg可以使用“OFFSET IN”对Tsu进行约束,D,CE,Q,上游器件,D,CE,Q,XCV400 FPGA,Clock (Tcyc),Tco(up),Tbrd,Tbufg,Tsu,I/O速度：FPGA的输出时间Tco,FPGA输出时间的计算公式：Tco = Tcyc - Tsu(down) - Tbrd - Tbufg使用“OFFSET OUT”对Tco进行约束,D,CE,Q,XCV400 FPGA,D,CE,Q,下游器件,Clock (Tcyc),Tco,Tbrd,Tbufg,Tsu(down),使用快歪斜率提高输出速度,歪斜率控制输出速度缺省使用“slow”歪斜率

21、，以降低噪音当速度重要时，使用“fast”歪斜率FAST是输出逻辑元件（primitive）的一个参数可以通过加入FAST约束实现。,使用I/O寄存器提高输入和输出速度,使用IOB中的I/O寄存器，可以提高输入和输出速度- 输入或输出可以去除从内部布线的时延，IOB中的时延也更小- 还可以节约寄存器资源实现选项中，选择“Pack I/O Registers/Latches into IOBs for Inputs and Outputs”- 输入若未寄存，直接扇入到组合逻辑，则不能map到IO寄存器中- 输出若为组合逻辑输出，或者需要反馈为输入，则不能map到IO寄存器中,D,CE,Q,D,C

22、E,Q,I/O pad,From: FPGA,Into: FPGA,OFF,IFF,Output Clock,Input Clock,使用I/O寄存器的例子(FPGA-FPGA),发送器(XCV100-4 FPGA),接收器(XCV100-4 FPGA),使用IOB中寄存器的时延Tiockp + PCB网络时延 + Tiopick5.649 1.962=7.611,不使用IOB中寄存器的时延(Tcko + Tnet +Tioop) + PCB网络时延 + (Tiopi + Tnet + Tdick) (1.372 +0.756+5.652)(0.989+ 1.930+0.728)7.7803.

23、647 =11.427,输入速度：可编程的输入时延,FPGA的输入通道上有一个可编程的时延可以用来在建立时间和保持时间之间达到妥协。可选择全部、部分或无时延缺省为全时延，以使保持时间的需求为0可在UCF中进行控制。,D,CE,Q,XC4000 FPGA,输入时延,BUFG,XC4036XL-1的例子:时延情况建立时间保持时间全时延: Tsu = 5.8nsTh = 0 ns部分时延: Tsu = 4.8nsTh = 1 ns无时延: Tsu = 0.9nsTh = 4.1ns,I/O速度的其他提示,XC4000-13,36,62XL是turbo boosted。使用BUFG，可提高pin t

24、o pin时延,三、资源,资源使用量是指FPGA使用了的百分率在宏、库、以及XAPP application notes中找到可比较的函数来估计资源使用量或者，使用别的设计来估计器件使用率快速实现，然后查看MAP报告选择“Implementation/ View Report Files/ Map report”Slices, IOBs, Block RAMs, 以及其他部件分别列出，并给出使用百分率。最后给出相当于ASIC的门数,资源估计,Design Summary- Number of errors: 0 Number of warnings: 644 Number of Slices:

25、 1,147 out of 1,200 95% Slice Flip Flops: 735 4 input LUTs: 1,046 (1 used as a route-thru) Dual Port RAMs: 312 Number of Slices containing unrelated logic: 0 out of 1,147 0% Number of bonded IOBs: 85 out of 98 86% IOB Flip Flops: 68 Number of Block RAMs: 10 out of 10 100% Number of GCLKs: 2 out of 4

26、 50% Number of GCLKIOBs: 2 out of 4 50% Number of DLLs: 1 out of 4 25% Number of Startups: 1 out of 1 100% Number of RPM macros: 9Total equivalent gate count for design: 224,805Additional JTAG gate count for IOBs: 4,176,可以把查找表用作RAM,使用CoreGen或LogiBLOX，可以用LUT生成RAM 选择功能 - 单/双端口 - 同步/异步 - 深度扩展时，基于BUFT还是

27、LUT 选择大小- 没有浪费的资源- 可扩展为需要的大小选择位置 - 布置在基片的任何地方 - 邻近关键电路以提高速度选择编程方法 - 通过启动时的比特流 - 通过设计中的操作易于使用,Address,Data,WE,DistributedRAM,Clock,Data 2,Address 2,OptionalDual Port,使用RAM作状态寄存器可以节约资源,和触发器比，Slice密度提高为16：1而且FPGA的布线更容易例如10个16位可读写状态寄存器需要: 160个寄存器，即80个Slice使用RAM, 同样10个状态寄存器需要：16个4输入LUT, 即8个Slice也可以用RAM实现移位寄存器,四、其他,设置歪斜率以控制输出速度缺省歪斜率较慢，可减小噪音当速度更重要时，使用快速歪斜率。设置输出逻辑元件的FAST参数对未使用的IOB，自动上拉未使用的IOB的输出自动无效上拉（PULLUP）或下拉（PULLDOWN）元件可以指定到未使用的IOB上。设计的输入不应该悬空。加一个上拉到悬空的输入上，可以减小功耗和噪音IOB包含一个三态门OBUFT，可以实现双向信号。IOB由PAD和功能元件之间的网络名命名,IO Block的使用,输出三态控制,输出控制中的取反不耗费资源一个专用的全局网络也能进行三态控制通过STARTUP元件访问在配置过程中，所有的I/O都处于三态。,

展开阅读全文