1、软件工程专业毕业论文 精品论文 YHFT-DX 片内二级 Cache 控制器的优化设计关键词:数字信号处理器 时序优化 Tag 行预取结构 休眠状态 时序模型摘要:数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销, “Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储器具有重要意义。 YHFT-DX
2、 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache 预取结构-Stream Buffer,命中
3、预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预测准确时,L2 的 Tag 体就处于休眠状态
4、,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作为 Benchmark。并且介绍了 RTL
5、级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。正文内容数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储器具有重要意义。
6、YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache 预取结构-Stream Bu
7、ffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预测准确时,L2 的 Tag 体
8、就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作为 Benchmark。并且介
9、绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储器具有重要意
10、义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache 预取结构-Stream
11、 Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预测准确时,L2 的 Ta
12、g 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作为 Benchmark。
13、并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储器具有
14、重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache 预取结构-Str
15、eam Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预测准确时,L2 的
16、 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作为 Benchma
17、rk。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的片内二级存储
18、器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache 预取结构-
19、Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预测准确时,L
20、2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作为 Benc
21、hmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的片内二
22、级存储器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache 预取
23、结构-Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预测准确
24、时,L2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作为 B
25、enchmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高性能的
26、片内二级存储器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Cache
27、 预取结构-Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag 路预
28、测准确时,L2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成激励作
29、为 Benchmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计一个高
30、性能的片内二级存储器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级 Ca
31、che 预取结构-Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者 Tag
32、 路预测准确时,L2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid,生成
33、激励作为 Benchmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口,设计
34、一个高性能的片内二级存储器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现了二级
35、 Cache 预取结构-Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter 或者
36、Tag 路预测准确时,L2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-Xvid
37、,生成激励作为 Benchmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要突破口
38、,设计一个高性能的片内二级存储器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设计实现
39、了二级 Cache 预取结构-Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filter
40、或者 Tag 路预测准确时,L2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程序-X
41、vid,生成激励作为 Benchmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。数字信号处理器(DSP)在近年来得到了快速的发展和广泛的应用。片内存储系统的优劣直接影响 DSP 的性能。存储器层次结构有效的降低了 CPU 访存开销,“Cache+RAM”层次结构普遍应用在 DSP 处理器存储系统中,片内二级存储器(L2)是 CPU 和外设交换数据的中枢,存储器访存时间开销中 L2 处理数据的时间开销占有很大比例。L2 是提高存储系统性能的主要
42、突破口,设计一个高性能的片内二级存储器具有重要意义。 YHFT-DX 是我们自主研发的一款高频高性能 DSP,采用 0.13umCMOS 工艺,设计主频 600MHz,片上存储器(L2)容量高达1MB,采用“Cache+RAM”结构,可以灵活配置 Cache 容量大小,具有可扩展性好的特点。该芯片的技术路线是对已有同样采用 0.13umCMOS 工艺、主频为350MHz 的芯片进行优化设计。在深入分析原设计的基础上,本文对二级 Cache控制器进行了设计优化,实现主频 600MHz,并提高处理缺失效率、降低功耗。主要工作和贡献有: 一、针对二级 Cache 缺失流水线处理单个缺失请求的不足,设
43、计实现了二级 Cache 预取结构-Stream Buffer,命中预取缓存的缺失请求可以提前 2 拍得到数据,在 YHFT-DX 一级 Cache 中连续发送读缺失的概率大约为 0.14,同时使得 L2 原本串行的两条数据通路可以并行执行,提高了总线资源的利用率,所以对 Cache 系统性能有极大的提升,这一改进使 L2 处理L1 缺失的效率提高了 6以上。 二、为了把实现高频带来的功耗增大的危害降到最低,在二级 Cache 控制器中设计 Tag 行预取结构-Filter,但是 Filter缓存行数较少缺失率较高。为了弥补这一缺点采用了 Tag 路预测结构。在体系结构级单条路径命中 Filt
44、er 或者 Tag 路预测准确时,L2 的 Tag 体就处于休眠状态,所以 L2 的功耗要比同时读取四路 Tag 降低 5。 三、对原设计进行关键路径分析,发现二级 Cache 是影响性能的最关键模块,本文采用优化接口协议、平衡流水栈之间逻辑、关键信号提前处理、合理层次化等方法优化逻辑结构。对关键路径中结构规整的但延时较大的逻辑采用定制设计,为 9 到 512位译码器建立时序模型。片内二级 Cache 经过时序优化设计后,达到了 600MHz的设计目标。 四、为了充分的验证二级 Cache 控制器的功能正确性,在全芯片级验证中使用了大型的测试程序,使用 CCS 调试了针对于 MP4 视屏解码程
45、序-Xvid,生成激励作为 Benchmark。并且介绍了 RTL 级逻辑仿真的流程和准确定位设计缺陷的方法。 五、提出了压缩 L2 行大小增加相对存储容量、数据体纵向划分减小功耗优化 L2 数据体的先进方法,并且评估了其设计实现的可行性。特别提醒 :正文内容由 PDF 文件转码生成,如您电脑未有相应转换码,则无法显示正文内容,请您下载相应软件,下载地址为 http:/ 。如还不能显示,可以联系我 q q 1627550258 ,提供原格式文档。“垐垯櫃 换烫梯葺铑?endstreamendobj2x 滌?U 閩 AZ箾 FTP 鈦X 飼?狛P? 燚?琯嫼 b?袍*甒?颙嫯?4)=r 宵?i?
46、j 彺帖 B3 锝檡骹笪 yLrQ#?0 鯖 l 壛枒l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛枒 l 壛渓?擗#?“?# 綫 G 刿#K 芿$?7. 耟?Wa 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 皗 E|?pDb 癳$Fb 癳$Fb癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$Fb 癳$F?責鯻 0 橔 C,f 薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵薍秾腵秾腵薍秾腵%?秾腵薍秾腵薍