您的当前位置：首页正文

用于构建多核处理器的CROSSBAR的研究与设计

来源：六九路网

上海大学硕士学位论文

用于构建多核处理器的Crossbar的研究与设计

姓名：***申请学位级别：硕士专业：微电子学与固体电子学

指导教师：***

20090101

上海大学硕上学位论文摘要随着电子技术的发展，多核处理器（Ｍｕｌｔｉ．ＣｏｒｅＰｒｏｃｅｓｓｏｒ，ＭＣＰ）逐渐成为当今世界处理器发展的趋势。本文以Ｓｕｎ公司的ＯｐｅｎＳＰＡＲＣ多核处理器的构建方式作为参考，分析了ＯｐｃｎＳＰＡＲＣＴ２中用以连接８个ＳＰＡＲＣ核的ＣａｃｈｅＣｒｏｓｓｂａｒ的基本结构和基本功能，并在此基础上使用Ｖｅｒｉｌｏｇ硬件描述语言设计了一个结构与功能相类似的Ｃｒｏｓｓｂａｒ。本文所设计的Ｃｒｏｓｓｂａｒ具有灵活性强和扩展性好的特点。在使用Ｖｅｒｉｌｏｇ硬件描述语言进行描述时，采用了参数化的设计，使得Ｃｒｏｓｓｂａｒ的接口具有可定制的数据位宽度，能灵活的适应不同种类的处理器核的连接，同时又能够根据需要方便的进行扩展。为了验证所设计的Ｃｒｏｓｓｂａｒ的功能，本文还设计了一款参考ＭＩＰＳ３２指令集的ＲＩＳＣ处理器核和８块用于实现处理器之间数据通信的Ｌ２Ｃａｃｈｅ。这个ＲＩＳＣ处理器核采用了流水线的设计，实现了指令集中的部分指令，同时与Ｃｒｏｓｓｂａｒ还有一个相应的数据接口。设计的Ｌ２Ｃａｃｈｅ通过与Ｃｒｏｓｓｂａｒ的数据接口，接收和发送相应的数据封包，从而实现了Ｌ２Ｃａｃｈｅ内的数据共享，同时也达到了多个处理器核之间通信的目的。在文章的最后，使用本文所设计的Ｃｒｏｓｓｂａｒ，ＲＩＳＣ核和Ｌ２Ｃａｃｈｅ构建了一个８个核的处理器，并在这个处理器上运行了一段使用ＭＩＰＳ公司的汇编编译器编译的程序，实现了一个简单的快速傅立叶变换。证明了本文所设计的Ｃｒｏｓｓｂａｒ在构建多核处理器方面是切实可行的。本文中对Ｃｒｏｓｓｂａｒ，Ｌ２Ｃａｃｈｅ以及最后构建的多核处理器的仿真、综合等一些工作主要是在６４位ＲｅｄｈａｔＬｉｎｕｘＷＳ４的平台上使用Ｓｙｎｏｐｓｙｓ公司的ＥＤＡ工具进行的。而本文的设计的ＲＩＳＣ处理器核则是在Ｘｉｌｉｎｘ公司的ＩＳＥ环境下，使用ＶｉｒｔｅｘＩＩＰｒｏ系列ＸＣ２ＶＰ３０芯片进行综合的。关键词：多核ＯｐｅｎＳＰＡＲＣＣｒｏｓｓｂａｒＭＩＰＳ流水线Ｖ上海大学硕士学位论文ＡＢＳＴＲＡＣＴＷｉｔｈｔｈｅｄｅｖｅｌｏｐｍｅｎｔｂｅｃｏｍｅａｏｆｅｌｅｃｔｒｏｎｉｃｔｅｃｈｎｏｌｏｇｙ，ｍｕｌｔｉ—ｃｏｒｅｐｒｏｃｅｓｓｏｒｓｈａｖｅｏｆｔｈｅｐｒｏｃｅｓｓｏｒ．Ｓｕｎ’Ｓｍｕｌｔｉ·ｃｏｒｅｔｒｅｎｄｏｆｔｈｅｗｏｒｌｄ’ＳａｓｄｅｖｅｌｏｐｍｅｎｔａｐｒｏｃｅｓｓｏｒｂａｓｉｃＯｐｅｎＳＰＡＲＣｉｓｕｓｅｄｂａｓｉｃｒｅｆｅｒｅｎｃｅｉｎｔｈｉｓｔｈｅｓｉｓ．ＷｉｔｈｔｈｅａｎａｌｙｓｉｓｏｆｔｈｅｗｈｉｃｈｉｓｉｎａｒｃｈｉｔｅｃｈｔｕｒｅａｎｄＴ２ａｎｄｆｕｎｃｔｉｏｎｏｆｔｈｅｃａｃｈｅｃｒｏｓｓｂａｒｔｈｅＯｐｅｎＳＰＡＲＣｄｅｓｉｇｎｅｄｌａｎｇｕａｇｅｔｏｃｏｎｎｅｃｔｅｉｇｈｔＳＰＡＲＣｃｏｒｅｓ，ｔｈｉｓｔｈｅｓｉｓｕｓｅｓＶｅｒｉｌｏｇｈａｒｄｗａｒｅｄｅｓｃｒｉｐｔｉｏｎｔｏｄｅｓｉｇｎａｃｒｏｓｓｂａｒｗｈｏｓｅｓｔｒｕｃｔｕｒｅａｎｄｆｕｎｃｔｉｏｎｉｓａｓｉｍｉｌａｒ．Ｔｈｅｃｒｏｓｓｂａｒｉｎｔｈｉｓｔｈｅｓｉｓｉｓｐａｒａｍｅｔｒｉｃｄｅｓｉｇｎｅｄｗｉｔｈｆｌｅｘｉｂｉｌｉｔｙａｎｄｓｃａｌａｂｉｌｉｔｙ．ＩｔｉｓｄｅｓｉｇｎｗｈｅｎｕｓｉｎｇＶｅｒｉｌｏｇｈａｒｄｗａｒｅｄｅｓｃｒｉｐｔｉｏｎｌａｎｇｕａｇｅｔｏｄｅｓｃｒｉｂｅｔｈｅｄｅｓｉｇｎ．Ｔｈｉｓｔｏｍａｋｅｓｔｈｅｃｒｏｓｓｂａｒｉｎｔｅｒｆａｃｅｈａｓｃｕｓｔｏｍｉｚｅｄｄａｔａｗｉｄｔｈ，ａｎｄＣａｎｂｅａｄａｐｔｃｏｎｎｅｃｔｔｏｄｉｆｆｅｒｅｎｔｔｙｐｅｓｏｆｐｒｏｃｅｓｓｏｒｎｅｅｄｓｏｆｄｅｓｉｇｎ．ｃｏｒｅｓｆｌｅｘｉｂｌｙ．ＡｎｄｔｈｅｃｒｏｓｓｂａｒｃａｎｂｅｅｘｐａｎｅｄａｃｃｏｒｄｉｎｇｔｏｔｈｅＩｎｏｒｄｅｒｔｏｕｓｅｓＶ嘶矽ｔｈｅｆｕｎｃｔｉｏｎｏｆｄｅｓｉｇｎｅｄｃｒｏｓｓｂａｒ，ａＲＩＳＣｐｒｏｃｅｓｓｏｒｃｏｒｅｗｈｉｃｈａＭＩＰＳ３２ｉｎｓｔｒｕｃｔｉｏｎｓｅｔａｓｒｅｆｅｒｅｎｃｅａｎｄａＬ２ｃａｃｈｅｗｉｔｈｅｉｇｈｔｂａｎｋｓｗｈｉｃｈａｒｅｕｓｅｄｆｏｒｔｈｅｄａｔａｃｏｍｍｕｎｉｃａｔｉｏｎｃｏｒｅｏｆｔｈｅｅｉｇｈｔｐｒｏｃｅｓｓｏｒｓｕｓｅｓｄｅｓｉｇｎｅｄｉｎｔｈｉｓｔｈｅｓｉｓ．ａＴｈｅＲＩＳＣｐｒｏｃｅｓｓｏｒｉｓａｄｅｓｉｇｎｐｉｐｅｌｉｎｅａｒｃｈｉｔｅｃｔｕｒｅ，ａｎｄｒｅａｌｉｚｅｄａｎｐａｒｔｏｆｉｎｓｔｒｕｃｔｉｏｎｓｉｎｔｈｅｉｎｓｔｒｕｃｔｉｏｎｔｈｅｃｒｏｓｓｂａｒ．ＴｈｅＬ２ｓｅｔ．ＴｈｅＲＩＳＣｃｏｒｅａｌｓｏｈａｓａｃｈｉｅｖｅｓｔｈｅｄａｔａｉｎｔｅｒｆａｃｅｉｎｓｉｄｅｃｏｎｎｅｃｔｉｎｇｔｈｅｃａｃｈｅｗｉｔｈａｎｄｃａｃｈｅｓｈａｒｉｎｇｃｏｍｍｕｎｉｃａｔｉｏｎｂｅｔｗｅｅｎｍｕｌｔｉｃｏｒｅｓｉｎｔｅｒｆａｃｅｗｉｔｈｔｈｅｃｒｏｓｓｂａｒ．ｂｙｒｅｃｅｉｖｉｎｇａｎｄｓｅｎｄｉｎｇｄａｔａｐａｃｋｅｔｓｕｓｉｎｇｔｈｅＡｔｔｈｅｌａｓｔｐａｒｔｏｆｔｈｅｔｈｅｓｉｓ，ａｎ８ｃｏｒｅｓｐｒｏｃｅｓｓｏｒｉｓｓｅｔｕｐｗｉｔｈｔｈｅｐｒｅｖｉｏｕｓａｄｅｓｉｇｎ，ｃｒｏｓｓｂａｒ，Ｌ２ｃｏｍｐｉｌｅｒｏｆｃａｃｈｅａｎｄＲＩＳＣｔｈｉｓｃｏｒｅ．ＡｎｄｐｒｏｇｒａｍｃｏｍｐｉｌｅｄｂｙｔｈｅａｓｓｅｍｂｌｅＭＩＰＳｍ璐ｏｎｔｈｅｍｕｌｔｉ－ｃｏｒｅｐｒｏｃｅｓｓｏｒｔｏｒｅａｌｉｚｅａｎａｒｉｔｈｍｅｔｉｃｏｆＦＦＴ．ＴｈｉｓｐｒｏｖｅｓＴｈｅｄｅｓｉｇｎｏｆｔｈｅｃｒｏｓｓｂａｒｉｓｆｅａｓｉｂｌｅ．ｓｉｍｕｌａｔｉｏｎａｎｄｓｙｎｔｈｅｓｉｓｏｆｔｈｅｃｒｏｓｓｂａｒ，Ｌ２ｃａｃｈｅａｎｄｔｈｅｍｕｌｔｉ－ｃｏｒｅｐｒｏｃｅｓｓｏｒｉｎｔｈｉｓｔｈｅｓｉｓａｒｅＥＤＡｔｏｏｌｓｏｆｃｏｍｐｌｅｔｅｄｉｎＲａｄｈａｔＬｉｎｕｘｏｆｔｈｅＲＩＳＣＷＳ４ｉｓｐｌａｔｆｏｒｍｂｙｕｓｉｎｇｔｈｅｉｎＸｉｌｉｎｘＩＳＥＳｙｎｏｐｓｙｓ．Ｔｈｅｄｅｓｉｇｎｃｏｒｅｆｉｎｉｓｈｅｄｄｅｖｅｌｏｐｍｅｎｔｅｎｖｉｒｏｎｍｅｎｔ，ａｎｄｉｍｐｌｅｍｅｎｔｅｄｏｎＸＣ２ＶＰ３０ＦＰＧＡｃｈｉｐｉｎＶｉｒｔｅｘＩＩＰｒｏＶｌ上海大学硕上学位论文ＳｅｎｅＳ．Ｋｅｙｗｏｒｄｓ：Ｍｕｌｔｉ－Ｃｏｒｅ，ＯｐｅｎＳＰＡＲＣ，Ｃｒｏｓｓｂａｒ，ＭＩＰＳ，ＰｉｐｅｌｉｎｅＶＩｌ原创性声明本人声明：所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外，论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：日期：本论文使用授权说明本人完全了解上海大学有关保留、使用学位论文的规定，即：学校有权保留论文及送交论文复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容。（保密的论文在解密后应遵守此规定）签名：施名：夸幽吼边Ｐ之ｏｆＨ上海大学硕士学位论文第１章绪论１．１研究的背景随着电子技术和信息技术的日益发展，计算机已成为我们同常生活中不可缺少的一部分，而其核心芯片——中央处理器，即ＣＰＵ的性能是衡量计算机性能的一个重要指标【ｌ】。研究如何提高处理器的性能既是当今微电子发展的一个热点，也是国家发展的需求【２】。在几年前，为了不断地提升处理器的性能，处理器还是在不断的往更高的频率方向发展，一些公司在它的Ｒｏａｄｍａｐ上也定义了４ＧＨｚ的处理器的开发计划【３】。理论上说，处理器厂商可以不断地推出频率越来越快的单核的处理器，但是现在看来这种做法会越来越不可行。因为随着处理器频率的不断的提高，处理器的功耗也随之越来越大，为了能够使得处理器正常工作，超快单核处理器需要更强劲的散热系统，以保持其工作温度，这会迅速增加冷却系统的成本。甚至随着处理器核的频率的提高，很难找到降低其工作温度的冷却系统。但是用户对于处理器的性能的需求又是逐年的增加，为了满足用户对处理器性能的需求，同时又为了暂时的避开功耗和散热的难题，多核处理器的架构逐渐成为处理器厂商的必然选择，同时也为处理器厂商提供了一个能够在一定的功耗范围内提高性能的有效途径。如何有效的构建单芯片多处理器（ＳｉｎｇｌｅＣｈｉｐＭｕｌｔｉ．Ｐｒｏｃｅｓｓｏｒ，ＳＣＭＰ）是多核处理器发展的关键【１１】【１２】。就目前来说，各个处理器厂商都有自己构建多核处理器的方法，但是其主要思想还是通过共享存储器的方式实现数据的共享，进而实现处理器核之间的通信。Ｓｕｎ公司在２００７年底将ＵｌｔｒａＳＰＡＲＣＴ２多核处理器开源并将其命名为ＯｐｅｎＳＰＡＲＣＴ２ｔ４１。除了相应的代码，相关说明文档比较齐全，是本文研究多核处理器的构建方式的重要参考依据。上海人学硕士学位论文１．２研究的内容与意义在Ｓｕｎ公司的ＯｐｃｎＳＰＡＲＣ处理器中，ＣａｃｈｅＣｒｏｓｓｂａｒ的作用是用来连接多个ＳＰＡＲＣ核和Ｌ２Ｃａｃｈｅ。本文从研究的角度，借鉴ＯｐｃｎＳＰＡＲＣ中的ＣａｃｈｅＣｒｏｓｓｂａｒ，在充分理解其结构和功能的基础上，使用Ｖｃｒｉｌｏｇ硬件描述语言自行设计了一个能用于多处理器互连的Ｃｒｏｓｓｂａｒ（为了便于区分，本文所设计的结构称为Ｃｒｏｓｓｂａｒ，而Ｓｕｎ的ＯｐｃｎＳＰＡＲＣ中的结构称为ＣａｃｈｅＣｒｏｓｓｂａｒ）。为了增加通用性，本文中所设计的Ｃｒｏｓｓｂａｒ具有相当的灵活性，可以通过更改Ｖｃｒｉｌｏｇ代码中参数的方式使得所得到的设计可以用来连接任意种类的处理器核（需要定义通信协议）。同时为了验证Ｃｒｏｓｓｂａｒ的功能和说明所设计的Ｃｒｏｓｓｂａｒ能够连接其它类型的处理器核，实现多核的架构，本文通过参考ＭＩＰＳ３２指令集，设计了一款简单的ＲＩＳＣ处理器。使用这个处理器核构建了一款８个核的处理器，并在这款多核处理器上以运行程序的方式，对利用Ｃｒｏｓｓｂａｒ构建的多核处理器给出直观的认识。近几年，世界上集成电路产业的发展非常迅速。但是，我国在这一领域与发达国家的差距相差较大。“十一五＂期间，集成电路发展的重点将是提高电路设计水平，加快研制具有自主知识产权的芯片。其中处理器核心技术的掌握对于保障我国信息安全，提高信息产业的核心竞争力和效益更是具有重大意义。本文所设计的Ｃｒｏｓｓｂａｒ能够灵活的连接任意类型的处理器核，构建一个多核的处理器。这为如何构建多核的处理器提供很好的参考价值。１．３论文的主要工作本次毕业论文所做的主要工作总结如下：（１）研究和分析了构建一个多核处理器的方法，结合毕业设计研究的需要，划分多核的处理器的各个模块，确定多核处理器的基本架构和实现策略。（２）参考了Ｓｕｎ公司发布的ＯｐｃｎＳＰＡＲＣ处理器中的ＣａｃｈｅＣｒｏｓｓｂａｒ的结构和功能，使用Ｖｃｒｉｌｏｇ硬件描述语言，设计了一个类似结构和类２上海大学硕士学位论文似功能的Ｃｒｏｓｓｂａｒ。该Ｃｒｏｓｓｂａｒ的灵活性和扩展性比较强，可以根据实际应用的需要进行数据宽度的调整，能够与任意的处理器核相连接，实现多核的结构。０参考了ＭＩＰＳ公司的ＭＩＰＳ３２指令集中的部分指令，使用Ｖｅｒｉｌｏｇ硬件描述语言设计了一个功能简单的ＲＩＳＣ型处理器核。该处理器核运行所需要的二进制代码是由ＳＤＥ．１ｉｔ中的汇编编译器编译相应的汇编代码生成的。Ｈ研究和分析了Ｃａｃｈｅ的基本结构和原理，通过Ｖｅｒｉｌｏｇ硬件描述语言设计了一个共８块的Ｌ２Ｃａｃｈｅ。８块的Ｌ２Ｃａｃｈｅ是用来完成８个处理器核之间数据交换的共享存储器。＠分析快速傅立叶变换的基本原理，对于由８个核构建的多核处理器分配了相应的程序，使用汇编代码，实现了一个简单的快速傅立叶变换。验证了所设计的Ｃｒｏｓｓｂａｒ在连接多个处理器核构建一个多核处理器的可行性。１．４论文的结构本次论文的结构安排如下：第一章主要介绍了本次毕业设计所选的题目以及对其进行研究的目的和意义，分析了目前世界上处理器的现状以及处理器的发展趋势，同时给出了本论文所做的主要工作以及整篇论文在篇幅结构上的安排。第二章首先对如何构建多核处理器也就是如何实现各个核之间的互连在结构上进行介绍，给出在这些结构之下相应的通信方式。同时给出当前的一些主流的多核处理器的结构。在本章的最后给出本次毕业论文使用Ｃｒｏｓｓｂａｒ所构建的多核处理器的基本结构。第三章主要介绍本文中用于连接多个核处理器核的Ｃｒｏｓｓｂａｒ的设计。由于具有类似结构和类似功能，本章以分析Ｓｕｎ公司服务器端的多核处理器ＯｐｅｎＳＰＡＲＣＴ２中ＣａｃｈｅＣｒｏｓｓｂａｒ的基本结构和基本功能来为主。在本章的最后，对所设计的Ｃｒｏｓｓｂａｒ使用ＥＤＡ工具进行相应的综合，仿真和形式验证工作。３上海大学硕士学位论文第四章对本次毕业论文所设计的多核处理器的核进行分析。分析的内容包括三个部分：（１）单个处理器核的基本架构；（２）处理器所采用的指令集和指令格式，以及在本次设计中所实现的指令的具体意义；（３）５级流水线的结构，并对各个流水线阶段内的处理器情况进行分析。同时分析设计中的流水线存在的冒险问题，并给出相应的解决方法。第五章会在分析存储器层次和Ｃａｃｈｅ基本结构的基础上，介绍在本文中用于完成数据通信实现数据共享的Ｌ２Ｃａｃｈｅ的基本结构。同时给出相应的仿真。第六章会使用第三、四、五章所设计的模块构建一个多核的处理器。为了测试多核处理器的工作状况，本章会在Ｌｉｎｕｘ平台下使用ＭＩＰＳ公司的编译器运行快速傅立叶变换，并对运行结果进行分析，证明设计的可行性。第七章对本次的毕业设计进行总结，分析设计中有待改进的地方，并对该课题的发展做出相应的展望。４上海大学硕士学位论文第２章构建多核处理器的方式本章从多核处理器的分类入手，简单介绍了构建多核处理器的方式以及核与核之间的通信方法，并给出一些公司的商用多核处理器的基本结构，最后说明本文中为了完成多个处理器核的连接采用Ｃｒｏｓｓｂａｒ的结构进行互连的原因。２．１多核处理器的分类由于构成多核处理器的处理器核的种类在不同的时期是不同的，因此根据存储器的组织方式而不是处理器核的构成方式来区分多核处理器的种类更为合适。构建多核处理器的方式按照存储器的组织方式来区分，被分为两类【８】。第一类的多核处理器如图２．１所示，称为集中式共享存储器系统结构。在２００６年这种系统结构的机器最多拥有几十个处理器（少于１００个内核）。对于处理器数目较少的多核处理器，各个处理器可以共享单个集中式存储器。在使用大容量Ｃａｃｈｅ的情况下，单一存储器（可能是多组）能够确保小数目处理器的存储访问得到及时响应。通过使用多个点对点的连接，或者通过交换机，再加上额外的存储器组，集中式共享存储器系统结构可以扩展到几十个处理器。图２—１集中式共享存储器系统结构５上海人学硕士学位论文集中式共享存储器系统结构的优点是由于只有单一存储器，访问存储器对于每个处理器核而言都是对等的，并且每个处理器核的访问时间相同，因此这种多核处理器系统也称为对称多处理器系统（ＳｙｍｍｅｔｒｉｃＭｕｌｔｉ．Ｐｒｏｃｅｓｓｏｒ，ＳＭＰ），同时由于所有的处理器核访问存储器都有相同的时延，这种结构也被称为均匀存储访问（ＵｎｉｆｏｒｍＭｅｍｏｒｙＡｃｃｅｓｓ，ＵＭＡ）系统。而这种结构的缺点是，虽然设计更大规模的集中式共享存储器的多核处理器在技术上是可行的，但是随着处理器数目的增多（大于１００个内核），存储器为多个处理器提供的访问带宽会成为瓶颈。第二类的多核处理器如图２．２所示，这种多核处理器的存储器在物理上是分布的，每个处理器核都有自己独立的本地存储器。每个处理器核与其本地存储构成一个节点。这种结构称为分布式存储器系统结构。为了支持更多的处理器，存储器不能按照集中共享方式组织，而必须分布于各个处理器。这是为了避免存储器在为多个处理器提供所需要的带宽时将产生较长的时延。图２—２分布式存储器系统结构将存储器分布到各个节点上有两个主要的好处。第一，如果大部分的存储器访问是在节点内的本地存储器中进行的，这是增大存储器带宽比较经济的方法。第二，在访问本地的存储器的时候有较小的时延。在处理器变得越来越快，处理６上海人学硕士学位论文器对存储器带宽要求越来越高，处理器对存储器时延越来越低的情况下，这两个优点使得构建较少处理器的系统时颇具吸引力。分布式存储器系统的主要缺点是由于处理器不再共享集中存储器，处理器在访问非本地的存储器的时候，处理器之间的数据通信在某种程度上变得更加复杂，并且时延也更大。２．２多核处理器的通信要构建多核处理器，除了使用相应的结构，各个处理器之间还必须有进行数据交换的方式，即传递数据的方法，也就是多个处理器之间的通信。基于上一节所提到的结构，多核处理器之间的通信有两种方式【１３】。第一种方式是通过共享的地址空间进行通信。如果采用了这种通信方式，那么不论是采用集中式共享存储器系统结构还是分布式共享存储器结构，都使用相同的地址空间进行寻址。只要有正确的权限，任何处理器都能通过引用地址的方式访问任意的一块存储器。也就是说，不同的处理器核中相同的物理地址指向存储器中的同一个位置。但是采用集中式和分布式的系统结构在访问时延上又是不同，原因在于分布式共享存储器的多核处理器在访问时间上的延迟取决于数据在存储器中的位置。与集中式共享存储器被称为ＵＭＡ相对应，采用共享地址空间进行通信的分布式共享存储器被称为非均匀存储器访问（Ｎｏｎ．ＵｎｉｆｏｒｍＭｅｍｏｒｙＡｃｃｅｓｓ，ＮＵＭＡ）。另外一种多核处理器采用的通信方式是采用处理器间传送消息而不是共享地址空间的方式。这种方式只用于分布式的共享存储器系统结构中。由于采用了非共享地址空间的方式，因此各个处理器所拥有的存储器都是私有的，也就是说，两个不同的处理器中相同的物理地址分别指向两个不同的存储器中的不同位置。并且私有的存储器不能被远程处理器通过地址寻址的方式进行访问。这种结构类似于多台计算机构成的计算机集群（Ｃｌｕｓｔｅｒ）。在这种结构中各个处理器之间通过消息传递来完成数据通信。图２．３是对之前所述多核的构建方法以及通信方式的概括。７一卜海大学硕士学位论文２．３目前的一些多核处理器２．３．１Ｉｎｔｅｌ的Ｎｅｈａｌｅｍ在２００８年春季英特尔信息技术峰会（ＩｎｔｅｌＤｅｖｅｌｏｐｅｒＦｏｒｕｍ，ＩＤＦ）上，Ｉｎｔｅｌ公司公布了代号为Ｎｅｈａｌｅｍ的多核处理器的一些细节【１引。Ｎｅｈａｌｅｍ的结构如图２－４所示。图２—４Ｎｅｈａｌｅｍ的结构可以看到Ｉｎｔｅｌ采用的也是集中式共享存储器系统结构来构建整个多核的处理器。每个处理器核有自己私有的Ｌ１Ｃａｃｈｅ和Ｌ２Ｃａｃｈｅ。其中Ｌ１Ｃａｃｈｅ被分为上海人学硕士学位论文两部分，指令缓存（Ｉ．Ｃａｃｈｅ）和数据缓存（Ｄ．Ｃａｃｈｅ）而Ｌ３Ｃａｃｈｅ则作为共享的Ｃａｃｈｅ供４个处理器核进行数据交换。在Ｌ３Ｃａｃｈｅ的设计上，Ｉｎｔｅｌ采用了非独占（Ｉｎｃｌｕｓｉｖｅ）的结构，来提高系统的性能例。２．３．２ＩＢＭ的Ｐｏｗｅｒ６ＩＢＭ公司在２００７年的时候推出了基于Ｐｏｗｅｒ６芯片的系统。Ｐｏｗｅｒ６的芯片延续了Ｐｏｗｅｒ５中的同时多线程（ＳｉｍｕｌｔａｎｅｏｕｓＭｕｌｔｉ．Ｔｈｒｅａｄｅｄ，ＳＭＴ）和双核技术【３】【１９１。图２．５表示了Ｐｏｗｅｒ６的基本结构。从图中可以看到芯片中包括了两个２路ＳＭＴ的Ｐｏｗｅｒ６核，两个４ＭＢ部互连结构，双内存控制器。Ｌ２Ｃａｃｈｅ，片载的Ｌ３Ｃａｃｈｅ控制器，ＳＭＰ内图２—５Ｐｏｗｅｒ６芯片的结构就单块Ｐｏｗｅｒ６芯片来说它的结构属于集中式共享存储器系统结构，在Ｐｏｗｅｒ６的芯片上的两个核分别有自己独立的Ｌ２Ｃａｃｈｅ。而两个核之间的数据交换通过Ｌ３Ｃａｃｈｅ控制器连接的片外共享的３２ＭＬ３Ｃａｃｈｅ进行。由于每块Ｐｏｗｅｒ６芯片中有ＳＭＰ内部互连结构，多个的Ｐｏｗｅｒ６芯片可以构９上海大学硕上学位论文成一个多芯片的系统。如图２－６（ａ）所示，４个Ｐｏｗｅｒ６芯片构成了一个Ｎｏｄｅ，而８个Ｎｏｄｅ又通过Ｎｏｄｅ到Ｎｏｄｅ的互连成为一个网络，如图２－６（ｂ）所示。虽然并不是单芯片的多处理器，但是这个结构与之前提到的分布式共享存储器结构有点类似。｝●—斗ＣｏｍｂｉｎｅｄＢｕｓＮｏｄｅ（ａ）Ｎｏｄｅ（ｂ）多Ｎｏｄｅ构成的系统图２—６Ｐｏｗｅｒ６系统的结构２．３．３Ｓｕｎ的ＵＩｔｒａＳＰＡＲＣＴ２ＵｌｔｒａＳＰＡＲＣＴ２是用于服务器端的多核处理器。在单个ＵｌｔｒａＳＰＡＲＣＴ２芯片中集成了８个的ＳＰＡＲＣ处理器核，每个ＳＰＡＲＣ处理器核的一级缓存（Ｌ１Ｃａｃｈｅ）由一个１６ＫＢ的８路组相联的指令Ｃａｃｈｅ和一个８ＫＢ的４路组相联的数据Ｃａｃｈｅ组成。８个ＳＰＡＲＣ处理器核会通过一个ＣａｃｈｅＣｒｏｓｓｂａｒ来连接片上的４ＭＢ的１６路组相联的二级缓存（Ｌ２Ｃａｃｈｅ）。整个的Ｌ２Ｃａｃｈｅ是被分成８块，用来给８个ＳＰＡＲＣ处理器核提供充足的带宽。图２．７是ＵｌｔｒａＳＰＡＲＣＴ２处理器的基本结构图‘２们，从图中可以看到ＵｌｔｒａＳＰＡＲＣ是集中式共享存储器系统结构。利用ＣａｃｈｅＣｒｏｓｓｂａｒ来连接的Ｌ２Ｃａｃｈｅ（共８块，包括了图中的所有的Ｌ２ｂａｎｋ０和Ｌ２ｂａｎｋｌ）是片上的共享存储１０上海大学硕上学位论文器。８个ＳＰＡＲＣ核通过ＣａｃｈｅＣｒｏｓｓｂａｒ来对共享的存储器进行访问。图２—７ＵＩｔｒａＳＰＡＲＣＴ２的结构２．４使用Ｃｒｏｓｓｂａｒ进行互连从前一节的分析，可以看到目前在单芯片上通过共享式存储器实现多个处理器核之间的数据共享是比较流行的方式。在Ｉｎｔｃｌ，ＩＢＭ和Ｓｕｎ公司的多核处理器中都存在有类似的共享存储器，这其中的主要原因是核的数目不是非常多。本次毕业设计也会选择这样的方式来实现一个多核心的处理器（连接的处理器核的数目也不是非常多）。在具体实现核与共享存储器的互连方式上，本文选择的是Ｓｕｎ的ＣａｃｈｅＣｒｏｓｓｂａｒ的结构。之所以选择采用Ｓｕｎ公司的结构是因为如下几点原因：（１）使用Ｃｒｏｓｓｂａｒ进行互连的结构相较于使用总线进行互连的结构能够上海大学硕十学位论文有效地提高系统的带宽。（２）Ｓｕｎ公司的ＣａｃｈｅＣｒｏｓｓｂａｒ功能丰富，可重用性强。在设计完成后不但可以给ＳＰＡＲＣ核使用，只要遵循相应的规范，其他类型的处理器核也可以使用这个Ｃｒｏｓｓｂａｒ构建多核的处理器。（３）２００７年底，Ｓｕｎ将ＵｌｔｒａＳＰＡＲＣＴ２进行开源，并称之为ＯｐｅｎＳＰＡＲＣＴ２。处理器的源代码可以从ｗｗｗ．ｏｐｅｎｓｐａｒｃ．ｎｅｔ上进行下载，同时相应的文档比较也比较齐全。本次毕业论文中设计的构建多个处理器核的基本方式如图２．８所示。它通过一个Ｃｒｏｓｓｓｂａｒ实现８块Ｌ２Ｃａｃｈｅ和８个处理器核的互连。Ｌｌ指令ＣａｃｈｅＬｌ指令ＣａｃｈｅＬ１指令ＣａｃｈｅＬ１指令ＣａｃｈｅＩＩＩＩ陋哆卜理器核Ｃ＠理器核ｅｌＩｌＬ１数据ＣａｃｈｅＬ１数据ＣａｃｈｅＬｌ数据ＣａｃｈｅＢ理器核ＣＩＬ１数据Ｃａｃｈｅ圆圈固…固图２—８论文中设计的实现多核互连的基本方式从图２．８中可以看到Ｌ２Ｃａｃｈｅ被用来作为数据交换的共享存储器。而各个处理器核使用Ｌ１Ｃａｃｈｅ作为自己私有的存储器。整个设计遵循的是集中式存储器系统结构的思想。Ｃｒｏｓｓｂａｒ的作用是为处理器访问存储器提供较大的带宽。其基本的原理【２２】如图２－９所示。图中由８条横向和８条纵向的连线构成的网状结构可以使得单个的处理器能够和任意一块Ｌ２Ｃａｃｈｅ进行连接。每条交叉线中的黑点表示一个开关，需要控制逻辑来控制具体是哪一个核与Ｌ２Ｃａｃｈｅ连接。１２上海大学硕十学位论文Ｌ２ＣａｃｈｅＢａｎｋ０Ｌ２ＣａｃｈｅＢａｎｋｌＬ２ＣａｃｈｅＢａｎｋ２Ｌ２ＣａｃｈｅＢａｒｋ３Ｌ２ＣａｃｈｅＢａａｋ４Ｌ２ＣａｃｈｅＢａｎｋ５Ｌ２ＣａｃｈｅＢａｎｋ６Ｌ２ＣａｃｈｅＢａｎｋ７图２—９Ｃｒｏｓｓｂａｒ的原理图图２－９是Ｃｒｏｓｓｂａｒ原理上的结构，可以看到某一条纵向的连线上可以同时连接的核的数目只有一个。也就是说，如果有不同的处理器核需要同时访问同一块的Ｌ２Ｃａｃｈｅ，则需要有相应的仲裁机制对不同处理器核的访问进行控制。在实际的处理器核中情况还会更加复杂，比如之前提到的Ｓｕｎ公司的ＯｐｅｎＳＰＡＲＣ处理器，除了处理同时发生的处理器核的请求，还需要对处理器核所发出的请求进行区分，对不同的请求所采用的处理方法和先后次序也会有一定的区别。下一章将着重分析在本次毕业论文中所设计的Ｃｒｏｓｓｂａｒ的基本结构和基本功能，以及其基本的时序。１３上海大学硕上学位论文第３章Ｃｒｏｓｓｂａｒ的设计通过第２章的分析，可以看到本论文所设计的Ｃｒｏｓｓｂａｒ是以Ｓｕｎ公司的ＯｐｃｎＳＰＡＲＣ作为参考，在功能和结构上和ＯｐｃｎＳＰＡＲＣ中的ＣａｃｈｅＣｒｏｓｓｂａｒ相类似，因此本章会以介绍ＯｐｃｎＳＰＡＲＣ中ＣａｃｈｅＣｒｏｓｓｂａｒ的方式来对所设计的Ｃｒｏｓｓｂａｒ的功能和结构进行分析。３．１ＯｐｅｎＳＰＡＲＣ中ＣａｃｈｅＣｒｏｓｓｂａｒ的结构ＯｐｃｎＳＰＡＲＣ中的８个ＳＰＡＲＣ处理器核会通过一个ＣａｃｈｅＣｒｏｓｓｂａｒ来连接片上的４ＭＢ的１６路组相联的二级缓存（Ｌ２Ｃａｃｈｅ）【２０】【２４１。从２．４节中可以看到Ｃｒｏｓｓｂａｒ的基本原理是让处理器核能与不同的Ｃａｃｈｅ块相连，进行数据的传递。因此Ｃｒｏｓｓｂａｒ需要被设计成双向的。事实上由于在ＯｐｅｎＳＰＡＲＣ中所有在ＣａｃｈｅＣｒｏｓｓｂａｒ中的数据交换只存在两个方向，整个ＣａｃｈｅＣｒｏｓｓｂａｒ被分成两个独立的部分，分别是处理器到缓存（这里指Ｌ２Ｃａｃｈｅ）的Ｃｒｏｓｓｂａｒ部分（ＰｒｏｃｅｓｓｏｒｔｏＣｒｏｓｓｂａｒ，ＰＣＸ）和缓存到处理器的Ｃｒｏｓｓｂａｒ部分（ＣａｃｈｅｔｏＣａｃｈｅＰｒｏｃｅｓｓｏｒＣｒｏｓｓｂａｒ，ＣＰＸ）。处理器会通过ＣａｃｈｅＣｒｏｓｓｂａｒ中的ＰＣＸ部分向Ｌ２Ｃａｃｈｅ发出数据请求，而Ｌ２Ｃａｃｈｅ则会通过ＣａｃｈｅＣｒｏｓｓｂａｒ中的ＣＰＸ部分向处理器发送返回的数据以及一些缺失或者命中的信息。在ＯｐｃｎＳＰＡＲＣ中ＰＣＸ部分有８个来自于ＳＰＡＲＣ处理器内核的输入和９个输出（来自于８个Ｌ２Ｃａｃｈｅ块和一个Ｉ／０ｂｒｉｄｇｅ）。ＰＣＸ的结构和ＣＰＸ的结构除了输入输出端口的数量有差别之外其他的功能是类似的，因此以下段落会详细描述ＰＣＸ的结构。整个ＰＣＸ分为两部分，分别是仲裁器部分（ａｒｂｉｔｅｒ）和数据通路片部分（ｄａｔａｐａｔｈｓｌｉｃｅ）。由于会有多个ＳＰＡＲＣ处理器核可能会同时请求相同的缓存块的内容，因此仲裁部分是必需的。仲裁部分首先会根据核所发出的请求的先后顺序发出确认信号到赢得仲裁的核，在这个过程中最先发出请求的核具有最高的优先级。在ＰＣＸ中的仲裁部分有９个仲裁器，每个仲裁器都分别连接到８个ＳＰＡＲＣ处理器核，同时每个仲裁器连接了一个输出。这样的结构可以使得９个仲裁器能１４上海大学硕士学位论文够独立和同时的进行仲裁。ＰＣＸ中数据通路片也有９个。每个数据通路片连接到一个输出同时还连接了８个处理器核的数据封包发送端口。处理器核发送的数据封包包括地址、数据、控制信号和目的地编号等信息，Ｌ２Ｃａｃｈｅ会根据数据封包的信息进行相应的操作。图３．１给出了ＣａｃｈｅＣｒｏｓｓｂａｒ的结构。图３—１ＣａｃｈｅＣｒｏｓｓｂａｒ的结构通过对ＯｐｅｎＳＰＡＲＣ中ＣａｃｈｅＣｒｏｓｓｂａｒ的分析，可以看到需要使用Ｖｅｒｉｌｏｇ硬件描述语言实现的部分主要有两个，即仲裁器（Ａｒｂｉｔｅｒ）和数据通路片（ＤａｔａＰａｔｈＳｌｉｃｅ）。在设计完仲裁器和数据通路片两个模块之后，ＰＣＸ和ＣＰＸ就可以根据图３．１中的结构进行实现。以下几节将对仲裁器和数据通路片的设计进行说明。３．２仲裁器（Ａｒｂｉｔｅｒ）的设计３．２．１仲裁器的功能仲裁器用来决定是哪个核赢得了对Ｌ２Ｃａｃｈｅ的请求访问权。对于仲裁的需求，无论是ＰＣＸ还是ＣＰＸ都是相同的，因此在设计上，仲裁器是可以被设计成可重用的结构，以提供给ＣＰＸ和ＰＣＸ。上海大学硕十学位论文仲裁器的主要功能如下所述：（１）采用深度为２的ＦＩＦＯ存储来自于ＳＰＡＲＣ处理器核的传输请求。（２）越早发出的请求优先级越高。仲裁器会以请求发出的先后顺序来给各个处理器核发送访问Ｌ２Ｃａｃｈｅ的确认信号。（３）对于不同的ＳＰＡＲＣ处理器核在同一时间发出的请求，仲裁器采取不偏向于任意一个核的方式进行处理，具体的实现方式会在仲裁器的结构中进行描述。（４）根据Ｌ２Ｃａｃｈｅ块的输入信号，可以停止对ＳＰＡＲＣ处理器核发出确认信号。（５）如果请求ＦＩＦＯ满，则对ＳＰＡＲＣ处理器核发出停止发送请求信号。（６）可以以原子的方式处理两个缓存访问请求。（７）每个仲裁器可以独立的并且同时的处理仲裁。有必要对仲裁器的功能的进行一些解释。ＯｐｅｎＳＰＡＲＣ的ＣａｃｈｅＣｒｏｓｓｂａｒ中的传输分为普通传输和原子传输。所谓的原子传输是指以原子的方式来处理这个传输，而原子的方式是指两个操作（比如：读／写操作）是连续的执行不被其它的操作打断。在ＣａｃｈｅＣｒｏｓｓｂａｒ中原子传输会连续传输两个数据封包，而普通传输只传输一个数据封包。深度为２的ＦＩＦＯ很好的满足了原子传输的需求。３．２．２仲裁器的时序仲裁器通过一个流水线来实现整个仲裁过程。流水线的基本周期包括三个，分别是ＰＱ，ＰＡ和ｐＸ［２０１。具体的流水线基本周期如表３－１所示。除了三个基本周期，流水线还会有另外一些周期，具体取决于请求的类型。表３．１ＰＱＣａｃｈｅＣｒｏｓｓｂａｒ流水线的基本周期ＰＡＰＸＳＰＡＲＣ处理器核发出请求仲裁器进行仲裁发送确认信号给ＳＰＡＲＣ处理器核，并实现数据的多路选择ＳＰＡＲＣ处理器核如果要请求一个Ｌ２Ｃａｃｈｅ块中的内容，就会在ＰＱ周期向１６上海人学硕上学位论文那个Ｌ２Ｃａｃｈｅ块对应的ＰＣＸ中的仲裁器发出一个请求。在发出请求之后的下一个周期，ＳＰＡＲＣ处理器核会发出相应的数据封包给ＣａｃｈｅＣｒｏｓｓｂａｒ（其实是给数据通路片）。而仲裁器会在ＰＡ周期对发出请求的ＳＰＡＲＣ处理器核进行仲裁，并在下个时钟周期（也就是ＰＸ周期）向赢得仲裁的ＳＰＡＲＣ处理器核发送确认信号。在ＰＸ周期仲裁器还会向Ｌ２Ｃａｃｈｅ发送一个数据封包ｒｅａｄｙ信号，以告诉Ｌ２Ｃａｃｈｅ块，在下一个周期ＣａｃｈｅＣｒｏｓｓｂａｒ将要发送数据封包给Ｌ２Ｃａｃｈｅ。ＰＱ陬ＩＰＸＰ敝ＩＰ）ｃ３Ｉ一厂］广］ｒ］ｎｒ］｜－删胞取饥ｌＩ、峨｜｜～＝一ｌｌ：ｌ鞫ｉ！｝ｌ等将熬筠ｌ■ＩＬｉ｛ｌｌ婶＾删删ｐ。：ｐｃｘ辫抽扣绷脚．州：ｉ阐｜幽ｉ：：ｌ婶鼍雒ｄＩ伊１眦ＰｘＬ—————Ｌ————Ｊ～训卜÷—卜聿互粒蚪ｒ一’’’’’＿’一一’一。ｌＬ———＿＿上—＿＿＿．．Ｌ：：ｌ｜：：：ｗｕ阳群憎ｍ＿州Ｉｒ———Ｉｒ一一ｌ———０———０——÷喊瑚咖螂枷郐∞硝卜—＿÷——＋—叫脚１×触卜—斗Ｉ——Ｉ—ｌＰｘ２Ｉ（ａ）原子传输Ｐｏ陬Ｉ以Ｉ１］广］ｎｒ］广］ｎｒ，ｐｃ口ｐｃ蕞ｒ·ｑｖ日ｐ嘻砖·ｐ曲ｐ甑聃■∞ｒｌ∞棚Ｉ，．。ｊｋ一厂飞Ｉ陬ＩＩＩＩ、ｌ／Ｉｉ弹臻ＪｐｃＩ｝Ｊ静哪：｝ＩｉＩ｛：ｉ：：：ｐｃｕ幽盹脚附嘶博＇Ｉｒ——４——一Ｌ——０———÷—＿÷眠啪虬觚－印糊卜—上Ｉ—叶—＜竺卜—一÷—呻图３—２（ｂ）普通传输ＣａｃｈｅＣｒｏｓｓｂａｒ的操作时序１７上海人学硕上学位论文整个ＣａｃｈｅＣｒｏｓｓｂａｒ操作的时序如图３—２所示。图（ａ）表示的是在ＣａｃｈｅＣｒｏｓｓｂａｒ中的原子传输，而图（ｂ）则表示的是一个普通的传输。原子传输会以一个普通请求信号ｓｐｃＯ＿ｐｃｘｒｅｑ＿ｖｌｄ＿ｐｑ［Ｏ］并１１个原子请求信号ｓｐｃＯ＿ｐｃｘ＿ａｔｏｍ＿ｐｑ开始，而普通传输则只会给出一个普通请求信号。同时由于图（ａ）表示的是原子传输，在赢得仲裁后，发送给Ｌ２Ｃａｃｈｅ的数据封包有两个，因此ＣａｃｈｅＣｒｏｓｓｂａｒ发给ＳＰＡＲＣ处理器核的确认信号ｐｃｘＯｃｇｒａｎｔｐｓ．。期周个两ｐｘ持维会３．２．３仲裁器的结构图３—３仲裁器的结构仲裁器的整体结构如图３．３所示。所有的请求会首先被发送到输入寄存器（ｉｎｐｕｔｒｅｇｉｓｔｅｒ）。输入寄存器及其后面的电路包括ＦＩＦＯ，旁路选择器（ｂｙｐａｓｓｍｕｘ）和请求选择器（ｒｅｑｕｅｓｔｍｕｘ），它们一起构成了仲裁流水线的ＰＡ周期。这些电路除了用来实现对请求的缓存操作，由于采用了ＦＩＦＯ的机制，所有缓存的数据是按照先后次序存储的，也就达到了最先发出的请求会有最高的优先级的要求。如果仲裁器没有正在处理之前的请求，当前的请求会被直接发送到请求寄上海大学硕士学位论文存器（ｒｅｑｕｅｓｔｒｅｇｉｓｔｅｒ），而如果之前还有请求在仲裁器中进行处理，则当前的请求会被先存储到ＦＩＦＯ中。请求寄存器以及整个左半部分的电路构成了仲裁流水线的ＰＸ周期。左半部分电路中的升序优先编码器（ＡＳＣＰＥ）和降序优先编码器（ＤＥＳＰＥ）实现了对同一时间发出的请求采取不偏向仲裁的功能。在仲裁结束后，一个相应的确认信号会发送给赢得仲裁的ＳＰＡＲＣ处理器核【２５１。３．３数据通路片（ＤａｔａＰａｔｈＳｌｉｃｅ）的结构每个Ｌ２Ｃａｃｈｅ块都和一个数据通路片相连。每个数据通路片都用来控制数据封包的传输方向，使得数据封包可以从８个ＳＰＡＲＣ处理器核中的一个发往高速缓存块。数据通路片根据仲裁器发过来的确认信号来确定当前由哪一个核的数据封包发送给Ｌ２Ｃａｃｈｅ块。图３—４数据通路片的结构１９上海人学硕上学位论文事实上，数据通路片相当于一个Ｍ选ｌ的多路选择器（这里Ｍ＝８），它可以将来自于８个核的数据封包选出一个，发送到Ｌ２Ｃａｃｈｅ。但是由于数据封包的长度可能会有１００位以上，制造一个每路数据宽度为１００位以上的，８选１的多路选择器在物理实现上来说比较困难。因此实际上数据通路片是由多个２选１和３选１的多路选择器实现的。这些选择器可以根据仲裁器的确认信号来选择传送自己的数据封包还是相邻的那个选择器的数据封包。数据通路片的具体结构如图３．４所示。每个数据通路片有８个ｍａｃ（ｍｕｌｔｉ．ａｃｃｅｓｓｃｏｎｔｒｏｌｌｅｒ），整个ｍａｃ分为两部分，一部分是数据缓存，另一部分是数据的多路选择。而数据缓存实际上是一个ＦＩＦＯ，用来存储核发过来的数据封包。每个核在每个数据通路片上都有自己独立的数据缓存，这样所有的核的数据封包可以同时被存储下来。图３．５所示的是一个３选１的ｍａｃ的结构图。它有三个数据封包的输入端口，分别来自于处理器核，左边相邻的ｍａｃ和右边相邻的ｍａｃ。对于２选１的多路选择器来说，它比３选１的ｍａｃ要少一个相邻的ｍａｃ端口，图３．５中以虚线示意。它只有两个数据封包的输入端口，分别来自于处理器核和相邻的ｍａｃ（可以是左边或者右边的ｍａｃ）。ＦｒｏｍｃｏｒｅＦｒｏｍｎｅｉｇｈｂｏｒｉｎｇｍａｔｓ图３—５一个３选１的ｍａｃ结构在本文的设计中，在对数据通路片的设计上使用Ｖｅｄｌｏｇ硬件描述语言实现，同时出于可扩展的考虑。在Ｖｅｒｉｌｏｇ代码上使用ｐａｒａｍｅｔｅｒ的关键词来定义在数据上海人学硕上学位论文通路片上传递的数据封包的数据位宽度。实现的Ｖｅｒｉｌｏｇ代码如下所示。首先是构建一个参数化的模块ｍｏｄｕｌｅｐｃｘ＿ｄｐｓ＿ｍａｃ（端口列表）７ｐａｒａｍｅｔｅｒＰＫＴ—ＳＩＺＥ＝７３；ｉｎｐｕｔ［ＰＫＴ＿ＳＩＺＥ一１：０】ｓｒｃ＿ｄａｔａ；ｏｕｔｐｕｔ［ＰＫＴ＿ＳＩＺＥ一１：０】ｄａｔａｏｕｔ＿ｐｘ＿２；ｅｎｄｍｏｄｕｌｅ然后在调用这个模块的时候，可以以参数化的方式实例化这个模块。ｐａｒａｍｅｔｅｒＰＫＴ＿ＳＩＺＥ＝７３７ｐｃｘ＿ｄｐｓ＿ｍａｃ＃（ＰＫＴ＿ＳＩＺＥ）ｍａｃ０（端口列表）７通过这种方式，本文中所设计的数据通路片可以使用可变的数据宽度来传递数据。采用这样的设计原因是因为在ＯｐｅｎＳＰＡＲＣ中ＣａｃｈｅＣｒｏｓｓｂａｒ是用来连接ＳＰＡＲＣ核的，使用其特定数据宽度来传递数据封包。本次毕业设计的任务是设计一个通用的连接多个处理器核的Ｃｒｏｓｓｂａｒ，并不只是用来连接ＳＰＡＲＣ处理器核。由于不同功能的处理器核需要的功能不尽相同，所需要交换的数据宽度也不会相同，采用可变得数据宽度的设计可以使其它类型的处理器核灵活的与Ｃｒｏｓｓｂａｒ接口。３．４数据封包（Ｐａｃｋｅｔ）的格式在ＯｐｅｎＳＰＡＲＣＴ２中ＰＣＸ和ＣＰＸ的数据封包的长度有一百多位，这是因为ＯｐｅｎＳＰＡＲＣＴ２在设计上的复杂性决定（每个ＳＰＡＲＣ核都支持４个线程），而本文所设计的ＲＩＳＣ核相对于ＯｐｅｎＳＰＡＲＣ核比较简单，因此不需要这么多的字段来对一个Ｐａｃｋｅｔ进行描述，所以这里的Ｐａｃｋｅｔ的格式是本文自定义的。但是这并不影响Ｃｒｏｓｓｂａｒ的应用，因为Ｃｒｏｓｓｂａｒ并不关心自己所发送的内容是什么，也不知道自己发送的数据的意义。同时由于可以自定义Ｃｒｏｓｓｂａｒ发送的数据封包的长度，这也增加了Ｃｒｏｓｓｂａｒ应用的广泛性，其他类型的处理器核只要按照与２ｌ上海大学硕士学位论文Ｃｒｏｓｓｂａｒ的接口规范，并给出时序信号，也可以利用本文所设计的Ｃｒｏｓｓｂａｒ来发送数据封包。下面会分析本文中所设计的ＰＣＸ和ＣＰＸ封包各个字段的意思。首先是ＰＣＸ封包，其各个字段如表３．２所示。表３．２ＰｋｔＶａｌｉｄＣｐｕ＿ｉｄＲｑｔｙｐＡｄｄｒｅｓｓＤａｔａＢｉｔｓ７２７ｌ：６９６８：６４６３：３２３１：ＯＰＣＸ封包ＮＯ．ｌ３５３２３２ＬｏａｄＶＶ００００１ＶＸＳｔｏｒｅＶＶ０００１０ＶＶ表３－２中一些符号的意义：ＶＸ有效。接受端需要进行处理无效。接受端可以忽略载入指令ＬｏａｄＳｔｏｒｅ存储指令ＰＣＸ各个字段的意思如下有效位（ＶａＵｄ）用来表示ＰＣＸ包的有效性，如果所发出的包的这一位不是１，则会被认为是无效的包。处理器标识段（ｃＰＵＩＤ）共有３位，用来表明发送请求的处理器核。请求类型段（Ｒｑｔｙｐ，ＲｅｑｕｅｓｔＴｙｐｅ）共有５位，通过编码的不同来表示所发送的ＰＣＸ包的类型。处理地址段（ＴｒａｎｓａｃｔｉｏｎＡｄｄｒｅｓｓ）共有３２位，用来给出处理所要操作的地址。数据段（Ｄａｔａ）当传输的是Ｓｔｏｒｅ指令的数据时，这里存放的是数据。当进行传输的时Ｌｏａｄ指令时，这一段的数据没有意义。上海人学硕：ｔ：学位论文ＣＰＸ封包各个字段如表３－３所示表３．３ＣＰＸ封包ＰｋｔｂｉｔｓＮＯ．ＬｏａｄＳｔｏｒｅＶａｌｉｄ４０ｌＶＶＲｔｎｔｙｐ３９：３５５００００１０００１０Ｌ２ｍｉｓｓ３４ｌＶＶＥＲＲ３３：３２２ＶＶＤａｔａ３ｌ：Ｏ３２ＶＸＣＰＸ各个字段的意思如下有效位（ＶａⅡｄ）用来表示ＣＰＸ包的有效性，如果所发出的包的这一位不是１，则会被认为是无效的包，会被处理器端舍弃。返回类型段（Ｒｔｎｔｙｐ，ＲｅｔｕｒｎＴｙｐｅ）共有５位，用来表示所返回的ＣＰＸ包的类型二级缓存缺失位（Ｌ２ｍｉｓｓ）这一位用来表示二级缓存是否缺失。若Ｌ２ｅａｈｃｅ发生缺失，则这一位会被置１，从而将缺失信息报告给相应的处理器错误段（ＥＲＲ）共有２位，用来表示在进行处理过程中的错误，其中第３３位表示这个错误是无法纠正的，而第３２位表示这个错误是可以纠正的。数据段（Ｄａｔａ）对于Ｌｏａｄ指令这个段存有返回的数据。而对于Ｓｔｏｒｅ指令，由于返回的是一个确认信号，所以这一字段没有意义。３．５Ｃｒｏｓｓｂａｒ的综合与门级仿真整个的Ｃｒｏｓｓｂａｒ采用Ｖｅｒｉｌｏｇ硬件描述语言进行描述，并使用ＳＭＩＣＯ．１３９ｍ的标准单元库在Ｓｙｎｏｐｓｙｓ公司的ＥＤＡ工具ＤｅｓｉｇｎＣｏｍｐｉｌｅｒ中进行逻辑综合。对整个Ｃｒｏｓｓｂａｒ的约束代码如下。综合后的结果表明，Ｃｒｏｓｓｂａｒ可以在４００ＭＨｚ的情况下运行。Ｊ№＾｝日，Ｌ学位论史ｓｅｔ＿ｏｐｅｒａｔｉｎｇｃｅｎｄｉｔｉｏｎｓＷＯＲＳＴｓｅｔ＿ｗｉｒｅ＿ｌｏａｄ＿ｍｏｄｅｅｎｃｌｏｓｅｄｓｅｔ＿ｗｉｒｅ＿ｌｏａｄ＿ｍｏｄｅｌ－ｎａｍｅｒｅｆｅｒｅｎｃｅａｒｅａ１０００００·ｌｉｂｒａｒｙｓｍｉｃｌ３＿ｓｓ＿ｌｐ０８ｖ－１２５ｃｓｅｔａｌｌ—ｉｎ＿ｅｘ＿ｃｌｋ【ｒｅｍｏｖｅ＿ｆｒｏｍ＿ｃｏｌｌｅｃｔｉｏｎ扣ＩＩ—ｉｎｐｕｔ】ＪｏｅＬｐｏｒｔｓｅｌｋ］１ｓｅｔ＿ｄｄｖｉｎｇ＿ｃｅｔｌ－ｌｉｂ—ｃｅｌｌＢＵＦＨＤ８Ｘ·ｐｉｎｚ·ｌｉｂｒａｒｙｓｔｏｉｃｌ３ｓｓｌｐ０８ｖ－１２５ｃ￥ａｌｌ＿ｉｎ＿ｅｘ＿ｃｌｋｓｅｔｍａｘ＿ｃａｐ［ｅｘｐｒ【ｌｏａｄ＿ｏｆｓｍｉｃｌ３一ｓｓ＿ｌｐ０８ｖ一１２５ｃ，ＢｕＦＨＤ３ｘ，Ａ＂ｓｅｔ＿ｌｏａｄ【ｅｘｐｒ１＋￥ｍａｘ＿ｃａｐ］Ｊａｉｌ＿ｏｕｔｐｕｔｓ】ｃｒｅａｔｅ＿ｃｌｏｃｋ·ｐｅｒｉｏｄ２．５－ｎａｍｅｓｅｔ＿ｃｌｏｃｋ＿ｌａｔｅｎｃｙｍｙｃｌｋ【ｇｅＬｐｏｄｓｃｌｋ】０＿２５［ｇｅｔｃｌｏｃｋｓｍｙｃｌｋ】１［ｇｅｔ＿ｃｌｏｃｋｓｍｙｃｌ叼ｃｌｏｃｋｓｍｙｃｌｋ】ｓｅｔ＿ｃｌｏｃｋ＿ｕｎｃｅｒｔａｉｎｔｙ－ｓｅｔｕｐ０ｓｅｔ＿ｃｌｏｃｋ＿ｔｒａｎｓｉｔｉｏｎ００５［ｇｅｔｓｅｔ＿ｄｏｎＵｏｕｃｈ＿ｎｅｔｗｏ咄［ｇｅｔ＿ｃｌｏｃｋｓｍｙｃｌｋ】ｓｅＬｉｎｐｕｔ＿ｄｅｌａｙ１２５－ｍａｘ－ｃｌｏｃｋｍｙｃｆｋ￥ａｌｌ＿Ｊｎ＿ｅｘ＿ｃｌｋｓｅｔ＿ｏｕｔｐｕｔ＿ｄｅｌａｙ１２５－ｍａｘ－ｃｌｏｃｋｍｙｃｌｋ［ａｌｌ＿ｏｕｔｐｕｔｓ】ｓｅｔ＿ｆｉｘ＿ｍｕｌｔｉｐｌｅ－ｐｏＬｎｅｔｓ—ｂｕｆｆｅｒ＿ｃｏｎｓｔａｎｔｓ综合后的ｒｅｐｏｒｔ如图３－６所示。ｍ…ｈ＿ｌｎｏ…ｃｌｋｆｒ，…ｄ２ｅ）ｃｌｏｃｋ……ｄｅ≮＆……ｒｅｄ…‘Ｌｔａ—ｖ１１１～ｖ，ｅｔｕｐｎ………＾ｅｓｔｑｆ，＂ｏ“…ｔｏＰ【”ｑ，…ｒｅｃ㈣Ｉ…０Ⅲ㈣ｗ（１ｄｅｎｌＤＣ综合后的Ｒｅｐｏｒｌ综台之后生成的Ｃｒｏｓｓｂａｒ刚表文什用柬进行门级仿真。仿真的工作是在Ｓｙｎｏｐｓｙｓ公司的ＥＤＡ工具ＶＣＳ．ＭＸ中进行的。在ｔｅｓｔｂｅｎｃｈ中使用￥ｓｄｆａｎｎｏｔａｔｅ系统函数酮入综合后生成的ＳＤＦ文件进行反标。仿真的波形如同３—７所示。在８００ｎｓ的时候某个处理器核发送了个ｊｊ：ｉｒ请求，而在接下柬的两个间期中，这个核会把原子请求中的两个数摒封包发送给Ｃｒｏｓｓｂａｒ。在处理器核发送充数据封包后，相应的数据封包在１４００ｎｓ被发给了Ｌ２Ｃａｃｈｅ。需要注意的是在奉次仿真中数据通路片所采用的数摒宽度是１３０位。图３—７的仿真波形可以与幽３－２（ａ１Ｌ｝ｌ们时序进行对比，可以看到奉次设计很好的完成了预定的原子传输的功能。］—■●—■■—■■———西圈墨墨墨夏置置墨嬲曩■■曩嗣曩ｉ霜露霜囊嗣ｒ＝—ｉ』Ｌ１２１１１』—————一一～———————！纠■Ｊｈ０２Ｂ……≥日§ｉ目《∞Ｆ·Ｈ－～‘｝ｇ—一ａｆｔｐ】！！一…“㈦ｎ山瑚ｆｊｕｎ№＇，目ｃ“Ｌ一竺…”。一一１…‘…１…“■…—＝一。。ｎｍｍｍｎ㈣日，ｎｗｔｎ“电—ｔ—¨ｓ“｝“｝Ｃｔｚ：ｎ删Ｊ＿川增ｑＩｕ一一＿‘“｝ｎ…１∞－Ⅱｌ一：ｍ啪啪～．………”…………“’Ｊ“…１…”…！竺！唑…咖”哪””……。１引“：＂０００１…２｝一｛＿；１…口——··＝＝二＝二ｊｊ扫—一一∑二ＦＪ旨＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝二＝＝二＝＝＝＝二＝二＝＝＝＝ｄ”图３７原子传输的仿真图ＩＤｏ∞ｏｎ∞ｓ船∞ｕ２∞ｕｏｏｏ』口∞目舞。图３８普通传输的仿真图ｊ．≈＾｛ｍｌ￥Ⅱ论Ｚ图３－８表示的是Ｃｒｏｓｓｂａｒ在进行普通传输时候的仿真波形。可以看到处理器核的请求之后发送的数据封包只有一个，而且确认信号拍一ｓｒｃ０＿ｇｒａｎｔ＿ａ只维持了一个周期。图３．８的仿真波形可以与图３－２（ｂ冲的时序进行对比，可以看到奉次设计很好的完成了预定的普通传输的功能。３．６采用Ｆｏｒｍａｌｉｔｙ进行形式验证Ｆｏｒｍａｌｉｔｙ是Ｓｙｎｏｐｓｙｓ公刊的形式验证的一具，可以用它来比较一个ＲＴＬ级的设计和它的Ｉ］级州表在功能上是否致。形式验证是在６４位ＲｅｄｈａｔＬｉｎｕｘＷＳ４的平台｝‘，通过Ｓｙｎｏｐｓｙｓ的Ｆｏｒｍａｌｉｔｙ２００７１２ｒ其进行的。并以ＲＴＬ代码作为参考（Ｒｅｆｅｒｅｎｃｅ），以综合后的门绂网表（Ｎｅｔｌｉｓｔ）作为实现（Ｉｍｐｌｅｍｅｎｔ）。具体的形式验证结果如舟３－９所示，这罩做的是ＰＣＸ的形式验证。目ｋＥｄｎＹ～ｎ８目ｎｓＢ＂瑚ｎｄｗＨ印冒盛盛靠。Ｉ撑蝣露；：。ｉ＾Ｈ警圄骨一ｍｐｅ删Ｄ“ｌ删口ｃｘ』ｐＲ女ｍｎｃｅｒ㈣ｍｃｕｏｏ３６６８∞…。………ｂｙ～２Ｃｏ．ａｔ。砷１ｎ…ａｃｅ…，￥ｌ驴ａｔｕｒｏＨ…ｃｈ……１。。一０ｎａｌｙｓｌ５００（口】ｕ…ｔ…ｒｏｆ…ｅｅｆｉ∞ｌｅ…Ｅａ¨ｏｎ】∞ｍｐａｒｅ印ｉｎｔ５ｃ…ｅ……ａｔｃｈ“＂ｔｏ∞ｌ吲０（０…ａｔ…ｒｅｆ…ｃｅ¨日ｌ……ａｔＥ…ｐｒｌ…１｜ｎｐｕｔｂｌａｃｋ～～ＥＰ”ｔ５６２ｆｏｌ～…ｒｅｆｅｒ…ｅ（１卵…‘ａ…｝ｕｎｒｅａｄ砷ｉｎｃｓｏｎ…ｐｒ’Ｙｉｎｐｕｔｓ一…１ｋ…。ｕｔＰ“ｔ５８ｔａｔ…Ｖ…ｆｙＪｎ９ｖｅｒｌｆｉｃａ“…ｕｃｃＥ～ｖｅｒｌｆｌｅａｔｌ…ｅ５ｕｌｔｓＰ●ｆ………１９……，Ｐ。ｚｒ口Ｌ…ｎｔａ…ｄｅ，ｉ∞：ｉ…Ｋ／ｐｃｘ日ＢＰ……ｎｅ【ｔ。Ｐｔｏｐ…ｔ……０…ｃｓ）“自Ｐａｓｓｌ…一ｅｍｉｎｔｓｃ…ｒｔ…Ｆ…‘·ＩＥ…ｌ’ｒＬｏ口ｌＷ“ｎｇｓＨｌｓｌ口ｗＬⅫＣｏｍｍ∞ｄＦ口ｍ嘶ｆｖｅｒ¨，｜“ｅｍＳｈｅｌｌ～ｖｅｍ图３９ＰＣＸ的形式验证上海人学硕上学位论文第４章ＲＩＳＣ核的设计本次设计的３２位ＲＩＳＣ型处理器核是用来验证Ｃｒｏｓｓｂａｒ功能，并不是要实现一款功能齐全的３２位ＲＩＳＣ处理器。因此本文所设计的ＲＩＳＣ核的指令和结构并不完整，指令以数据的载入和存储为主，只有比较少的算术和逻辑类型的指令，结构上不包含浮点运算单元。为便于描述，以下将这款ＲＩＳＣ处理器核称之为Ｐｉｓｃｅｓ。Ｐｉｓｃｅｓ使用Ｖｅｒｉｌｏｇ硬件描述语言进行描述，采用５级流水线，以提高处理器的性能。４．１基本结构整个Ｐｉｓｃｅｓ的基本结构如图４－１所示。包括了指令缓存（ＩＣａｃｈｅ），数据缓存（ＤＣａｃｈｅ），算术逻辑单元（ＡＬＵ），通用寄存器（ＧＰＲ）和程序寄存器（ＰＣ）几个主要部分。图４—１Ｐｉｓｃｅｓ的基本结构由于Ｐｉｓｃｅｓ是一款ＲＩＳＣ型的处理器，所以在整体架构的设计上参考了比较经典的ＭＩＰＳ的体系结构【３们，其主要的特点如下所述：（１）拥有３２个通用寄存器（Ｇｅｎｅｒａｌ（２）３个特殊寄存器（ＳｐｅｃｉａｌＰｕｒｐｏｓｅＲｅｇｉｓｔｅｒｓ，ＧＰＲ）。ＰｕｒｐｏｓｅＲｅｇｉｓｔｅｒｓ，ＳＰＲ）。特殊寄存器中包含了２７上海大学硕上学位论文１个程序计数器（ＰｒｏｇｒａｍＣｏｕｎｔｅｒ，ＰＣ），累加器高位（ＡｃｃｕｍｕｌａｔｏｒＨｉｇｈ）和累加器低位（ＡｃｃｕｍｕｌａｔｏｒＬｏｗ）寄存器。（３）拥有１个“位的累加器。累加器的高位位于ＨＩ寄存器，而累加器的低位位于ＬＯ寄存器。（４）拥有一个３２ｘ３２的乘法器。由于本次设计中所涉及的数据运算是３２位的数据，因此乘法器被设计为３２ｘ３２。而乘法器输出结果有６４位，它的高３２位数据将存放于ＨＩ寄存器，而低３２位数据则存放于ＬＯ寄存器。（５）５级流水线设计。（６）哈佛总线结构，独立的指令缓存（ＩｎｓｔｒｕｃｔｉｏｎＣａｃｈｅ）和数据缓存（ＤａｔａＣａｃｈｅ）。４．２Ｐｉｓｃｅｓ的指令集在指令集的设计方面Ｐｉｓｃｅｓ同样以ＭＩＰＳ３２指令集【３１】【３２】作为参考。所有的Ｐｉｓｃｅｓ指令按功能被分为四类，分别是：（１）载入和存储指令（Ｌｏａｄａｎｄｓｔｏｒｅ）（２）计算类指令（Ｃｏｍｐｕｔａｔｉｏｎａｌ）（３）跳转和分支指令（Ｊｕｍｐａｎｄｂｒａｎｃｈ）（４）其他指令（Ｍｉｓｃｅｌｌａｎｅｏｕｓ）由于本次毕业设计中所用的Ｐｉｓｃｅｓ核只是用来进行验证Ｃｒｏｓｓｂａｒ的功能，因此并没有必要实现所有的指令，本次设计实现了一部分的载入／存储指令和一部分的计算类指令。下面将对实现的指令进行描述。载入和存储指令为了便于验证，对于载入／存储指令中的数据，Ｐｉｓｃｅｓ采用统一长度，即采用一个字（Ｗｏｒｄ）３２位的长度。而对于其他长度的数据，比如，字节（Ｂｙｔｅ），半字（Ｈａｌｆｗｏｒｄ）则没有实现。Ｐｉｓｃｅｓ实现的三条指令分别是ＭＩＰＳ中的ＬＷ和ＳＷ指令以及ＬＵＩ指令。表４．１对所实现的指令用表格的形式进行了说明，在说明之前先给出一些简上海大学硕十学位论文写的意义。ＲＤＲｓ一目的寄存器（ＤｅｓｔｉｎａｔｉｏｎＲｅｇｉｓｔｅｒ）Ｒｅｇｉｓｔｅｒｓ）一源寄存器（ＳｏｕｒｃｅＲＴＯＦＦｌ６Ｃｏｎｓｔｌ６ＡｃｃＬＯ，ＨＩ一目标寄存器（ＴａｒｇｅｔＲｅｇｉｓｔｅｒｓ）—１６位的偏移量—１６位常数一６４．Ｂｉｔ累加器（Ａｃｃｕｍｕｌａｔｏｒ）一累加器高位（ＡｃｃｕｍｕｌａｔｏｒＬｏｗＰａｒｔＨｉｇｈＰａｒｔＡＣＣ６３：３２）和累加器低位（Ａｃｃｕｍｕｌａｔｏｒ缩写ＬＷＡＣＣ３１．０）寄存器表４．１载入，存储指令说明将一个字的数据从ＤＣａｃｈｅ载入到ＲＴ寄存器中将ＲＴ寄存器中的一个字长度的数据存储到ＤＣａｃｈｅ将Ｃｏｎｓｔｌ６左移１６位后的值赋给ＲＴ汇编ＬＷＳＷＬＵＩＲＴ，ＯＦＦｌ６ＲＴ，ＯＦＦｌ６Ｒ－Ｔ，Ｃｏｎｓｔｌ６ＳＷＬＵＩ计算类指令同样由于仅仅是作为验证Ｃｒｏｓｓｂａｒ的设计，Ｐｉｓｃｅｓ实现了部分的计算类指令，所实现的指令如表４．２所示。表４．２计算类指令说明Ａｃｃ＝Ｒｓ缩写ＭＵＬｌ’ＵＡＤＤＵＡＤＤＩＵＳＵＢＵ汇编ＭＵＬＴＵＡＤＤＵＡＤＤＩＵＳＵＢＵＲｓ，ＲＴＲＤ，Ｒｓ，ＲＴＲｘ，Ｒｓ，Ｃｏｎｓｔｌ６ＲＤ，Ｒｓ，ＲＴＲＤＲＩ）ＲｓＲｓＲｘＲｔ）＝Ｒｓ＋ＲＴＲＴ＝Ｒｓ＋Ｃｏｎｓｔｌ６Ｒｏ＝Ｒｓ—ｌｈＭＦＨＩＭＦＬＯＭＴＨＩＭＴＬＯＯＲＡＮＤＸＯＲＭＦＨＩＭＦＬＯＭＴＨＩＭＴＬＯＯＲＡＮＤＸＯＲ将ＨＩ寄存器的值赋给ＲＤ将ＬＯ寄存器的值赋给ＲＤ将Ｒｓ寄存器的值赋给ＨＩ将Ｒｓ寄存器的值赋给ＬＯＲＤ＝ＲｓＲＤ，Ｒｓ，ＲｖＲＴＲＤ，Ｒｓ，ｌｈＲＤ，Ｒｓ，ＲＴＲＤ＝Ｒｓ＆ＲＴＲＤ＝Ｒｓ＾ＲＴ需要注意的是在进行乘法操作的时候，由于乘数与被乘数都是３２位，这会产生６４位的数据。这个６４位数据的高位会被存入累加器ＨＩ寄存器，而低位则会被存入累加器ＬＯ寄存器。２９卜海大学硕士学位论文４．３指令的格式这一部分将对本次设计所实现的Ｐｉｓｃｅｓ中的指令的格式进行描述，由于参考了ＭＩＰＳ３２的指令集，因此指令的格式也与ＭＩＰＳ３２的指令格式兼容。按照ＭＩＰＳ３２指令集的定义，ＭＩＰＳ指令都是３２位，并且指令的格式分为３类【３０】，具体的分类如下所示。·立即类（Ｉｍｍｅｄｉａｔｅ）·跳转类（Ｊｕｍｐ）·寄存器类（Ｒｅｇｉｓｔｅｒ）下面将对这些指令怎样分段进行说明，首先给出一些字段的说明，如表４．３所示。表４．３指令各个字段的意义字段位数描述ｏｐｃｏｄｅ６－ｂｉｔ主要的操作码ｒｄ５．ｂｉｔ用来确定目的（ｄｅｓｔｉｎａｔｉｏｎ）寄存器１＂８５－ｂｉｔ用来确定源（ｓｏｕｒｃｅ）寄存器ｒｔ５．ｂｉｔ用米确定目标（ｔａｒｇｅｔ）寄存器，可以作为目的／源寄存器ｉｍｍｅｄｉａｔｅ１６．ｂｉｔ为逻辑运算提供有符号的１６位立即数ｉｎｓ仃——ｉｎｄｅｘ２６－ｂｉｔ左移两位后，作为２８位跳转目标地址Ｓａ５－ｂｉｔ移位数萤ｆｕｎｃｔｉｏｎ６－ｂｉｔ对于ＳＰＥＣ眦的操作码，指明相应的功能类型三种类型的指令的字段分别如图４－２所示。（ａ）立即类指令（ｂ）跳转类指令（０）寄存器指令图４—２三种指令类型３０上海大学硕上学位论文本次毕业设计中所设计的指令都是３２位的指令，由于实现的指令中并没有跳转指令，因此不包括跳转类指令，也就是说，这次设计的指令中只有立即型和寄存器型两类指令。在Ｐｉｓｃｅｓ中实现的指令里，ＳＷ，ＬＷ，ＬＵＩ和ＡＤＤＩＵ属于立即型指令，它们的ｏｐｃｏｄｅ字段分别是１０１０１ｌ，１０００１１，００１１１ｌ和００１００１，处理器可以根据这个字段的不同加以区分，从而实现不同的操作。而像ＭＵＬＴＵ，ＡＤＤＵ和ＳＵＢＵ等属于寄存器型指令，它们的ｏｐｃｏｄｅ字段为００００００，属于ＳＰＥＣＩＡＬ类型的操作。处理器需要根据ｆｕｎｃｔｉｏｎ字段的数据进行区分，以实现不同的操作。以上三条指令的ｆｕｎｃｔｉｏｎ段分别为０１１００１，１００００１和１０００１１。４．４流水线设计为了提升性能，很多处理器都拆用了流水线的设计【３６】【３７１，Ｐｉｓｃｅｓ也采用了流水线的设计思想，总共采用了５级的流水线，分别是：·取指（ＩＦ，ＩｎｓｔｒｕｃｔｉｏｎＦｅｔｃｈ）·寄存器文件（ＲＦ，ＲｅｇｉｓｔｅｒＦｉｌｅ）·执行（ＥＸＥ，Ｅｘｅｃｕｔｅ）·存储器（ＭＥＭ，Ｍｅｍｏｒｙ）·回写（ＷＢ，ＷｒｉｔｅＢａｃｋ）下面将结合图４－１所给出的Ｐｉｓｃｅｓ结构图对各个阶段所进行的一些具体操作进行分析。４．４．１取指（ＩＦ）在Ⅲ阶段，会根据ＰＣ的值对存储于ＩＣａｃｈｅ中指令的进行提取。对ＩＣａｃｈｅ的取值操作是一个比较复杂的过程。整个过程大致可以分为以下几个步骤（１）取出相应地址在ＩＣａｃｈｅ中的Ｔａｇ和Ｄａｔａ数据（２）判断ＩＣａｃｈｅ是否命中（３）对命中的数据进行缓存，若发生缺失，则向Ｌ２Ｃａｃｈｅ请求数据。上海大学硕士学位论文因为在本次的设计中并没有实现真正意义上的Ｌ２Ｃａｃｈｅ，也就是说ＩＣａｃｈｅ也无法向Ｌ２Ｃａｃｈｅ请求所需要的指令数据，因此这次设计的Ｐｉｓｃｅｓ核所包含的ＩＣａｃｈｅ直接使用一块ＲＡＭ单元代替，这块ＲＡＭ单元在仿真的时候通过￥ｒｅａｄｍｅｍｂ系统函数载入所需要的指令数据，并提供整个验证过程的所有指令。也就是说这次设计的Ｐｉｓｃｅｓ在仿真时间０初始化之后就已经存在了数据。这是出于简化设计的考虑，因为这样不需要增加相应的程序下载模块，事实上如果是普遍意义上的处理器那事情远比增加模块要复杂得多，上电之后ＩＣａｃｈｅ会去请求Ｌ２Ｃａｃｈｅ，而Ｌ２Ｃａｃｈｅ会去请求ＤＲＡＭ，而ＤＲＡＭ再去请求硬盘，而这些都不属于本文要研究与讨论的内容。如图４．３所示，在Ｐｉｓｃｅｓ结构图中有阴影的部分为与Ⅲ阶段操作无关的部分，而没有阴影则是与ＩＦ阶段操作相关的部分。图４—３取指阶段４．４．２寄存器文件（Ｉ江）ＲＦ阶段Ｐｉｓｃｅｓ会根据指令对寄存器文件进行取值，取出ＲＳ，ＲＴ寄存器的值，为ＥＸＥ阶段提供数据。同时ＲＦ阶段还会对指令进行译码和一些多路选择器的选通操作，所有这些操作都是为ＥＸＥ阶段的执行作必要的准备。３２卜海大学硕士学位论文图４—４寄存器文件阶段如图４４所示，在Ｐｉｓｃｅｓ结构图中有阴影的部分为与ＲＦ阶段操作无关的部分，而没有阴影则是与ＲＦ阶段操作相关的部分。４．４．３执行（ＥＸＥ）在ＥＸＥ阶段主要是对ＲＦ阶段提供的数据进行计算。这些计算包括了乘法运算和一些基本的算术逻辑运算。如图４．５所示，在Ｐｉｓｃｅｓ结构图中有阴影的部分为与ＥＸＥ阶段操作无关的部分，而没有阴影则是与ＥＸＥ阶段操作相关的部分。图４—５执行阶段上海大学硕士学位论文４．４．４存储器（ＭＥＭ）ＭＥＭ阶段主要对ＤＣａｃｈｅ进行读写操作，对ＤＣａｃｈｅ的读写操作也是一个比较复杂的过程。整个过程大致可以分为以下几个步骤（１）取出相应地址在ＤＣａｃｈｅ中的Ｔａｇ数据，如果是读出操作，则读出相应地址的Ｄａｔａ数据。（２）判断ＤＣａｃｈｅ是否命中。（３）如果命中并且是读操作，则将之前读出的数据输出到ＷＢ阶段的寄存器；如果命中但是是写操作，则对相应的地址进行写操作。如果没有命中，即发生缺失，则向Ｌ２Ｃａｃｈｅ查询相应地址的数据。在本次毕业设计中，ＤＣａｃｈｅ的实现更多的体现了多核的因素。对于多核的结构，由于各个核之间需要交换数据，所以ＤＣａｃｈｅ是以接口的形式来实现的，它能够访问Ｌ２Ｃａｃｈｅ从而实现数据的共享，具体的设计将在下一节进行分析。如图４－６所示，在Ｐｉｓｃｅｓ结构图中有阴影的部分为与ＭＥＭ阶段操作无关的部分，而没有阴影则是与ＭＥＭ阶段操作相关的部分。图４—６存储器阶段上海人学硕上学位论文４．４．５回写（、Ⅶ）ＷＢ阶段会对寄存器文件进行写操作，将ＡＬＵ运算的结果或者从ＤＣａｃｈｅ中读取的数据写入到寄存器文件中。具体执行的操作会根据指令的不同而不同。在这一阶段还会对程序寄存器（ＰＣ）进行操作，由于本次设计中没有实现跳转和分支指令，所以程序寄存器所执行的操作只是递增，并为下一次的取指提供相应的地址。如图４．７所示，在Ｐｉｓｃｅｓ结构图中有阴影的部分为与ＷＢ阶段操作无关的部分，而没有阴影则是与ＷＢ阶段操作相关的部分。图４—７回写阶段通过对流水线各个阶段所作操作的分析，可以看到ＩＦ，ＥＸＥ和ＭＥＭ阶段需要比较多的时间，而ＲＦ和ＷＢ阶段需要的时间比较少，因此在流水线中ＩＦ，ＥＸＥ和ＭＥＭ阶段被分配了一个单位时钟周期的时间来完成操作，而ＲＦ和ＷＢ阶段则各被分配了半个时钟周期的时间来完成操作。图４．８表示了多条指令以流水线的方式在Ｐｉｓｃｅｓ中运行的示意图。从图４．８中的虚线框中可以看到，在同一个时钟周期内会同时发生５个阶段的操作。虽然流水线可以将多条指令的执行过程相互重叠以提高处理器的处理性能，但是流水线也会遇到问题，也就是常说的流水线冒险［３８１（ＰｉｐｅｌｉｎｅＨａｚａｒｄ）。一３５上海大学硕士学位论文般将流水线冒险分为三类：结构冒险，数据冒险和分支冒险【１３】。ＩＩＩ圜≤。图４—８ＥＸＥ。ＩＭＥｌｋ，。物Ｋｌ习Ｂ”Ｆ；Ｒ圜玖；翊ＥＸＥｌＥＸＥ■ＭＥＭ冈圜《ＭＥＭ同潋瓿。翻Ｐｉｓｃｅｓ中的流水线结构冒险（ＳｔｒｕｃｔｕｒａｌＨａｚａｒｄ）是指硬件无法满足对多条指令的需求，而使得有些指令不能执行。由于参考了ＭＩＰＳ的架构，Ｐｉｓｃｅｓ在实现流水线的过程中不会遇到结构冒险的问题。图４—９ＡＬＵ中的反馈电路分支冒险（ＢｒａｎｃｈＨａｚａｒｄ）是指某条进行决策的指令（比如分支指令）在流水线某级（比如ＥＸＥ级）做出的决策，使得之前载入的指令不是处理器真正要取得的指令而无法执行。由于本文所设计的Ｐｉｓｃｅｓ没有去实现跳转分支类的指上海大学硕士学位论文令，所以Ｐｉｓｃｅｓ不存在分支冒险。数据冒险（ＤａｔａＨａｚａｒｄ）是指由于指令执行所需要的数据暂时不可用，而造成将要执行的指令不能在原定时钟周期内执行。本文所设计的Ｐｉｓｃｅｓ中存在数据冒险。本文通过在ＥＸＥ级增加反馈（Ｆｅｅｄｂａｃｋ）电路的方法，解决数据冒险的问题。如图４－９所示，通过反馈电路可以在上一条指令未完成之前，先将数据提供给当前指令执行。这种提前提供所需数据的方法很好的解决了Ｐｉｓｃｅｓ中的数据冒险问题，这会在６．１节的仿真中得以体现。４．５Ｐｉｓｃｅｓ与Ｃｒｏｓｓｂａｒ的接口在上一节已经提到，ＤＣａｃｈｅ在设计上更多的体现了多核的因素，因为所设计的Ｐｉｓｃｅｓ核是用来实现多核的架构的，ＤＣａｃｈｅ并不是像ＩＣａｃｈｅ一样是用一块ＲＡＭ进行实现，而是通过一个与Ｃｒｏｓｓｂａｒ的接口来实现的。当向ＤＣａｃｈｅ中写入数据的时候，也就是运行ＳＷ指令的时候，这个接口就通过Ｃｒｏｓｓｂａｒ向Ｌ２Ｃａｃｈｅ发送要存储的数据。而当Ｐｉｓｃｅｓ要向ＤＣａｃｈｅ读取数据，也就是运行ＬＷ指令的时候，接口就通过Ｃｒｏｓｓｂａｒ向Ｌ２Ｃａｃｈｅ发送请求，同时Ｌ２Ｃａｃｈｅ会将所请求的地址的数据通过Ｃｒｏｓｓｂａｒ发送给Ｐｉｓｃｅｓ核。图４—１０ＤＣａｃｈｅ的结构整个的ＤＣａｃｈｅ模块是分成了如下三个部分，ＤＣａｃｈｅ控制部分，ＰＣＸ与核３７－卜海大学硕士学位论文的接ＵＩ（ＰＣＸＣｏｒｅＩｎｔｌ．＇ｆａｃｅ，ＰＣＩ）部分，数据填充队歹ｌＪ（ＤａｔａＦｉｌｌＱｕｅｕｅ，ＤＦＱ）部分。其结构如图４．１０所示。ＤＣａｃｈｅ控制部分的主要功能是通过接收到的指令来判断是否需要进行ＳＷ和ＬＷ操作，如果需要进行ＳＷ和ＬＷ操作，则让ＰＣＩ发送相应的请求。同时由于ＬＷ操作并不能在一个时钟周期内完成，ＤＣａｃｈｅ控制部分会暂时阻塞流水线。在阻塞流水线之后，ＤＣａｃｈｅ控制部分通过跟ＤＦＱ部分的接口，来获得Ｌｗ操作的所需要的数据。等到从ＤＦＱ部分接收到了所需要载入的数据之后再将流水线进行恢复。而对于ＳＷ操作，虽然它也不是在一个时钟内可以完成，但是流水线并不会被阻塞。因为流水线的下一级也就是ＷＢ级并不需要写入ＳＷ操作的数据。ＰＣＩ部分会根据从ＤＣａｃｈｅ控制部分接收到的控制信号来进行相应的数据封包的发送。在本次设计中，ＳＷ操作将采用原子请求的方式将数据发送给Ｃｒｏｓｓｂａｒ，而ＬＷ则只是以普通请求的方式发送数据给Ｃｒｏｓｓｂａｒ。从图４．１０中可以看到与ＰＣＩ接口的是Ｃｒｏｓｓｂａｒ中的ＰＣＸ部分。ｃｐｘ＿ｄｆｑ＿ｄａｔａ＿ｒｄｙ＝０ｄａｔａｒｄｙ＝１ａｔｏｍ＝ｌ固囤图４—１１ＤＦＱ的操作流程ＤＦＱ部分的作用是用来接收Ｃｒｏｓｓｂａｒ发送的数据。因为之前ＰＣＩ部分发送给Ｃｒｏｓｓｂａｒ的数据有两种类型，一种是Ｌｏａｄ类型的ＬＷ，另一种是Ｓｔｏｒｅ类型的ＳＷ。对于Ｌｏａｄ类型的指令，Ｌ２Ｃａｃｈｅ会返回需要的数据，而对于Ｓｔｏｒｅ类型的上海大学硕十学位论文指令，Ｌ２Ｃａｃｈｅ将会返回一个确认存储（ＳｔｏｒｅＡＣＫ）的数据封包。在本次设计中，ＬＷ的返回数据将以原子的方式发送给ＤＦＱ，而ＳＷ的返回数据（其实是确认信号）则只是以普通的方式发送给ＤＦＱ。从图４—１０中可以看到与ＤＦＱ接口的是Ｃｒｏｓｓｂａｒ中的ＣＰＸ部分。ＤＦＱ的操作流程是用有限状态机实现的，具体过程如图４．１１所示。４．６将Ｐｉｓｃｅｓ在ＦＰＧＡ上综合Ｐｉｓｃｅｓ使用Ｖｅｒｉｌｏｇ硬件描述语言进行描述，完成基本的设计之后，在Ｘｉｌｉｎｘ公司的ＩＳＥ环境下，使用ＶｉｒｔｅｘＩＩＰｒｏ系列的ＸＣ２ＶＰ３０型号的ＦＰＧＡ芯片进行综合。综合后的结果如表４．４所示。可以看到单个Ｐｉｓｃｅｓ核大概占用了整块芯片１５％不到的资源。表４．４综合后的ＦＰＧＡ资源利用情况隧薹易？焉罴纛…ＤｅｖｉｃｅＵｔｉｌｉｚａ秭７ｉｕＳｕｍｗｍｒｙ（ｅｓｔｉｍａｔｅｄｖａ糯蹴’焉？Ｚ焉三曩ＬｏｇｉｃＵｔｉｌｉｚａｔｉｏｎＵｓｅｄ１８３７１７８２２０９９１３７Ａｖａｆｌａｂｌｅ１３６９６２７３９２２７３９２５５６１３６１３６１６ｌＵｔｉｌｉｚａｔｉｏｎ｜Ｎｕｍｂｅｒ。ｆＳｌｉｃｅｓ１３％６％７％２４％Ｏ％２％１２％｜Ｎｕｍｂｅｒ。ｆＳｌｉｃｅＦｌｉｐＦｌｏｐｓＮｕｍｂｅｒｏｆ４ｉｎｐｕｔＬＵＴｓＮｕｍｂｅｒｏｆｂｏｎｄｅｄＩＯＢｓＮｕｍｂｅｒｏｆＢＲＡＭｓ１｜４２ＩＮｕｍｂｅｒ。ｆＭＵＬＴｌ８Ｘ１８ｓｌＮｕｍｂｅｒｏｆＧＣＬＫｓ３９卜．海大学硕士学位论文第５章与Ｃｒｏｓｓｂａｒ接口的Ｌ２Ｃａｃｈｅ在２．２节中本论文分析了多核处理器中通信的基本方式，在结构上本次毕业设计采用了共享存储器的系统结构，而在多个处理器核的通信上，本次毕业设计采用共享地址空间的方式。在３，４节中已经对本次毕业设计中所用的Ｐａｃｋｅｔ的格式进行了分析，本章将对如何通过封包实现共享地址空间进行分析。在本次毕业设计中，使用了Ｌ２Ｃａｃｈｅ作为了整个多核处理器的共享存储器，因此共享地址空间的通信是依靠Ｌ２Ｃａｃｈｅ来实现的。所以本章会对实现的Ｌ２Ｃａｃｈｅ结构和功能进行分析。在给出本次毕业论文所设计的Ｌ２Ｃａｃｈｅ之前会先对Ｃａｃｈｅ的工作原理和Ｃａｃｈｅ的基本结构进行分析。５．１局部性原理Ｃａｃｈｅ的工作原理是基于程序访问的局部性。对大量典型程序运行情况的分析结果表明，在一个较短的时间间隔内，由程序产生的地址往往集中在存储器逻辑地址空间的很小范围内。指令地址的分布本来就是连续的，再加上循环程序段和子程序段要重复执行多次。因此，对这些地址的访问就具有了时间上集中的倾向。数据分布的这种集中倾向不如指令明显，但对数组的存储和访问以及工作单元的选择都可以便存储器地址相对集中。这种对局部范围的存储器地址频繁访问，而对此范围以外的地址则访问甚少的现象，就称之为程序访问的局部性［４２１。局部性原理（ｐｒｉｎｃｉｐｌｅｏｆｌｏｃａｌｉｔｙ）告诉我们：在任一瞬间，程序只访问地址空间中的一小部分。体现局部性的有以下几个方面：时间局部性（ｔｅｍｐｏｒａｌｌｏｃａｌｉｔｙ）：在一小段时间内，最近被访问过的数据块很可能再次被访问。空间局部性（ｓｐａｔｉａｌｌｏｃａｌｉｔｙ）：如果一个数据块正在被访问，那么不久的将来与它地址相近的数据块也可能很快的被访问。以上的描述解释了为什么在这次的设计中，将ＬＷ操作的返回值定义为原子上海大学硕．上学位论文操作。ＬＷ请求的是３２ｂｉｔｓ的数据，但是通过Ｌ２Ｃａｃｈｅ返回的却是６４ｂｉｔｓ的数据，原因是因为由于局部性的原理，我们认为既然返回的数据的那段地址被访问了，那他附近的地址也有很大的概率被访问，因此，Ｌ２Ｃａｃｈｅ会将这个地址后面的数据也返回给处理器。也就是说虽然处理器发出的请求只是需要３２ｂｉｔｓ的数据，而接收到来自Ｌ２Ｃａｃｈｅ的数据却是６４ｂｉｔｓ。处理器将使用３２ｂｉｔｓ的数据，而将另外的３２ｂｉｔｓ的数据存储在ＤＣａｃｈｅ的寄存器，以备下次需要时使用。５．２Ｃａｃｈｅ的基本结构接下来将对Ｃａｃｈｅ存储器的基本结构进行分析。Ｃａｃｈｅ存储器其一般实现方式主要有三种，分别是全相联，直接映射和多路组相联。全相联最灵活但是实现比较逻辑的时候会比较复杂。直接映射比较容易实现，但是可能产生快速抖动。多路组相联则是前两者的一个折衷‘４３１。下面将对这三种结构进行介绍。全相联全相联的Ｃａｃｈｅ结构如图５．１所示：据请求访问的地址图５—１全相联的Ｃａｃｈｅ结构４１上海人学硕士学位论文从图中可以看到，在全相联的Ｃａｃｈｅ结构中会把地址总线分为两部分：低位地址部分和高位地址部分。低位地址用来选择命中行中的某一个字节，而高位地址则会同每一行的标记地址进行比较。当载入数据到一个Ｃａｃｈｅ行的时候，载入数据的地址也相应的存储到标记地址内。如果之后会有对Ｃａｃｈｅ的访问操作，访问地址的高位地址会并行的与所有行的标记地址相比较，当有一行的标记地址与访问的地址相同时就表示Ｃａｃｈｅ命中，命中的这一行的数据会通过访问地址的低位地址将数据返回给处理器。直接映射直接映射Ｃａｃｈｅ的示意图如图５．２所示：共有４０９６行数据和标记ｉ………………………………………………………………………’一ｊ１６位行标记Ｖａｌｉｄ１６字节行数据１６位行标记Ｖａｌｉｄ１６字节行数据Ｉｎｄｅｘ１６位行标记Ｖａｌｉｄ１６字节行数据≥１６位行标记Ｖａｌｉｄ１６字节行数据ｂ一差需要的数据择—－ｌ－ｒ＼。■广—、彳。ｒ—刊＿一７一［Ａｄｄｒ［３１：１６１Ａｄｄｒ［１５：４】Ａｄｄｒ［３：Ｏ】请求访问的地址图５—２直接映射的Ｃａｃｈｅ结构从图５．２中可以看到，直接映射的Ｃａｃｈｅ结构中，地址总线被分成了三部分：低位地址部分，中间位地址部分，高位地址部分。其中低位地址部分还是用来选择命中行内的某个字节的数据，中间位地址则是作为索引来选择其中唯一的一行Ｃａｃｈｅ，而高位地址还是同从标签域取出的该行的地址位进行比较，并确定是否命中。从上图表示的直接映射Ｃａｃｈｅ中可以看到这块Ｃａｃｈｅ的索引来自于地址的第１５位到第４位，共有１２位。因此共可以索引２１２＝４０９６行。同时由于每行有１６字节的数据，这样就有４０９６×１６＝６４Ｋｂｙｔｅ的数据可以存储在这个直接映射４２上海大学硕士学位论文Ｃａｃｈｅ中。多路组相联多路组相联是全相联和直接映射Ｃａｃｈｅ的一个折衷。图５－３是一个两路组相联的Ｃａｃｈｅ的示意图。它由两个直接映射的Ｃａｃｈｅ并行组成。据图５—３多路组相联的Ｃａｃｈｅ结构５．３本次设计的Ｌ２Ｃａｃｈｅ的结构在分析了Ｃａｃｈｅ的基本结构之后，可以看到Ｃａｃｈｅ的基本功能是存储数据和访问存储的数据，也就是对Ｃａｃｈｅ的写操作和读操作。但是Ｃａｃｈｅ也并不是等同于一般的ＲＡＭ，因为Ｃａｃｈｅ在存储数据的同时还需要将地址也作为下一次访问时用来比较的标记存储起来。以下是本文中设计Ｌ２Ｃａｃｈｅ的基本原则：１）能够读，能够写，能够存储数据和数据对应的地址。２）能够把标记地址和请求的地址作比较，返回所需要的数据。４３上海大学硕士学位论文３１根据局部性原理，返回请求地址相邻的数据。４）由于Ｐｉｓｃｅｓ运行的程序是自己定义的，也就是可以确切的知道哪些地址是会被访问，因此这次设计的Ｌ２Ｃａｃｈｅ不会发生Ｃａｃｈｅ缺失的情况。因此在设计Ｌ２Ｃａｃｈｅ的时候不会包含判断Ｃａｃｈｅ命中或者缺失的结构。５）由于Ｌ２Ｃａｃｈｅ需要同时面对Ｃｒｏｓｓｂａｒ中的ＰＣＸ和ＣＰＸ，因此在Ｌ２Ｃａｃｈｅ还包括了同ＰＣＸ和ＣＰＸ的两个接口。基于以上的一些原则，这次毕业设计中设计了一个简单的Ｌ２Ｃａｃｈｅ，它并不是真正意义上的Ｃａｃｈｅ，但是能完成类似于Ｃａｃｈｅ的功能。由于比较简单，整块Ｃａｃｈｅ在结构上采取了全相联的结构。整块Ｃａｃｈｅ只能存储６４位的数据，同时存储的作为比较用的地址是３２位。本文中所设计的Ｌ２Ｃａｃｈｅ的结构如图５．４所示。●ＣＰＸ——Ｄａｔａｒｄｙ＿＋ＣＰＸ●—－－—－——Ｄａｔａａｔｏｍ－－－－４－－－／１Ｉｎｔｅｒｆａｃｅ、～ＣＰＸｐｋｔｌ：ｓＩＰＣＸｏｋｔＰＣＸ！ｋｙｅｎｌ—ｄａｔａｔＰＣＸｌ３２－ｂｉｔＡｄｄｒｌ６４－ｂｉｔＤａｔａ▲１个——Ｄａｌａｒ。旷—÷◆——Ｄ蹴ａｌｏｍ——今ＣＣＸＩｎｔｅｒｆ如ｅＬ２Ｃａｃｈｅ图５—４本次论文所设计的Ｌ２Ｃａｃｈｅ的结构当有读操作的时候，３２位的读操作地址会被用来与３２位标记地址进行比较，当请求的地址在Ｌ２Ｃａｃｈｅ确实存在时，６４位的数据会被取出输出到ＣＰＸ接口上。当有写操作的时候，３２位的地址和６４位的数据会分别被写入到Ｃａｃｈｅ中去。在本次毕业设计中Ｃａｃｈｅ的读操作和写操作也就对应于Ｐｉｓｃｅｓ指令中的ＬＷ指令和ＳＷ指令。由于跟ＰＣＸ和ＣＰＸ的接口在接收数据和发送数据上有时序性，Ｃａｃｈｅ的控制由两个有限状态机完成。整个Ｌ２Ｃａｃｈｅ的控制操作分为两部分，ＰＣＸ接收部分和ＣＰＸ发送部分。ＰＣＸ上海大学硕十学位论文接收部分的操作流程如图５．５所示：ｐｃｘｓｃｄａｔａｒｄｙ２０图５—５ＰＣＸ接收部分的操作流程由于在Ｐｉｓｃｅｓ发送的数据封包（Ｐａｃｋｅｔ）中，ＬＷ指令是普通的请求，而ＳＷ是原子的请求，因此如果ＰＣＸ接收部分接收从Ｃｒｏｓｓｂａｒ发送过来的数据封包是普通的ＬＷ请求的时候，会给出一个Ｓｅｎｄｄａｔａ信号给ＣＰＸ发送部分，让其发送ＬＷ请求的数据内容。而当ＰＣＸ接收部分接收从Ｃｒｏｓｓｂａｒ发送过来的数据封包是ＳＷ的原子请求的时候，ＰＣＸ接收部分会在接收的同时将数据以及地址分别写入到相应的Ｃａｃｈｅ行中。同时在完成两个３２位的数据的写入之后，为了告诉Ｐｉｓｃｅｓ写入操作成功，还会发送一个确认信号给Ｐｉｓｃｅｓ，为了通知ＣＰＸ发送部分发送确认信号，ＳｅｎｄＡＣＫ会被置“ｌ”。下面介绍ＣＰＸ发送部分，其操作流程如图５－６所示。由于ＳＷ指令的返回封包只是一个确认包，因此是一个普通的传输。而ＬＷ指令的返回包是一个６４位的数据，单个数据封包只能传输３２位的数据，因此在本次毕业设计中将这个传输定义为原子传输，这样就能一次传输６４位的数据给Ｐｉｓｃｅｓ核。４５上海人学硕上学位论文图５—６ＣＰＸ发送部分操作流程５．４Ｌ２Ｃａｃｈｅ的仿真对Ｌ２Ｃａｃｈｅ的仿真主要从接收ＰＣＸ封包和向ＣＰＸ发送封包两方面来进行。对Ｌ２Ｃａｃｈｅ的仿真是在６４位ＲｅｄｈａｔＬｉｎｕｘＷＳ４的平台上，通过Ｓｙｎｏｐｓｙｓ的ＶＣＳ．ＭＸ工具进行的。在仿真中采用的数据封包的格式是３．４节定义的格式。ＰＣＸ接口用来接收Ｃｒｏｓｓｂａｒ中ＰＣＸ发送过来的数据封包，并将封包中的数据和地址存储到存储器，而ＣＰＸ接口根据请求，把需要发送的数据和地址根据封包的格式打成一个数据封包发送给Ｃｒｏｓｓｂａｒ中的ＣＰＸ。其所发送的数据和地址是之前通过ＰＣＸ接口接收到并存储在存储器中的数据和地址。对ＰＣＸ接口接收封包的仿真结果如５．７图所示。从仿真结果中可以看到ＰＣＸ向Ｃａｃｈｅ模块发送一个ＳＷ指令封包和ＬＷ指令封包的情况。由于ＳＷ指令是原子传输，因此会有连续的两个７３位的封包发送给Ｃａｃｈｅ。并且由于是ＳＷ的请求，Ｃａｃｈｅ在接收完最后一个封包的时候会把ｓｅｎｄａｃｋ信号拉高，以此来通知ＣＰＸ发送部分发送确认包。在图５．７中可以看｝海＾学ｍＩ学Ⅱｔｉ到在ＳＷ封包传输完成Ｚ后ｓｃｄａｔａ的值是６４位数据Ｏｘｆａ５５ｅｅ８８ｆｆ００７７４４，而ＳＣａｄｄｒ的伍是３２位数据Ｏｘａｂｃｄ５４１０。在ＳＷ请求之后是ＬＷ清水，在接收过ＬＷ封包之后并且根据封包中的字段意义判断ｍＯｘａｂｃｄ５４１０地址的数据在当前的Ｃａｃｈｅ内，就把ｓｅｎｄｄａｔａ拉高，通知ＣＰＸ发送部分发送数据——一。——．．——————＿＿．————［！！ｍ“ｏｉ！！ｊ…Ｉ…‘……∞…Ｉ…Ｄ—竺……∞７７｛｝图５—７ＰＣＸ接口接收封包的仿真结果ＣＰＸ搂ｕ负责向ＣＰＸ发送数据封包，对其的仿真结粜蜘ｌ幽５－８所示国５—８ＣＰＸ接口发送封包的仿真结果从仿真结果町以看到ＣＰＸ发送部分在收到ｓｅｎｄａｃｋ和ｓｅｎｄｄａｔａ信号之后分别向不Ｈ的核发送了数据封包。并且由于ＬＷ指令的返叫圭Ｊ包是原子传输，囡此会在向ＣＰＸ发ｍ请求之后连续给出之前存储在ｓｃｄａｔａ的低位和高位数据。通过ｌ。而的仿真Ｉｌｒ咀看到，Ｌ２Ｃａｃｈｅ能够寅现对ＰＣＸ数据封包的存储和对ＣＰＸ数据封包的发送功能。同时由Ｊ和Ｃｒｏｓｓｂａｒ相连．对Ｌ２Ｃａｃｈｅ的访问权限上海大学硕士学位论文是共享的，任意的处理器核都可以从Ｌ２Ｃａｃｈｅ中通过共享地址空间的方式载入或者存储数据。这就达到了各个处理器核之间相互通信的目的。上海大学硕士学位论文第６章用Ｃｒｏｓｓｂａｒ连接多个核的仿真在进行多核的仿真前，会对多核中的单个Ｐｉｓｃｅｓ进行仿真，从而对运行的指令进行分析。这些指令在运行多核的程序时会大量的用到。６．１单核的仿真这一节，将对本次毕业设计所实现的Ｐｉｓｃｅｓ进行仿真，并对仿真的结果进行相应的分析。仿真是在６４位ＲｅｄｈａｔＬｉｎｕｘＷＳ４的平台上，通过Ｓｙｎｏｐｓｙｓ公司的ＶＣＳ．ＭＸ工具进行的。仿真所使用的汇编代码以及汇编代码对应的二进制代码将在下面给出。关于如何将汇编代码编译为Ｐｉｓｃｅｓ的二进制代码会在６．２节进行分析，本节先直接给出。为了便于描述，在二进制代码中使用了“＂符号进行分割，同时在每一行的二进制代码中加入了行号。单个Ｐｉｓｃｅｓ仿真的汇编代码如下：．ｔｅ）（ｔ．ｇｌｏｂＩ一●＿＿＿＿一ｓｔａｒｔ—．ｓｔａｒｔ：ＡＤＤＩＵ￥ｓＯ，￥ｓＯ，Ｏｘ０００００００３ＡＤＤＩＵ￥ａｌ，￥ａｌ，Ｏｘ０００００００９ＭＵＬＴＵＳｓＯ。￥ａｌＭＦＨｌＳｓＯＭＦＬ０￥ｓｌＳＷＳｓＯ。ｃｏｒｅＯＳＷ￥ｓｌ，ｃｏｒｅＯ－Ｉ－１ＡＤＤＩＵ￥ｓ２，￥ｓ２，ＯｘＯＯＯＯＯＯｌｆＳＵＢＵ￥ｓ２，￥ｓ２，￥ａｌＡＤＤＵＳｓＯ，￥ｓＯ，￥ａｌ上海人学硕十学位论文ＬＷ￥ａ２。ｃｏｒｅＯ．ｄａｔａｃｏｒｅＯ：．ｗｏｒｄ０ｘ００００００００．ＷＯｒｄ０ｘ００００００００ＭＩＰＳ中３２个通用寄存器在运行程序时有不同的用处，表６．１给出了这些寄存器用处【３２１。由于Ｐｉｓｃｅｓ在设计上参考了ＭＩＰＳ架构，因此在寄存器的使用上Ｐｉｓｃｅｓ沿用了ＭＩＰＳ中的用法。之前汇编代码中的ｓＯ寄存器就相当于３２个通用寄存器中的第１６个寄存器，并以此类推。表６．１ＭＩＰＳ中的通用寄存器ＲＥＧＩＳＴＥＲｓ０Ｚｅｒｏ常为０ｌａｔ由汇编编译器使用２．３ｖＯ．ｖ１调用函数返同值４．７ａＯ．ａ３调用函数的前四个参数８．１５ｔ０一ｔ７临时变量，不需要被保存１６．２３ｓＯ．ｓ７函数变晕，必须被保存２４．２５ｔ８．ｔ９另外两个临时变鼍２６．２７ｋＯ．ｋｌ被内核使用的寄存器２８ｇｐ全局指针２９ｓｐ堆栈指针３０印堆栈结构指针３１ｌ＇ａ返同最后调用的子程序的地址编译后对应的二进制代码：１００１００ｘＸ００００Ｘ００００００００００００００００００ＸＸ２００１００１００１０１００１０１００００００００００００１００１３００００００１００００００１０１０００００００００００１１００１４００００００００００００００００１００００００００００１００００５００００００００００００００００１０００１００００００１００Ｘ０６００１１１１０００００００００１１０００００００００００００１０７１０１０１１Ｏ０００１１００００００００００００００１１１０００８００１１１１０００００００００１１０００００００００００００１０９１０１０１１００００１１０００１００００００００００１１１００１１０００１００１１００１０１００１００００００００００００１１１１１１１００００００１００１０００１０１１００１００００００１０００１１１２００００００１００００００１０１Ｘ０００００００００Ｘ００００１Ｌ自＾学峋±学ｍ镕Ｚ１３１４００１１１１＿０００００＿００１１０＿１０００００００＿００００００１０１０００１１００１１０００１１０００００００００００１１１０００”■■■■■■■■■■■■■■■■■■■■Ｅ￡ｌ＝口■■ｚ目口■■■■■■■■■■■■■●●●●■一了ｉｉ———丁——ｉＨ———————————————————————————————呻ｍⅡ“—”……Ｌ…一一…一１∞”ｌ…ⅢⅡ…ｔ＂ｊ…『一…“Ｍ—■……ｗ：￥■’…ｆｇ』■川ｇ２…＆ｆ－ⅢⅢ“一¨■，¨ｏ＊…～埘所有代码的仿真波形如同６－Ｉ所示…‘｜ＩＨｕ＊…，¨…Ｊ９一一¨ｎ…‘ｍ＿－……～＇。删Ｉ－－】”一∞……ｗ＿。ｒ＿＿¨”艘…Ｉｎ…＝ｌｌ…Ｌ！…一”一…一…“ｏ”一”…”…ｍｌ…∞一１ｌｎ■…¨Ｉ；…一～…“…Ⅱ…Ｉ¨＿：…～一…“”Ｍｕ一１—！—…●…“～“一“一一…一ｎ…Ⅲ…，一口＊＾■……ｎ。…ｍ…Ⅱ·＿Ｊ。…ｌ■●●■＿Ｌ一４一ｑ一【１～Ⅱ一ｑ…【～…ｏｏｎ●～ｍ一目＃＊—ｊｊ肿＝＝ｚｈ一一一一＝一一一一一“ｌ…“ｍＬ…‘Ｉ㈣！一Ｉ…‘ｌＪ图６—１所有代码的仿真波形需要注意的是在图６．１左边的端口列表中有连续的５个ｄａｔａｏｕｔ［３１：０１，从上生下分别对应ｓＯ，ｓｌ，ｓ２，ａ１和毗寄存器。下面将结台二进制代码对单个Ｐｉｓｃｅｓ的仿真波形进行分析。’”Ⅻ＃～＂＿ｖａｅｅ“叠，ｔｌ旦．！Ｊ∞ｌ呼叵；司Ｉ‰围｜ｏＩ星日Ⅲ疆．●＇１雷蓟同司圄圄ｌ∞目∞１１■Ｉ。∞∞。ｃ１１００。。。ｌｆｉＤ，０００２ｕ０００。蓝葛等】。ｊ；毒一一，Ｊ，，Ｊ。ｉ毛主釜垫０００６０∞口·００３００Ⅲｍ０００ｒ３一伴高等”２ｍ勰∥需‘器篙焉口哪９…∞００００００００·∞０·０ｎ００ｔ０００·０∞－０００·０］９—０００∞０∞０∞００００００…ｍ００∞口０００Ｄ∞０００…０００００口口Ｇ００００００㈧囤６—２『ＯＯ９００∞ＯｆＯｅＯ…——００００∞Ｄ口％ＡＤＤＩＵ．ＭＵＬＴＵ，ＭＦＨＩ和ＭＦＬＯ指令的仿真波形从汇编代码和ｊ进制代码“ｒ以看到，首先执行的程序是两条ｔ即数加的指令ＡＤＤＩＵ私一条乘法指令ＭＵＬＴＵ。ＡＤＤＩＵ指令是将需要的值丐入到ｓ０和ａｌ寄存器，然后通过乘法指令ＭＵＬＴＵ将ｓＯ和ａ１相乘。一条汇编指令埘府ｒ二进制代码的１—３行。仿真的结果如图６－２所示。由下存在４．４节提到的流水线数据冒险，从图中Ｉ·，以看到在８０ｎｓｕ『，ａｃｅ和ａｃｅＩｏ寄存器中的值发生改变，也就是乘法指令执行后的值被写入到了ａｃｃｈｉｈｉ和ａｃｃＩｏ寄存器。从蚓６－２中ＩｊＪ以开到ｓｏ和ａｌ寄存器的值足分刖在８０ｎｓ和ＩＯＯｎｓ的时候被’ｊ入的，如果小是冈为ＥＸＥ级中的反馈电路，此时的乘法指令将小能执｛，，需要等到ＡＤＤＩＵ指令对ｓ０和ａｌ寄存端的操作完成届爿能进行。ＪＦ足山于使用的４．４节巾的反馈｝乜蹄．使得在前两条指令末完成时，ＭＵＬＴＵ指令执行所需要的数据在８０ｎｓ前已经存在丁ｄａｔａＴｓ『３ｌ：０１和ｄａｔａｎ口１：ｏ】端¨。这使得流水线不被打断而能继续执｝Ｊ＿。在ＡＤＤＩＵ和ＭＵＬＴＵ指令之后执行的是ＭＦＨＩ和ＭＦＬＯ指令，它们分别将ａｃｅｈｉ和ａｃｅｌｏ寄存器中的数捌存到ｓＯ和Ｓ１寄存器。对应的进制代码分别是笫４和第５行。从图６－２ｒＩ·可以看到数据分别在１４０ｎｓ和１６０ｎｓｑ八到ｓ０干¨Ｓｌ寄存嚣。】ｕ…∞…００００·００００·ｕ…ｕ‘∞１ｆ‘６‘Ｄ，‘０…０ｔ口…Ⅻｎｏ『¨—ｒ旷ｒ￥—＿ｉ—‘自ＪＯｌＤ·∞１２·∞口２－Ⅻ·∞０２·００３９·Ⅱ口１ｆ‘∞２３‘…１‘Ｂ０∞‘０口３Ｂｉ』一．¨＿。。一Ｌ厂Ｌｍ＿＿ｉ—Ｍ唧ＤＤＩ］Ｉ］＇一ＪｎＩＨ一９一·丽丽Ｔ·日ｕＴ·曲ｒ·盯０ＷⅧｍ·…－∞ｌｆ·∞１６㈣ｑⅢⅢｍ…∞…ⅦｕＯ∞一ｆ∞∞‘ｕ‘［１１］１］Ｕ‘０ｕｕｌ】‘Ⅲｌ…ｌ】一Ⅱｏｏ自ｉｉ—ｒ＿——…ｏ，∞ｕｕｕｕｕｕⅢＵＵＯＢｌｈ…∞ＯｏＤｏ∞ｂｏⅫ～ｏ１ｎＯ口０…ｕ¨ｕｕｕ…ｕｕｕｕｌ６…ｏ∞∞∞ｎ０００…ⅧⅢ…ｎⅢ】Ⅲ］ｆｌ‘０ｕ【一口ｕｌｈ口口口０…００∞ＢｆｌｌＢ∞０ＢＢ０００１——旦”口口０…图６３ＬＵＩ．ＳＷ．ＳＵＢＵ和ＡＤＤＵ指令的仿真波形ｉ海人学＂ｌｌ学＆论文两条ＳＷ指令的仿真结果如图６．３所ｕｉ。ｎｒ以看到在扩编代码中并没有ＬＵＩ指令，但是在汇编编译嚣生成的二进制代码中在每条ＳＷ之的都加入了Ｌｕｌ指令。ＬＵＩ指令的作用是将数拊写入到ａｔ寄存器，这么做原冈与ＳＷ指令的操作有关。ＳＷ指令足将通川寄存器（ＧＰＲ）的值存储到存储器（Ｍｅｍｏｒｙ）中的某个地址，而这个地址是山苹上也址（也就足ｍ寄存器的值）加卜个偏移量（ｏｆｆｓｅｔ）生成的。在执行ＳＷ指令之前加入ＬＵＩ指令能够很好的保证在存储数据之Ｉｊ，『将草地址准备好，阶ｌ｝一程序出现纰漏。两条ＳＷ指令对应的二进寺州ｔ码是缸９行。ＬＪｌ丁水文设¨的Ｐｉｓｃｅｓ的ＳＷ指令是原子操作，吲此在２４０ｎｓ的时候，处理器核通过与Ｃｒｏｓｓｂａｒ的接ｌＩ，ｆ：始发送数批包。可以看到ｃｏｒｅｊｃｘｒｅｑ［７：０］端ｎ＃ｕｃｏｒｅ＿ｐｃｘ—ａｔｍ［７：０１）Ｎｕ分别有一位被置…１’。｝Ｉｂ＂／ｉＩ数据也从ｃｏｒｅ＿ｐｃｘ＿ｄａｔａ［７２：０］端ＦＩ发Ｈ｛。ＳＷ指令之后足ＡＤＤＩＵ，ＳＵＢＵ和ＡＤＤＵ三条指令．它们对应于二进制代码的第１０—Ｉ２行。』ｅ仿真波形如图６－３所不图６４ＬＵ［，ＬＷ指令的仿真波形ＬＷ指令的仿真结果如图６－４所示。¨样，为了程序的安全，编泽器在ＬＷ指令前插入了ＬＵＩ指令。对应的二进制代码是第１３和第】４行。通过仿真波形ｎｒ以看到，在３４０ｎｓ的时候处理器桉开始发送数槲封包，并月在发送封包的时候上海大学硕士学位论文只有ｅｏｒｅ＿ｐｃｘ＿ｒｅｑ［７：０］端口中有一位被置“１＂，而ｃｏｒｅ＿ｐｃｘａｔｍ［７：０］端口则为全“０”。这是因为在本次毕业设计中ＬＷ操作不是原子操作的缘故。相应的数据从ｃｏｒｅ＿．ｐｃｘ＿ｄａｔａ［７２：０］端Ｅｌ发出。６．２多核的仿真在本节将会在多个Ｐｉｓｃｅｓ核中运行一个程序。程序的主要功能是完成４点的快速傅里叶变换。多个Ｐｉｓｃｅｓ核的会比较平均的分配一些计算量。首先会对快速傅里叶变换和蝶形运算单元进行一下介绍。６．２．１快速傅里叶变换作为对数据的一种处理方法离散傅立叶变换（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＤＦＴ）在数字信号处理中有非常大的作用，而当要使用处理器作为处理工具，进行离散傅立叶变换的时候，为了减少处理器的运算量，常常采用优化的算法，也就是快速傅里叶变换（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＦＦＴ）［４５】。图６—５４点的基２的快速傅立叶变换如图６．５所示是一个４点的基２的快速傅立叶变换，在快速傅立叶变化中包含了多个的形状类似于蝴蝶的单元称为蝶形运算（Ｂｕｔｔｅｒｆｌｙ）单元。如图６－６所示，一个蝶形运算单元包含了一个复数乘法和两次复数加法［４６１。这些运算使用处理器来运算需要消耗比较长的时间，一般处理快速傅立叶变换是使用ＤＳＰ采用硬件的方式进行实现的，但是本次只是用来验证设计，所以并以上海大学硕十学位论文此来说明设计的可行性，所以采用的是软件编程的手段实现整个的快速傅立叶变换的运算。Ｇ（ｋ）Ｘ（ｋ）＝Ｇ（ｋ）＋ＷＮ’Ｈ（ｋ）Ｈ（ｋ）一％图６—６Ｘ（ｋ）＝Ｇ（ｋ）－、凡～‘Ｈ（ｋ）蝶形运算单元６．２．２多核的计算量分配对于多个Ｐｉｓｃｅｓ核，各个核只会被分配傅立叶变换中的一部分计算，以４点的基２的快速傅立叶变换为例，如图６．７所示，使用虚线框包含起来的运算表示是由两个核完成的，８个核中的每个核都分配了１／８的计算量，为了便于区分，有些虚线框内添加了阴影。Ｃｏｒｅ０＆１Ｃｏｒｅ２＆３Ｃｏｒｅ４＆５Ｃｏｒｅ６＆７图６—７８个Ｐｉｓｃｅｓ核计算量的分配从图６．７中可以看到，完成一次４点的基２的快速傅立叶变换，每个核每次只完成每个蝶形运算中的１／４的计算量，并且需要进行两次。第一次蝶形运算所需要的数据来自于本地存储，而第二次蝶形运算所需要的数据来自于其他的核计算出的结果。由于蝶形运算中包含了复数的乘法和加法，因此在本文的设计中，使用序号为Ｏ，２，４，６的核进行实数的运算，而序号为１，３，５，７的核进行虚数的运算。以Ｃｏｒｅ０为例，其第二次蝶形运算中的数据上海人学硕上学位论文来自于Ｃｏｒｅ４第一次蝶形运算所计算出的结果。６．２．３汇编代码这一节会以８个核中的一个核的代码作为例子来介绍，其他的核的代码和它类似。因为Ｐｉｓｃｅｓ有３２个通用寄存器，所以下面定义在进行蝶形运算需要用到的寄存器。一次蝶形运算的公式如下所示，其中ｇｌ，９２，ｈｌ，ｈＥ，ＷＩ，Ｗ２表示的是相应复数的实数部分和虚数部分。Ｘ（ｋ）＝Ｇ（ｋ）＋嗽Ｈ（ｋ）Ｘ（ｋ）＝ｘｌ＋ｘ２ｉＧ（ｋ）＝ｇｌ＋９２ｉｎ（ｋ）＝ｈｌ＋ｈ２ｉｗ嵩２Ｗｌ＋Ｗ２ｉ作为运算结果的ｘ（ｋ）是会被存储到Ｌ２Ｃａｃｈｅ以供其它核来使用。本次设计中为各个变量的寄存器分配如表６．２所示。表６．２寄存器分配ｘ２｝Ｉ，变量寄存器ｘｉｇｌａＯ９２ａｌｈｌａ２ｈ２ａ３ＷｌｔｏＷ２ｔ１ｓＯ＆ｓ２ｓ１＆ｓ３对ｘｌ和Ｘ２都分配了两个寄存器是因为３２位乘法会产生６４位的数据，虽然在本文所使用的程序中并不会产生６４位的数据，但还是会将乘法所产生的高３２位数据存储在ｓ２和ｓ３中。接下来给出Ｃｏｒｅ０的代码。代码注释中的Ｒ［】表示所取数据的实部，Ｉ口表示所取数据的虚部。．ｔｅ）（ｔ．ｇｌｏｂｌｓｔａｒｔ：ｓｔａｒｔ捌釉嵴垧蝴嵴辫蝌拍渊拍蝴锋制崩柏嘲群掬燃撑１ｓｔｂｕＲｅｒｆｌＹ聋ｇｅｔｔｈｅｉｎｉｔｉａｆｖａｌｕｅｆｏｒｃｏｒｅＳａＯ，￥ａＯ，Ｏｘ０００００００９撑ａＯ＜一Ｒ【Ｘ（Ｏ）】ＡＤＤＩＵ￥ａ２。￥ａ２，Ｏｘ０００００００３撑ａ２＜一Ｒ【Ｘ（２）１ＡＤＤＩＵ上海大学硕士学位论文捍ｗ（ｏ）＝１ＡＤＤＩＵ￥ｔＯ，ｓｔｏ，０ｘ０００００００１撑ｔＯ＜－－Ｒ【Ｗ（０）】ＡＤＤＩＵ￥ｔｌ，￥ｔｌ，０ｘ００００００００撑ｔｌ＜－－ｉ［ｖｖ（ｏ）】ＭＵＬＴＵＳｔ０，￥ａ２ＭＦＬＯ￥ａ２ＭＦＨＩ￥ｓ２ＡＤＤＵ￥ｓ０，￥ａ０，￥ａ２＃ＳｔｏｒｅｔｈｅｄａｔａＳＷ￥ｓ０，ｖａｌ０——ｒｅａｌＳＷ￥ｓ２，ｖａｌＯ—ｒｅａｌ＋１捎獬瞵构弹群拍恸辱舳蝴嵴撑２ｎｄｂｕｔｆｅｒｆｌＹ拍鼢嵴拘恸群批蝴骅垧９蝴撑ｇｅｔｔｈｅｄａｔａｆｒｏｍｖａｌ２ｒｅａＩＬＷ￥ａ２．ｖａｌ２ｒｅａＩＬＷ￥ｓ２。ｖａｌ２ｒｅａＩ＋１撑ｗ（ｏ）＝１ＡＤＤＩＵＳｔ０，￥ｔｌ，０ｘ０００００００１撑ｔＯ＜一Ｒ【＼／＼ｆ（０）】ＡＤＤＩＵ￥ｔｌ，￥ｔｌ，０ｘ００００００００撑ｔｌ＜一ｌｆ＼＾，（０）】ＭＵＬＴＵ￥ｔＯ，￥ａ２ＭＦＬＯ￥ａ２ＭＦＨＩ￥ｓ２ＡＤＤＵＳｓ０。￥ｓ０，￥ａ２＃ＳｔＯｒｅｔｈｅｄａｔａＳＷＳｓ０，ｖａｌ０——ｒｅａｌＳＷ￥ｓ２，ｖａｌ０＿ｒｅａｌ＋１．ｄａｔａｖａｌ０ｒｅａｌ：．ＷＯｒｄ０ｘ００００００００．ＷＯｒｄ０ｘ００００００００ｖａｌ０ｉｍｇ：．ＷＯｒｄ０×００００００００．ＷＯｒｄ０ｘ００００００００ｖａｉｌｒｅａｌ：．ＷＯｒｄ０×００００００００．ＷＯｒｄ０ｘ００００００００撑Ｒ［ＶＶ（０）】★Ｒ【Ｘ（２）】撑ａ２＜－－Ｒ【Ｗ（０）】★Ｒｐ（（２）】稃ｓＯ＜一Ｒ【Ｘ（０）】＋Ｒ［Ｗ（０）】★Ｒ【Ｘ（２）】撑ｉｔ＇ｓｚｅｒｏ群ＲＭ，（Ｏ）】·ｖａｌ２一ｒｅａｌ撑ａ２＜一Ｒ［Ｗ（０）】★ｖａｌ２＿ｒｅａｌ撑ｓＯ＜一ｖａｌ０一ｒｅａｌ＋Ｒ【Ｗ（０）】★ｖａｌ２一ｒｅａｌ５＂／上海大学硕十学位论文ｖａｉｌｉｍｇ：．ＷＯｒｄＯｘ００００００００．ＷＯｒｄ０ｘ００００００００ｖａｌ２ｒｅａｌ：．ＷＯｒｄＯｘ００００００００．ＷＯｒｄＯｘ００００００００ｖａｌ２ｊｍｇ：．ＷＯｒｄＯｘ００００００００．ＷＯｒｄＯｘ００００００００ｖａｌ３ｒｅａｌ：．ＷＯｒｄ０ｘ００００００００．ＷＯｒｄＯ×００００００００ｖａｌ３ｉｍｇ：．ＷＯｒｄ０ｘ００００００００．ＷＯｒｄ０ｘ００００００００６．２．４编译及仿真前的数据转换ＭＩＰＳ公司的ＳＤＥ（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＥｎｖｉｒｏｎｍｅｎｔ）是ＭＩＰＳ结构处理器的交叉开发系统‘４７１，它能产生基于ＭＩＰＳ平台的代码。ＳＤＥ．１ｉｔ是ＳＤＥ一个免费版，本次毕业设计使用ＳＤＥ—ｌｉｔ中的汇编编译器将程序编译为二进制文件。将Ｃｏｒｅ０的汇编代码编译的命令如下（这里ｃｏｒｅ０．ａｓｍ是它的汇编代码文件）：首先会通过ｓｄｅ．ａｓ生成目标文件￥ｓｄｅ－ａｓ－ｍｉｐｓ３２ｃｏｒｅＯ．ａｓｍ一０ｃｏｒｅＯ．０然后用ｓｄｅ．１ｄ生成可执行文件￥ｓｄｅ－ＩｄｃｏｒｅＯ．０—０ｃｏｒｅＯ最后使用ｓｄｅ．ｃｏｒｒｖ生成二进制文件￥ｓｄｅ—ｃｏｎｙ－ｆｂｉｎ一０ｃｏｒｅＯ．ｂｉｎｃｏｒｅＯ由于在仿真的时候需要载入的ＩＣａｃｈｅ初始化文件是由“０＂，“１＂序列构成的文件，而不是真正的二进制文件（“０＂，“１”序列的顺序跟二进制文件中时一样的），因此对生成的二进制文件本文还使用Ｐｅｒｌ语言进行了格式转换。Ｐｅｒｌ的代码如下：撑！ｌｕｓｒｌｂｉｎｌｐｅｄ－Ｗｕｓｅｓｔｒｉｃｔ；上海大学硕士学位论文ｍｙ￥１ｉｎｅ；ｍｙ￥ｃｏｄｅ；ｍｙ￥ｆｌａｇ；ｍｙ￥ｂｉｎｆｉｌｅ＝ｓｈｉｆｔ＠ＡＲＧＶ；ｍｙ￥ｍｅｍｆｉｌｅ＝ｓｈｉｆｔ＠ＡＲＧＶ；ｏｐｅｎＢＩＮＦＩＬＥ。”＜￥ｂｉｎｆｉｌｅ”：ｏｐｅｎＭＥＭＦＩＬＥ，”＞￥ｍｅｍｆｉｌｅ”；ｂｉｎｍｏｄｅＢＩＮ．——ＦＩＬＥ；ｗｈｉｌｅ（￥１ｉｎｅ＝＜ＢＩＮ—ＦＩＬＥ＞）｛￥ｃｏｄｅ＝ｕｎｐａｃｋ（”Ｂ＂’。￥１ｉｎｅ）；ｉｆ（￥ｆｌａｇ）｛￥－．＝￥ｃｏｄｅ；）ｅｌｓｅ｛￥一＝￥ｃｏｄｅ；｝￥ｆ｜ａｇ＋＋：）ｓ／（（１１０）｛３２｝）／￥１＼ｎ／ｇ；ｐｒｉｎｔＭＥＭ—ＦＩＬＥ￥－：ｃｌｏｓｅ（ＢＩＮ＿ＦＩＬＥ）；ｃｌｏｓｅ（ＭＥＭ．．．ＦＩＬＥ）；转换好的数据通过使用￥ｒｅａｄｍｅｍｂ系统函数初始化到ＩＣａｃｈｅ。６．２．５仿真结果这一节将对８个Ｐｉｓｃｅｓ核运行快速傅里叶变换的情况进行仿真，并对仿真的结果进行相应的分析。仿真是在６４位Ｒｅｄｈａｔ的ＶＣＳ．ＭＸ工具进行的。８个Ｐｉｓｃｅｓ核的仿真结果如图６．８所示。图６．８中从上到下８个ｓｃｄａｔａ［６３：０］是８块Ｌ２Ｃａｃｈｅ中所存储的数据。快速傅立叶变化输入的数据如下：ＸＸＸＸ＝＝＝ＬｉｎｕｘＷＳ４的平台上，通过Ｓｙｎｏｐｓｙｓ９７＋＋３＋２＋研殖负；∞Ｄ动筇＝５９ｌ海＾学碗ｌ学位论ｚＤ２５０∞ｏ５００ｏｏＤｎｎｄｎｎｎｌｉｒａ＿．＾ⅢｏⅢＩ㈣＿．ｍ州日：ＷｌＪＩ－埘∞：０１“Ｊ·Ｉｑ∞：ｑ｜ｌ啊∞∞∞∞７ｊ‘ｑ■８口ＥＨ９也＾ｍｑ日棚＿ｉ【ｍ∞∞∞∞■Ｅ＾州∞：ＯｌｎｎｎｎⅡｎｎｎⅡｎｎｎｌＩ啊∞∞∞嘛…口…００００６·一０００７……０…－０±…ｃ∞００…００口目０，‘０Ｄ…ｎ３∞……¨Ⅷ３００ｎ００口ｎ０００…５∞０∞口…Ⅲ００１‘ＢＤ唧ＯＵＢ６……０∞００ｒ‘００删０１Ｓ…０……‘００Ⅲｏｏ，Ｂ００Ｉ＿０【Ⅲ口口００００７ｓ口ｏｏ口｝ｏｏｏｏｏ口‘０…ＵＵＢＢ００ｓ∞∞∞ｉ∞‘ＯＯＯＤｕ……０·Ⅻ０…ｕ００ｕ００∞０∞∞∞∞∞……Ⅻ…００００∞ＯＢ‘口０Ｄ０００…∞∞∞∞∞∞７∞ｕ…０００００ｕ【＿０００…‘０００…０【ｍｕ…Ⅱ００口０００００００∞００·０００００∞ＯＤ０００００００∞１∞０∞口¨０００００００∞０００００ＯＤＵ０‘Ｏｆｌ００００∞０∞∞…ＩⅢｎｎｎｎ１ｉｔ０００００∞００００∞０００Ⅱ∞ｎ…口０Ｄ…∞０ｉⅢ口…０００００００…０‘０口０¨Ⅲ姗帅ｎｎ００·００∞０…Ⅻ０ｕⅡｕ∞口０…０∞００…Ｄ０００…０∞００…∞００∞ｎｎｎｎｎ∞∞∞∞∞∞∞００∞００ｕ…００口１０００口０００口００‘Ｑ０００００∞０Ｄ０００００‘０００…００００００∞‘…０００口∞∞∞００００００ｎｎｎ‘０∞……一·００…００∞…Ⅷ∞∞∞∞∞∞∞珊召６８［１咖００…０∞００００００∞∞０口０…０—００００‘ｑ０００００∞０Ｄ０Ⅻｉ∞（ＩＯ００００Ⅲ·∞０Ⅱ００∞０∞畦’８个嚎的仿真结果从图中可以看到，在９２０ｎｓ的时候快速傅口叫变换所训算的结果争部存储到了Ｌ２Ｃａｃｈｅ中。由于１字储的结果是３２位，所以计算结果存储存Ｌ２Ｃａｃｈｅ中的低３２位。可以看到计算的结果至ｊ．而下为０ｘ０００００００７，Ｏｘｆｆｌｒｆｆｆｃ，０ｘ０００００００３，０ｘ０００００００８，Ｏｘ０００００００５，Ｏｘ０００００００６，０ｘ００００００１５，ＯｘＯＯＯＯＯＯＯｅ。计算结果对应于ｌ。进制的７，一４．３．８，５，６，２１，１４。为了验证所计算结粜的正确忡．ｄ二６４位ＲｅｄｈａｔＬｉｎｕｘＷＳ４的、ｒ台上使川Ｍａｔｌａｂ进行相应的快速傅、Ｉ叶变换。输入数据与之前的仿真相同，Ｍａｔｌａｂ的输出结粜如图６－９所＿；。可以看到训算结果完伞『Ｆ确。Ｌ≈＾＃ｍ｝＃Ⅱ＊女！。目＾Ｄｅ＿“ｇＱ酬。ｐ…【ｍ｛■…“ｄ目ｎ∞…ｗｏｒｋ’ｏ●‘ｔ。母ｘ、●…■西ｌ｝ｉＭｎｄ…帅——一ｃ㈣ｍｏｌ………ｍ州％”挑ｂＣｏｌ，ｙｒｉｏｈｔ“Ｊ曲＿ｘＩ（ｏ…ｎｄｗｍｄｏｗ慧导爿鲁ｊ戡黔２１＋Ｊ。＊ｌ，，１％４ｔ‘Ｈ＾Ｔ…Ｂ２００４７ＤＴｈｅＭａｙ。６２０。４０㈣（Ｒ１Ｄｕ，ｕｓＭａｔＺｏｒｋ§Ｉｎｃ４）…－［ｍ“３＋５Ⅲ】ｈ目…ｔａｒｔＰｄ，￥ｅ１自ｃｔ！！∞Ｌ！！ｋ。ｒｆｔｈｅＨ…Ｐ’薛篇．察谨兰ｇｄＩ髅泰ｌ９…一…－ｆｆｔ（ｙ，ｄ）７㈣Ｔ２…㈣－５００００ｊ２㈣＿１。。∞１２ｌ００００＋ｌ４…００００ｄ刖㈣…㈣‘６９００∞１图６Ｍａｔｌａｂ进行ＦＦＴ后的结果图６—１０８个Ｐｉｓｃｅｓ的数据通信上海大学硕士学位论文图６．１０所示是８个Ｐｉｓｃｅｓ中进行数据通信实现数据共享的过程，从上至下分别是每个Ｐｉｓｃｅｓ核中的ｃｏｒｅ＿＿ｐｃｘｒｅｑ［７：０］端口，ｃｏｒｅ＿ｐｃｘ＿ａｔｍ［７：０］端口以及ｃｏｒｅｐｏｘ端口。可以看到在的时候，８个核向不同的块发送了．存．ｄａ储ｔａ［请７２求：０］。而在Ｌ２Ｃａｃｈｅｓ的时候３，０８０ｎ个ｓ核又向不同的ｎ０６３ｅ据ｈｃａ数Ｃ入２载Ｌ块请求。可以看到在３６０ｎｓ时Ｃｏｒｅ０所请求载入的数据所对应的Ｌ２Ｃａｃｈｅ块就是之前在３００ｎｓ时Ｃｏｒｅ４存储数据时用的Ｌ２Ｃａｃｈｅ块。当Ｃｏｒｅ０的载入操作完成后，也就实现了数据的共享。由于请求的是相同的Ｌ２Ｃａｃｈｅ块，因此３６０ｎｓ时Ｃｏｒｅ０的ｃｏｒｅ＿ｐｃｘ＿ｒｅｑ［７：０］端口的值和３００ｎｓ时Ｃｏｒｅ４的ｃｏｒｅ＿＿ｐｃｘ＿ｒｅｑ［７：０］端口的值相同，都是０ｘ０４。其它的核发出的请求与Ｃｏｒｅ０的类似。６２上海人学硕十学位论文第７章总结与展望７．１总结经过数十年的发展，如今的ＣＰＵ的设计以及实现水平已经达到了一个崭新的高度。从最初的８位ＣＰＵ开始，作为计算机中核心运算以及控制部件的ＣＰＵ，在的主频达到一定的速度后，开始朝多核处理器的方向发展。本文以ＯｐｅｎＳＰＡＲＣ作为参考，设计了一个能够构建多核处理器的Ｃｒｏｓｓｂａｒ，为如何构建多核处理器，提供了很好的参考。本文的创新点主要体现在以下两个方面：（１）本文设计的Ｃｒｏｓｓｂａｒ虽然参考了Ｓｕｎ公司ＯｐｅｎＳＰＡＲＣ中的ＣａｃｈｅＣｒｏｓｓｂａｒ的结构，但是所连接的核可以是其它类型的核，例如本文中参考ＭＩＰＳ３２指令的Ｐｉｓｃｅｓ处理器核。其它类型的核通过定义相应的接口能方便利用Ｃｒｏｓｓｂａｒ实现多核的架构。（２）为了能够连接不同类型的处理器核，Ｃｒｏｓｓｂａｒ采用了参数化的设计，可以根据需要调整数据位的宽度。这使得其它类型的处理器核与Ｃｒｏｓｓｂｉｌｌ＂连接更加简单。本文所做的工作体现在以下几个方面：（１）在参考Ｓｕｎ公司ＯｐｅｎＳＰＡＲＣ处理器中ＣａｃｈｅＣｒｏｓｓｂａｒ的基础上，使用Ｖｅｒｉｌｏｇ硬件描述语言，设计了一个能连接多个处理器核的Ｃｒｏｓｓｂａｒ。（２）为了验证Ｃｒｏｓｓｂａｒ的功能，设计了一个参考ＭＩＰＳ架构的ＲＩＳＣ处理器。该处理器采用了５级流水线的架构，实现了ＭＩＰＳ３２指令集中的部分指令。同时在流水线上解决了数据冒险的问题。（３）使用Ｖｅｒｉｌｏｇ硬件描述语言，设计了～个共８块用于多核处理器进行数据共享的Ｌ２Ｃａｃｈｅ。（４）构建了一个８核的处理器，并在这个处理器上运行了一个４点的快速傅立叶变换程序。程序使用汇编语言编写，并使用ＭＩＰＳ公司的汇编编译器编译。６３上海人学硕上学位论文７．２展望由于时间的仓促的原因本次毕业论文中所设计的多核处理器中的各个“部件＂都采取了“精简”的结构。下面将总结设计中一些有待改进的部分，可以作为将来对本次设计的完善。（１）处理器核的完善处理器核是多核处理器中最为重要的一部分，处理器核的性能的好坏直接影响到多核处理器性能的好坏。在本次毕业设计中，对于处理器核的设计进行了简化，作为一款成熟的多核处理器，这样功能的处理器核是远远不够的。对于处理器核的完善，主要可以从以下几个方面进行考虑。ａ）指令集的完善可以看到，在本次毕业论文中所设计的Ｐｉｓｃｅｓ核只实现了ＭＩＰＳ３２中的部分指令，需要进一步增加对更多指令的支持，比如，跳转指令，移位指令等等。ｂ）流水线上的完善Ｐｉｓｃｅｓ的流水线上虽然解决了数据冒险的问题，但是若实现的指令中增加了跳转指令，流水线又会遇到分支冒险的问题，需要进一步优化流水线。ｃ）功能模块的完善在本次毕业论文中设计的Ｐｉｓｃｅｓ功能还是比较简单，通过增加一些模块，可以增强处理器的功能。可以增加的模块有很多，以下仅列举一些。增加异常和中断处理模块。这一方面可以提高处理器内部对一些重要数据的纠错能力，另一方面可以在发生异常的时候对异常的事件进行相应的处理。增加浮点运算模块。这样处理器就会具有的浮点运算的能力。本文在６．２节之所以只选择４点的快速傅立叶变换，是因为不具备浮点运算单元。而４点的快速傅立叶变换中没有浮点数。ＤＤＲ内存控制器模块。不论是桌面的处理器还是应用于服务器端的处理器，他们最后一级Ｃａｃｈｅ的数据来源总归是ＤＤＲ内存。从图２－６可以看到ＵＩ仃ａＳＰＡＲＣ中有相应的内存控制器来连接片外的存储。（２）Ｃａｃｈｅ的完善上海大学硕＋学位论文在Ｃａｃｈｅ方面可做的完善工作主要体现在对Ｃａｃｈｅ一致性的要求【４ｌ】，由于采用了多级的Ｃａｃｈｅ，并且Ｌ２Ｃａｃｈｅ是作为一个共享的存储器为８个处理器提供数据。Ｌ２Ｃａｃｈｅ中的数据可能同时会被Ｌ１Ｃａｃｈｅ中的数据Ｃａｃｈｅ和指令Ｃａｃｈｅ需要，并且同一行的Ｃａｃｈｅ可能会在不同的处理器核中会有不一样，这需要有Ｃａｃｈｅ一致性的保证。对Ｃａｃｈｅ部分的另一部分工作是降低Ｃａｃｈｅ的功耗。（３）Ｃｒｏｓｓｂａｒ中协议的完善本次毕业设计中所完成的协议比较简单，只有Ｌｏａｄ／Ｓｔｏｒｅ数据封包的协议。在ＯｐｅｎＳＰＡＲＣ中还有很多协议，比如ＩＣａｃｈｅＦｉｌｌ等。这对于处理器更好的载入和存储有很大的好处。以上几点无疑会给今后的研究工作带来更大的挑战，同时也会带来更多的期待。相信通过不懈的努力和追求，本课题一定会实现更多的成果。上海大学硕士学位论文参考文献【１】郑纬民译，ＤａｖｉｄＡ．Ｐａｔｔｅｒｓｏｎ，ＪｏｈｎＬ．Ｈｅｎｎｅｓｓｙ．计算机组成与设计硬件／软件接口（原书第３版）【Ｍ】．机械工业出版社，２００７．４．１２１李大鹏，张盛兵，罗曼．３２位ＲＩＳＣ微处理器“龙腾Ｒ２”浮点流水线的设计和实现【Ｊ】．微电子学与计算机，２００６年２３卷１期ＰＰ【３】【４】【５】１８８．１９１．Ｈ．Ｑ．Ｌｅ，Ｗ．Ｊ．Ｓｔａｒｋｅ，Ｊ．Ｓ．Ｆｉｅｌｄｓ．ｍＭＰＯＷＥＲ６ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅ．２００７．１１．ｗｗｗ：０ｐｅｎｓｐａｒｃ．ｎｅｔ李明刚．６４位ＭＩＰＳ指令处理器的流水线设计【Ｊ】．现代电子技术，２００５年２８卷３期ｐｐ９８－１００．【６】周润德［译】，ＪａｎＭ．Ｒａｂａｅｙ，ＡｎａｎｔｈａＣｈａｎｄｒａｋａｓａｎ，ＢｏｒｉｖｏｊｅＮｉｋｏｌｉｃ．数字集成电路一电路、系统与设计（第二版）【Ｍ】．电子工业出版社，２００４．【７】【８】ＭｕｌｔｉＰｒｏｃｅｓｓｏｒＳｐｅｃｉｆｉｃａｔｉｏｎ．ＩｎｔｅｌＣｏｒｐｏｒａｔｉｏｎ，１９９７．白跃彬【译】，Ｊ．Ｌ．Ｈｅｎｎｅｓｓｙ，Ｄ．Ａ．Ｐａｔｔｅｒｓｏｎ．计算机系统结构一量化研究方法（第四版）【Ｍ】．电子工业出版社，２００７．【９】孙海瑁，梁峰等．嵌入式单精度扩展浮点ＲＩＳＣ微处理器的设计【Ｊ】．微电子学与计算机，２００４年第２ｌ卷第６期ｐｐ４５４８．【１０］Ｒ．ＪａｃｏｂＢａｋｅｒａｎｄＨａｒｒｙＷ－ＬｉａｎｄＤａｖｉｄＥ．Ｂｏｙｃｅ．ＣＭＯＳａｎｄＣｉｒｃｕｉｔＤｅｓｉｇｎ，Ｌａｙｏｕｔ，ａｎｄＳｉｍｕｌａｔｉｏｎ［Ｍ］．ＴｈｅＹ－０ｒｋ．１９９８．ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ，Ｉｎｃ．，Ｎｅｗ【１１】Ｌ．Ｈａｍｍｏｎｄ。Ｂ．Ａ．Ｈｕｂｂｏｒｔ，Ｍ．Ｓｉｕ．ＴｈｅＶ０１．２０（２）：７１－８４．ＳｔａｎｆｏｒｄＨｙｄｒａＣＭＰ［Ｊ］．ＩＥＥＥＭｉｃｒｏ，２０００，【１２］ＧｒｉｎｄｌｅｙＲ．，Ａｂｄｅｌｒａｈｍａｎｔ，Ｂｒｏｗｎ，Ｓ．．ＴｈｅＮＵＭＡｃｈｉｎｅｍｕｌｔｉｐｒｏｃｅｓｓｏｒ［Ｃ］．ＰａｒａｌｌｅｌＯｉｌＰｒｏｃｅｓｓｉｎｇ，２０００．Ｐｒｏｃｅｅｄｉｎｇｓ．２０００ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ２１—２４Ａｕｇ．２０００Ｐａｇｅ（ｓ）：４８７－４９６．【１３】Ｊ．Ｌ．Ｈｅｎｎｅｓｓｙ，Ｄ．Ａ．Ｐａｔｔｅｒｓｏｎ．ＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ：ＡＱｕａｎｔｉｔａｔｉｖｅＡｐｐｒｏａｃｈ，ＦｏｕｒｔｈＥｄｉｔｉｏｎ［Ｍ】．ＭｏｒｇａｎＫａｕｆｍａｎｎＰｒｅｓｓ，２００６．【１４］ＢｅｈｒｏｏｚＰａｒｈａｍｉ．ＣｏｍｐｕｔｅｒＡｒｉｔｈｍｅｔｉｃＡｌｇｏｒｉｔｈｍｓａｎｄＨａｒｄｗａｒｅＤｅｓｉｇｎｓ［Ｍ］．Ｏｘｆｏｒｄ上海大学硕士学位论文ＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，２０００．【１５１李遣波，潘松，徐旭．新型ＲＩＳＣ流水线架构的８位微控制器叽．电子产品世界，２００３年０９Ａ期ｐｐ４８—５０．【１６１王金明．数字系统设计与ＶｅｒｉｌｏｇＨＤＬ［Ｍ］．电子工业出版社，２００５．【１７１徐科，王文婷，阂昊．３２位嵌入式ＲＩＳＣ处理器的ＶＬＳＩ实现［Ｊ】．半导体技术，２００３年２８卷１２期ｐｐ５７－６２。【１８１ＲｏｎａｋＳｉｎｇｈａｌ．英特尔＠下一代微构架Ｎｅｈａｌｅｍ深入剖析［Ｃ】．英特尔信息技术峰会，２００８．【１９１ＪｏｅｌＭ．Ｔｅｎｄｌｅｒ．ＰＯＷＥＲ６ＴｅｃｈｎｏｌｏｇｙＯｖｅｒｖｉｅｗ．ＩＢＭＣｏｒｐｏｒａｔｉｏｎ，２００７．１２０１ＯｐｅｎＳＰＡＲＣＴＭＴ２ＣｏｒｅＭｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅＳｐｅｃｉｆｉｃａｔｉｏｎ．ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓ，Ｉｎｃ．，２００７，ＲｅｖｉｓｉｏｎＡ．［２１】ＶｉｃｔｏｒＰ．Ｎｅｌｓｏｎ，Ｈ．ＴｒｏｙＮａｇｌｅ，ＢｉｌｌＤ．Ｃａｒｒｏｌｌ，ＤａｖｉｄＩｒｗｉｎ．Ｄｉ＃ｍｌＬｏｇｉｃＣｉｒｃｕｉｔＡｎａｌｙｓｉｓａｎｄＤｅｓｉｇｎ［Ｍ］．ＰｒｅｎｔｉｃｅＨａｌｌ，１９９５．１２２１任浩琪．高性能ＣＰＵ存储层次的分析与实现【Ｄ】．同济大学，２００７．［２３１ＤａｖｉｄＬ．Ｗｅａｖｅｒ．ＯｐｅｎＳＰＡＲＣＩｎｔｅｒｎａｌｓ．ＳｕｎＭｉｃｒｏｓｙｓｔｃｍｓ，Ｉｎｃ．，２００８．１０．［２４１ＯｐｅｎＳＰＡＲＣＴＭＴ２Ｓｙｓｔｅｍ·Ｏｎ－Ｃｈｉｐ（ｓｏｃ）ＭｉｃｒｏａｒｃｈｉｔｅｃｔｕｒｅＳｐｅｃｉｆｉｃａｔｉｏｎ．ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓ，Ｉｎｃ．，２００７，ＲｅｖｉｓｉｏｎＡ．１２５１Ｗａｎｇ，Ｘｉ．Ｃｈｕａｎ，Ｑｉａｎ，Ｂｉｎ－Ｆｅｎｇ．ＴｈｅＤｅｓｉｇｎｏｆｔｈｅＣａｃｈｅＣｒｏｓｓｂａｒｂａｓｅｄｏｎＯｐｅｎＳＰＡＲＣＡｒｃｈｉｔｅｃｔｕｒｅ［Ｃ］。２００８ＩｎｔｅｍａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅＯｉｌＥｌｅｃｔｒｏｎｉｃＰａｃｋａｇｉｎｇＴｅｃｈｎｏｌｏｇｙ＆ＨｉｇｈＤｅｎｓｉｔｙＰａｃｋａｇｉｎｇ，２００８Ｊｕｌｙ，Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，Ｐ４６０６９７９．１２６１张文俊译，Ｂｈａｔｎａｇａｒ，Ｈ一高级ＡＳＩＣ芯片综合一使用ＳｙｎｏｐｓｙｓＤｅｓｉｇｎＣｏｍｐｉｌｅｒＰｈｙｓｉｃａｌＣｏｍｐｉｌｅｒ和ＰｒｉｍｅＴｉｍｅ（第２版）【Ｍ】．清华大学出版社，２００７．【２７】ＤｅｓｉｇｎＣｏｍｐｉｌｅｒＵｓｅｒＧｕｉｄｅ．Ｓｙｎｏｐｓｙｓ，２００７．［２８１ＦｏｒｍａｌｉｔｙＵｓｅｒＧｕｉｄｅ．Ｓｙｎｏｐｓｙｓ，２００７．［２９１赵俊良，张福新，陶品，译ＤｏｍｉｎｉｃＳｗｃｃｔｍａｎ．ｍｉｐｓ处理器设计透视【Ｍ】．北京航空航天大学出版社，２００５，１３０１ＭＩＰＳ３２＠ＡｒｃｈｉｔｅｃｔｕｒｅＦｏｒＰｒｏｇｒａｍｍｅｒｓＶｏｌｕｍｅＩ：ＩｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅＭＩＰＳ３２＠Ａｒｃｈｉｔｅｃｔｕｒｅ．Ｍ１ＰＳＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．，２００５．６７上海大学硕士学位论文［３１１ＭＩＰＳ３２回ＡｒｃｈｉｔｅｃｔｕｒｅＦｏｒＰｒｏｇｒａｍｍｅｒｓＶｏｌｕｍｅＩＩ：ＴｈｅＭＩＰＳ３２固ＩｎｓｔｒｕｃｔｉｏｎＳｅｔ．ＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓ．Ｉｎｃ．２００５．［３２１ＭＩＰＳ３２＠ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＱｕｉｃｋＲｅｆｅｒｅｎｃｅ．ＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．，２００７．［３３１徐科，杨雪飞等．３２位嵌入式ＲＩＳＣ处理器的硬件验ｉ正［Ｊ１．微电子学，２００３年３３卷６期ＰＰ５０２．５０５．［３４１贾琳，樊晓桠．３２位ＲＩＳＣ微处理器流水线设计【Ｊ】．计算机工程与应用，２００５年１４期ＰＰ１１５－１１７．【３５】江艳，廉殿斌，李勇．６４位ＲＩＳＣ微处理器的结构设｛ｆｌｆ［Ｊ］．微电子学与计算机，２００５年第２２卷第４期ｐｐ７２．７４，７７．［３６１钱彬丰，汪西川．一款ＲＩＳＣ型流水线ＭＣＵ的设计与实现【Ｊ】．仪表技术，２００８年９期：ＰＰ５５－５７．［３７１周敏，付慧生，李雪峰．基于流水线的ＲＩＳＣ微处理器设计［Ｊ】．大众科技，２００６年５期：ＰＰ１３８１５５．５７。Ｈａｒｄｗａｒｅ／ｓｏｆｔｗａｒｅｒｅｓｏｌｕｔｉｏｎｏｆｐｉｐｅｌｉｎｅｈａｚａｒｄｓｉｎｐｉｐｅｌｉｎｅｓｙｎｔｈｅｓｉｓｏｆｉｎｓｔｒｕｃｔｉｏｎｓｅｔｐｒｏｃｅｓｓｏｒｓ［Ｃ］．Ｃｏｍｐｕｔｅｒ－ＡｉｄｅｄＤｅｓｉｇｎ，１９９３．ＩＣＣＡＤ一９３．Ｄｉｇｅｓｔｏｆ０１１ＴｅｃｈｎｉｃａｌＰａｐｅｒｓ．１９９３ＩＥＥＥ／ＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ７－１１Ｎｏｖ．１９９３Ｐａｇｅ：５９４—５９９．［３９１Ｑｉａｎ，Ｂｉｎ．Ｆｅｎｇ，Ｙａｈ，Ｌｉ．Ｍｉｎ．ＴｈｅＲｅｓｅａｒｃｈｏｆｔｈｅＩｎｃｌｕｓｉｖｅＣａｃｈｅｕｓｅｄｉｎＭｕｌｔｉ．ＣｏｒｅＰｒｏｃｅｓｓｏｒ［Ｃ】．２００８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｌｅｃｔｒｏｎｉｃＰａｃｋａｇｉｎｇＴｅｃｈｎｏｌｏｇｙ＆Ｈｉ曲ＤｅｎｓｉｔｙＰａｃｋａｇｉｎｇ，２００８Ｊｕｌｙ，Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，Ｐ４６０６９８１．［４０１黄海林，许彤，范东睿，唐志敏．嵌入式处理器中降低Ｃａｃｈｅ缺失代价设计方法研究［Ｊ】．小型微型计算机系统，２００６．［４１】陈石坤．多核处理器中ＣＡＣＨＥ一致性协议研究和实现［Ｄ】．国防科学技术大学，２００５．［４２１贺宁．６４位微处理器中数据缓存的设计与实现【Ｄ】．同济大学，２００７．［４３１ＭａｒｋＢａｌｃｈ．ＣｏｍｐｌｅｔｅＤｉｇｉｔａｌａｎｄＣｏｍｐｕｔｅｒＳｙｓｔｅｍＤｅｓｉｇｎ：ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＧｕｉｄｅｔｏＤｉｇｉｔａｌＥｌｅｃｔｒｏｎｉｃｓＡｒｃｈｉｔｅｃｔｕｒｅ【Ｍ】。Ｂｅｉｊｉｎｇ：ＴｓｉｎｇｈｕａＣｈａｎｄｒａｋａｓａｎａｎｄＰｒｅｓｓ，２００４．【４４】ＪａｎＭ．Ｒａｂａｅｙ，ＡｎａｎｔｈａＢｏｒｉｖｏｊｅＮｉｋｏｌｉｅ．数字集成电路一设计透视（第２版）【Ｍ】．北京：清华大学出版社，２００４．上海大学硕士学位论文［４５１程佩青．数字信号处理教程（第三版）【Ｍ】．清华大学出版社，２００７．［４６１郑君里，应启珩，杨为理．信号与系统（第二版）下册【Ｍ】．北京．高等教育出版社，２０００．１４７１ＭＩＰＳ＠ＳＤＥ５．０３Ｐｒｏｇｒａｍｍｅｐ８’Ｇｕｉｄｅ．ＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．，２００４．［４８１陈杰．ＭＡＴＬＡＢ宝典［Ｍ】．电子工学出版社，２００７．上海人学硕上学位论文致谢首先要感谢我尊敬的导师汪西川副教授对我的指导和教诲，论文的选题、具体研究和撰写过程都凝聚着导师的心血与汗水。在我读研究生期间，汪老师尽可能地为我营造一个良好的科研和学习环境，使我更专心的投入学习研究；并且时常生活中，汪老师还给予我各方面的指导，包括做人、做事和做学问。两年多来汪老师对我生活上、学习上的无微不至的关怀与照顾令我终身难忘。同时要感谢严利民老师以及冯旭老师等对我在研究上的指导与建议。另外要感谢实验室里各位同学对我学业上的帮助，正是工作在这样一个团结友爱的集体中，才使我在学业上有了长足的发展和充实，并顺利完成这篇论文的写作。感谢上海大学微电子研究与开发中心对我的培养，感谢曾经教育和帮助我的所有老师。这段难忘的经历使我终生受益。最后感谢我的父母，我的家人，感谢他们在学习期间对我的支持、鼓励和关爱，是他们给了我无穷的动力，让我坚持不懈的前进！同时衷心感谢百忙之中抽出时间参加论文评阅和评议的各位专家学者，感谢他们为审阅本文所付出的辛勤劳动１钱彬丰２００９年１月７０上海人学硕上学位论文研究生在读期间发表的学术论文和研究成果【１】钱彬丰，汪西川．一款ＲＩＳＣ型流水线ＭＣＵ的设计与实现［Ｊ】．仪表技术２００８年９期：ＰＰ５５－５７［２１Ｗａｎｇ，Ｘｉ—Ｃｈｕａｎ；Ｑｉａｎ，Ｂｉｎ－Ｆｅｎｇ．ＴｈｅＤｅｓｉｇｎｏｆｔｈｅＣａｃｈｅＣｒｏｓｓｂａｒｂａｓｅｄｏｎＯｐｃｎＳＰＡＲＣＡｒｃｈｉｔｅｃｔｕｒｅ［Ｃ］．２００８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｌｅｃｔｒｏｎｉｃＰａｃｋａｇｉｎｇＴｅｃｈｎｏｌｏｇｙ＆ＨｉｇｌｌＤｅｎｓｉｔｙＰａｃｋａｇｉｎｇ，２００８Ｊｕｌｙ，Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，Ｐ４６０６９７９．（ＥＩＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒ：０８４０１１６１５６３１，ＩＳＴＰｎｕｍｂｅｒ：Ｏ００２６０２４８８０００４７）１３１Ｑｉａｎ，Ｂｉｎ－Ｆｅｎｇ；Ｙａｈ，Ｌｉ．Ｍｉｎ．ＴｈｅＲｅｓｅａｒｃｈｏｆｔｈｅＩｎｃｌｕｓｉｖｅＣａｃｈｅｕｓｅｄｉｎＭｕｌｔｉ－ＣｏｒｅＰｒｏｃｅｓｓｏｒ［Ｃ］．２００８ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｌｅｃｔｒｏｎｉｃＰａｃｋａｇｉｎｇＴｅｃｈｎｏｌｏｇｙ＆ＨｉｇｈＤｅｎｓｉｔｙＰａｃｋａｇｉｎｇ，２００８Ｊｕｌｙ，Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，Ｐ４６０６９８１．（ＥＩＡｃｃｅｓｓｉｏｎｎｕｍｂｅｒ：０００２６０２４８８０００４９）７１

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文