流水线处理器中Cache模块的设计

来源：易妖游戏网

第１０卷第３２期２０１０年１１月　科学技术与工程　Ｖｏ１．１０　Ｎｏ．３２　ＮＯＶ．２０１０　ｌ６７ｌ～１８１５（２０１０１３２—８０８４—０６　Ｓｃｉｅｎｃｅ　Ｔｅｃｈｎｏｌｏｇｙ　ａｎｄ　Ｅｎ￣ｎｅｅｆｉｎｇ　⑥２０１０　Ｓｃｉ．Ｔｅｃｈ．Ｅｎｇｎｇ．　流水线处理器中Ｃａｃｈｅ模块的设计　李红桥　肖建青张洵颖　龚龙庆　（西安微电子技术研究所，西安７１００５４）　摘要流水线结构能大幅提高指令执行速度，但是由于主存读取速度过慢，系统性能的提升仍然受到。现实现的　Ｃａｃｈｅ设计，是流水线与主存间的高速缓冲器，它能有效地解决访存的瓶颈问题，使流水线功能得到充分发挥。文章首先分析　流水线的结构特点，确定Ｃａｃｈｅ的结构功能，在此基础上提出一个组相联映射Ｃａｃｈｅ的设计。分析Ｃａｃｈｅ实现读写操作的具　体控制过程，并给出ＬＲＵ（１ｅａｓｔ　ｒｅｃｅｎｔｌｙ　ｕｓｅｄ）替换算法的实现。最后通过介绍猝发取指操作着重讨论了Ｃａｃｈｅ与流水线间的　配合机制。　关键词流水线　组相联ＬＲＵ替换算法　文献标志码猝发取指　Ａ　中图法分类号ＴＰ３９３．０６；　处理器的处理速度高于ＤＲＡＭ主存的存取速　度，为了不让访存成为计算机系统性能的瓶　（１）取指级（ＩＦ）：负责根据ｐｃ值从存储器中取　回指令。　颈，在高速的处理器和低速的主存之间设置一个高　速的缓存器——ｃａｃｈｅ。ｃａｃｈｅ的存取速度很快，接　近处理器的速度要求，但容量通常只有几十ＫＢ。根　（２）译码／寄存器访问级（ＩＤＡ）：将指令译码，　译出对应的操作数寄存器号，从寄存器中读到操作　数的值，并生成３２位的立即数。　（３）执行级（ＥＸ）：根据该指令的类型判断第二　个操作数是来自寄存器还是立即数，确定后进行运　算。如果是逻辑算术及移位指令，该结果就是运算　结果；如果是访存指令该结果就是访存地址。　（４）存储器级（ＭＥＭ）：根据执行级给出的地址　访问存储器。　据局部性原理，ｃａｃｈｅ中只存放处理器当前或即将　要访问的那部分信息。通过有效的替换策略和取　指方式，ｃａｃｈｅ能及时地更新自身内容，从而满足处　理器对指令及数据的高速需求。　流水线作为处理器中产生大量访存需求的部　分，其本身的结构特点和运行机制会对ｃａｃｈｅ的组　织结构产生影响，所以ｃａｃｈｅ的设计不仅要完成数　据查询更新等读写控制功能，还应当结合流水线的　结构，设计出ｃａｃｈｅ与流水线配合控制机制。　（５）写回级（ＷＢ）：将运算或访存指令的执行结　果写到寄存器中。　各级之间设有流水寄存器，如取指级和译码级　之间有寄存器ＩＦ／ＩＤＡ，译码级与执行级有寄存器　１概述　１．１流水线结构　ＩＤＡ／ＥＸ等。它们用以保存各级的处理结果，同时　将各级工作隔开，使流水线各部件不会互相干扰。　１．２　ｃａｃｈｅ结构　流水线一般分为４到ｌ２级，此处以５级为例，　流水线需要的信息分为两种：指令和数据。对　于流水线结构的处理器而言，会出现在同一周期同　时需要指令和数据的情况（ＩＦ级和ＭＥＭ级）。如果　各级名称和功能分别是：　２０１０年９月１日收到　第一作者简介：李红桥（１９８５一），江苏人，硕士研究生，研究方向　嵌入式计算机应用。Ｅ－ｍａｉｌ：ｉｐｏ０８＠ｙａｈｏｏ．Ｃｎ。　采用一个指令和数据统一控制的ｃａｃｈｅ，那么它每次　只能提供一种信息，导致另一个流水级部件的需求　无法立刻满足；这种情形称为流水线结构冲突。发　３２期　李红桥，等：流水线处理器中ｃａｃｈｅ模块的设计　８０８５　生这种冲突后会导致流水线停顿，致使处理器效率　下降。为此，将指令和数据分别用两个ｃａｃｈｅ控制，　址的低位部分做ｃａｃｈｅ的地址。但是如果两块常用　的数据（指令）映射到ｃａｃｈｅ中的同一块的话，那么　这种结构的ｃａｃｈｅ称为哈佛结构，其分离的指令　ｃａｃｈｅ（ｉｃａｃｈｅ）和数据ｃａｃｈｅ（ｄｃａｃｈｅ）能同时响应流　在执行时会发生频繁的替换，降低ｃａｃｈｅ的命中率。　２．１．２全相联映射　水线对指令和数据的需求，避免了流水线的结构冲　全相联映射中，主存中的一块可以映射到ｃａｃｈｅ　突。哈佛结构的ｃａｃｈｅ在流水线中的位置见图１。　——　—　——　——　—　骷　里量＝　——　　　蛊Ｊ—ｌ　—ｆ＼、　．—　ｌ广Ｕ　ｄ＿ｃａｃ１ｈ。Ｌ　．　盏二暑凸—　毋　］　一　ＤＡⅡ）Ａ，ＥＸ　ＥＸ，＾．１　Ｍ　任　ｆ，ＷＢ　图１　流水线中哈佛结构的ｃａｃｈｅ　Ｉｃａｃｈｅ作用于流水线的取指级。它根据输入的　ｐｃ值取出对应的指令，将其存放在ＩＦ级与ＩＤＡ级　之间的流水寄存器ＩＲ中。Ｄｃａｃｈｅ用于存储器访问　级。它根据输入的地址、数据和相应的读写控制信　号来完成操作。如果对应的指令或数据没有放在　ｃａｃｈｅ中，那么ｃａｃｈｅ会启动访存操作，取回需要的　信息或向主存写入修改的数据，这一过程不须处理　器介入。　２　ｃａｃｈｅ子模块设计　２．１　ｃａｃｈｅ的地址映射与地址变换　将ｃａｃｈｅ和主存都划分为同样大小的块，每块　容量通常为４或８个字。地址映射机制规定了主存　中的块与ｃａｃｈｅ中的块之间的对应关系。根据地址　映射机制，可以对主存地址进行相应的变换，得到　ｃａｃｈｅ中的地址。地址映射机制有以下三种：　２．１．１　直接映射　在直接映射中，ｃａｃｈｅ的块与主存的块有如下　映射关系：　Ｃ＝Ｍ　ｍｏｄ　Ｃ６。　其中　为主存块号，Ｃ为ｃａｃｈｅ块号，Ｃ　是ｃａｃｈｅ的　块容量。在该映射方式下，主存中的一块只能映射　到ｃａｃｈｅ中唯一的位置上。这种映射方式的好处是　实现起来结构简单，地址变换时可以直接用主存地　中的任意一块中，它是最为灵活的一种地址映射机　制，命中率很高，但是这种灵活的映射机制为寻址　带来不便。由于没有特定的地址映射关系，地址变　换不能定位到ｃａｃｈｅ中的某块，要进行查找只能将　主存地址和ｃａｃｈｅ中各块的地址标记分别进行对　比，实现起来较为复杂，速度也慢。　２．１．３组相联映射　组相联是全相联与直接映射方式的一个折中。　它将ｃａｃｈｅ和主存按同样大小的“段”进行划分。　在ｃａｃｈｅ中，每段称为一路。将划分为ｋ路的ｃａｃｈｅ　称为ｋ路组相联。ｃａｃｈｅ所有路内相对块号一样的　块组成一组。在ｋ路组相联中，主存中的段与ｃａｃｈｅ　中的路是全相联，但是段内各块到ｃａｃｈｅ路内各块　的映射是直接映射。主存与ｃａｃｈｅ之间的映射关系　如下：　Ｓ＝Ｍ　ｍｏｄ　。　ｓ为ｃａｃｈｅ的组号，　为ｃａｃｈｅ一路中的块容　量。上式说明，主存中的一块可以映射到ｃａｃｈｅ的　一组中，而ｋ路组相联的ｃａｃｈｅ每组有ｋ块，也即主　存中的一块可以映射到ｃａｃｈｅ中某组ｋ块的任意　一块。　具体地址变换见图２。　ｗｏｒｄｌ　０Ｏ　．．．．．．．．．．．．．．．Ｊ１．．．．．一　ｌ　Ｏ　图２　ｃａｃｈｅ的地址变换　组相联将主存地址分为４部分，最低两位是主　存的字节编码，ｃａｃｈｅ寻址到字，所以这两位恒置０。　ｗｏｒｄ字段是块中的字编码。ｓｅｔ字段是主存段中的　块编码，由于组相联ｃａｃｈｅ中路和主存的段容量一　样，所以ｓｅｔ，ｗｏｒｄ字段可以直接用来对ｃａｃｈｅ寻址。　ｔａｇ字段可以认为是主存的段编码。由组相联映射　关系可知，主存同一的段中的块是不会分到ｃａｃｈｅ　８０８６　科学技术与工程　１Ｏ卷　一组中的，所以段编码用于区分ｃａｃｈｅ属于同一组　组相联映射方式的映射方式比直接相联灵活，　中，能使流水线访问时间缩短数个周期，显著提升　流水线效率。写操作只有ｄｃａｃｈｅ支持，因为ｉｃａｃｈｅ　中存放的是指令，不允许被修改。如果是第一次向　的各块。　实现结构比全相联简单，命中率接近全相联。它的　综合性能较高，所以应用广泛。　２．２　ｃａｃｈｅ的读写操作控制　某地址写入，会发生写不命中。这种情况下；ｄｃａｃｈｅ　一定会改写主存，之后根据具体的写策略决定该数　据要装入ｄｃａｃｈｅ（按写分配策略）或是不装入主存　（不按写分配策略）。如果ｄｃａｃｈｅ中存有该数据副　ｃａｃｈｅ是分层存储中的一级，所以它最基本的　功能就是完成处理器读写存储器操作。　对于一个读操作来说，第一次读取某地址，会　发生读不命中（读缺失），即ｃａｃｈｅ中没有该数据，要　先从主存中读出并返给流水线，同时自己保存一个　副本。如果下次又访问同一地址，ｃａｃｈｅ中还保留　有该数据的话，那么该操作会直接由ｃａｃｈｅ完成，不　需要访问主存，这种情况称为命中。ｃａｃｈｅ一旦命　本，此时发生写命中。ｄｃａｃｈｅ中的数据被改写，随　后根据写命中情况下的写策略，决定改写后的数据　会立刻写入主存中（写直达策略）或者是等待该数　据要被替换出去时再写入主存（写回策略）…。　图３中所示为两路组相联的ｄｃａｃｈｅ。ｉｃａｃｈｅ的　寻址和命中判断控制逻辑结构与其相似，只是没有　写操作部分的控制　。　写不命中　１９　比较逻辑　图３　ｄｃａｃｈｅ读写操作控制通路　ｃａｃｈｅ的存储器结构如图３中虚线框所示，除了　当ｃａｃｈｅ接到流水线发出的地址后，利用地址　的ｓｅｔ字段通过译码器选通对应的组，ｗｏｒｄ字段选　存储数据块，还要保存与各块数据相对应的ｔａｇ标　记和有效位。如前所述，ｔａｇ标记是各块中字的主存　通组中各块的对应字及其有效位，为了确定是组中　的哪一块命中，需要将各块的ｔａｇ标记分别和地址　的ｔａｇ字段进行比较，图３中的比较逻辑是由异或　地址的ｔａｇ字段。保存ｔａｇ字段是为了区分组中各　块，然而块中的各字公用一个ｔａｇ标记，块中有的字　所对应的ｔａｇ标记可能与其不同。这时可以设置有　效位加以标明。块中每个字都与有效位中的一位　相对应，如果该字地址的ｔａｇ字段与该块中保存的　门和或非门构成的电路，它会将两数进行逐位对　比，如果全部相同，那么它输出高电平，否则，输出　低电平。比较结果相同后，还要将比较结果和对应　块中字的有效位值进行与运算，输出结果为高且读　值一致，则该位值为１，否则为０。　３２期　李红桥，等：流水线处理器中ｃａｃｈｅ模块的设计　８０８７　信号有效，则发生读命中，否则发生读缺失。如果　是写操作，那么只要比较逻辑的输出为高电平，而　且写信号高电平有效，就说明发生了写命中，否则　就写不命中。　当发生读命中时，三态门０或１中对应命中块　的那一个就打开，命中字被送到ＣＰＵ。如果读缺失　了，三态门５打开，主存查询的结果送给ｃａｃｈｅ，由　ｃａｃｈｅ将其返回给ＣＰＵ并进行更新。写ｃａｃｈｅ的情　况只发生在数据ｃａｃｈｅ中。写命中时，ｃａｃｈｅ中的内　容被更改后，三态门６打开，更改的内容存放在写缓　冲中，在总线不忙的时候写入主存中。写不命中　时，ＣＰＵ将绕过ｃａｃｈｅ，直接写主存　Ｊ。　２．３替换机制　当发生读缺失的时候，如果ｃａｃｈｅ已经装满了，　就要将原来的内容去掉，将新的数据或指令放在特　定的位置。对于多路组相联来说，这样的位置不是　唯一的，那么如何确定哪个被替换掉，需要根据具　体的替换算法来决定。常用的替换算法有随机替　换和ＬＲＵ替换，随机替换，顾名思义就是将根据随　机选出的字替换掉，它的优点就是结构简单，容易　实现，但它的性能不高，会影响ｃａｃｈｅ的命中率。另　一种是ＬＲＵ算法（最近最久未使用算法），它将组中　最久未被使用过的块替换掉。如果一个数据很久　未被使用过，那么将来它也不太可能被访问到　Ｊ。　ＬＲＵ算法参考历史使用记录来预测未来使用情况，　在一定程度上避免了可能还会被调用的块被替换　出去。该算法对ｃａｃｈｅ的命中率提升有帮助，所以　付出一定的硬件代价是值得的。　ＬＲＵ算法可以简单地表示为一个双射函数　Ｊ：　ＬＲＵｉ：｛０，１，…，凡一１｝一＞Ｗｉ　凡为ｃａｃｈｅ的相联度，Ｗｉ为ｃａｃｈｅ第ｉ组ｎ路数　据块的集合，ＬＲＵｉ（０）为最近使用过的块，ＬＲＵｉ（ｎ　一１）为最久未使用的块。　该算法如图４（ａ），图４（ｂ）所示。　当发生读缺失时，缺失块会将对应组中的ＬＲＵ　块替换掉，更新后该块就成为最近刚使用块，其他　块要依次向链尾方向移动一位；发生命中时，命中　块成为最近刚使用过的块，它调到链首时，原先在　原Ｗｉ　新Ｗｉ　（ａ）读缺失时的ＬＲＵ序列调整　ＬＲＵｉ（０）ＬＲＵｉ（１）ＬＲＵｉ（２）ＬＲＵｉ（３）ＬＲＵｉ（ｎ一１）　原Ｗｉ　ｆ　ｌ　Ｉ　…　Ｊ　ｎ．１　ｌ　Ｌ—＿＿＿Ｌ——　新Ｗｉ　…　ｉ．　．．．　．１．．．．．．．．．．．＿＿＿　（ｂ）读命中时的ＬＲＵ序列调整　图４　ＬＲＵ算法　它前方的链块要依次向链尾移一位，而原先位于其　后方的链块的位置则保持不变。　具体的ＬＲＵ算法硬件逻辑结构如图５所示。　ＮＡ　ＮＲ　Ｎ　ｈ１　ＣＰ　图５　ＬＲＵ算法的硬件实现　它实现的是４路组相联ｃａｃｈｅ的ＬＲＵ状态记　录。每一路的编号由两个触发器保存。ＣＰ为时钟　信号，ｈ０ｈｌ为本次访问的块号，ＡＯＡ１，ＢＯＢ１，ＣＯＣ１，　ＤＯＤ１这８个Ｄ触发器分别保存着ｃａｃｈｅ对应组的　四块块号，为讨论方便起见，设触发器保存的块号　与触发器同名。ＡＯＡ１是最近使用过的块号，ＤＯＤ１　是最久未使用的块号，即为下次不命中时被替换的　块号。三个控制信号ＮＡ，ＮＢ，ＮＣ分别为高时表示　当前访问的块号不是ＡＯＡ１，ＢＯＢ１，ＣＯＣ１。具体的　逻辑表达式如下：　ＮＡ＝（ｈ０＾Ａ０）Ｖ（ｈ１＾Ａ１）　ＮＢ＝（ｈ０八Ｂ０）Ｖ（ｈ１八Ｂ１）　ＮＣ＝（ｈＯ八ＣＯ）Ｖ（ｈ１＾Ｃ１）。　８０８８　科学技术与工程　１０卷　如果ｈ０ｈｌ是缺失块，那么ＮＡ，ＮＢ，ＮＣ均为高　电平，在时钟脉冲的作用下，ｈ０ｈｌ打入触发器ＡＯＡ１　中，而其保存的块号ＡＯＡ１打人到触发器ＢＯＢ１中，　其他触发器也是如此，直到触发器ＤＯＤ１中被打入　值ＣＯＣ１，其原来保存的块号被替换掉。　如果ｈＯｈｌ是命中块（设它等于ＢＯＢ１），那么　ＮＡ信号为高电平，ＮＢ信号为低电平，使得时钟脉　揣　』票　　象　勰。禀憩瓣ｆ　…　冲到来时ｈＯｈｌ打人到触发器ＡＯＡ１中，而块号　ＡＯＡＩ则打人到触发器ＢＯＢ１中。其他触发器保持　原值，这样就生成了新的ＬＲＵ状态。　其他相联度不同的ｃａｃｈｅ也可以按此思路实现　ＬＲＵ替换算法，但是考虑到要进行相联比较，速度　较低，不适用于相联度较大（如８路或１６路）的　ｃａｃｈｅ。　２．４　ｉｃａｃｈｅ的猝发取指　ｉｃａｅｈｅ如果不命中，则需要向主存发送查询请　求。等待指令返回需要若干周期，在此期间如果Ｉｕ　的取指级继续让ｐｃ不断的生成下条指令的地址，那　么取到的指令肯定是无效的，而且等缺失指令返回　时，当前ｐｃ已经不是该指令的ｐｃ了　Ｊ。所以，　ｉｃａｃｈｅ在读缺失的情况下，要向Ｉｕ发送一个低电平　的ｈｏｌｄｎ信号，令流水线挂起，停顿下来保持当前状　态。直到缺失字返回，ｈｏｌｄｎ信号拉高，取指级接受　该条指令，整条流水线继续向前推进。　猝发取值，是指在发生读缺失之后，不仅要从　主存中取回缺失字，还要取回该块中后续的字。后　续字的地址通过缺失字地址逐次加一生成，直到将　ｉｃａｃｈｅ块中最后一个字取回更新完。在此期间，只　要程序是顺序执行的，那么主存返回一个字，ｉｃａｃｈｅ　就将ｈｏｌｄｎ信号拉高一个周期，使得流水线推进一　拍。如果猝发期间执行了跳转指令，那么要等更新　完ｉｃａｃｈｅ的这块以后，它才能对跳转目的地址进行　查询。　如图６所示，Ｍ—ｒｅａｄｙ为高电平表示主存已经　将字返回，ｉｃａｃｈｅ根据它来进行更新操作。Ｉ＿ＲＥＡＤ－　Ｙ表示ｉｃａｃｈｅ的字已经返回，Ｉｕ根据它确定ｉｃａｃｈｅ　返回的字是否正确有效。ＦＰＣ表示要取的指令的　ｐｃ值，ＤＰＣ表示当前译码级处理的指令的ｐｃ值。Ｍ　图６猝发取指波形　一ＲＥＡＤＹ信号的第一次为高电平时，表示流水线取　指级发出的ｐｃ为Ａ的指令已经从主存中读出了，　如果对应的Ｉ—ＲＥＡＤＹ信号也为高电平，说明此时　译码级ＤＰＣ的ｐｃ值正好为Ａ，所以ｉｃａｃｈｅ可以将　该指令字返回给流水线的译码级，并拉高ｈｏｌｄｎ信　号，让得到新指令的流水线流动一拍，然后继续查　询缺失字的后续字。图中Ｐｃ值为Ａ＋１，Ａ＋２的指　令执行也是同样道理，当ＦＰＣ取到了一条ｐｃ为Ｂ　的跳转目的指令，照常将第Ａ＋２条指令返回给译　码级，但不拉高ｈｏｌｄｎ信号，继续保持流水线的停　顿，直到猝发取指完成。当ｐｃ为Ａ＋３的指令返回　时，因为指令ｐｃ和ｄｐｃ不一致，Ｉ—ＲＥＡＤＹ信号为　低，所以它不返回给译码级。　猝发取指的优势可以用简单的计算说明，假设　单字取指时ｉｃａｃｈｅ与主存建立握手通信的时间是３　个周期，而从主存中读一个字的时间是４个周期，那　么不猝发的情况下从主存中取回４个单字的时间是　（３＋４）ｘ４＝２８个周期，如果采用猝发取指，那么只　需要３＋４＋４ｘ３＝１９个周期。大部分情况下指令都　是顺序执行，所以猝发取指可以有效地减小系统在　不命中时的开销。　３结论　本文结合流水线结构给出了一种片上ｃａｃｈｅ的　实现。在设计中，ｃａｃｈｅ采用哈佛结构，避免了流水　线访存的结构冲突；指令ｃａｃｈｅ和数据ｃａｃｈｅ都是组　相联地址映射，硬件结构的实现较全相联简单，但　是命中率接近全相联；采用ＬＲＵ替换算法，最大程　３２期　李红桥，等：流水线处理器中ｃａｃｈｅ模块的设计　８０８９　度地避免因替换块的选择不当而导致的缺失；指令　３　Ｈａｎｄｙ　Ｊ．Ｃａｃｈｅ　ｍｅｍｏｒｙ　ｂｏｏｋ（ｔｈｅ　ｓｅｃｏｎｄ　ｅｄｉｔｉｏｎ）．Ａｃａｄｅｍｉｃ　Ｐｒｅｓｓ，　ｃａｃｈｅ发生读缺失后采用猝发取指的方式，减小了　１９９８　不命中时的时间开销。　。　Ｈｅｎｎｅｓｓｙ　Ｊ　Ｌ，Ｐａｔｔｅｒｓｏｎ　Ｄ　Ａ．计算机体系结构：量化研究方法（第　三版）．北京：电子工业出版社，２００４　参考文献　５　张承义，张民选，刑座程．组相联ｃａｃｈｅ漏流功耗．小型微型计算　机系统，２００７；２８（２）：３７２—３７５　１　ｍｕｄ　ｖａｎ　ｄｅｒ　ｐａｓ．Ｍｅｍｏｒｙ　ｈｉｅｒａｒｃｈｙ　ｉｎ　ｃａｃｈｅ—ｂａｓｅｄ　ｓｙｓｔｅｍ．ｈ￣ｐ：／／　６　谢学军，叶以正，王进详，等．哈佛体系结构的ｃａｃｈｅ控制器设计．　ｓｕｎ．ｃｏｒｎ／ｂｌｕｅｐｒｉｎｔ．ｐｄｆ　２００２　Ｎｏｖｅｍｂｅｒ　计算机工程，２００４；３０（２２）：１０ｏ～１ｏ４　２　Ｍａｎｏ　Ｍ　Ｍ，Ｃｈｅｒｉｅｓ　Ｒ．Ｋｉｍｅ．逻辑与计算机设计基础（第三版）．　北京：中国电力出版社，２００４　Ｄｅｓｉｇｎ　ｏｆ　ｔｈｅ　Ｃａｃｈｅ　ｉｎ　ｔｈｅ　Ｐｉｐｅｌｉｎｅ　Ｐｒｏｃｅｓｓｏｒ　ＬＩ　Ｈｏｎｇ—ｑｉａｏ，ＸＩＡＯ　Ｊｉａｎ—ｑｉｎｇ，ＺＨＡＮＧ　Ｘｕｎ－ｙｉｎｇ，ＧＯＮＧ　Ｌｏｎｇ－ｑｉｎｇ　（Ｘｉ’ａｎ　Ｍｉｃｒｏｅｌｅｃｔｒｏｎｉｃｓ　Ｔｅｃｈｎｉｑｕｅ　Ｉｎｓｔｉｔｕｔｅ，Ｘｉ’ａｎ　７１００５４，Ｐ．Ｒ．Ｃｈｉｎａ）　［Ａｂｓｔｒａｃｔ］Ｔｈｅ　ｐｉｐｅｌｉｎｅ　ｃｏｕｌｄ　ｉｎｃｒｅａｓｉｎｇ　ｔｈｅ　ｓｐｅｅｄ　ｏｆ　ｅｘｅｃｕｔｉｎｇ　ｉｎｓｔｒｕｃｔｉｏｎｓ　ｇｒｅａｔｌｙ，ｂｕｔ　ｔｈｅ　ｐｒｏｃｅｓｓｏｒ　ｐｅｒｆｏｒｍ—　ａｎｃｅ　ｗｅｒｅ　ｓｔｉｌｌ　ｓｕｂｊｅｃｔｅｄ　ｔｏ　ｔｈｅ　ｔｉｍｅ　ｏｆ　ａｃｃｅｓｓｉｎｇ　ｍａｉｎ　ｍｅｍｏｒｙ．Ｔｈｅ　ｃａｃｈｅ　ｄｅｓｃｒｉｂｅｄ　ｉｓ　ａ　ｈｉｇｈ　ｓｐｅｅｄ　ｂｕｆｆｅｒ　ｂｅｔｗｅｅｎ　ｔｈｅ　ｐｉｐｅｌｉｎｅ　ｐｒｏｃｅｓｓｏｒ　ａｎｄ　ｍａｉｎ　ｍｅｍｏｒｙ，ｉｔ　ｃａｎ　ｂｒｅａｋ　ｔｈｅ　ｂｏｔｔｌｅｎｅｃｋ，ｂｒｉｎｇｉｎｇ　ｔｈｅ　ｐｉｐｅｌｉｎｅ　ｉｎｔｏ　ｆｕｌｌ　ｐｌａｙ．Ｆｉｒｓｔｌｙ，　ｔｈｅ　ｏｒｇａｎｉｚａｔｉｏｎ　ｏｆ　ｔｈｅ　ｐｉｐｅｌｉｎｅ　ｔｏ　ｄｅｔｅｒｍｉｎｅ　ｔｈｅ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｏｆ　ｔｈｅ　ｃａｃｈｅ　ｉｓ　ａｎａｌｙｚａｄ，ｔｈｅｎ　ａ　ｄｅｓｉｇｎ　ｏｆ　ａ　ｓｅｔ—ａｓｓｏｃｉ－　ａｔｉｖｅ　ｃａｃｈｅ　ｉｓ　ｐｒｅｓｅｎｔ，ｄｅｓｃｒｉｂｉｎｇ　ｔｈｅ　ｏｐｅｒａｔｉｏｎ　ｏｆ　ｗｒｉｔｉｎｇ　ａｎｄ　ｒｅａｄｉｎｇ，ｔｈｅ　ｒｅａｌｉｚａｔｉｏｎ　ｏｆ　ＬＲＵ　ａｌｇｏｒｉｔｈｍ．Ｌａｓｔｌｙ，　ｈｏｗ　ｔｈｅ　ｐｉｐｅｌｉｎｅ　ｐｒｏｃｅｓｓｏｒ　ａｎｄ　ｃａｃｈｅ　ｃｏｏｒｄｉｎａｔｅ　ｗｉｔｈ　ｅａｃｈ　ｏｔｈｅｒ　ｂｙ　ｉｎｔｒｏｄｕｃｉｎｇ　ｔｈｅ　ｂｕｒｓｔ　ｆｉｌｌａｒｅ　Ｄｉｓｃｕｓｓｅｄ．　［Ｋｅｙ　ｗｏｒｄｓ］ｐｉｐｅｌｉｎｅ　ｓｅｔ—ａｓｓｏｃｉａｔｉｖｅ　ＬＲＵ　ａｌｇｏｒｉｔｈｍ　ｂｕｒｓｔ　ｕ　（上接第８０８３页）　５　Ｗａｎｇ　Ｃｈｕａｎｍｅｉ，Ｚｈａｎｇ　Ｂｉｎ，Ｌｉ　Ｇｕｏｈｕｉ，ｅｔ　ａ１．Ａｎａｌｙｓｉｓ　ａｎｄ　Ｒｅｓｅａｒｃｈ　ＶｏＩＰ　Ｎｅｔｗｏｒｋ，２００９－－２００９　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｎｅｔ－　０ｆ　Ａｓｓｏｃｉａｔｉｏｎ　Ｐａｔｔｅｒｎ　ｂｅｔｗｅｅｎ　Ｎｅｔｗｏｒｋ　Ｐｅｒｆｏｒｍａｎｃｅ　ａｎｄ　Ｆａｕｌｔｓ　ｉｎ　ｗｏｒｋ　Ｉｎｆｒａｓｔｒｕｃｔｕｒｅ　ａｎｄ　Ｄｉｇｉｔａｌ　Ｃｏｎｔｅｎｔ　Ｒｅｓｅａｒｃｈ　ｏｆ　ＶｏＩＰ　Ｐｅｒｆｏｒｍａｎｃｅ　Ｓｉｍｕｌａｔｉｏｎ　Ｂａｓｅｄ　ｏｎ　ＮｅｔＦｌｏｗ　ＺＨＥＮＧ　Ｆｅｉ，ＺＨＡＮＧ　Ｘｉａｏ　ｆｅｉ　（Ｊｉａｎｇｓｕ　Ｆｒｏｎｔｉｅｒ　Ｅｌｅｃｔｒｉｃ　Ｔｅｃｈｎｏｌ晒ｅｓ　Ｃｏ．，Ｌｔｄ，Ｎａｎｊｉｎｇ　２１　１　１０２，Ｐ．Ｒ．Ｃｈｉｎａ；　Ｓｃｈｏｏｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｊｉｎａｇｓｕ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　，Ｚｈｅｎｊｉｎａｇ　２１２００３，Ｐ．Ｒ．Ｃｈｉｎａ）　［Ａｂｓｔｒａｃｔ］　ＮｅｔＦｌｏｗ　ｉｓ　ａ　ｔｅｃｈｎｏｌｏｇｙ　ｗｈｉｃｈ　ｃａｎ　ｒｅｔｉｒｅｖｅ　ｓｔａｔｉｓｔｉｃｓ　ｉｎｆｏｒｍａｔｉｏｎ　ｏｆ　ｔｒａｆｉｆｃ　ｆｌｏｗ　ｆｒｏｍ　ａｃｔｕａｌ　ｎｅｔｗｏｒｋ．　Ｂｙ　ｉｍｐｏｒｔｉｎｇ　ｔｒａｆｆｉｃ　ｆｌｏｗ　ｐａｔｔｅｒｎ　ｉｎ　ａｃｔｕａｌ　ｅｎｔｅｒｐｒｉｓｅ　ｎｅｔｗｏｒｋ，ｒｅｐｒｅｓｅｎｔｅｄ　ｂｙ　Ｎｅｔｌｆｏｗ　ｆｏｒｍａｔ，ｉｎｔｏ　ＯＰＮＥＴ，ｔｈｅ　ｐｅｒ—　ｆｏｒｍａｎｃｅｓ　ｏｆ　ｎｅｗｌｙ　ａｄｄｅｄ　ＶｏｌＰ　ａｐｐｌｉｃａｔｉｏｎ　ａｒｅ　ｔｅｓｔｅｄ．Ｔｈｒｏｕｇｈ　ｔｈｅ　ｃｏｍｐａｒｉｓｏｎ　ｂｅｔｗｅｅｎ　Ｃ．７　１　１　ａｎｄ　Ｇ．７２９，ｔｈｅ　ｍｏｓｔ　ｐｏｐｕｌａｒｌｙ　ｕｓｅｄ　ｔｅｃｈｎｏｌｏｇｉｅｓ　ｉｎ　ｅｎｔｅｒｐｒｉｓｅ　ｎｅｔｗｏｒｋ，ｖｉａ　ｓｉｍｕｌａｔｉｏｎ，ｔｈｅ　ｍｏｒｅ　ｓｕｉｔａｂｌｅ　ｔｅｃｈｎｏｌｏｇｙ　ｆｏｒ　ｃｕｒｒｅｎｔ　ｎｅｔ．　ｗｏｒｋ　ｓｉｔｕａｔｉｏｎ　ａｒｅ　ｐｏｉｎｔｅｄ　ｏｕｔ．　［Ｋｅｙ　ｗｏｒｄｓ］　ＩＰ　ｔｒａｆｉｆｃ　ｌｆｏｗ　ａｎａｌｙｓｉｓ　ＶｏＩＰ　ＭＯＳ　Ｒ　Ｆａｃｔｏｒ　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部频道

流水线处理器中Cache模块的设计