用于在应用之间提供网络入口公平性的方法和系统

文档序号:385322 发布日期:2021-12-10 浏览:15次 >En<

阅读说明:本技术 用于在应用之间提供网络入口公平性的方法和系统 (Method and system for providing network entry fairness between applications ) 是由 A·S·科普瑟 A·M·巴塔耶纳 于 2020-03-23 设计创作,主要内容包括:提供了用于促进应用之间的网络入口公平性的方法和系统。在网络的入口端口处,对提供数据通信的应用进行审查,使得可以使用仲裁过程在该入口端口处公平地分配带宽。在典型的过程中,带宽是基于流通道的数量分配的,而与这些流通道的来源和特性无关。在所述入口端口处,对提供数据通信的应用进行检查将允许更适当地分配输入带宽。(Methods and systems are provided for facilitating network entry fairness among applications. At an ingress port of the network, applications providing data communication are vetted so that bandwidth can be fairly allocated at the ingress port using an arbitration process. In a typical process, bandwidth is allocated based on the number of flow channels, regardless of the source and characteristics of the flow channels. At the ingress port, checking the application providing data communication will allow more appropriate allocation of incoming bandwidth.)

用于在应用之间提供网络入口公平性的方法和系统

背景技术

技术领域

本公开总体上涉及网络技术领域。更具体地,本公开涉及用于促进应用之间的网络入口公平性的方法和系统。

相关技术

随着支持网络的设备和应用变得越来越普遍,各种类型的流量以及不断增加的网络负载继续要求底层网络架构提供更高的性能。例如,诸如高性能计算(HPC)、流媒体和物联网(IOT)等应用可以生成具有鲜明特征的不同类型的流量。因此,除了诸如带宽和延迟等传统网络性能指标之外,网络架构师还继续面临可扩展性、多功能性和效率等挑战。

发明内容

提供了用于促进应用之间的网络入口公平性的方法和系统。在网络的入口端口处,对提供数据通信的应用进行审查,使得可以使用仲裁过程在该入口端口处公平地分配带宽。在典型的过程中,带宽是基于流通道的数量分配的,而与这些流通道的来源和特性无关。在所述入口端口处,对提供数据通信的应用进行检查将允许更适当地分配输入带宽。

附图说明

图1示出了促进流通道的示例性网络。

图2A示出了促进流通道的示例性交换机。

图2B示出了数据路径上的交换机可以如何维护流状态信息的示例。

图3A示出了数据包的示例性结构报头。

图3B示出了示例性确认(ACK)包格式。

图3C示出了用于导出和维护流的状态信息的不同变量之间的关系。

图4A示出了可以如何使用流通道表来传送流的示例。

图4B示出了边缘流通道表(EFCT)的示例。

图4C示出了输入流通道表(IFCT)的示例。

图4D示出了输出流通道表(OFCT)的示例。

图5A示出了示例性交换机架构。

图5B示出了交叉开关交换机瓦片的示例性矩阵。

图5C示出了具有虚拟输出排队和交叉开关排队的示例性交叉开关交换机。

图5D示出了用于存储请求的示例性年龄队列。

图6A示出了在网络中可能发生的链路带宽的不公平份额的示例。

图6B示出了端点拥塞的示例。

图7A示出了生成显式端点拥塞通知ACK的示例性过程的流程图。

图7B示出了示例性端点拥塞管理逻辑块。

图8示出了示出响应于包从输出缓冲区出队而生成ACK的示例性过程的流程图。

图9A示出了示例性细粒度流控制(FGFC)过程的流程图。

图9B示出了支持FGFC的网络接口控制器的示例。

图10示出了结构链路拥塞的示例。

图11示出了在拥塞结构链路上应用基于信用的流控制的示例过程的流程图。

图12A示出了促进入口公平性的示例性输入队列逻辑块。

图12B示出了强制执行入口公平性的示例性入队-出队过程的流程图。

图13示出了促进流通道的示例性边缘交换系统。

图14示出了促进流通道的示例性中间交换系统。

在这些附图中,相同的附图标记指代相同的附图元素。

具体实施方式

对所公开实施例的各种修改对于本领域技术人员来说将是显而易见的,并且在不脱离本公开的精神和范围的情况下,本文定义的一般原理可以应用于其他实施例和应用。因此,本发明不限于所示的实施例。

概述

本公开描述了可以促进网络入口公平性的系统和方法。更具体地,可以审查注入到交换机网络的包,并可以确定注入数据的应用。然后可以使用仲裁过程基于应用来在入口端口处分配带宽,从而在应用之间提供入口公平性。

在本公开中,包流(packet stream)也可以称为“包流(packet flow)”或简称为“流(flow)”。流所经过的数据路径及其由交换机维护的配置信息可以称为“流通道(flowchannel)”。此外,术语“缓冲区”和“队列”在本公开中可互换使用。

图1示出了促进流通道的示例性网络。在该示例中,交换机的网络100(也可以称为“交换机结构”)可以包括交换机102、104、106、108和110。每个交换机可以在交换机结构100内具有唯一的地址或ID。各种类型的设备和网络可以被耦接到交换机结构。例如,存储阵列112可以经由交换机110被耦接到交换机结构100;基于无限带宽(InfiniBand,IB)的HPC网络114可以经由交换机108被耦接到交换机结构100;多个终端主机(如主机116)可以经由交换机104被耦接到交换机结构100;并且IP/以太网网络118可以经由交换机102被耦接到交换机结构100。通常,交换机可以具有边缘端口和结构端口。边缘端口可以耦接到在结构外部的设备。结构端口可以经由结构链路耦接到结构内的另一个交换机。

通常,流量可以经由边缘交换机的入口端口被注入交换机结构100,并且经由另一个(或相同的)边缘交换机的出口端口离开交换机结构100。入口边缘交换机可以将已注入数据包分组为流,这些流可以通过流ID进行标识。流的概念不限于特定的协议或层(如开放系统接口(OSI)参考模型中的第2层(layer-2)或第3层(layer-3))。例如,流可以被映射到具有特定源以太网地址的流量、源IP地址与目的地IP地址之间的流量、对应于TCP或UDP端口/IP 5元组(源和目的地IP地址、源和目的地TCP或UDP端口号、以及IP协议号)的流量、或由在终端主机上运行的进程或线程产生的流量。换句话说,流可以被配置为映射到任何物理或逻辑实体之间的数据。该映射的配置可以远程完成或在入口边缘交换机上本地完成。

在接收到已注入的数据包之后,入口边缘交换机可以为该流指派流ID。该流ID可以被包括在特殊的报头中,入口边缘交换机可以使用该报头来封装已注入包。此外,入口边缘交换机还可以检查已注入包的原始报头字段以确定适当的出口边缘交换机地址,并将该地址作为目的地地址包括在封装报头中。应注意,流ID可以是特定于链路的本地有效值,并且该值可以仅对于交换机上的特定输入端口是唯一的。当包转发到下一跳交换机时,包进入另一条链路,并且流ID可以相应地被更新。由于流的包要经过多条链路和交换机,因此与该流相对应的流ID可以形成唯一的链。即,在每个交换机上,在包离开交换机之前,包的流ID可以被更新为传出链路所使用的流ID。流ID之间的这种从上游到下游的一对一映射可以在入口边缘交换机处开始并在出口边缘交换机处结束。因为流ID只需要在传入链路内是唯一的,所以交换机可以容纳大量的流。例如,如果流ID为11位长,则输入端口最多可以支持2048个流。此外,用于映射到流的匹配模式(包的一个或多个报头字段)可以包括更多个位。例如,32位长的匹配模式(其可以包括包报头中的多个字段)可以映射2^32个不同的报头字段模式。如果结构有N个入口边缘端口,总共可以支持N*2^32个可识别流。

交换机可以为每个流指派单独的专用输入队列。该配置允许交换机监测和管理各个流的拥塞程度,并防止在将共享缓冲区用于多个流时可能发生的队头阻塞。当包被传送到目的地出口交换机时,出口交换机可以生成确认(ACK),并在上行方向沿着相同的数据路径将该确认发送回入口边缘交换机。由于该ACK包经过相同的数据路径,因此该路径上的交换机可以通过监测未完成的、未确认的数据的量来获得与对应流的传送相关联的状态信息。然后可以使用该状态信息来执行特定于流的流量管理,以确保整个网络的健康和对流的公平处理。如下文更详细解释的,这种逐流排队(per-flow queuing)与特定于流的传送确认相结合可以使交换机结构实施有效、快速和准确的拥塞控制。进而,交换机结构可以以显著提高的网络利用率来传送流量,而不会出现拥塞。

可以基于需求动态或“即时(on the fly)”地建立和释放流。具体地,当数据包到达交换机并且先前没有向该包指派流ID时,可以由入口边缘交换机建立流(例如,确立流ID到包报头的映射)。当该包穿过网络时,可以沿着包所经过的每个交换机指派流ID,并且可以确立从入口到出口的流ID链。属于同一流的后续包可以沿数据路径使用相同的流ID。当包被传送到目的地出口交换机并且数据路径上的交换机接收到ACK包时,每个交换机可以更新其关于该流的未完成的、未确认的数据的量的状态信息。对于该流,当交换机的输入队列为空并且没有更多未确认的数据时,交换机可以释放流ID(即,释放该流通道)并将流ID重新用于其他流。这种数据驱动的动态流建立和拆除机制可以消除集中流管理的需要,并允许网络快速响应流量模式变化。

应注意,本文描述的网络架构与通常使用OpenFlow协议的软件定义网络(SDN)不同。在SDN中,由中央网络控制器来配置交换机,并且基于第2层(数据链路层,如以太网)、第3层(网络层,如IP)或第4层(传输层,如TCP或UDP)报头中的一个或多个字段来转发包。在SDN中,这种报头字段查找在网络中的每个交换机处执行,并且不存在如在本文所述的网络中所做的基于流ID的快速转发。此外,由于OpenFlow报头字段查找是使用三元内容可寻址存储器(TCAM)完成的,因此这种查找的成本可能很高。而且,由于报头字段映射配置是由中央控制器完成的,每个映射关系的建立和拆除相对较慢,可能需要大量的控制流量。因此,SDN网络对各种网络情况(如拥塞)的响应可能很慢。相比之下,在本文描述的网络中,可以基于流量需求来动态地建立和拆除流,并且可以通过固定长度的流ID来转发包。换句话说,流通道可以是数据驱动的,并以分布式方式进行管理(即,建立、监测和拆除),而无需中央控制器的干预。此外,基于流ID的转发可以减少所使用的TCAM空间量,并且因此可以容纳更多数量的流。

应注意,本文描述的网络架构与通常使用OpenFlow协议的软件定义网络(SDN)不同。在SDN中,由中央网络控制器来配置交换机,并且基于第2层(数据链路层,如以太网)、第3层(网络层,如IP)或第4层(传输层,如TCP或UDP)报头中的一个或多个字段来转发包。在SDN中,这种报头字段查找在网络中的每个交换机处执行,并且不存在如在本文所述的网络中所做的基于流ID的快速转发。此外,由于OpenFlow报头字段查找是使用三元内容可寻址存储器(TCAM)完成的,因此这种查找的成本可能很高。而且,由于报头字段映射配置是由中央控制器完成的,每个映射关系的建立和拆除相对较慢,可能需要大量的控制流量。因此,SDN网络对各种网络情况(如拥塞)的响应可能很慢。相比之下,在本文描述的网络中,可以基于流量需求来动态地建立和拆除流,并且可以通过固定长度的流ID来转发包。换句话说,流通道可以是数据驱动的,并以分布式方式进行管理(即,建立、监测和拆除),而无需中央控制器的干预。此外,基于流ID的转发可以减少所使用的TCAM空间量,并且因此可以容纳更多数量的流。

应注意,当接收到第一个包时,上述操作可以基本上以线路速度执行,具有很小的缓冲和延迟。在第一个包被处理并被调度进行传输之后,来自相同流的后续包可以被交换机110更快地处理,因为使用了相同的流ID。另外,流通道的设计可以使得流通道的分配、匹配和解除分配可以具有基本相同的成本。例如,可以在几乎每个时钟周期中同时执行流通道的基于查找匹配的条件分配和另一个流通道的单独、独立的解除分配。这意味着生成和控制流通道几乎不会为包的常规转发增加附加开销。另一方面,拥塞控制机制可以将一些应用的性能提高三个数量级以上。

在数据路径上的每个交换机(包括交换机110、106和104)处,可以为该流提供专用输入缓冲区,并且可以跟踪已传输但未确认的数据的量。当第一个包到达交换机104时,交换机104可以确定该包的结构报头中的目的地结构地址与其自己的地址相匹配。作为响应,交换机104可以根据结构报头对包进行解封装,并将解封装的包转发到主机116。此外,交换机104可以生成ACK包并将该ACK包发送回交换机110。当该ACK包经过相同的数据路径时,交换机106和110可以各自针对该流的未确认的数据更新其自己的状态信息。

通常,网络内的拥塞会导致网络缓冲区被填充。当网络缓冲区已满时,理想情况下,试图通过缓冲区的流量应当减慢或停止。否则,缓冲区可能会溢出,并且包可能会被丢弃。在传统网络中,通常在边缘处端对端地进行拥塞控制。网络的核被认为仅用作“低能水管(dumb pipe)”,其主要目的是转发流量。这样的网络设计通常对拥塞的响应缓慢,因为通常无法快速将拥塞信息发送到边缘设备,并且所产生的边缘设备所采取的动作并不总是能够有效地消除拥塞。这种缓慢的响应进而限制了网络的利用率,因为为了保持网络没有拥塞,网络运营商通常需要限制注入网络中的流量总量。此外,端对端拥塞控制通常只有在网络尚未拥塞的情况下才有效。一旦网络严重拥塞,端对端拥塞控制将不起作用,因为拥塞通知消息本身可能拥塞(除非使用与数据面网络不同的单独控制面网络来发送拥塞控制消息)。

相比之下,流通道可以防止这种拥塞在交换机结构内增长。当流正在经历一定程度的拥塞时,流通道机制可以识别这种情况,并且作为响应,可以减慢或停止同一流的新包进入结构。进而,这些新包可以缓冲在边缘端口上的流通道队列中,并且仅当同一流的包在目的地边缘端口处离开结构时才被允许进入结构。该过程可以将结构内该流的总缓冲要求限制为不会导致结构缓冲区变得太满的量。

通过流通道,交换机能够获得关于结构内未完成的在途中的数据量的相当准确的状态信息。可以针对入口边缘端口上的所有流汇总该状态信息。这意味着可以知道通过入口边缘端口注入的数据总量。因此,流通道机制可以对结构中的数据总量设置限制。当所有边缘端口都应用该限制动作时,可以很好地控制整个结构中的包数据总量,这进而可以防止整个结构饱和。流通道还可以减慢结构内的单个拥塞流的进度,而不会减慢其他流。该特征可以使包远离拥塞热点,同时防止缓冲区变满并确保无关流量的空闲缓冲区空间。

流通道的操作

通常,流通道可以为跨交换机结构的每个通信会话定义路径。属于每个流的路径和数据量可以在与交换机结构的每条链路相关联的一组动态连接流表中描述。在每个入口端口、边缘和结构上,可以定义一组流通道队列。每个流通道可以有一个队列。当包到达时,它们可以被指派到边缘端口上的流通道,或者已经被链路伙伴的出口结构端口在结构入口端口上指派到流通道。流通道信息可以用于将包引导到适当的流通道队列中。

图2A示出了促进流通道的示例性交换机。在该示例中,交换机可以包括交叉开关交换机(crossbar switch)202。交叉开关交换机202可以具有多个输入端口(如输入端口204)以及多个输出端口(如输出208)。交叉开关交换机202可以将包从输入端口转发到输出端口。每个输入端口都可以与多个输入队列相关联,每个队列被指派给到达该输入端口的不同传入流。例如,到达交换机给定端口的数据可以首先基于它们的各个流进行分离,并被存储在特定于流的输入队列(如输入队列206)中。存储在输入队列中的包可以基于被设计用于控制拥塞的调度算法(在后面的章节中更详细地描述)出队并被发送到交叉开关交换机202。在输出侧,一旦包通过交叉开关交换机202,其就可以被临时存储在输出传输队列(如输出传输队列210)中,该输出传输队列可以被离开同一输出端口的所有流所共享。同时,在包从输出传输队列出队并在传出链路上传输之前,可以使用传出链路的流ID来更新包的报头。应注意,当流中的第一个包穿过网络时,可以完成这种逐跳的(hop-by-hop)流ID映射。当包到达下一跳交换机时,包可以再次被存储在特定于流的输入队列中,并且可以重复相同的过程。应注意,流ID用于区分在同一结构链路上传播的流,并且通常可以由该链路的发射器端指派,该发射器端是正在传输到该链路上的交换机输出端口。

通过提供特定于流的输入队列,交换机可以允许每个流独立于所有其他流移动。交换机可以避免在共享输入缓冲区中很常见的队头阻塞问题。特定于流的输入队列还允许单个流中的包保持有序。当流通过交换机时,可以针对该流在每个输入端口上分配特定于流的输入队列,并且这些输入队列变得被链接,针对该流有效地形成跨整个结构的一个长队列,并且该流的包可以保持有序。

属于流的包的成功传送的进度可以通过出口交换机的边缘端口生成的一系列ACK来报告。ACK包可以沿着数据包所经过的数据路径的反向传播,并且可以由交换机根据在流表中维护的转发信息进行转发。当ACK包向上游传播时,这些包可以被每个交换机的输入队列管理器处理,其可以基于ACK包所携带的信息来更新对应流的状态信息。ACK包可以具有类型字段来提供有关下游数据路径的高级信息,如拥塞。交换机的输入队列管理器可以使用该信息来做出有关当前缓冲在其输入队列中的未决数据包的决策,如限制传输速率或更改转发路径。另外,输入队列管理器可以基于已缓冲的流的状态信息来更新ACK包中携带的信息,使得上游交换机可以做出恰当的决策。例如,如果给定流的输入队列正在经历拥塞(例如,队列中的数据量高于预定阈值),则输入队列管理器可以将被转发到下一个上游交换机的ACK包更新为包括该拥塞信息。

如果ACK对应于流的最后一个包,则交换机可以确定该流不存在任何未确认的数据。相应地,交换机可以通过删除流表中对应的条目来释放流通道。

如上所述,每个交换机上的输入队列管理器可以维护有关给定流的已传输但未确认的数据的信息。图2B示出了数据路径上的交换机可以如何维护流状态信息的示例。在该示例中,流所采用的数据路径可以包括交换机222、224和226。已传输但未确认的流数据的量可以由变量“flow_extent”指示,该变量可以用固定长度的数据单元的数量来衡量,如256字节。此外,flow_extent和其他流状态信息可以由交换机的输入队列管理器维护,该输入队列管理器可以持续监测所有特定于流的队列。

在图2B的示例中,交换机226的输入队列管理器处的flow_extent的值为1,因为有一个数据单元已经从输入队列发送出去并通过交叉开关交换机转发。应注意,由于对要经由输出链路传输的所有数据包进行调度,由输入队列发送的数据包可能会临时被缓冲在输出传输缓冲区中。当这样的包缓冲在输出端口的传输缓冲区中时,为了更新flow_extent值,输入队列仍可以将包视为已传输。

相应地,由于交换机226处给定流的输入队列具有六个排队的数据单元,并且两个附加数据单元在交换机224与226之间传输,因此交换机224处的flow_extent值为9。类似地,交换机222处的flow_extent值为13,因为有三个数据单元被存储在交换机224处的输入队列中,并且一个数据单元在交换机222与224之间传输。

通常,流通道可以保持分配给单个流,直到返回了流通道上发送的所有包的所有ACK为止。这意味着流通道表条目可以在结构入口边缘端口附近比在出口边缘端口附近保持更长的活动时间。如果单个包被注入到网络,可以为入口边缘端口分配流通道,然后可以为包所经过的下一个结构链路分配另一个流通道,依此类推,直到包到达最后一个结构链路时分配了最后一个流通道为止。每个分配可以生成表示为变量“flow_id”的流ID,以标识结构链路的流表的条目。(在下面结合图4A的描述中提供了关于流通道表的更多细节。)该第一个包可能会导致在该包经过交换机结构的每个结构链路上分配不同的flow_id。

在每个交换机的输入队列处,流通道表条目可以指示每个流从该点向下游到流的出口目的地边缘端口的状态信息,包括flow_extent值。在本地输入端口上接收到的包可以将该flow_extent值增大传入数据量,而ACK可以将flow_extent减小已确认的已传送数据量。

当包到达最终目的地出口端口时,可以为该包生成ACK包并将其返回。可以使用在数据路径上的每个交换机的流通道表的对应条目中存储的数据路径信息来路由该ACK。可选地,ACK包本身不需要携带路径信息,并且因此可以小而轻。如果流上未发送其他数据包,则ACK可以以相反的顺序释放每个流通道。一旦释放,就可以将每个交换机上的流通道分配给不同的流。

如果另一个包在同一流上的第一个包之后,则需要在给定交换机处释放流通道之前接收到对应于第二个包的ACK。在一个实施例中,只有当同一流的所有已传输包的ACK都已返回时,才能释放流通道。

通常,各种协议可能要求有序包传送。即使当结构使用自适应路由来实现多个数据路径上的负载均衡时,也可以使用流通道来保证这种传送顺序。如果入口边缘端口与出口边缘端口之间的包(可能位于结构远端的不同交换机中)以非常低的速率注入,则所注入的每个包都可以到达其目的地并在注入下一个包之前将ACK返回到源。在这种情况下,每个包都可以是前导包,并且可以使用最佳的可用动态自适应路由选择来自由选择跨结构的任何路径。这是可能的,因为第一个包可以定义流通过结构的路径。

现在假设包注入速率稍微增加到相同流的下一个包在当前包的ACK返回到源之前被注入的程度。第二个包可以在沿流的数据路径上的某个地方与经过第一个包的ACK。超过此经过点,ACK将释放分配给第一个包的流通道,因为当ACK被流通道的逻辑处理时,与第一个包相关联的flow_extent值将返回到零。同时,第二个包现在可以定义新的流,因为它再次引起在每个后续结构链路上分配流通道。这第二个包虽然在超过此经过点之后引起流通道被分配,但第二个包仍可以基于动态自适应路由被转发到不同的路径。另一方面,在经过点之前,第二个包可以扩展由第一个包创建的未完成流以包括第二个包。这意味着第一个包的ACK可能不会将flow_extent值减至零,并且在经过点之前流通道可以保持活动状态。这也意味着第二个包可以沿着第一个包所采用的确切路径到达经过点。应注意,当它跟随前一个包时,第二个包无法在第一个包之前到达出口边缘端口,因此可以保持正确的包顺序。

如果该流的注入速率进一步增加,第二个包将在更靠近目的地边缘端口的位置处经过第一个包的ACK。取决于该流的数据包注入速率和数据包-ACK的往返延迟,也有可能第三个、第四个、第五个或附加包在第一个数据包的ACK返回到源边缘端口之前进入结构。最大包速率取决于包的大小和链路的带宽。数据包和ACK的往返延迟可以是结构实施方式的重要参数,并且可以与最大包速率一起用于计算每条链路所需的最大流通道数。理想情况下,无论流量模式如何,设计都可以提供合理数量的未分配流通道。当到达入口边缘端口的大量包具有不同的目的地并且这些包具有较小的大小和高注入速率时,对流通道数量的需求可能很高。在最极端的情况下,可以为每个包分配不同的流通道。当包的ACK返回时,这些流通道被释放。相应地,所需的流通道数可以计算为((包速率)*(平均包到ACK往返时延))。

应注意,不要将单个流通道上的包速率与链路上的包速率混淆。如果流量模式使得许多小包被发送到不同的目的地,则发送到链路上的连续包可能有不同的目的地。这意味着每个包可能属于不同的流,并且可能是唯一使用对应流通道的包。在该示例中,链路可能会经历高包速率,但各个流的包速率可能较低。可选地,可以将多个ACK(例如,48个ACK)聚合在一起形成单个ACK帧,以用于在链路上传输并且由帧校验序列(例如,32位FCS)保护。例如,每个ACK可以占用25位,并且帧可以有9字节的开销。即,全尺寸帧上每ACK的开销约为9/(25/8*48)*100%=6%。该逻辑可以优化每帧的ACK数量,因此当ACK缓慢到达时,ACK不需要等待太长时间便可聚合。例如,ACK聚合逻辑块可以使用三个定时器基于传出链路的活动来管理ACK传输。当新的ACK到达ACK聚合逻辑块时,可以启动这些定时器。如果传出链路空闲,则可以使用第一定时器(例如,其可以被设置为30ns)来保持ACK,同时等待附加的ACK到达。当该定时器到期时,可以将在对应的时间窗口内接收到的所有ACK聚合到一帧中并传输到传出链路上。如果传出链路繁忙,则可以使用第二定时器(例如,其可以被设置为60ns)来等待附加的ACK。使用该第二定时器可以允许将更多的ACK聚合到单个帧中,并且该帧仅在收集到预定数量的ACK时才可以被传输。应注意,由于以太网成帧约束,单个帧中的一些数量的ACK可以使用比其他数量的ACK更少的每ACK线路带宽。如果没有收集到有效数量的ACK,并且传出链路仍然忙于发送正常数据包,则可以使用第三定时器,其例如可以被设置为90ns。一旦该第三定时器到期,就可以将所有收集到的ACK聚合在帧中并传输到链路上。通过使用这三个定时器,系统可以显著减少在传出链路上发送ACK的开销。

在一些示例中,交换机的入口边缘端口可以使用结构报头来封装接收到的数据包,这允许使用流通道转发数据包。图3A示出了数据包的示例性结构报头。结构报头可以包括flow_id字段(其可以标识流通道)以及“data_flow”字段(其可以指示整个流的进度)。

当数据包被传送到其目的地时,可以生成至少一个ACK。图3B示出了示例性ACK包格式。ACK包可以包括“flow_id”字段、“ack_flow”字段、“ACK类型”字段以及循环冗余校验(CRC)字段。flow_id字段可以指示该ACK包所属的流。ack_flow字段可以对应于与该ACK包所确认的数据包相关联的data_flow值。回想每个交换机都可以维护flow_extent值,该值指示已传输但未确认的数据量。flow_extent的值可以被推导为flow_extent=data_flow-ack_flow,其中,data_flow值取自最后一个传输的数据包。

ACK类型字段可以指示不同类型的ACK。如上所述,在正常操作期间,当数据包被传送到目的地边缘端口时,可以生成常规ACK包并将其发送回源。相应地,ACK包中的ACK类型字段可以指示正常的ACK。当拥塞发生时,ACK类型字段可以用于指示拥塞的各种类型和严重程度,如流上的新拥塞、流上的持续拥塞、出口边缘端口的严重拥塞、或需要重新路由流以重新均衡整个结构的负载的中间结构局部拥塞。另外,在存在诸如严重拥塞的结构链路、丢包或链路错误等特殊情况下,ACK也可以由不是最终目的地的中间交换机生成,并且ACK类型字段可以用于向上游交换机通知不同类型的网络状况。其他附加字段也可以包括在ACK包中。

图3C示出了用于推导和维护流的状态信息的不同变量之间的关系。在该示例中,交换机可以使用变量“total_extent”来跟踪未确认的已传输数据和当前在交换机排队的数据的总量。total_extent的值可以等于flow_extent(已传输且未确认的数据量)和queue_extent(存储在对应流的输入队列中的数据量)之和。变量“ack_flow”可以指示与该流的最迟ACK相对应的数据位置。变量“data_flow”可以指示下一个要传输的数据包的位置,该下一个要传输的数据包也对应于存储在输入队列头部的数据包。变量“next_data_flow”可以指示交换机可以预期从上游交换机接收的下一个数据包的位置。应注意,queue_extent=next_data_flow-data_flow,并且flow_extent=data_flow-ack_flow。

在一些示例中,流通道表可以用于促进整个结构的流通道。流通道表是存储交换机端口处给定流的转发和状态信息的数据结构。图4A示出了可以如何使用流通道表来存储与多个流相关联的状态信息的示例。该状态信息可以特定于每个流并高效地存储在表中。假设源主机402正在经由结构向目的地主机404发送数据包。数据包所经过的数据路径可以包括入口边缘交换机406、中间交换机408和430、以及出口边缘交换机432。

当包到达交换机406的入口边缘链路403时,地址转换逻辑块410可以分析包的报头。地址转换逻辑块410可以基于包的以太网、IP或HPC报头信息来确定出口交换机(在这种情况下是交换机432)的目的地结构地址。应注意,地址转换逻辑块410也可以使用与其他协议或不同协议的组合相关联的报头信息。然后可以使用由地址转换逻辑块410确定的结构目的地地址来在边缘流通道表(EFCT)412中执行查找。EFCT 412可以使用包的结构目的地地址以及可选地从包的报头中提取的附加值(其可以称为匹配模式)来执行对包的查找操作。EFCT 412可以将包的匹配模式与所有现有分配的流的存储匹配模式进行比较。如果找到匹配,则该包是现有流的一部分,并且可以为该包返回先前分配的流ID。如果未找到匹配,则可以为该包分配新的流ID,并且可以将匹配模式添加到EFCT 412。换句话说,EFCT412可以用于确定对于传入包是否已经存在流通道,或者是否需要分配新的流通道。除了目的地结构地址之外,其他包报头信息(如流量分类、TCP或UDP端口号、以及进程或线程ID)也可以用于映射或分配流ID。

由EFCT 412获得的流ID然后可以用作索引以映射到输入流通道表(IFCT)414中的条目。IFCT 414中的每个条目可以由流ID索引并存储对应流的状态信息。IFCT 414中的条目可以存储与流相关联的next_data_flow、data_flow和ack_flow(参见图3C)的值。另外,IFCT条目可以存储用于流的拥塞控制和动态路由的其他参数。

流ID还可以用于标识或分配特定于流的输入队列,在该输入队列中可以临时存储传入包。特定队列的状态信息以及用于监测和控制队列的参数(如用于检测拥塞的阈值)可以存储在IFCT 414中的对应条目中。输入队列管理逻辑块可以基于存储在IFCT 414的条目中的流控制参数来确定包何时可以从输入队列中出队并发送到数据交叉开关交换机413。

当包从输入队列中出队并通过交叉开关交换机413发送到输出端口时,该包将与其到达交换机406时的输入端口号一起发送。当包到达输出端口的传输缓冲区时,可以基于包的流ID和输入端口号使用新的流ID来更新包的报头,以供下一跳交换机(即,交换机408)用于同一流。这是因为每条链路在每个方向上都可以具有其自己的由它们各自的流ID标识的一组流通道。可以通过查找输出流通道表(OFCT)416来完成从传入流ID到在下一条链路上使用的传出流ID的映射。OFCT 416可以使用匹配模式执行查找,该匹配模式是与链路403相对应的本地输入端口号和由EFCT 412产生的包的流ID的组合。如果找到匹配,则流已经被定义,并且使用对应于匹配模式的值来更新包的流ID(这个新的传出流ID将由下游的下一跳交换机408使用)。如果未找到匹配,则可以为新的流通道分配新的传出流ID,该新的传出流ID可以映射到输入端口号和先前的传入流ID。包括传出流ID、输入端口号和传入流ID的条目可以存储在OFCT 416中。

在包是流中的第一个包的情况下,在OFCT 416中的查找不会产生任何映射。进而,OFCT 416可以为包分配流通道,该流通道具有将由交换机408上的输入端口和IFCT 418使用的流ID。由其流ID标识的这个新的流通道可以被添加到包报头以传输到链路417上,并且可以被链路伙伴(交换机408)的IFCT 418用来访问流通道的拥塞信息。如前所述,如果未找到匹配,则OFCT 424可以进一步使用其紧接上游输入端口号和与链路417相关联的流ID的匹配模式来生成新的流通道。OFCT 424然后可以分配由新的流ID标识的新的流通道。应注意,OFCT 416还可以用作该流在上行方向上的ACK的转发表。在从交换机408向上游转发到交换机406之后,可以用与边缘链路403相关联的流ID来更新ACK包,并如OFCT 416中的对应条目所指示的那样将ACK包转发到交换机406上的适当的输入端口。ACK包可以由ACK交叉开关交换机415在上行方向上转发到输入端口。

随后,当包到达交换机408时,其流ID可以用于识别要使用的输入队列并确定IFCT418中的条目。如果交换机408先前未分配包的流ID,则可以提供新的输入队列并且可以在IFCT 418中创建新的条目。从此时开始,可以执行类似的过程来跨交换机408和430转发包,直到包到达出口交换机432。

当包到达交换机432时,在包被数据交叉开关交换机423转发之后,ACK生成器逻辑块420可以基于包的流ID和输入端口号生成ACK包。该ACK包然后可以由ACK交叉开关交换机422在上行方向上转发。同时,基于ACK包,IFCT 421可以在对应表条目中更新流的状态信息。当ACK包到达交换机430时,可以查找OFCT 419以确定ACK包要转发到的上游流ID和上游输入端口。然后,ACK包可以更新其流ID,并在上行方向上转发到适当的输入端口。由于ACK包以类似的方式向上游经过数据路径,因此每个交换机的IFCT可以基于ACK来更新其针对流的表条目。

应注意,flow_extent变量可能是重要的参数,因为它表示流的下行包的数据总量。当条目的flow_extent为零时,认为能够将流通道自由地重新分配给另一个流。通常,在接收到新包时,输入逻辑可以请求将数据发送到输出端口。所选输出端口可以是存储在IFCT中的flow_extent的函数。如果flow_extent为零,则在流向目的地出口边缘端口的流的下游没有包。因此,交换机可以使用基于负载的自适应路由选择来选择通向目的地的任何有效路径。在多路径网络中,可以在不重新排序包的情况下完成动态自适应路由。如果flow_extent不为零,并且需要有序传送,则包可以使用先前包所采用的相同路由。IFCT可以具有存储先前输出端口号的字段,在向输出端口发出包请求时,该字段被加载并且可以用于确保与先前使用的输出端口的连接。

如前所述,流通道可以使用匹配功能来识别属于现有流的包。当在入口边缘端口上接收到以太网帧或其他类型的包时,可以实时解析接收到的帧或包,并且包报头的一些字段可以用于在CAM或三元内容可寻址存储器(TCAM)中进行查找。如果存在匹配,则匹配地址可以成为用于选择流通道的流ID。当未发生匹配时,交换机硬件可以将匹配失败的模式直接加载到CAM的空闲线上,这可以在没有附加延迟的情况下完成。因此,任何随后包都可以与该新条目匹配,而无需大量缓冲。所选择的空闲条目成为新的流通道条目的新的流ID。应注意,加载新条目不需要外部软件干预。该过程可以由交换机硬件自主完成。

当返回流的最后一个ACK时,也可以由硬件自动执行流ID和对应的CAM匹配线的解除分配。解除分配可以在硬件中针对潜在匹配的新包进行,而无需外部软件干预。

在一些示例中,入口边缘交换机406可以包括细粒度流控制逻辑块434,该细粒度流控制逻辑块可以与主机402上的网络接口控制器(NIC)401通信以便基于逐流(per-flow)应用流控制。下面结合拥塞管理的描述提供了关于细粒度流控制的更多细节。

图4B示出了EFCT的示例。在该示例中,EFCT可以包括data_flow字段454、ACK_flow字段456、以及可选的附加字段。EFCT可以与输入端口相关联,并且EFCT中的条目可以由flow_ID值索引,如flow_ID 452。在一个实施例中,匹配模式字段可以驻留在匹配功能逻辑块中,该匹配功能逻辑块可以包括CAM或TCAM。匹配功能逻辑块可以使用匹配模式来生成flow_ID值,该值进而可以用作对应EFCT条目的索引。从该EFCT的角度来看,flow_extent(即data_flow-ack_flow)可以包括该表下游的所有未确认的数据,其中可以包括本地flow_queue加上对应IFCT的flow_extent值。

图4C示出了IFCT的示例。在该示例中,IFCT可以与输入端口相关联,并且可以包括follow_port字段466、next_data_flow字段468、data_flow字段470、ACK_flow字段472、ep_congestion字段474、上游计量(UM)标志字段477、下游计量(DM)标志字段478、以及可选的附加字段。传入包的flow_ID值(如flow_ID 464)可以用作用于查找由follow_port字段466指示的输出端口号以及与对应流相关联的状态信息的索引。IFCT中还可以存储与端点拥塞相关联的拥塞控制信息(如ep_congestion字段474)和将稍后在本文档中更详细地描述的基于逐跳信用的流控制(如UM标志字段477和DM标志字段478)。IFCT可以进一步存储有关与不同流相关联的动态路由的信息。

图4D示出了OFCT的示例。在该示例中,OFCT可以与输出端口相关联,并且可以包括input_port字段482、input_port_flow_ID字段484(其对应于包到达输入端口时包的现有flow_ID)、data_flow字段486、ACK_flow字段488、以及可选的附加字段。Data_flow字段486和ACK_flow字段488可以用于确定从该OFCT开始的flow_extent的值。input_port字段482和input_port_flow_ID字段484(其也可以称为“传入flow_ID”)的组合可以用于确定或分配准备好传输到与该OFCT相对应的传出链路上的包的传出flow_ID。在一个实施例中,传出flow_ID值(如flow_ID 486)可以用作在OFCT中查找条目的索引。

示例性交换机架构

在一个实施例中,支持上述特征的交换机芯片可以提供64个网络端口,每个网络端口可以以100Gbps或200Gbps运行,总吞吐量为12.8Tbps。其他数量的端口和数据速率也是可能的。每个网络边缘端口都可以支持各种类型的协议,如IEEE 802.3、以太网、基于优化IP的协议和HPC门户协议。以太网帧可以基于其第2层地址进行桥接或基于其第3层(IPv4/IPv6)地址进行路由。优化IP帧只有第3层(IPv4/IPv6)报头,因此它们通常基于第3层地址进行路由。增强型门户格式帧通常使用专门的NIC,并且可以直接映射到交换机的增强型结构格式。

当交换机芯片连接到另一个交换机芯片时,它们可以使用增强型结构帧格式进行通信,该增强型结构帧格式提供附加的控制字段和状态字段以支持多芯片结构。本公开的交换机架构与以太网交换机或诸如无限带宽等替代技术相比的区别特征之一是本公开的交换机可以提供基于流通道的拥塞控制。在交换机芯片之间运行的增强型结构帧格式可以为流提供状态的前向和反向路径信令。

在一个实施例中,交换机芯片可以基于具有组合的虚拟输出排队和交叉开关排队的交叉开关架构来实施。数据包的缓冲和转发可以通过基于信用的请求和授权机制来完成。

图5A示出了示例性交换机架构。在一个实施例中,交换机芯片可以包括接收器(RX)块502和发射器(TX)块504。当从RX块502接收到流量时,如果交换机芯片被配置为边缘交换机,则数据包可以被发送到以太网查找(ELU)块506。ELU块506可以提供从外部MAC或IP地址(大部分情况下如此,但也可以使用其他报头字段)到内部结构地址(FA)的地址转换(查找)。ELU块506还可以提供从包自己的流量分类标识符(如以太网流量分类)到结构流量分类标识符的映射,可以通过结构报头中包括的结构标签(FTAG)来标识。

在一个实施例中,IEEE 802.3和优化IP格式包可以通过ELU块506传递。ELU块506可以提取适当的报头以用于查找过程,并将查找结果返回到以太网入口队列(EIQ)块508,该以太网入口队列块将报头排队以用于EFCT块510中的流通道分配。EIQ块508还可以将存储在输入缓冲区(IBUF)块512中的包地址与其转换的报头相关联。对于IEEE 802.3和优化IP包,ELU块506可以执行查找以创建用于在结构内转发包的字段。

对于入口边缘端口,EIQ块508可以将包报头排队,以等待EFCT块510分配流通道。如果EFCT块510用完了流通道,则EIQ块508中的FIFO队列可能会填满,并且当超过可配置阈值时,可以生成暂停包。对于从结构端口接收的包,这些包不需要流通道分配,并且因此它们的报头不在EIQ块508中排队。

耦接到IBUF块512的输入报头(IHDR)块514可以对接收的包执行修改,并更新包的结构报头字段。IHDR块514可以从IBUF块512接收包数据、进入时间戳和授权报头(其可以包含修改数据和指令)。这种修改可以包括移除各种以太网第2层报头字段并添加结构报头。当从IBUF块512读出包并发送到数据交叉开关516时,IHDR块514可以“即时”修改包。

IBUF块512可以在交换机芯片接收到未修改的包时存储它们,并且可以支持不同的格式。存储的包地址(即,表示为sop_ptr的指针)以及包的索引可以由IBUF块512发送到EIQ块508,该EIQ块可以将包与ELU块506的报头查找结果相匹配。

在某个时间点,存储在IBUF块512中的每个包要么基于经由授权交叉开关518和输入队列(INQ)块520(下面解释)发送的授权经由数据交叉开关516被发送到目的地端口,要么被丢弃。这两种操作都可以基于对sop_ptr的引用来执行。授权还可以包含来自ELU块506和EFCT 510的其他字段,这些字段可以与包一起发送到IHDR块514。IHDR块514进而可以使用来自授权报头的控制信息来在经由数据交叉开关516将包转发到目的地端口之前对包进行适当的修改。当IBUF块512中的缓冲区填满时,可能会超过可配置阈值,这可能会触发各种流控制和拥塞管理机制。

取决于FTAG、目的地地址和虚拟网络标识符(VNI),EFCT 510可以为包分配流通道。匹配模式可以提供在相同的源与目的地结构端口之间的具有单独排序和优先级约束的流之间的分离。通常,节点上的不同核可能使用不同的VNI运行,并且这种流分离允许不同的核解耦(decouple)。

如果匹配值是当前唯一的,则可以分配新的流通道。如果匹配值与现有分配的流通道的匹配值相同,则将包指派给对应的现有流。包的大小可以用于递增流的data_flow值。在一个实施例中,对于边缘端口,OFCT 522可以用作EFCT。从下游流通道表返回的确认用于增加流的ack_flow值。当该值赶上data_flow值时,流通道可以自动解除分配,并且可以使其匹配模式无效。

INQ块520可以从EIQ块508接收报头请求,并且对于入口边缘端口,也可以从EFCT510接收报头请求。INQ块520可以将查找结果报头存储在其报头RAM中。基于报头的对应流通道,指向每个报头的指针可以存储在一组队列中的一个队列中。在边缘端口处,可以通过应用分组(APPG)以公平的方式仲裁包报头以进行路由,所述应用分组可以用于将应用分组到不同的流量分类中。在结构端口处,可以基于其流通道对报头进行仲裁。当报头被考虑进行路由时,它可以被转发到结构路由功能(FRF)块524并且随后也被转发到IFCT 526。

FRF块524可以基于网络拓扑执行路由功能,并选择包要转发到的输出端口(或用于多播的端口)。该路由结果可以传递到IFCT 526,在该IFCT处,路由结果与报头的其余部分组合,并且IFCT 526可以使用来自FRF块524的结果,或者如果保持包顺序很重要,则选择使用给定流的先前路由。IFCT 526然后可以将转发结果(即,给定包的输出端口信息)作为新请求传递回INQ块520。然后可以使用该请求来调度包,以使包经过数据交叉开关516朝向期望的输出端口传输。

然后可以基于与流通道、虚拟通道(VC)标识符和输出端口相对应的整形函数将该请求放置在INQ块520中的请求队列(或多个队列)中。(应注意,为了避免死锁,可以使用VC将物理链路分成多个虚拟链路分组。)在仲裁之后,可以通过请求交叉开关528将请求发送到年龄队列(AGEQ)块530。稍后,可以经由授权交叉开关518返回对应的授权。当返回授权时,INQ块520可以取得对应的报头并将其返回到IBUF块512,在该IBUF块处,报头与其有效载荷重新结合,然后被转发到IHDR块514和随后的数据交叉开关516。

如前所述,IFCT 526可以测量缓冲在本地流队列中的流数据量。其还可以测量流中下游的未确认的数据量。IFCT 526还可以在其表中存储返回的确认代码值,并使用该特定于流的状态信息和由包的FTAG值索引的配置信息来确定它所接收的包的报头是要被转发、丢弃还是等待(made to wait)更长时间。“等待”的情况可以通过不将报头从流队列中出队来实现。报头最终可以出队,并且可以再次做出转发、丢弃或等待的决策。在一个实施例中,IFCT 516可以具有到IBUF块512的“丢弃”接口,这允许当要丢弃包时能够将sop_ptr值传递给IBUF块512。作为响应,可以将包的报头在添加到请求队列之前丢弃。IFCT 516可以进一步递增已丢弃包的对应统计数据。

FRF块524可以从INQ块520接收针对每个接收到的包的路由请求,并且针对每个路由请求,可以向IFCT 526返回路由响应。路由响应可以指示包应当转发到哪个或哪些端口以及应当在哪个VC上转发。对于非多播请求,响应可以指示包可以被转发到的优选端口和一组可接受的端口,从而允许IFCT 526将优选的端口用于新的流或重新路由的流,或者对于现有流,经由可能不是FRF块524的当前优选选择的端口来维持当前路径。在出现错误的情况下,FRF还可以向IFCT指示没有包可以被转发到的合法端口。当发生这种情况时,包被丢弃。

FRF块524的路由决策可以基于下各项的组合:基于软件可配置表的规则、动态负载信息和伪随机选择。规则可以考虑的因素包括包的目的地、包在其路径上的位置(如源分组、中间分组、目的地分组、目的地交换机)、在其上接收包的VC、以及在其上接收包的端口类型(边缘、本地、或全局)。AGEQ块530可以向FRF块524提供在与给定FRF实例相关联的端口的输出侧上存在的当前负载。每个FRF实例可以与交换机芯片内的每个其他FRF实例通信,以了解每个输出端口处的当前负载,以及每个端口的链路up/down(开启/关闭)状态。FRF实例还可以与相邻交换机芯片中的FRF实例进行通信,以获得相邻设备的负载相关状态。在一个实施例中,FRF块524可以被配置为支持多种网络拓扑。

AGEQ块530可以经由请求交叉开关528接受来自所有输入端口的请求、缓冲这些请求、使用流量整形器在这些请求之间按流量分类进行仲裁、并将这些请求传递给OFCT块522以被授权交叉开关518授权。可以管理AGEQ块530内的请求缓冲以允许每个输入具有足够的空间来发送请求,同时还允许具有以给定输出为目标的多个流的输入占用更多空间。AGEQ块530还可以负责管理对链路的访问,要么对相邻交换机芯片的IBUF块使用基于信用的流控制,要么对非结构链路使用基于暂停的流控制。当包被AGEQ块530释放时(即,为在IBUF块512中等待的包发出对应的授权),该包将被置于传出链路上。另外,AGEQ块530可以具有允许在给定端口上发起的包(如维护或归约包(reduction packet))针对端口上的资源进行仲裁的路径。

OFCT 522可以被编程以作为出口边缘端口的EFCT操作,或作为结构端口的OFCT操作。对于出口边缘端口操作,当块被编程为EFCT时,从AGEQ块530接收到的报头可以通过EFCT传递到授权交叉开关518,且在很大程度上保持不变。EFCT还可以从输出缓冲区(OBUF)块532接收新的ACK以确认离开结构的包。这些ACK可以返回到ACK交叉开关534并且将是关闭上游流表中的流的ACK。当AGEQ块530报告拥塞时,EFCT还可以生成拥塞通知消息。这种在出口边缘端口上的拥塞通常代表incast形成,并用于减慢在入口边缘端口上返回的流。

对于结构端口操作,OFCT 522可以管理在传出链路上的下一跳交换机的流通道分配。其可以与结构链路伙伴的IFCT串列工作,并为可以由链路伙伴的IFCT用来管理包转发进度的流创建扩展。

OFCT 522还可以管理从结构链路接收到的ACK并且通过ACK交叉开关534向上游返回这些ACK。在已经创建或扩展现有流之后,OFCT 522可以生成可以通过IHDR块514添加到下一跳结构报头的flow_ID和data_flow值,并且将这些值添加到与其他报头值一起返回到授权交叉开关518的授权中。

输出缓冲区(OBUF)块532可以捕获已经通过数据交叉开关516发送到对应输出端口的包。包可以到达例如四个不同的列总线,并入队在例如四个单独的FIFO队列上(结合图5B更详细地解释)。OBUF块532可以在这些FIFO队列之间进行仲裁,检查每个包是否是数据归约包(reduction packet)。与归约引擎(reduction engine,RED)块534中的描述符相匹配的任何数据归约包都可以被RED块534消耗。所有其他包都可以入队在弹性FIFO队列中,等待被传输到传出链路。OBUF块532可以包括输出仲裁器,该输出仲裁器可以选择来自弹性FIFO队列的包、来自RED块534的完整归约包、来自控制包发射器(CFTX)块536的控制包、以及来自管理接口的已注入包,以传输到传出链路。

如果AGEQ块530开始填充或丢弃ACK,如果AGEQ块530已经丢弃了包,则OBUF块532还可以生成ACK值以指示中间结构拥塞。

在一个实施例中,控制包接收器(CFRX)块538可以处理可以从IBUF块512中提取的所有与控制相关的包。这些与控制相关的包可以包括拥塞信令包、流控制信用发出包、以及流通道ACK等等。拥塞信令信息可以被发送到FRF块524并用于做出路由决策。可以将基于信用的流控制信息发送到AGEQ块530,用于调度包以转发到下游交换机。ACK可以被发送到OFCT 522(其进而可以识别ACK要被转发到的输入端口)并且随后被发送到ACK交叉开关534。

相应地,CFTX块536可以将ACK(基于IFCT 526)、基于信用的流控制包(基于IBUF块512的状态)、以及拥塞信令包发送到对应的输出端口。

OBUF块532还可以向AGEQ块530生成信用反馈,该信用反馈指示可用于传出数据包的着陆空间(landing space)(应注意,该信用用于交叉开关的输入与输出之间的交叉开关调度,并且不同于用于交换机间流控制的信用)。该信用信息由AGEQ块530传递到INQ块520,该传递可选地经由信用交叉开关540进行,该INQ块使用该信用信息来调度包从IBUF块512的提取。

如上所述,一个交换机芯片中可以有五个交叉开关:请求交叉开关528、授权交叉开关518、信用交叉开关540、ACK交叉开关534和数据交叉开关516。

请求交叉开关528可以将请求从输入发送到目标输出AGEQ块。信用协议可以用于保证在输出处存在请求的着陆空间。每个请求都可以包含指向包在IBUF块512中的存储位置的指针(sop_ptr)。

授权交叉开关518可以将授权返回给满足请求的输入。该授权可以返回指针(sop_ptr)。仅当在OBUF块532中存在用于对应包的空间时才返回授权。授权还可以可选地返回OBUF块532中的请求空间的信用。

信用交叉开关540可以返回OBUF块532中的请求空间的信用。ACK交叉开关534可以基于OFCT 522将ACK包从输出端口传播到输入端口。数据交叉开关516可以将授权的包从IBUF块512移动到目标OBUF块532。仅当在输出处存在有保证的包着陆空间时才会返回授权,因此包不会被阻塞。

图5B示出了示例性交叉开关。在该示例中,交叉开关瓦片矩阵(crossbar tilematrix)550可以用于转发数据、ACK、请求、授权和信用。数据交叉开关可以移动带有报头和数据有效载荷的多时钟包,而其他四个交叉开关仅移动单时钟包报头。所有五个交叉开关都可以使用相同的基本架构。如图5B所示,交叉开关瓦片矩阵550可以是由32个交叉开关瓦片的8×4矩阵构成的64×64设备。每个瓦片可以是16×8交叉开关交换机,具有16个输入(其对应行(例如,行552)中的每个端口一个输入)以及8个输出(其对应列(例如,列554)中的每个端口一个输出)。

图5C示出了交叉开关瓦片的示例性架构。在该示例中,交叉开关瓦片570可以具有16个输入端口和8个输出端口。相应输入端口(如输入0)的输入缓冲区可以被划分为单独的虚拟输出队列,如队列572。每个虚拟输出队列对应于相应的输出端口。虚拟输出队列布置可以避免输入队头阻塞。另外,在每个交叉开关交换机点处都有交叉开关队列,如队列574,该交叉开关队列可以吸收由行总线上的相应输入发送到对应列总线的包。交叉开关队列可以避免输出(列)总线上的阻塞并允许更充分地利用列总线。在操作期间,包从输入到输出的传输是通过请求-授权机制完成的。在第一轮仲裁中,每个虚拟输出队列可以请求发送其存储的包(如果有的话)。来自一个输入的所有虚拟输出队列的请求的传输由输入仲裁器完成,如仲裁器576。一旦做出这些请求,输出调度器就会发出对应的授权。在输入端口收到授权之后,对应的数据包从虚拟输出队列中出队,并由交叉开关交换机转发。然后将包临时存储在适当输出(列)总线的交叉开关队列中。第二仲裁器(如仲裁器578)可以用于调度包从对应于给定列总线的多个交叉开关队列中的提取。

现在回到图5B,每行可以具有16个行总线(如行总线553),这些行总线将输入数据馈送到该行中的所有瓦片。每列可以具有8个列总线(如列总线555),这些列总线将转发的数据传送到对应的输出端口。行总线可以从一行中的每个源被驱动到该行中的所有8个交叉开关瓦片。每行可以具有相同的连接,单行的一对所有(one-to-all)行总线连接。仲裁可以在从该行的16个行总线到给定列中的8个列总线的交叉开关处进行。在每个行总线的每个16×8交叉开关瓦片上提供缓冲,以便在列总线争用时的时间期间吸收包。在一个实施例中,除非目标交叉开关的输入缓冲区中存在用于整个包的空间,否则不会将非巨型包放在行总线上。为了节省芯片面积(real estate),即使没有足够的空间,也允许将巨型包置于行总线上,行总线被阻塞,直到该包赢得仲裁并在其移动到列总线上时释放空间为止(即,输入缓冲区的大小只能用于收入非巨型包)。列总线可以从给定的交叉开关被驱动到列内的每个目的地端口。每个目的地端口在来自4行的列总线之间执行另一个级别的仲裁。16个行总线驱动8个交叉开关,每个交叉开关馈送8个列总线,行与列之间可以有4倍的加速。

在一个实施例中,行总线和列总线都可以使用基于信用的协议来确定它们何时能够进行发送(参见图5C中的仲裁器576和578)。在行总线的情况下,源端口可以维护该行内交叉开关的输入缓冲区的信用计数。对于数据交叉开关,何时允许包进入行总线取决于队列配置和状态。如果针对特定交叉开关的输入缓冲区的授权全部通过单个队列,则在开始包传送之前需要有用于在队列头部的包的空间。如果授权分布在多个队列中,则为了防止小包把大包锁在外面,则除非缓冲区中存在用于整个最大大小的包的空间,否则不会开始包传送。以这种方式,一旦行总线上的包传送开始,其就不会停止,直到整个包被传送为止。相应地,交叉开关输入缓冲区足够大以处置最大包大小,并具有附加空间以覆盖最坏情况的往返(从包发送到信用返回)。然而,对于巨型包可能不是这种情况。对于巨型包,为了节省缓冲区,可以将交叉开关的输入缓冲区设置为刚好有足够的空间来处置非巨型大小的最大传输单元(MTU,例如,大约1500字节)包,其中,在等待获得对目标列总线的访问权限时允许巨型包阻塞行总线。

对于列总线,每个交叉开关瓦片可以维护该列中的每个目的地端口处的输入缓冲区的信用计数。与行总线不同,在列总线上开始传送该包之前,不要求信用可用于最大大小的包。当信用变得可用时,可以移动包的各个字。因此,每个列总线的目的地处的输入缓冲区只需大到足以覆盖最坏情况的往返(例如,从包发送到信用返回)。

如图5B和图5C所示,每个交叉开关瓦片可以具有16个行总线输入缓冲区和8个可能的目的地。可以在每个目的地的16个源之间使用轮询(Round-robin)仲裁。对于数据交叉开关,一旦源赢得仲裁,它就可以保留对目的地列总线的控制,直到整个包已被发送为止。

在一个实施例中,输出控制块可以负责经由请求交叉开关接受来自所有输入端口的请求、缓冲这些请求、并且将这些请求传递给OFCT以经由授权交叉开关进行授权。AGEQ空间可以由输出控制块管理,以允许具有以给定输出为目标的多个流的单个输入将其请求移动到AGEQ。输出控制块还可以负责管理下游相邻交换机(即,与输出端口相对应的链路伙伴)上的输入缓冲区中的空间的使用和流通道的分配。另外,输出控制块可以具有允许针对端口上的资源对在给定端口上发起的包(如维护或归约包)进行仲裁的路径。

请求可以从矩阵的每一行经由列总线进入输出控制块。每个列总线可以馈送独立的FIFO队列,其中FIFO队列中的空间经由信用进行管理。这些FIFO的大小可以足够深,以覆盖最大往返延迟加上一些额外空间,以允许将请求移出交叉开关并防止队头阻塞。在被写入FIFO队列之前,可以检查请求的有效错误校验码(ECC)。如果检测到错误,则可以丢弃包并标记错误。

在一个实施例中,可以在列总线FIFO队列之间使用最近最少使用的(LRU)仲裁来选择哪个FIFO队列被选择,并将对应的请求转发到AGEQ块。当请求从每个FIFO队列中移除时,信用可以被返回到对应的交叉开关。

输出缓冲区可以向输出控制块发出请求,以在对应的传出链路上发送归约和维护包。这些请求可以被赋予更高的优先级。在一个实施例中,归约包不使用流通道,并且维护包可以使用环回(loopback)来创建流,因此不需要检查流通道可用性或使用OFCT来创建授权。它们也不使用输出缓冲区中的空间,因此不需要检查空间。

可以对照最大包大小检查要从输出缓冲区处理的下一个请求的大小。如果它超过该值,则不处理请求并可以设置错误标志。这可能导致输出缓冲区请求路径被阻塞,直到执行热复位为止。

在一个实施例中,可以为每个输入端口分配固定量的AGEQ空间,表示为fixed_alloc。该空间可以足够大以容纳与相应输入端口相关联的每个流量分类,并具有足够的附加空间来覆盖请求-信用往返。该固定空间在同一输入端口内的不同流量分类之间的分配是可配置的。流量分类可以通过整形队列(SQ)标识符和虚拟通道(VC)标识符的组合来标识。在一个实施例中,AGEQ可以有8k个位置,每个位置对应于单位的流量。固定分配空间总量可以是(64*fixed_alloc),并且剩余空间可以是8k-64*fixed_alloc。该剩余空间可以在所有输入之间共享。

共享空间可以由输出管理。如果共享空间中有空间,则传入请求可以在其到达时从静态空间移动到共享空间,但受每个输入的限制。当将请求移动到共享空间时,可以经由信用交叉开关立即返回信用,并在AGEQ中将该请求标记为处于共享空间中。当请求被授权时,如果它被标记为使用共享空间,则共享空间被记入信用。如果请求未被标记为使用共享空间,则它被认为使用了静态空间,并且信用与授权一起被返回给输入。

由于信用交叉开关中的冲突,可能无法在每个时钟周期都发送信用。FIFO队列可以用于为这些瞬态中断提供缓冲。在一个实施例中,只有在该FIFO队列中有空间时,才可以接受来自请求交叉开关的请求。例如,可以使用深度为32个位置的FIFO队列来限制其备份到请求交叉开关中的可能性。

AGEQ中的共享空间可以对任何单个输入可以占用的空间量进行限制。这些限制可以设置为可用空间的百分比。例如,如果限制设置为50%,并且如果一个输入处于活动状态,则该输入可以访问50%的共享空间。在两个活动输入的情况下,每个输入可以访问37.5%的共享空间,被计算为(space_used_by_l+space_left*0.5)/2=(50%+50%*0.5)/2=37.5%。在三个活动输入的情况下,每个输入可以访问29.2%的共享空间,被计算为(space_used_by_2+space_left*0.5)/3=(75%+25%*0.5)/2=29.2%,以此类推。对所有活动输入可以使用的总共享空间的总量进行限制,在这三个示例中分别为50%、75%和87.5%。通过这种配置,分配给每个输入的共享空间可以基于当前活动的输入数量而动态变化。额外的活动输入会导致其他活动输入放弃其共享空间,这些共享空间然后分配给新输入。

考虑到在硬件中实施划分的成本可能很高,共享AGEQ空间的这种动态分配功能可以实施为具有例如64个条目的查找表,其中,每个条目对应于一定数量的活动输入端口。活动输入端口的数量可以用作表的索引。表中的值可以是对任何输入都可以访问的共享空间以及它们整体可以消耗的总空间的限制。可以使用基于软件的功能根据共享空间的总量以及每个输入允许使用的百分比来对表中的值进行编程。随着更多输入变为活动状态,每个输入被允许的空间越来越少,并且可用的总空间会增加。可能不允许来自输入的超过此限制或总量超过总空间限制的传入请求占用更多共享空间。

为了跟踪AGEQ中活动输入的数量,可以使用一组64个计数器(每个输入一个)。这些计数器可以在将请求置于AGEQ中时向上计数,并在将其取出(被授权)时向下计数。对非零计数的数量进行计数的第二计数器可以用于索引到查找表以进行共享空间分配。另外,为了管理共享空间,可以使用附加的一组64个计数器来跟踪每个输入对共享空间的当前使用情况。也可以使用单个计数器来跟踪整体的共享空间使用情况。可以将这些计数器与当前配额进行比较,以确定是否允许请求使用共享空间。在一个实施例中,所有计数器可以是13位宽,这足以覆盖例如AGEQ中的8K个位置。

图5D示出了年龄队列的示例性实施方式。在该示例中,年龄队列可以使用具有例如8K个位置的请求RAM 580。这些位置可以动态分配给一定数量的单独队列582,该数量可以对应于流量分类(由SQ值标识)和虚拟通道(由VC值标识)组合的总数。在一个实施例中,一条物理链路可以划分为四个VC,并且系统可以支持8个流量分类。相应地,总共有32个(即,4*8)个单独队列,每个队列用于唯一的SQ/VC组合。每个队列可以是存储ram内的位置链表。这使每个SQ/VC组合能够根据需要占用更多空间。

如图5D所示,每个队列可以包括一个指向链表前端的前端指针。链表中的每一项还包括指向链表中的下一项的指针。在一个实施例中,指向下一项的指针可以存储在下一个指针RAM中。队列中的最后一个位置可以由后向指针指向。相应队列中的每个位置都可以容纳一个请求。请求可以从队列的前面出队并插入到队列的后面。

除了链表数据结构之外,每个队列还可以在其头部具有FIFO队列,如请求的FIFO队列584。这些FIFO队列可以用于确保队列可以在来自请求RAM的多时钟读取访问时间的情况下维持请求每个时钟。当新请求到达时,如果该队列的头部FIFO队列未满,则该请求可以绕过请求RAM直接写入到头部FIFO队列。一旦针对给定队列的请求被写入请求RAM,后续请求也被写入请求RAM以保持顺序。一旦请求RAM中不再有针对该队列的请求并且对应的头部FIFO中有空间,就可以再次使用旁路路径。

当从头部FIFO队列中读取请求时,并且存在在请求RAM中排队的对应请求时,就可以发起出队操作。由于一次仅读取一个头部FIFO队列,因此每个时钟周期只能发起一次出队操作。可以包括逻辑来处置正在进行或即将进行的入队操作与头部FIFO队列被读取之间的各种竞争条件。

空闲列表RAM可以是简单的FIFO队列,每当完成复位时,它就会用指向所有条目(例如,8k条目)的指针进行初始化。可以保持计数以跟踪空闲列表RAM内有多少条目是有效的。当取出条目时,条目会从FIFO的前面弹出并使用。当返回条目时,条目被推送到FIFO队列585的后面。空闲列表RAM头部的多个条目(例如,3个)可以保存在触发器中,以便它们可以被快速访问。

为了支持小包的全部性能,年龄队列需要在每个时钟周期支持入队操作和出队操作。下面针对入队操作给出了对数据结构的操作。这些操作取决于被写入的队列是否为空而有所不同。在大多数情况下,可以处置特定队列的同时入队和出队,因为它们使用和更新不同的字段。一种特殊情况是出队操作清空队列的情况。为了处置这种情况,在逻辑上可以首先进行出队操作,然后进行入队操作。这可以通过对队列使用空标志来实现,该空标志可以在通过出队操作清空队列时置位,然后基于入队操作清除。

可以在受制于输入缓冲区管理、输出缓冲区管理和流通道配额而允许被授权的请求之间进行仲裁。如果OFCT输入FIFO队列没有信用,也可以停止仲裁。在一个实施例中,仲裁可以分两级进行,一级在SQ之间,一级在VC之间。流量整形仲裁可以用于在SQ之间进行仲裁。赤字轮询(deficit round-robin)仲裁可以用于在给定SQ内的VC之间进行仲裁。

在一个实施例中,流量整形仲裁可以使用一系列令牌桶(token bucket)来控制每个SQ的带宽。例如,如果有8个SQ,则可以有8个叶桶(每个SQ一个)、4个分支桶和一个头桶。仲裁可以划分为三个分组,分组1具有最高优先级,其次是分组2,然后是分组3。对于分组1和分组2,可以在有资格的SQ之间以相同的方式进行仲裁。对于这8个优先级中的每一个,可以在SQ之间进行x8轮询仲裁(8个并行的轮询仲裁操作)。可以在优先级之间进行固定仲裁。分组3仲裁没有优先级,并且可以是单个x8轮询仲裁。对于分组1仲裁,每个仲裁的优先级来自叶桶中的设置。对于分组2仲裁,优先级来自分支桶中的设置。在所有情况下,如果该请求赢得仲裁,则被检查为符合该分组的资格的桶也是从中获得包大小令牌的桶。

可以对包进行分类,以选择其请求将被转发到的SQ。这使得与应用相关联的流量与来自不同应用或不同流量分类的流量形成不同的形状。该特征在连接到NIC的边缘端口上尤其重要,因为应用通常被配置为使用节点上的资源共享,并且类似地它们被授权一定比例的网络带宽。在一个实施例中,该分类可以通过在包进入结构时用FTAG和VNI标记包来执行。然后在包离开结构时使用FTAG和VNI来选择整形队列。可以使用配置寄存器来将FTAG映射到SQ。

在一个实施例中,AGEQ可以具有由{SQ,VC}寻址的多个整形队列。例如,如果有8个SQ和4个VC,则总共可以有32个独立的整形队列。对应的3位SQ索引可以是整形函数,并且VC值映射到该整形函数内的四个队列(与4个VC相对应)之一。对于以太网出口(边缘)端口,不需要VC来避免死锁,因此所有32个整形队列都可用。

拥塞管理

如上所述,给定交换机上的每个流都可以有其自己专用的包队列。这种配置便于对每个流进行单独的流控制。因此,网络可以保持大部分无损,并且可以阻塞使用链路的一个流,而不会阻塞使用同一链路的任何其他流。与传统的包交换网络不同,网络某一部分的拥塞只能影响造成拥塞的流。例如,在传统网络中,拥塞链路之前的缓冲区会很快被导致拥塞的包填满。这进而可能强制交换机发出暂停命令或使用某种其他流控制方法来阻止相邻交换机向拥塞链路发送包。因此,可能停止或减慢导致拥塞的包,并且也可能停止或减慢可能不前往拥塞链路的所有其他包。因此,从拓扑角度来看,拥塞可能会横向扩散并增加饱和树的大小。

相比之下,流通道可以在导致拥塞的链路上减少与造成拥塞的流相对应的负载。这种负载减少可以允许共享这些链路的其他流使用更多的链路带宽并更快地传送其有效载荷,而只有造成拥塞链路的包被减慢。

通常,只要网络负载未达到或接近满容量,传统网络就可以正常运行。大多数情况下,中小型网络都是这种情况。然而,对于运行多个高带宽应用的大型或超大型网络,在任何时间点网络的一部分都可能因流量负载而饱和。在这些情况下,即使各个交换机在本地实施公平策略,也可能发生不公平的包传送。

图6A示出了在网络中可能发生链路带宽的不公平份额的示例。在该示例中,源A到K中的每一个都试图将包流发送到目的地L,从而形成多个源向单个目的地发送包的incast场景。源节点A、B和C耦接到交换机602;源节点D、E和F耦接到交换机604;源节点G、H和I耦接到交换机606;并且源节点以及J和K、以及目的地节点L耦接到交换机608。假设每个交换机都采用公平的仲裁策略,即,从其每个输入端口到任何特定输出端口选择均等数量的包。然而,如图6A所示,与其流量需要通过更多交换级的源相比,更靠近目的地的源可以获得更高比例的最终链路带宽。交换机608具有来自节点J、K和交换机606的三个传入数据源,并且可以在每个源之间均等地划分到节点L的传出链路上的带宽。因此,节点J、K可以各自占用33.3%的通往目的地节点L的传出链路上的带宽。

下一个最近的交换机(即,交换机606)可以同样如此,依此类推。在该示例中,只有四级交换机,每级只有三个或四个输入,并且只有总共11个输入试图发送到目的地节点L,三个输入源(节点A、B和C)在通往目的地节点L的传出链路上所占用的带宽仅占两个其他输入源(节点J和K)的1/48。因此,即使采用本地公平的仲裁策略,远离目的地的节点也会受到非常不公平的处理。更实际的网络拓扑可能涉及更多的交换级、更多个交换输入以及更多试图发送到单个目的地的源。中等大小的incast可能导致不同源的传送带宽之间存在六个数量级的差异。

上文描述的不公平问题往往是由以下事实造成的:由交换机实施的仲裁策略是基于输入端口的。即,带宽限制是以逐端口粒度进行的。相比之下,通过促进流通道和实施特定于流的限制,网络可以显著减少不同流之间的不公平程度。例如,在图6A所示的场景中,当交换机实施逐流的公平带宽分配策略时,所有八个源节点可以基本上均等地共享交换机608与目的地节点L之间的边缘链路的带宽。通过提供更公平的基于流的仲裁策略,还可以大大减少单个包的极端拖尾时延。对于大型系统设施,控制网络中的最大时延通常是架构师主要关注的问题。通常,这只能通过将进入网络的输入带宽限制为峰值带宽的一小部分来实现。例如,对于大型数据中心而言,峰值带宽的20%的输入带宽限制可能是典型的。相比之下,通过流通道和适当的控制机制,现在可以构建不施加这种限制的网络。

除了公平性,网络架构师所面临的另一个挑战是拥塞。通常,网络中可能发生两种类型的拥塞。第一种类型是端点拥塞,其中耦接到目的地设备的出口边缘链路拥塞。第二种类型是结构链路拥塞,即,中间结构链路拥塞。

图6B示出了端点拥塞的示例。在该示例中,两个源主机612和614正在向目的地主机616发送数据。来自源主机612和614的流量在边缘交换机620处会聚,并且交换机620与主机616之间的出口边缘链路618可能变得拥塞。这种拥塞场景通常会在incast中发生,其中多个源向单个目的地发送流量。当出口边缘链路达到其全数据速率容量时,或者当目的地主机616不能以足够快的速率处理所有传入包时,可能发生拥塞。在任何情况下,当端点拥塞发生时,耦接到链路618的交换机620上的输出传输缓冲区都可能经历其存储数据量的增加。

交换机可以通过监测出口边缘链路上的输出缓冲区以及通过向上游交换机和源节点发送带有拥塞信息的ACK来检测和缓解端点拥塞。更具体地,耦接到出口边缘链路的输出缓冲区可以监测缓冲区的状态并在满足某些标准时检测到拥塞。当包到达或离开输出缓冲区时,输出缓冲区可以计算三个拥塞检测参数,如:(1)存储在缓冲区中的数据量,(2)存储在缓冲区中的包数量,以及(3)缓冲区深度(存储在缓冲区中的数据量)的变化率。可以为这三个监测参数分别设置三个阈值,但可以设置更多或更少的阈值。当这些参数中的至少一个超过对应阈值时,就认为存在拥塞。

当检测到拥塞时,交换机可以生成并传输与刚刚进入输出缓冲区的包相对应的端点拥塞通知ACK。ACK可以包括指示拥塞严重程度的值。应注意,该端点拥塞通知ACK并非旨在向上游交换机通知包的成功传送,而是通知它们出口边缘链路上拥塞的存在和程度。(事实上,当发送该端点拥塞通知ACK时,包可能仍然存储在输出缓冲区中,等待被传输到出口边缘链路上。)这种快速、显式的拥塞通知机制允许交换机快速对造成拥塞的特定流采取行动。

另外,当包出队并传输到出口边缘链路时,输出缓冲区可以更新拥塞检测参数。如果不存在拥塞,则生成并发送常规ACK,这可以清除由对对应流进行操作的上游交换机接收到的任何先前拥塞通知。如果存在拥塞,则ACK可以标记有标志,该标志允许ACK向交换机通知出口边缘链路上的持续拥塞以及包的成功传送。

图7A示出了生成显式端点拥塞通知ACK的示例性过程的流程图。在操作期间,系统可以持续监测出口边缘链路的输出缓冲区。系统然后可以在输出缓冲区处接收包(操作702)。在接收到包后,系统可以计算输出缓冲区的这三个拥塞参数(数据总量、包总数和缓冲区深度变化率)(操作704)。系统可以进一步确定这些参数中的任何参数是否超过对应的阈值(操作706)。如果至少一个参数超过阈值,则认为存在拥塞。因此,系统可以生成与包的流相对应的显式端点拥塞通知ACK包并将其发送到上游交换机(操作708)。如果未检测到拥塞,则系统可以恢复正常运行。

图7B示出了示例性端点拥塞管理逻辑块。在该示例中,端点拥塞管理逻辑块730可以包括输出缓冲区监测器732、拥塞参数计算逻辑块734和端点拥塞通知ACK生成逻辑块736。在操作期间,输出缓冲区监测器732可以监测与出口边缘链路相关联的输出缓冲区的状态。基于被监测的输出缓冲区的状态,拥塞参数计算逻辑块734可以计算这三个拥塞参数(参见图7A中流程图中的操作704)。当这些参数之一超过对应的阈值时,端点拥塞通知ACK生成逻辑块736可以生成端点拥塞通知ACK并将该ACK发送到上游交换机。

图8示出了响应于包从输出缓冲区出队而生成ACK的示例性过程的流程图。在该示例中,系统首先将包从输出缓冲区中出队(操作802)。然后系统可以计算输出缓冲区的这三个拥塞参数(数据总量、包总数和缓冲区深度变化率)(操作804)。系统可以确定这些参数中的任何参数是否超过对应的阈值(操作806)。如果至少一个参数超过阈值,则认为存在拥塞。因此,系统可以生成具有指示持续拥塞的标记标志的ACK包(操作808)。如果未检测到拥塞,则系统可以生成常规的ACK包(操作809)。系统随后可以将ACK包发送到上游交换机(操作810),并且将出队的数据包传输到出口边缘链路上(操作812)。

应注意,图7B所示的端点拥塞管理逻辑块也可以执行图8中所示的流程图所描述的操作。换句话说,端点拥塞管理逻辑块730可以在包到达输出缓冲区以及包从输出缓冲区离开时潜在地通用端点拥塞通知ACK。

当端点拥塞通知ACK经过结构时,路径上的交换机的IFCT可以对与ACK相对应的流应用带宽限制。实际上,结构可以在数据路径上的每个交换机处以分布式方式减慢该流的传送速度。当端点拥塞通知ACK通过IFCT时,其值可以作为ep_congestion值存储在流的表条目中,该ep_congestion值可以用于为流选择期望的最大带宽。ep_congestion的每个值都可以有一组对应的高水位值、目标水位值和丢弃水位值。对于高水平的拥塞,此时ep_congestion具有较高值,水位值可以具有较低值,使得可以更积极地缓解拥塞。对于低水平的拥塞,此时ep_congestion具有较低值,可以使用针对更高的流带宽的一组不同的更大的高水位值、目标水位值和丢弃水位值。例如,可以使用由ep_congestion值索引的表。对于每个ep_congestion值,该表可以指示一组对应的高水位值、目标水位值和丢弃水位值。该表的条目可以预先确定,使得当接收到端点拥塞通知ACK时,交换机可以使用ep_congestion值在该表中执行查找,并将这三个对应的水位值应用于识别的流。

在一些情况下,如果源以贪婪的方式注入数据,仅减慢网络内部的转发速度可能不足以完全消除拥塞。为了解决该问题,入口边缘交换机可以被配置为指示源设备(其通常驻留在结构之外)以细粒度、逐流的方式限制数据注入。这种交换机到主机的流控制机制可以称为细粒度流控制(FGFC)。

特别地,尤其是在HPC环境中,终端主机或计算节点可能具有大量的运行大量线程、进程或虚拟机的核,其中每个核都可以通过公共物理网络接口控制器(NIC)将其自己的数据流注入到网络中。当存在拥塞时,基于逐端口的流控制只能限制NIC上单个端口的整体数据速率,其可以是40Gb/s或更高。反推整个端口上的总数据速率可能会导致对未造成拥塞的流不公平。FGFC可以将各个流或相关联流分组的概念扩展到它们的最终源,这可以是在其中一个核上执行的单个线程。

为了减慢来自源的数据注入,入口边缘交换机上的FGFC逻辑块(例如,图4A中的边缘交换机406中的FGFC逻辑块434)可以使用暂停-信用混合方法来限制与特定流或流分组相关联的传入数据。基于暂停的方法通常涉及接收端向发射器端发出暂停命令,作为响应,发射器端可以停止传输,直到进一步的通知。对于基于信用的方法,接收端可以向发射端发出传输信用,这允许发射器发送更多数据,但最多只能发送由信用值指定的量。这种机制允许接收端更精确地控制其输入缓冲区深度以避免溢出,同时允许继续传输。FGFC可以使用混合方法,其中在检测到拥塞时,入口边缘交换机可以针对一个或多个流向终端主机NIC(如图4A中终端主机402上的NIC 401)发出具有设置的定时器值的FGFC包。在接收到FGFC包之后,入口边缘交换机可以开启基于信用的流控制模式。作为响应,NIC可以基于接收到的信用来限制对应(多个)流的传输数据速率,同时允许其他流以正常数据速率传输。在预定的定时器到期之后,终端主机NIC可以恢复(多个)被限制流的正常传输,除非接收到另一个暂停命令。应注意,被限制流可以通过从包得到的任何字段来标识。被限制流可以特定于在终端主机上执行的单个进程或线程。

FGFC可以使用带有组织唯一标识符(OUI)扩展Ether_Type字段的以太网帧来实施边缘交换机与终端主机NIC之间的控制通信。这些帧可以指示以下一项或多项:(1)被控制的流所使用的协议;(2)用于指示生成需要被限制的包的源(例如,应用、进程或线程)的标识符;(3)流控制要持续的暂停时间值(其可以在后续FGFC帧因错误而丢失时防止加锁),以及(4)信用值,可以为零,指示在暂停期间可以发送的帧的数量或数据量。

应注意,用于指示受制于流控制的源流的标识符可以基于与流相关联的协议而不同。对于第2层以太网虚拟局域网(VLAN)流量,标识符可以包括VLAN编号。对于IPv4流量,标识符可以包括源/目的地IP地址对、包含UDP或TCP端口号的UDP或TCP/IP5元组、或可选的流标签。对于IPv6流量,标识符可以包括一个或多个IPv6地址或IPv6流标签。对于专有HPC协议流量,标识符可以包括进程或线程ID。通常,该标识符也存储在边缘交换机的EFCT中,因为它用于将对应的流量映射到流ID。

为了触发FGFC,入口边缘交换机的IFCT可以监测其特定于流的输入队列。对于每个队列,对应的IFCT条目可以指示三个水位值:高、目标、和丢弃,其可以用来衡量队列深度。在一些示例中,这些水位值可以作为附加字段包括在如图4C所示的IFCT中,或者可以存储在单独的表中并由IFCT中的字段链接。当队列深度小于目标值时,不需要FGFC。当队列深度达到目标水位值时,IFCT可以与FGFC逻辑块通信以发起与终端主机的NIC的FGFC。当队列深度降低到低于丢弃水位值时,可以停止FGFC并恢复流的正常传输。

图9A示出了示例性FGFC过程的流程图。在操作期间,在入口边缘交换机处,系统可以监测特定于流的输入队列(操作902)。对于相应的流,系统可以进一步确定FGFC当前是否已开启(操作904)。如果当前针对该流开启了FGFC,则系统可以确定队列深度是否低于丢弃水位(操作906)。如果队列深度尚未降低到丢弃水位以下,则系统可以继续在FGFC模式下基于信用的传输(操作912)。如果队列深度已经降低到低于丢弃水位,则系统可以恢复到流的正常传输(操作914)。回到操作904,如果FGFC当前没有开启,则系统可以确定队列深度是否大于目标水位(操作908)。如果是,系统可以发起流的FGFC(操作910)。边缘交换机中的FGFC逻辑块可以从与流相对应的EFCT条目中获得流标识信息(例如VLAN标签、TCP/IP 5元组、线程ID等),并将FGFC以太网帧发送到终端主机上的NIC。随后,系统可以继续监测输入队列(操作902)。如果队列深度不大于目标水位,则系统可以继续常规数据传输(操作914)。

为了促进FGFC,NIC可以被配置为处理FGFC以太网帧,使得NIC可以与终端主机上正在生成数据的应用或进程通信。FGFC以太网帧的解析和与应用或进程的通信可以在软件、硬件或两者的组合中完成。图9B示出了启用FGFC的NIC的示例。在该示例中,NIC 930可以包括处理器932、存储器934、发射器936、接收器938、FGFC逻辑块940和通信逻辑块942。在操作期间,发射器936和接收器938可以经由边缘链路执行与边缘交换机的通信。通信逻辑块942可以经由数据总线(如高速外围部件互连(PCIe)总线)与NIC 930所在的终端主机的中央处理单元进行通信。NIC 930内部的处理器932和存储器934可以执行数据的本地处理。在操作期间,FGFC逻辑块940可以与边缘交换机一起工作以逐流的方式应用FGFC。另外,FGFC逻辑块940可以经由通信逻辑块942与终端主机的中央处理单元通信,以限制与受制于FGFC的特定流相对应的单个应用或进程的数据注入,从而控制注入到结构的数据量。

如上所述,网络中可能发生两种类型的拥塞。第一种类型是端点拥塞,第二种类型是结构链路拥塞。图10示出了结构链路拥塞的示例。在该示例中,两个中间交换机1002和1006经由结构链路1004进行通信。多个源/目的地对可以经由结构链路1004发送流量。因此,结构链路1004可能会经历拥塞,但通向和远离结构链路1004的链路可能不会拥塞。当这种拥塞发生时,结构链路1004可能看起来是“热点”。

为了缓解结构链路拥塞,交换机可以应用基于逐流信用的动态流控制。在交换机上,如果输入队列开始填满,并且该流的queue_extent值达到预定阈值,则交换机可以生成特殊的ACK来向上游交换机的IFCT通知拥塞。这种特殊的逐跳ACK可以称为“HeadroomACK(净空ACK)”。在收到HeadroomACK后,上游交换机的IFCT可以与下游交换机启动基于信用的流控制。在下游IFCT条目中,可以置位标志上游计量(UM)以指示现在基于信用来计量来自上游交换机的数据传输。HeadroomACK包还可以包括信用值。

当上游交换机收到HeadroomACK时,可以在IFCT的对应条目中置位称为下游计量(DM)的标志。IFCT还可以在IFCT条目中存储有符号的净空字段(headroom field),该净空字段具有HeadroomACK所携带的信用值(即,净空值指示信用的数量)。该净空字段可以表示可以被转发到下游交换机的数据量。这为对应的流建立了基于信用的流控制。如果上游IFCT在流条目中的DM标志已被置位的情况下接收到HeadroomACK,则可以将HeadroomACK所携带的信用值添加到现有的净空值中。

如果净空值不大于零(即,无可用信用),则由上游IFCT接收到的新包可能被阻塞。这些包可以填充该流的输入队列,并可能进而导致IFCT对其上游IFCT发起基于逐流信用的流控制,依此类推。如果净空值大于零,则可以将存储在输入队列中的包出队并转发到下游交换机,并且可以将净空值递减所转发包的大小,这可能导致净空值变为零或负。

由于流被限制向下游IFCT发送新包,下游IFCT的输入队列可以以某种速率开始消耗,取决于其下游拥塞。如上所述,每个流的输入队列可以具有三个队列深度水位值,即,高、目标和丢弃,这些水位值可以用于管理基于信用的流控制。目标水位可以近似为期望流带宽的理想队列深度。其表示有足够的缓冲可用于向下游传输数据。当出现拥塞时,基于信用的流控制机制可以试图将流的queue_extent值保持在该目标水位附近。

如果queue_extent值介于高水位与丢弃水位之间,并且大于目标水位,则在转发包时,可以将略小于该包大小的信用与HeadroomACK一起返回给上游交换机。如果queue_extent的值未超过目标水位,则在转发包时,可以将略大于该包大小的信用与HeadroomACK一起返回给上游交换机。

如果queue_extent深度大于高水位,则在转发包时不返回任何信用。这种机制可以更快地降低queue_extent值,并且通常在第一次检测到拥塞时使用。如果拥塞清除,则流的输入队列可以更快地变为空。当队列深度小于丢弃水位时,可以关闭基于信用的流控制。这可以通过清除IFCT条目中的UM标志并将具有最大信用值的HeadroomACK返回到上游交换机来完成。当被上游IFCT接收时,HeadroomACK会清除条目的DM标志,并关闭针对净空值的流控制。

应注意,在典型的网络拓扑中,可能有多个交换机,并且两个端点之间可能有多个数据路径。在多路径网络中,可以使用各种方法来控制结构链路拥塞。例如,本文档稍后描述的注入限制可以控制整个结构中的最大数据总量。这意味着如果特定结构链路过载,则流可以使用不通过拥塞链路的不同数据路径。可以检测过载链路并为一组流生成“重新路由”ACK。重新路由ACK可以临时阻塞上游交换机中的流,并且当该流的所有ACK都返回时,流可以解除阻塞并可以自由使用结构上的不同路径。然后,基于负载的动态自适应路由机制可以引导前导包使用不同的非拥塞结构链路。进而,整个结构上的负载可以变得更加均衡。

图11示出了在拥塞结构链路上应用基于信用的流控制的示例过程的流程图。在操作期间,交换机系统可以监测其特定于流的输入队列(操作1102)。系统可以确定其IFCT中的条目是否置位了UM标志(操作1104)。如果置位了UM标志,这意味着基于信用的流控制已开启,则系统可以进一步确定queue_extent值是否小于丢弃水位值(操作1106)。如果queue_extent值小于丢弃水位值,则系统可以清除UM标志、关闭基于信用的流控制、并恢复正常的数据传输(操作1014)。如果queue_extent值大于丢弃水位值,则系统可以继续基于信用的流控制(操作1106)。回到操作1104,如果未置位UM标志,这意味着系统处于常规传输模式,则系统可以确定queue_extent值是否大于目标水位值(操作1108)。如果是,系统可以发起基于信用的流控制并向上游交换机发送HeadroomACK(操作1110)。如果queue_extent值不大于目标水位值,则系统可以继续常规数据传输(操作1112)。

通常,流通道交换机可以使用几种拥塞检测和控制机制的组合。例如,可以使用可以从最终结构出口边缘端口返回的端点拥塞通知ACK报告不同程度的端点拥塞。该ACK类型可以用于管理流入严重拥塞的出口边缘端口的流的带宽。该系统还可以使用基于逐跳信用的流控制来管理结构链路拥塞。这种逐跳拥塞管理机制可以有效应对低到中等程度的拥塞,因为响应时间可以比网络级的往返延迟短得多。

如果拥塞很严重,这可能是由大范围的incast引起的,则系统还可以应用逐流的注入限制。可以基于ep_congestion值确定流的注入限制。可以将注入限制与流所穿过的所有IFCT中的flow_extent值进行比较。如果flow_extent大于该限制,则IFCT可以阻塞该流的包从输入队列转发。这种机制可以将整个流上的包转发速率降低到少至单个包。

该系统还可以保护无关流量免受因大量贡献者的incast造成的极端拥塞的影响。在这种情况下,可以将ep_congestion值设置为较高的值,并且可以将流的平均数据量减少到包的一小部分。这可以通过仅在自接收到前一个包的ACK起,经过可编程延迟之后才将单个流的下一个包从入口边缘端口的IFCT释放到结构中来实现。

除了逐流的注入限制之外,系统还可以逐个入口端口测量已注入结构中的数据量,并设置注入限制以对端口可以注入到结构中的数据总量施加上限。由于每个入口端口都可以应用该注入限制,因此系统可以控制结构内所允许的最大数据量。限制进入结构的数据总量可以确保在带宽稀缺的情况下不会发生缓冲区耗尽。因此,不使用带宽减少的路径的流量不会受到影响。

为了促进逐端口的注入限制,IFCT可以维持总流量计数。每次从边缘端口将包注入结构时,总计数都会递增。当返回流的ACK时,总流量计数可以递减。一旦返回了入口端口的所有流的所有ACK(即,当所有流的flow_extent值之和变为零时),总流量计数可以设置为零。

入口公平性

在一些实施例中,INQ块可以包括一组应用分组(APPG)队列、一组流通道队列(FCQ)和一组请求队列(RQ)。APPG队列可以用于在入口端口处提供应用之间的公平性。在结构端口上,正常流量被指派有默认值(例如,APPG=0),以便可以通过轮询在流通道之间进行仲裁。

流通道队列可以确保来自每个流的帧被有序传送,而不会阻塞任何其他流。请求队列可以确保被预定去往特定输出/SQ/VC的帧被有序传送,而不会阻塞其他帧。

当新的报头到达入口边缘端口的INQ块时,可以通过EFCT接口提供其应用分组(APPG)。如果EFCT未提供APPG,则可以将APPG设置为默认值,如0。这可能是正常流量到达结构链路的情况。APPG队列旨在在边缘端口上提供应用之间的公平性,特别是当一个或多个应用使用很少的流通道而另一个应用使用许多流通道时。如果新报头的FC未如fc_queued掩码所指示的那样入队在其APPG队列上,则将在那里入队。每个APPG都可以映射到注入限制ID(ILID)。在一个实施例中,预定的APPG值(例如,127,其中总共可以有128个APPG)可以是被指派给不受制于注入限制的ILID(例如,ILID值8,其中总共可以有8个ILID)的特殊应用分组。每个其他ILID都受制于由IFCT管理的注入限制。ifct_inq.injection_ok值提供了可以出队的ILID掩码。分层仲裁允许ILID之间的帧公平性。8:1轮询仲裁器可以选择ILID。在每个ILID内,128:1轮询仲裁器可以从具有该ILID的那些APPG中进行选择。每个ILID维护自己的优先级指针。如果IFCT确定出队请求将超过注入限制,则它可以断言abort_il标志。在这种情况下,不仅出队进程被中止,而且该ILID的优先级指针也被复位为已中止的APPG。

在结构链路上,正常流量以use_efct==0到达,并且这些报头被放入APPG 0中。侦听、SFLOW和一些环回流量可以以use_efct==1到达结构链路。与边缘链路一样,结构链路受制于注入限制,但IFCT以及适当的APPG到ILID映射一起确保了APPG 0的injection_ok标志保持置位。

一旦选择了APPG,位于该APPG队列头部的FC将被发送到FC队列以进行出队。FC从APPG队列中出队要等到FC出队完成之后才最终完成。如果FC出队由于违反注入限制而被中止,则可以取消该FC的APPG出队;在这种情况下,中止的FC保持在APPQ队列的头部。如果从APPG队列出队成功或因违反流限制而中止,则FC从APPG中出队完成;在这些情况下,只要FC队列不为空,FC就会重新入队到APPG队列的后面。除了FC之外,每个APPG队列条目都包含指示FC出队是否由于违反流限制而中止(abort_fc_dequeue)的位(was_abort)。如果该位被置位,则在选择该FC进行另一次出队尝试之后,虽然其处于FC出队流水线中,但其被推测性重试的优先级较低。

当FC入队在APPG队列上时,使fc_queued掩码的对应位置位。当APPG队列的出队完成时,如果FC未重新入队,则清除对应的位fc_queued。

以这种方式,系统可以具有三级仲裁。首先,系统选择ILID。然后,系统选择APPG,最后从APPG中选择FC。

无流帧:可以为“无流”帧保留特殊的APPG值,例如127。具有flow_id==0的这些帧不属于流并且不受注入限制。对于边缘链路和结构链路上的已注入流量(use_efct==1),EFCT可以被配置为使得“无流”帧被指派给APPG 127。除了将该APPG指派给ILID 8之外,INQ不需要将其与其他APPG区别对待。在一个实施例中,仅ILID的三个位出现在ifct_inq接口上,因此对于这些报头,fc_dq_ilid的值为0。应注意,结构链路上的正常流量(use_efct==0)始终可以指派给APPG 0。这适用于“无流”帧,因为IFCT确保对应于APPG 0的ILID不受注入限制。

推测性重试选择:由于FC出队流水线可能很长(例如,21个周期),并且FC可能只在其APPG队列中出现一次,而它从APPG队列中的出队可能直到FC出队流水线结束时才能最终完成,此时很少的流通道处于活动状态,通常可能没有任何东西可以从APPG队列中出队。在这种情况下,系统可以选择FC出队流水线中的FC进行重试。如果流水线中的FCQ当前非空,则流水线中的流通道有资格重试。如果流通道的最后一次出队尝试由于流限制而中止,则其优先级低于其他流通道。从优先的一组有资格的流通道中,选择最近最少选择的流通道进行重试。

与流通道和请求队列不同,有时系统可能会将两个流通道(FC)入队在APPG队列中——一个来自新的报头,一个来自FC出队流水线的末端。如果链表仅支持单个入队,则系统可以维护入队缓存,在一个实施例中,该缓存可以具有32个条目。其FC不在APPG队列中的新报头可以优先入队。入队缓存中的FC可以具有第二优先级,并且在新报头的FC不需要入队时进行入队。来自FC出队流水线末端的FC可以具有最低优先级,并且如果其不能立即入队,则将其写入入队缓存。为了发起FC出队操作,系统可以使用入队缓存中的信用。如果系统不需要入队在管道末端(abort_il、或成功出队但FCQ为空)或当缓存中的条目入队在APPG队列上时,返回该信用。如果由于流限制(abort_fc_dequeue),许多FC处于活动状态并被备份,则系统可能会暂停FC出队流水线一段时间。然而,这只能在APPG队列填满FC时创建。一旦所有活动FC都在APPG中,新报头就不会创建入队请求。

在一个实施例中,可以有8个注入限制,并且这些限制由3位ILID标识。ILID是根据从7位APPG值索引的INQ块中的映射创建的。ILID与报头一起传递并用于选择每个ILID的injected_data值,该值是流的所有injected_data值与匹配该ILID的injection_limit_id之和。每个ILID具有单播的injected_data值和多播的mcast_injected_data值。每个ILID还可以具有单播限值和多播的另一限值。这些限值与对应的injected_data_sum值进行比较。如果在处理报头时injected_data值超过限制,则可以将abort_il信号与abort_fq_dequeue一起断言。当abort_il被断言时,INQ仲裁器的状态可以返回到它在该报头出队之前的值,使得它就是下一个出现在该ILID的IFCT中的帧。

这八个injection_ok[7:0]信号(每个ILID一个)可以仅在对应限值大于或等于单播和多播两者的injected_data值时才被断言。INQ使用这些信号来决定哪些APPG队列应当主动将帧从FCQ中出队。在一个实施例中,即使当单播或多播injected_data值超过其注入限制时,injection_ok[0]也可以被设置为“T”(真)。IFCT仍然可以使用abort_il信号来中止报头,因此报头不会被转发,但INQ块不会停止试图将属于ILID==0的报头出队。这可以容纳有损以太网帧和包,因为如果FQ深度或PCP深度达到水位,则IFCT将丢弃报头,FQ深度或PCP深度达到水位使得必须这样做。只有在INQ将可能需要丢弃的报头出队时,它才会执行这种条件丢弃功能。IFCT不会丢弃无损流量。通过防止可能被abort_il信号中止的不必要的报头出队,系统可以为仍低于其注入限制的其他ILID释放流水线。

这八个多播限制可以在RTFIFCTCFGMCASTINJECTIONLIMIT

----__中定义。当ILID超过mcast_injection_limit值时,其可以阻塞mcast_injected_data。

在一些实施例中,系统可以为单播流量提供更复杂的注入控制。与多播一样,每个单播ILID都可以有自己的已注入数据值。它们可以以例如24字节的单位起作用,以匹配逐流的已注入数据值。与它们进行比较的限制可以是动态的,取决于哪些ILID处于活动状态。这允许限制单个节点对整个结构的最大数据贡献,而且还允许在该节点上运行的单个应用能够在独立运行或者是使用该结构的唯一应用时获得该数据限制的更大份额。

可以存在NODE_LIMIT值,该值是来自该结构入口边缘的所有单播数据的绝对限制。活动ILID限制的总和可以等于该NODE_LIMIT值。还可以存在一组RATIO寄存器,每个ILID一个。可以将其中之一设置为最大值。其他寄存器可以对照该最大ILID与其同最大值相比的预期注入数据成比例地进行设置。然后这些RATIO寄存器可以相互比较。在任何给定时间点,只有一些ILID的是活动的(活动ILID具有非零injected_data值)。可以由仅针对活动的ILID的逻辑生成一组注入限制,这些注入限制加起来就是NODE_LIMIT。可以从总和中排除非活动注入限制。这些活动注入限制的值将具有与其RATIO CSR定义的相同的相对比率。

每个ILID也具有绝对限制,该绝对限制可以对高优先级数据使用以保护低优先级数据。其也可以用于清道夫流量分类,再次以保护其他分类。每个ILID将受到绝对限制和由RATIO和NODE LIMIT CSR生成的动态限制中的较低者的限制。

如果流超过其注入限制,则仍可能在必要时出于任何丢弃条件而丢弃帧。如果帧被丢弃,则应忽略over_injection_lim信号。

FORCE_INJECTION_OK_0已添加到IFCT的寄存器中,以防止阻塞从ILID==0的FCQ出队的帧。这通常可以在结构链路的IFCT寄存器中设置,以禁用对已对照其入口边缘链路的IFCT注入限值检查过的任何帧的任何注入限制控制。

如前所述,APPG队列分配可以在EFCT中进行。当多个应用共享一个节点并且它们对流队列的使用非常不同时,可以提供APPG队列以提高对结构的访问的公平性。从7位索引中可以选择128个APPG队列。这可以使用FTAG生成。每个FTAG都可以被配置为访问多个APPG队列。可以通过将FTAG的APPG_BASE分量添加到从vni_ext输入获得的另一个索引来生成7位APPG索引。对于门户帧,这可以是16位VNI值。对于L2桥接帧,这可以是12位VLAN值;并且对于IPv4和IPv6,这可以是流标签。可以对照FTAG,将CRC哈希值分别用于来自L2_VLAN_USE_CRC、IPV4_USE_CRC和FLOW_IDENT_USE_CRC设置中的L2、IPv4和IPV6包。

APPG_INDEX_SIZE值可以用于决定要将多少较低位添加到APPG_BASE。可以由软件来避免不同FTAG的APPG队列彼此重叠,但这并不被禁止,而且取决于应用,可能会在FC之间提供更公平的仲裁。

在一个实施例中,可以为“no_flow”帧保留APPG队列索引127。这些是使用FTAG的帧,其中R_TF_OFCT_CFG_FTAG[16]寄存器中的DISABLE_FLOW_CHANNELS被置位。如果由于R_TF_OFCT_CFG_FTAG[16]寄存器中的DISCARD_FTAG置位或HIGH_RATE_PUT置位而丢弃帧,并且非门户帧到达,则APPG也被强制为127,并生成no_flow flow_id。

如果新计算的APPG队列索引恰好是127,而flow_id不是no_flow,则可以强制APPG队列索引到126。这样做是为了保证APPG队列127可以排他地包含no_flow flow_id报头。

通常不应将单个流队列(FQ)指派给多于一个APPG队列。然而,控制寄存器的重新配置可能导致匹配逻辑将单个流引导到多于一个APPG队列。为了防止这种情况发生,当对主动接收来自链路的帧的交换机进行更改时,可以使用以下过程。更改特定FTAG的APPG配置的过程如下。

在R_TF_OFCT_CFG_FTAG[16]中置位DISCARD_FTA以将所有到达变化的FTAG的帧标记为丢弃,同时将它们标记为no_flow帧。任何到达的新帧都不会分配或匹配流并被标记为丢弃,因此不会在IFCT中转发。其报头FTAG值没有改变。

接下来,系统可以使用OFCT中的“Table_Test”功能来等待所有旧的FTAG值从流表中消失。这可能需要一些时间才能关闭所有旧流。

然后系统可以将FTAG的APPG_BASE或APPG_INDEX_SIZE更改为新值。

最后,当所有控制寄存器都被更新后,清除DISCARD_FTAG。

图12A示出了促进入口公平性的示例性输入队列逻辑块。在该示例中,输入队列(INQ)逻辑块1206可以耦接到EFCT逻辑块1202和IFCT逻辑块1204(参见例如图5A中的架构)。当EFCT逻辑块1202接收到包时,其可以将该包映射到流通道,并将该流通道映射到APPG。然后可以将包的报头入队在INQ逻辑块1206中。在一个实施例中,INQ逻辑块1206中的排队和仲裁被布置为三级层次结构。如该示例中所示,属于流通道的包被缓冲在逐流的队列1203中。同一APPG的流在该APPG下被分组在一起,该APPG属于一组APPG 1205。因为每个APPG都映射到一个ILID,所以层次结构的最高级和第一级是ILID 1207。当执行仲裁时,IFCT逻辑块1204可以在所有ILID 1207(在该示例中有8个ILID)之间执行第一级调度。每个ILID的服务可以以符合与每个ILID相对应的注入限制的方式完成。在一个实施例中,系统可以在所有ILID 1207之间执行轮询调度。接下来,在每个ILID内,系统可以在APPG 1205(在该示例中有128个APPG)之间执行第二级调度,这些APPG都受制于与该ILID相对应的注入限制。然后,系统可以在单个APPG中排队的所有流通道之间执行第三级调度。这种三级分层仲裁过程可以确保生成流的应用和进程之间的入口公平性。一旦包的报头出队,系统就可以产生将包的数据有效载荷转发到输出缓冲区的对应请求,并且该请求被发送到请求队列1208,在该请求队列处,该请求可以被授权。

图12B示出了强制执行入口公平性的示例性入队-出队过程的流程图。在操作期间,系统在EFCT处接收包(操作1220)。EFCT然后可以确定包的流通道和APPG(操作1222)。在一个实施例中,APPG可以由与流通道相关联的FTAG和VNI来确定。系统可以进一步将APPG映射到ILID,该ILID指向应用于APPG的一组注入限制(操作1224)。接下来,系统可以将包的报头入队在对应的流通道队列中(操作1226)。随后,系统可以执行三级分层仲裁,从ILID开始到APPG然后到流通道,并且将报头和缓冲的包出队(操作1228)。系统然后可以将包转发到交叉开关交换机(操作1230)。

图12示出了促进流通道(例如,其可以对应于图4A中的交换机406)的示例性边缘交换系统。在该示例中,交换机1202可以包括多个通信端口,如端口1220。每个端口可以包括发射器和接收器。交换机1202还可以包括处理器1204、存储设备1206和流通道交换逻辑块1208。流通道交换模块1208可以耦接到所有通信端口并且可以进一步包括交叉开关交换机1210、EFCT逻辑块1212、IFCT逻辑块1214和OFCT逻辑块1216。

交叉开关交换机1210可以包括一个或多个交叉开关交换机芯片,该交叉开关交换机芯片可以被配置为在通信端口之间转发数据包和控制包(如ACK包)。EFCT逻辑块1212可以处理从边缘链路接收的包并且基于包中的一个或多个报头字段将接收的包映射到对应的流。另外,EFCT逻辑块1212可以组装FGFC以太网帧,该以太网帧可以传送到终端主机以控制由各个进程或线程注入的数据量。IFCT逻辑块1214可以包括IFCT,并且响应于控制包(如端点拥塞通知ACK和基于结构链路信用的流控制ACK)来执行各种流控制方法。OFCT逻辑块1216可以包括存储OFCT的存储器单元,并且与另一个交换机的IFCT逻辑块通信以在包被转发到下一跳交换机时更新包的流ID。

图13示出了促进流通道(例如,其可以对应于图4A中的交换机408和430)的示例性中间交换机系统。在该示例中,交换机1302可以包括多个通信端口,如端口1320。每个端口可以包括发射器和接收器。交换机1302还可以包括处理器1304、存储设备1306和流通道交换逻辑块1308。流通道交换模块1308可以耦接到所有通信端口并且可以进一步包括交叉开关交换机1310、EFCT逻辑块1312、IFCT逻辑块1314和OFCT逻辑块1316。

交叉开关交换机1310可以包括一个或多个交叉开关交换机芯片,该交叉开关交换机芯片可以被配置为在通信端口之间转发数据包和控制包(如ACK包)。EFCT逻辑块1312可以处理从边缘链路接收的包并且基于包中的一个或多个报头字段将接收的包映射到对应的流。另外,EFCT逻辑块1312可以组装FGFC以太网帧,该以太网帧可以传送到终端主机以控制由各个进程或线程注入的数据量。IFCT逻辑块1314可以包括IFCT,并且响应于控制包(如端点拥塞通知ACK和基于结构链路信用的流控制ACK)来执行各种流控制方法。OFCT逻辑块1316可以包括存储OFCT的存储器单元,并且与另一个交换机的IFCT逻辑块通信以在包被转发到下一跳交换机时更新包的流ID。

总之,本公开描述了一种数据驱动的智能联网系统,该系统可以通过快速、有效的拥塞控制来适应动态流量。该系统可以维护各个包流的状态信息,这些信息可以基于已注入数据而动态建立或释放。包流可以映射到其第2层、第3层或其他特定于协议的报头信息。在到达交换机时,可以为每个流提供特定于流的输入队列。相应流的包在到达网络的出口点后被确认,并且确认包沿相同的数据路径反向发送回流的入口点。因此,每个交换机都可以获得每个流的状态信息,并以逐流的方式执行流控制。这种流控制允许更好地利用网络,同时提供多功能的流量工程和拥塞控制能力。

上述方法和过程可以由硬件逻辑块、模块或装置来执行。硬件逻辑块、模块或装置可以包括但不限于专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)、在特定时间执行代码的专用或共享处理器、以及现在已知或以后开发的其他可编程逻辑设备。在激活硬件逻辑块、模块或装置时,这些硬件模块或装置执行其中所包括的方法和过程。

本文描述的方法和过程还可以体现为代码或数据,该代码或数据可以存储在存储设备或计算机可读存储介质中。当处理器读取并执行存储的代码或数据时,处理器可以执行这些方法和过程。

本发明实施例的先前描述仅出于说明和描述的目的而呈现。所述描述并非旨在是穷举的或将本发明限制为所公开的形式。相应地,对于本领域普通技术人员而言,许多的修改和变化将是显而易见的。另外,以上公开并非旨在限制本发明。本发明的范围由所附权利要求限定。

57页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:涉及通信的用户设备和网络节点

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!