一种cpu和gpu数据交互的方法、装置、设备及可读介质

文档序号:1798539 发布日期:2021-11-05 浏览:30次 >En<

阅读说明:本技术 一种cpu和gpu数据交互的方法、装置、设备及可读介质 (Method, device and equipment for data interaction between CPU and GPU and readable medium ) 是由 高波 于 2021-07-16 设计创作,主要内容包括:本发明提供了一种CPU和GPU数据交互的方法、装置、设备及可读介质,该方法包括:将CPU和GPU通过嵌入在全局共享LLC中的全局一致性控制器连接在一起;响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求;响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器;全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求。通过使用本发明的方案,能够解决GPU获取CPU缓存的数据块时都必须从CPU中检索的问题,能够提高数据处理速度。(The invention provides a method, a device, equipment and a readable medium for data interaction between a CPU and a GPU, wherein the method comprises the following steps: connecting a CPU and a GPU together through a global consistency controller embedded in a global shared LLC; responding to a request of data interaction received by a local consistency controller of a CPU and/or a GPU, and judging whether the local consistency controller can complete the request; in response to the local coherence controller being unable to complete the request, forwarding the request to the global coherence controller; the global coherence controller sends the received request to a local coherence controller of another device to complete the coherence request. By using the scheme of the invention, the problem that the GPU needs to retrieve the data block cached by the CPU when acquiring the data block can be solved, and the data processing speed can be improved.)

一种CPU和GPU数据交互的方法、装置、设备及可读介质

技术领域

本领域涉及计算机领域,并且更具体地涉及一种CPU和GPU数据交互的方法、装置、设备及可读介质。

背景技术

现在的服务器不仅包含传统的CPU(中央处理器),还包含各种各样的加速器,其中最主要的加速器是图形处理器(GPU)。CPU和GPU可以紧密集成在一起,共享相同的物理内存,每个CPU和GPU可以有多个核心,每个核心可以有私有的L1缓存(一级缓存)和共享的L2缓存(2级缓存)。在共享内存系统下CPU和GPU的缓存如何保持一致性是设计需要重点考虑的问题之一。多芯片系统中实现CPU-GPU一致性的一个简单方法是有选择的GPU缓存。任何映射到CPU内存的数据都不会缓存到GPU中。此外,GPU内存中当前缓存在CPU中的数据也不会缓存在GPU中。为了执行这个策略,GPU维护一个粗粒度的远程目录,用于记录CPU当前缓存的数据。每当CPU访问GPU内存块时,该粗粒度区域就被插入到远程目录中。如果GPU正在缓存这个缓存行,那么这个缓存行将被冲刷掉。远程目录中的任何位置都不会缓存到GPU中。但是,上述简单的方案可能会带来很大的损失,因为CPU中缓存的任何位置都必须从CPU中检索。

发明内容

有鉴于此,本发明实施例的目的在于提出一种CPU和GPU数据交互的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够解决GPU获取CPU缓存的数据块时都必须从CPU中检索的问题,能够提高数据处理速度。

基于上述目的,本发明的实施例的一个方面提供了一种CPU和GPU数据交互的方法,包括以下步骤:

将CPU和GPU通过嵌入在全局共享LLC中的全局一致性控制器连接在一起;

响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求;

响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器;

全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求。

根据本发明的一个实施例,数据交互的请求包括CPU写数据、CPU读数据、GPU写数据和GPU读数据。

根据本发明的一个实施例,方法还包括:

响应于接收到CPU写第一数据的请求,CPU向CPU的本地一致性控制器发送第一数据的Upg请求;

CPU的本地一致性控制器将Upg请求转发到全局一致性控制器;

全局一致性控制器响应Ack给CPU的本地一致性控制器;

CPU的本地一致性控制器响应Ack给CPU以将第一数据更新到CPU的本地缓存。

根据本发明的一个实施例,将请求转发到所述全局一致性控制器包括:响应于接收到GPU读第一数据的请求,GPU向GPU的本地L2控制器发送第一数据的GetV请求;GPU的本地L2控制器将GetV请求转发到全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:全局一致性控制器判断第一数据的数据块在CPU中是否处于修改状态;响应于第一数据的数据块在CPU中处于修改状态,全局一致性控制器向CPU的本地一致性控制器发送Fwd-GetS请求;CPU的本地一致性控制器将Fwd-GetS请求转发给包含第一数据的数据块的CPU的L1;CPU的L1将包含第一数据的数据块通过CPU的本地一致性控制器转发到全局一致性控制器;全局一致性控制器将包含第一数据的数据块转发到GPU中。

根据本发明的一个实施例,将请求转发到所述全局一致性控制器包括:响应于接收到GPU写第二数据的请求,GPU向GPU的本地L2控制器发出GetO请求;GPU的本地L2控制器将GetO请求转发到全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:判断第二数据是否缓存在CPU中;响应于第二数据缓存在CPU中,全局一致性控制器向CPU的本地一致性控制器发送无效数据请求;在CPU中的第二数据缓存无效后,全局一致性控制器将第二数据发给GPU。

根据本发明的一个实施例,将请求转发到所述全局一致性控制器包括:响应于接收到CPU读第二数据的请求,CPU向CPU的本地一致性控制器发送GetS请求;CPU的本地一致性控制器将GetS请求转发给全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:判断第二数据的数据块是否在GPU中;响应于第二数据的数据块在GPU中,全局一致性控制器向GPU的本地L2控制器发送写回脏块的请求;GPU的本地L2控制器将写回脏块的请求发送到GPU的本地L1控制器;GPU的本地L1控制器将第二数据和脏块写回给GPU的本地L2控制器;GPU的本地L2控制器把第二数据和脏块写回全局一致性控制器;全局一致性控制器把第二数据和脏块转发给CPU。

根据本发明的一个实施例,还包括:

响应于第二数据不缓存在CPU中,GPU从内存中读取第二数据并写到GPU的缓存中。

本发明的实施例的另一个方面,还提供了一种CPU和GPU数据交互的装置,装置包括:

连接模块,连接模块配置为将CPU和GPU通过嵌入在全局共享LLC中的全局一致性控制器连接在一起;

判断模块,判断模块配置为响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求;

转发模块,转发模块配置为响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器;

发送模块,发送模块配置为全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求。

本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:

至少一个处理器;以及

存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。

本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。

本发明具有以下有益技术效果:本发明实施例提供的CPU和GPU数据交互的方法,通过将CPU和GPU通过嵌入在全局共享LLC中的全局一致性控制器连接在一起;响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求;响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器;全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求的技术方案,能够解决GPU获取CPU缓存的数据块时都必须从CPU中检索的问题,能够提高数据处理速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的具有一致性域的CPU和GPU数据交互的方法的示意性流程图;

图2为根据本发明一个实施例的具有多缓存一致性域的异构系统框图的示意图;

图3为根据本发明一个实施例的具有一致性域的CPU和GPU数据交互的装置的示意图;

图4为根据本发明一个实施例的计算机设备的示意图;

图5为根据本发明一个实施例的计算机可读存储介质的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

基于上述目的,本发明的实施例的第一个方面,提出了一种CPU和GPU数据交互的方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示,该方法可以包括以下步骤:

S1将CPU和GPU通过嵌入在全局共享LLC(最后一级缓存)中的全局一致性控制器连接在一起。

CPU实现MSI目录协议,GPU实现LRCC协议(即GPU负责使自己的缓存块失效),全局一致性控制器用来处理设备的本地一致性控制器发起的一致性请求,通过协议桥将CPU和GPU的本地一致性控制器和全局一致性控制器连接在一起,协议桥作为本地和全局一致性控制器接口之间的翻译,承担选择适当的全局一致性请求发送到全局一致性控制器,并恰当地解释全局一致性响应到本地一致性控制器的作用。

S2响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求。

数据交互的请求包括CPU写数据、CPU读数据、GPU写数据和GPU读数据,如果接受到数据交互请求时,尝试在本设备内的本地一致性控制器完成该请求。

S3响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器。

S4全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求。

如果本地不能完全满足的请求通过协议桥转发到全局一致性控制器,全局一致性控制器将请求转发到其他设备的本地一致性控制器。在为转发的请求提供服务后,该本地控制器向全局一致性控制器作出响应,全局一致性控制器又将响应转发给请求者,参考图2的系统框图。

本发明的技术方案通过协议桥作为本地和全局一致性控制器接口之间的翻译,承担选择适当的全局一致性请求发送到全局一致性控制器,并恰当地解释全局一致性响应到本地一致性控制器的作用,通过全局一致性控制器来处理设备的本地一致性控制器发起的一致性请求,通过层次化的一致性协议维护CPU和GPU异构系统的缓存一致性,解决GPU获取CPU缓存的数据块时都必须从CPU中检索的问题,提高数据处理速度。

通过本发明的技术方案,能够解决GPU获取CPU缓存的数据块时都必须从CPU中检索的问题,能够提高数据处理速度。

在本发明的一个优选实施例中,数据交互的请求包括CPU写数据、CPU读数据、GPU写数据和GPU读数据。

在本发明的一个优选实施例中,方法还包括:

响应于接收到CPU写第一数据的请求,CPU向CPU的本地一致性控制器发送第一数据的Upg请求(更新请求);

CPU的本地一致性控制器将Upg请求转发到全局一致性控制器;

全局一致性控制器响应Ack(确认字符)给CPU的本地一致性控制器;

CPU的本地一致性控制器响应Ack给CPU以将第一数据更新到CPU的本地缓存。尽管GPU中缓存有第一数据,全局一致性控制器也不需要将Upg请求转发给GPU,这是因为GPU上的LRCC协议保证第一数据会被自我失效掉。

在本发明的一个优选实施例中,将请求转发到所述全局一致性控制器包括:响应于接收到GPU读第一数据的请求,GPU向GPU的本地L2控制器发送第一数据的GetV请求(请求有效数据的请求);GPU的本地L2控制器将GetV请求转发到全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:全局一致性控制器判断第一数据的数据块在CPU中是否处于修改状态;响应于第一数据的数据块在CPU中处于修改状态,全局一致性控制器向CPU的本地一致性控制器发送Fwd-GetS请求(转发请求共享数据的请求);CPU的本地一致性控制器将Fwd-GetS请求转发给包含第一数据的数据块的CPU的L1;CPU的L1将包含第一数据的数据块通过CPU的本地一致性控制器转发到全局一致性控制器;全局一致性控制器将包含第一数据的数据块转发到GPU中。

在本发明的一个优选实施例中,将请求转发到所述全局一致性控制器包括:响应于接收到GPU写第二数据的请求,GPU向GPU的本地L2控制器发出GetO请求(请求所有权的请求);GPU的本地L2控制器将GetO请求转发到全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:判断第二数据是否缓存在CPU中;响应于第二数据缓存在CPU中,全局一致性控制器向CPU的本地一致性控制器发送无效数据请求;在CPU中的第二数据缓存无效后,全局一致性控制器将第二数据发给GPU。

在本发明的一个优选实施例中,将请求转发到所述全局一致性控制器包括:响应于接收到CPU读第二数据的请求,CPU向CPU的本地一致性控制器发送GetS请求(请求共享数据的请求);CPU的本地一致性控制器将GetS请求转发给全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:判断第二数据的数据块是否在GPU中;响应于第二数据的数据块在GPU中,全局一致性控制器向GPU的本地L2控制器发送写回脏块的请求;GPU的本地L2控制器将写回脏块的请求发送到GPU的本地L1控制器;GPU的本地L1控制器将第二数据和脏块写回给GPU的本地L2控制器;GPU的本地L2控制器把第二数据和脏块写回全局一致性控制器;全局一致性控制器把第二数据和脏块转发给CPU。

在本发明的一个优选实施例中,还包括:

响应于第二数据不缓存在CPU中,GPU从内存中读取第二数据并写到GPU的缓存中。

通过本发明的技术方案,能够解决GPU获取CPU缓存的数据块时都必须从CPU中检索的问题,能够提高数据处理速度。

需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。

基于上述目的,本发明的实施例的第二个方面,提出了一种CPU和GPU数据交互的装置,如图3所示,装置200包括:

连接模块,连接模块配置为将CPU和GPU通过嵌入在全局共享LLC中的全局一致性控制器连接在一起;

判断模块,判断模块配置为响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求;

转发模块,转发模块配置为响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器;

发送模块,发送模块配置为全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求。

基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图4示出的是本发明提供的计算机设备的实施例的示意图。如图4所示,本发明实施例包括如下装置:至少一个处理器S21;以及存储器S22,存储器S22存储有可在处理器上运行的计算机指令S23,指令由处理器执行时实现以下方法:

将CPU和GPU通过嵌入在全局共享LLC中的全局一致性控制器连接在一起;

响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求;

响应于本地一致性控制器不能够完成请求,将请求转发到全局一致性控制器;

全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求。

在本发明的一个优选实施例中,数据交互的请求包括CPU写数据、CPU读数据、GPU写数据和GPU读数据。

在本发明的一个优选实施例中,响应于CPU和/或GPU的本地一致性控制器接收到数据交互的请求,判断本地一致性控制器是否能够完成请求包括:

响应于接收到CPU写第一数据的请求,CPU向CPU的本地一致性控制器发送第一数据的Upg请求;

CPU的本地一致性控制器将Upg请求转发到全局一致性控制器;

全局一致性控制器响应Ack给CPU的本地一致性控制器;

CPU的本地一致性控制器响应Ack给CPU以将第一数据更新到CPU的本地缓存。

在本发明的一个优选实施例中,方法还包括:

响应于接收到GPU读第一数据的请求,GPU向GPU的本地L2控制器发送第一数据的GetV请求;

GPU的本地L2控制器将GetV请求转发到全局一致性控制器;

全局一致性控制器判断第一数据的数据块在CPU中是否处于修改状态;

响应于第一数据的数据块在CPU中处于修改状态,全局一致性控制器向CPU的本地一致性控制器发送Fwd-GetS请求;

CPU的本地一致性控制器将Fwd-GetS请求转发给包含第一数据的数据块的CPU的L1;

CPU的L1将包含第一数据的数据块通过CPU的本地一致性控制器转发到全局一致性控制器;

全局一致性控制器将包含第一数据的数据块转发到GPU中。

在本发明的一个优选实施例中,将请求转发到所述全局一致性控制器包括:响应于接收到GPU写第二数据的请求,GPU向GPU的本地L2控制器发出GetO请求;GPU的本地L2控制器将GetO请求转发到全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:判断第二数据是否缓存在CPU中;响应于第二数据缓存在CPU中,全局一致性控制器向CPU的本地一致性控制器发送无效数据请求;在CPU中的第二数据缓存无效后,全局一致性控制器将第二数据发给GPU。

在本发明的一个优选实施例中,将请求转发到所述全局一致性控制器包括:响应于接收到CPU读第二数据的请求,CPU向CPU的本地一致性控制器发送GetS请求;CPU的本地一致性控制器将GetS请求转发给全局一致性控制器;

所述全局一致性控制器将接收到的请求发送到另一个设备的本地一致性控制器完成一致性请求包括:判断第二数据的数据块是否在GPU中;响应于第二数据的数据块在GPU中,全局一致性控制器向GPU的本地L2控制器发送写回脏块的请求;GPU的本地L2控制器将写回脏块的请求发送到GPU的本地L1控制器;GPU的本地L1控制器将第二数据和脏块写回给GPU的本地L2控制器;GPU的本地L2控制器把第二数据和脏块写回全局一致性控制器;全局一致性控制器把第二数据和脏块转发给CPU。

在本发明的一个优选实施例中,还包括:

响应于第二数据不缓存在CPU中,GPU从内存中读取第二数据并写到GPU的缓存中。

基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图5示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图5所示,计算机可读存储介质S31存储有被处理器执行时执行如上方法的计算机程序S32。

此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。

此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于Rust的多核RISCV-CPU模拟器

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!