电子机架及向电子机架提供液体冷却的方法

文档序号:34029 发布日期:2021-09-24 浏览:23次 >En<

阅读说明:本技术 电子机架及向电子机架提供液体冷却的方法 (Electronic rack and method of providing liquid cooling to an electronic rack ) 是由 邵帅 高天翼 于 2020-12-24 设计创作,主要内容包括:本公开涉及一种电子机架,以及向电子机架提供液体冷却的方法。电子机架包括堆叠布置的刀片服务器的阵列。每个刀片服务器包括一个或多个服务器,以及每个服务器包括一个或多个处理器以提供数据处理服务。电子机架包括冷却剂分配单元(CDU)和机架管理单元(RMU)。CDU向处理器提供冷却液并接收携带来自处理器的热量的冷却液。CDU包括液体泵以泵送冷却液。RMU被配置为管理电子机架内的组件,诸如CDU等的操作。RMU包括控制逻辑,以基于一个或多个参数以及加速服务器和主机服务器的温度和功耗之间的关联,确定最佳泵速,以最小化泵、加速服务器和主机服务器的总功耗。然后,RMU基于最佳泵速控制液体泵。(The present disclosure relates to an electronics rack, and a method of providing liquid cooling to an electronics rack. The electronics rack includes an array of blade servers arranged in a stack. Each blade server includes one or more servers, and each server includes one or more processors to provide data processing services. The electronics rack includes a Coolant Distribution Unit (CDU) and a Rack Management Unit (RMU). The CDU provides cooling fluid to the processor and receives cooling fluid carrying heat from the processor. The CDU includes a liquid pump to pump the cooling liquid. The RMU is configured to manage the operation of components within the electronics rack, such as the CDU. The RMU includes control logic to determine an optimal pump speed based on one or more parameters and an association between the temperature and power consumption of the acceleration server and the host server to minimize a total power consumption of the pump, the acceleration server, and the host server. The RMU then controls the liquid pump based on the optimal pump speed.)

电子机架及向电子机架提供液体冷却的方法

技术领域

本发明的实施例一般涉及数据中心。更特别地,本发明的实施例涉及数据中心的异构计算电子机架中的液体冷却解决方案的最佳控制。

背景技术

高功率密度芯片和处理器的热管理是关键问题,尤其是随着诸如CPU(中央处理单元)和GPU(图形处理单元)的高端芯片的功率密度的增加。在冷却系统设计中使用冷却设备,用于通过排除由芯片生成的热量维持芯片的热状况。如果温度超过热规范的限制,则芯片可能不正常运转,并且可能发生节流。另外,通过在芯片工作时为其提供适当或更好的热状况,可以实现更好的性能或更少的功耗。

通过诸如数据中心GPU的高功率密度处理器使得能够实现高性能机器学习计算。常规的空气冷却解决方案正在努力处理此类GPU机架中的热管理挑战。相反,冷却板液体冷却解决方案提供好得多的冷却性能并且节省冷却基础设施中的能量消耗。

发明内容

本申请公开了一种数据中心的电子机架,一种用于确定液体泵的最佳泵速以向数据中心的电子机架提供液体冷却的方法以及一种非暂时性机器可读介质。

根据本申请的实施例的第一方面,提供了一种数据中心的电子机架,包括:多个刀片服务器,所述多个刀片服务器堆叠地布置,每个刀片服务器包括一个或多个主机服务器和一个或多个加速服务器,每个服务器包括一个或多个处理器以提供数据处理服务;冷却剂分配单元CDU,所述CDU用于向所述处理器供应冷却液并接收携带从所述处理器交换的热量的所述冷却液,其中所述CDU包括液体泵以泵送所述冷却液以及泵控制器以控制所述液体泵的泵速;以及机架管理单元RMU,所述RMU耦接到所述刀片服务器和所述CDU,其中所述RMU包括控制逻辑,所述控制逻辑被配置为:确定所述一个或多个加速服务器和所述一个或多个主机服务器的处理器操作温度与功耗之间的关联;获得与所述电子机架的操作相关联的一个或多个参数;基于所述一个或多个参数以及所述加速服务器和所述主机服务器的处理器操作温度与功耗之间的关联确定泵速,以及基于确定的所述泵速,经由所述泵控制器控制所述液体泵的泵速。

根据本申请的实施例的第二方面,提供了一种用于确定液体泵的最佳泵速以向数据中心的电子机架提供液体冷却的方法,所述方法包括:对于具有多个刀片服务器的电子机架,确定一个或多个加速服务器和一个或多个主机服务器的处理器操作温度与功耗之间的关联,每个刀片服务器包括一个或多个服务器以及每个服务器包括一个或多个处理器以提供数据处理服务;获得与所述电子机架的操作相关联的一个或多个参数;基于所述一个或多个参数以及所述加速服务器和所述主机服务器的处理器操作温度与功耗之间的关联确定泵速;以及基于确定的所述泵速,经由泵控制器控制液体泵的泵速。

根据本申请的实施例的第三方面,提供了一种非暂时性机器可读介质,具有存储在其中的指令,所述指令在由处理器执行时使得所述处理器执行如本申请的实施例的第二方面所述的方法。

附图说明

本公开的实施例通过示例的方式示出并且不限于附图中的图,在附图中相同的附图标记表示相似的元件。

图1是示出根据一个实施例的数据中心系统的示例的框图。

图2是示出根据一个实施例的电子机架的示例的框图。

图3是示出根据另一实施例的电子机架的示例的框图。

图4是示出根据一个实施例的服务器的功耗、温度与使用率之间的示例相关性的图示。

图5是示出根据一个实施例的在异构计算环境中确定最佳泵速的过程的流程图。

图6是示出根据另一实施例的在异构计算环境中确定最佳泵速的过程的流程图。

具体实施方式

将参考以下讨论的细节来描述本发明的各个实施例和方面,并且附图将示出各个实施例。下面的描述和附图是对本发明的说明,而不应被解释为限制本发明。描述了许多具体细节以提供对本发明的各个实施例的透彻理解。然而,在特定情况下,为了提供对本发明实施例的简明讨论,没有描述公知或常规的细节。

说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性可包括在本公开的至少一个实施例中。在说明书中的各个地方出现的短语“在一个实施例中”不一定都指同一实施例。

本公开的实施例聚焦于使液体冷却的IT机架的功耗最小化。液体冷却的IT机架可包括液体冷却的CPU服务器和液体冷却的GPU服务器。IT机架可包括液体冷却系统,液体冷却系统包括诸如液体冷却泵的液体冷却设备和用于将液体冷却分配给IT机架的服务器的液体冷却分配通道(例如,液体冷却歧管)。在一些实施例中,CPU服务器可以充当用于GPU服务器的主机服务器(例如,CPU服务器可以将操作委托给一个或多个对应的GPU服务器)。特定计算任务可能需要异构计算(即,使用CPU和GPU服务器两者的资源)以提高计算任务的效率。在一些实施例中,可以在IT机架上执行测试运行(或委托测试)以收集与IT机架的功耗和操作效率有关的IT机架的操作参数。参数可以存储在控制器中,并且可以在执行液体泵的最佳泵速的计算中用作常数。最佳泵速可以最小化IT机架的服务器和冷却设备的功耗。特别地,通过考虑1)GPU服务器的功耗、2)CPU服务器的功耗以及3)冷却设备的功耗,最佳泵速可以最小化IT机架的功耗,所有这些都鉴于液体泵的泵速以及GPU服务器和CPU服务器的使用率。

根据一个方面,数据中心的电子机架包括堆叠布置的刀片服务器的阵列。每个刀片服务器可包括主机服务器和/或加速服务器,以及每个服务器可包括处理器以提供数据处理服务。电子机架还可包括冷却剂分配单元(CDU)和机架管理单元。CDU可向处理器供应冷却液并接收携带从处理器交换的热量的冷却液。CDU可包括泵送冷却液的液体泵和控制液体泵的泵速的泵控制器。RMU可以耦接到刀片服务器和CDU。RMU可包括控制逻辑,控制逻辑被配置为确定加速服务器和主机服务器的处理器操作温度与功耗之间的关联。控制逻辑还可以获得与电子机架的操作相关联的参数的集合,并且基于设置的参数以及加速服务器和主机服务器的温度与功耗之间的关联确定最佳泵速。最后,控制逻辑可以基于最佳泵速经由泵控制器控制液体泵的泵速。

在一个实施例中,加速服务器可包括图形处理单元(GPU),以及主机服务器可包括中央处理单元(CPU)。在一个实施例中,为了确定加速服务器和主机服务器的处理器操作温度之间的关联,控制逻辑还确定在主机服务器的第一使用率下的主机服务器的温度与功耗之间的第一关联。控制逻辑还可以确定在加速服务器的第二使用率下的加速服务器的温度与功耗之间的第二关联。在一个实施例中,为了确定最佳泵速,控制逻辑将基于参数和液体泵的泵速优化目标函数。优化目标函数可包括最小化目标函数的结果。

在一个实施例中,为了获得参数,控制逻辑将发起委托测试的执行,委托测试包括在电子机架上执行计算任务。控制逻辑可以基于在委托测试期间的电子机架的操作收集参数。在委托测试期间收集的参数可以指示电子机架的初始状况。例如,参数可包括泵速、耦接到加速服务器和主机服务器的处理器的冷却板的热电阻、冷却液的温度、主机服务器处理器和加速服务器处理器的数量、以及主机服务器和加速服务器的数量。

根据另一方面,一种用于确定液体泵的最佳泵速以向数据中心的电子机架提供液体冷却的方法包括:对于具有多个刀片服务器的电子机架,确定一个或多个加速服务器和一个或多个主机服务器的处理器操作温度与功耗之间的关联,每个刀片服务器包括一个或多个服务器,以及每个服务器包括一个或多个处理器以提供数据处理服务。方法还包括获得与电子机架的操作相关联的一个或多个参数,以及基于一个或多个参数以及加速服务器和主机服务器的温度与功耗之间的关联确定最佳泵速。最后,方法可包括基于最佳泵速,经由泵控制器控制液体泵的泵速。

图1是示出根据本发明的一个实施例的数据中心系统的框图。在此示例中,图1示出数据中心的至少一部分的顶视图。参考图1,根据一个实施例,数据中心系统100包括IT组件、设备或仪器101和102的电子机架的行,诸如,例如向各种客户端提供数据服务的计算机服务器。在此实施例中,数据中心系统100包括电子机架,诸如电子机架110A-110N,它被布置为行101和行102。然而,可以实现电子机架的更多或更少行。通常,行101-102平行对齐,前端彼此面对,后端彼此背离,在它们之间形成过道103,以允许管理员在其中行走。然而,也可以应用其它配置或布置。

在一个实施例中,电子机架(例如,电子机架110A-110N)中的每个包括背板、多个服务器插槽、以及能够插入到服务器插槽中和从服务器插槽移除的多个刀片服务器。每个刀片服务器包括处理器(例如,CPU或GPU)、存储器和/或永久存储设备(例如,硬盘),表示计算机服务器。背板被设置在电子机架的后端。背板包括热量排除液体歧管装配,以从外部热量排除系统120提供热量排除液体,从而从刀片服务器排除热量。每个刀片服务器可从电子机架的前端插入对应的服务器插槽及从对应的服务器插槽移除。热量排除系统120可以是具有主动制冷循环的冷却器系统。可替换地,热量排除系统120可包括但不限于蒸发冷却、释放空气、对大的热质量的排斥和废热回收设计。

在一个实施例中,行101-102中的电子机架中的每个包括热量排除液体歧管、分别包括在多个刀片服务器槽中的多个刀片服务器、以及冷却剂分配单元(CDU)。热量排除液体歧管用于向刀片服务器中的每个提供热量排除液体。刀片服务器中的每个用于从热量排除液体歧管接收热量排除液体以使用热量排除液体歧管排除由刀片服务器的IT组件生成的热量的至少一部分,以及用于将携带从IT组件交换的热量的较热液体发送回热量排除液体歧管。CDU被配置为接收表示刀片服务器的IT组件的工作负荷的数据,以及基于刀片服务器的IT组件的工作负荷控制供应到热量排除液体歧管的热量排除液体的液体流率。

设置在每个电子机架的后端上的热量排除液体歧管耦接到液体供应线路132以从热量排除系统120接收热量排除液体。热量排除液体用于从IT组件排除热量。得到的携带从IT组件交换的热量的较暖或较热液体经由返回线路131被发送回热量排除系统120。液体供应/返回线路131-132被称为数据中心液体供应/返回线路(例如,全局液体供应线路),向行101-102的所有电子机架供应热量排除液体。

图2是示出根据本发明的一个实施例的电子机架的侧视图的框图。电子机架200可以代表图1的行101至102的电子机架中的任一个,诸如电子机架110A-110N。参考图2,在一个实施例中,电子机架200包括CDU 201、RMU 202和一个或多个刀片服务器203A-203D,它们统称为刀片服务器203。刀片服务器203可以分别从电子机架200的前端204插入服务器插槽的阵列中。注意,尽管图2中仅示出四个刀片服务器203A-203D,但是可以在电子机架200内维持更多或更少的刀片服务器。还应注意的是,CDU 201、CMU 202和刀片服务器203的特定位置仅出于说明的目的而示出,也可实现CDU 201、CMU 202和刀片服务器203的其他布置或配置。另外,设置在前端204上的前门和设置在后端205上的后门是可选的。在一些情况下,在前端204和/或后端205上可以没有门。

在一个实施例中,CDU 201包括热交换器211、液体泵212和泵控制器210。热交换器211可以是液-液热交换器。热交换器211包括第一管,第一管具有耦接到外部液体供应/返回线路131-132以形成主回路的第一对液体连接器,其中耦接到外部液体供应/返回线路131-132的连接器可以设置或安装在电子机架200的后端205上。另外,热交换器211还包括具有耦接到液体歧管225的第二对液体连接器的第二管,第二管可包括将冷却液供应到刀片服务器203的供应歧管和将较暖液体返回到CDU 201的返回歧管。处理器可以安装在冷却板(或安装在处理器上的冷却板)上,其中冷却板包括嵌入其中的液体分配通道,以接收来自液体歧管225的冷却液,并将携带从处理器交换的热量的冷却液返回到液体歧管225。

刀片服务器203中的每个可包括一个或多个IT组件(例如,CPU、GPU、存储器和/或存储设备)。每个IT组件可以执行数据处理任务,其中IT组件可包括安装在存储设备中、加载到存储器中,以及由一个或多个处理器执行以执行数据处理任务的软件。刀片服务器203可包括耦接到一个或多个计算服务器(也称为计算节点)的主机服务器(称为主机节点)。主机服务器(具有一个或多个CPU)通常通过网络(例如,因特网)与客户端接口,以接收对特定服务的请求,特定服务诸如存储服务(例如,诸如备份和/或恢复之类的基于云的存储服务)、执行应用以执行特定操作(例如,作为软件即服务或SaaS平台的部分的图像处理、深度数据学习算法或建模等)。响应于请求,主机服务器将任务分配给由主机服务器管理的计算服务器中的一个或多个(具有一个或多个GPU)。计算服务器可以执行可以在操作期间生成热量的实际计算任务。计算服务器在本文中也可被称为加速服务器,因为它们可用于在训练机器学习模型期间加速性能。

电子机架200还包括RMU 202,RMU 202被配置为提供和管理供应给刀片服务器203和CDU 201的电力。RMU 202可以耦接到电源单元(未示出)以管理电源单元的功耗,以及电源单元的其它热管理(例如冷却风扇)。电源单元可包括必要的电路(例如,交流(AC)到直流(DC)或DC到DC功率转换器、电池、变压器或调节器等)以向电子机架200的其余组件提供电力。

在一个实施例中,RMU 202包括最佳控制逻辑221和机架管理控制器(RMC)222。最佳控制逻辑221耦接到刀片服务器203中的至少一些以接收刀片服务器203中的每个的操作状态,诸如处理器的处理器温度、处理器的时钟速率、液体泵212的当前泵速、冷却液的液体温度等。基于接收的信息,最佳控制逻辑221可以通过优化预定的目标函数来确定液体泵212的最佳泵速,使得目标函数的输出达到最小值,同时满足预定的约束的集合。例如,目标函数可以表示整个IT机架200服务器系统的功耗。RMC 222可被配置为向泵控制器210发送信号以基于最佳泵速控制液体泵212的泵速。可替换地,上述逻辑可以被包括在泵控制器210或IT机架200的任何其他组件中。

图3是示出根据一个实施例的简化的电子机架的示例的框图。电子机架300可以实现为电子机架的部分,诸如参照图2描述的电子机架200。参照图3,RMU 202电耦接到服务器302A-B和304A-B。具体地,RMU 202可以耦接到服务器302A-B和304A-B中的每个的基板管理控制器(BMC)。BMC可以被配置为监视并收集对应的服务器的组件中的每个的操作状态,诸如处理器的测量温度、服务器的使用率以及CDU 201的泵速。在一个实施例中,IT机架300可以执行测试运行,在此期间可以收集与IT机架的操作相关联的参数的集合。主机服务器和加速服务器的服务器功耗可以取决于服务器的处理器操作的温度。另外,处理器操作温度可取决于液体泵212的泵速。因此,服务器的功耗可以是泵速的函数。在一个实施例中,RMU202还包括最佳控制逻辑221,最佳控制逻辑221被配置为基于从服务器203接收的数据执行目标函数301的优化,以确定最佳泵速。基于最佳泵速,RMC 222向泵控制器210发送控制信号以控制液体泵212的泵速。

在一个实施例中,电子机架300包括堆叠布置的刀片服务器(例如,图2的刀片服务器203)的阵列。每个刀片服务器包括一个或多个服务器,以及每个服务器包括一个或多个处理器,诸如GPU,以提供数据处理服务。在一个实施例中,服务器可包括主机服务器和计算或加速服务器。主机服务器可以是CPU服务器302A-B(统称为CPU服务器302),以从客户端设备接收执行服务的请求,诸如执行应用或训练机器学习模型。主机服务器可以耦接到一个或若干加速服务器(例如,GPU服务器304A-B,统称为GPU服务器304)。主机服务器可以将完成请求所需的任务分配给加速服务器。例如,为了训练机器学习模型,主机服务器可以将用以生成机器学习模型的训练数据的处理分配给加速服务器。

电子机架300还包括CDU 201和RMU 202。CDU 201被配置为向处理器供应冷却液并接收携带从处理器交换的热量的冷却液。CDU 201包括液体泵212以泵送冷却液和泵控制器210以控制液体泵的泵速。RMU 202被配置为管理电子机架内的组件诸如CDU 201等的操作。RMU 202包括最佳控制逻辑221以通过基于CDU 201的功耗、CPU服务器302A-B的功耗和使用率以及GPU服务器304A-B的功耗和使用率来优化目标函数301,以确定液体泵212的最佳泵速。最佳泵速可用于控制液体泵212的泵速。在一个实施例中,最佳泵速最小化IT机架的总功耗。

在一个实施例中,优化目标函数301包括确定最佳泵速,使得目标函数301在满足预定的约束的集合的同时达到最小值。预定的约束中的一个可包括第一条件,在第一条件中,泵速在限定范围内(例如,在最小和最大泵速之间)。

在一个实施例中,最佳控制逻辑221可以软件、硬件或其组合来实现。例如,最佳控制逻辑221可以被实现为现场可编程门阵列(FPGA)或专用集成电路(ASIC)。目标函数301可以实现为可执行指令,可执行指令可以存储在诸如存储器的机器可读存储介质中,并且由最佳控制逻辑221执行。

在一个实施例中,最佳控制逻辑221可以考虑IT机架300的电力功耗中的三个组件:1)GPU服务器304的功率使用;2)CPU服务器302的功率使用;以及3)冷却设备的功率使用。当芯片使用信息已知时,这三个组件中的每个都可以取决于液体泵212的泵速。可以如下所述数学地描述这些组件。

首先,GPU服务器的功耗与其操作温度有关。通过控制泵速,调整流经GPU冷却板的冷却液的流率。然后,通过冷却板的冷却液流率的改变可导致GPU操作温度的改变。GPU操作温度可以是对于服务器中跨所有GPU的操作温度的平均值。为了确定泵速和GPU的工作温度之间的关系,最佳控制逻辑221可以在IT机架300上执行计算任务的测试运行。在测试运行期间,最佳控制逻辑221可以收集与IT机架300的操作相关联的参数的集合(例如,从服务器的BMC)。在测试运行期间收集的参数可以存储在RMU 202中或其它地方,作为在计算最佳泵速期间使用的常数。

根据下面的方程式(1)和(2),单个GPU的功耗可以与GPU的操作温度和液体流率有关:

TGPU-Tliquid=Rth PGPU (1)

其中TGPU是GPU操作温度;Tliquid是流入冷却板的冷却液的温度;Rth是冷却板的热电阻;PGPU是未确定的GPU功率。在方程式(2)中,h是冷却板的等效传热系数;A是冷却板内部微通道的热传递面积;VGPU是流经冷却板的液体的流率。上标0表示它是在测试运行中获得的参数,并且被存储为常数。

为了确定泵速和液体流率之间的相关性,可以使用相似定律。相似定律规定,泵速的改变成比例地影响液体流率。相似定律适用于泵、风扇和水轮机。在这些旋转工具中,相似定律适用于离心和轴向流动。基于相似定律,在获得测试运行中的泵速和其对应的液体流率之后,假定泵效率保持恒定,则可以根据下式计算用于不同的泵速vpump的新的液体体积流率VGPU

将方程式(2)和(3)代入方程式(1)中,获得GPU温度与泵速的关系,如下面方程式(4)所示:

应当注意的是,PGPU是方程式(4)中的不确定的变量,以及vpump是控制参数。在此计算中,除了在方程式右侧的参数PGPU和vpump之外的参数都是常数。将此方程式从单个GPU转换到服务器级(假设所有GPU和冷却板都是相同的),则得到:

其中NGPU是GPU服务器中GPU的数量,以及PGPU server是整个GPU服务器的功率使用率。因此,方程式(5)提供了整个GPU服务器的温度。

如图4所示,GPU服务器的温度TGPU server和功耗PGPU server可以是相关的。特别地,GPU服务器温度和GPU服务器功耗之间的相关性可以取决于GPU服务器的使用率。使用率可以指示服务器的处理能力正在被使用的百分比。例如,如图4所示,功耗相对于GPU工作温度的绘图可随100%使用率、75%使用率、50%使用率和25%使用率而不同。如下所述,泰勒级数可用于将这些曲线分别地转换为r阶多项式关系。

为了确定最佳泵速,最佳控制逻辑221将使用在特定使用率下的功耗和GPU工作温度之间的相关性以及方程式(5)。将方程式(6)代入方程式(5)得到以下泵速的函数的GPU服务器功率:

PGPU server=fGPU(vpump) (7)

方程式(7)说明,除了方程式(5)中的工作温度与泵速之间的关系之外,在任何特定使用率下,GPU功率与泵速之间存在相关性。额外地,这种关系在不同的GPU使用率水平下是不同的。

数学上,方程式(7)可以是隐式方程式,意味着未知数PGPU server可能需要在方程式(7)的两侧保持。在方程式(7)是隐式的情况下,方程式(7)的更准确的数学表达式可以如下,

f′GPU(vpump,PGPU server)=C (8)

其中C是常数。然而,无论方程式(7)是显式的还是隐式的,对于任一给定的泵速vpump,可以通过方程式(7)或(8)确定PGPU server的对应值。这意味着在GPU使用率的特定水平下(即,如果使用率是已知的),可以完全描述GPU功率使用和泵速之间的关系。

CPU服务器功耗和泵速之间的关系可以类似于上述GPU服务器被确定。同样地,CPU服务器的工作温度可表达为:

其中NCPU是CPU服务器中的CPU的数量。可以为CPU服务器确定图4中描述的类似的温度-功率曲线。然后,类似于GPU服务器,得到:

PCPU server=fCPU(vpump) (10)

泵功耗可以基于以下方程式确定:

其中b是可以在泵功耗曲线上获得的常数。

考虑到上面限定的关系,由IT机架中的GPU服务器、CPU服务器和机械泵消耗的总功率可以表示为:

其中n和m分别是IT机架中GPU服务器和CPU服务器的数量。泵速vpump可以是直接控制参数。应当注意的是,当所有CPU服务器以相同的使用率运行时,并且所有GPU服务器以相同的使用率运行时,此方程式适用。如果存在GPU服务器或CPU服务器的改变的使用率,则应当基于对应的服务器功率相对于GPU关系(即,如图4中所描绘)更新函数fGPU

在一个实施例中,如果GPU服务器(或CPU服务器)之间的使用率不同,则分别地考虑每个GPU或CPU服务器,在方程式(12)中,项nfGPU变成fGPU,1+fGPU,2+…

总之,随着泵速的改变,流经GPU服务器和CPU服务器的冷却板的液体的流率改变,这导致服务器中的GPU芯片和CPU芯片的工作温度改变。泵速的增大可导致增大的泵送功耗Ppump。然而,由于硅芯片(GPU和CPU)的电路中的电流泄漏减少,GPU服务器和CPU服务器的功耗可降低。在一个实施例中,泵速值变化是有界的,并且因此可以确定导致最小化的总功耗P的最佳泵速

图5是示出根据一个实施例的用于确定液体泵的最佳泵速的过程的示例的流程图。过程500可以由处理逻辑执行,处理逻辑可包括软件、硬件或其组合。例如,过程500可由图2的RMU 202的最佳控制逻辑221执行。

参考图5,在框502处,处理逻辑确定电子机架的加速服务器和主机服务器的处理器操作温度与功耗之间的关联。加速服务器可以是GPU服务器,以及主机服务器可以是CPU服务器。关联可包括在特定CPU服务器使用率下的CPU服务器的温度与功耗之间的关联。关联还可包括在特定GPU使用率下的GPU服务器的温度与功耗之间的关联。CPU使用率和GPU使用率可以是不同的。

在框504处,处理逻辑获得与电子机架的操作相关联的参数的集合。可以在委托测试或测试运行的执行期间获得参数。测试运行可包括在IT机架上执行计算任务。参数可以指示IT机架的初始状况,初始状况可以用于计算IT机架的稍后状况。例如,参数可包括泵速、耦接到加速服务器和主机服务器的处理器的冷却板的热电阻、冷却液的温度、主机服务器处理器和加速服务器处理器的数量、以及主机服务器和加速服务器的数量。

在框506处,处理逻辑基于参数的集合以及加速服务器和主机服务器的温度与功耗之间的关联确定液体泵的最佳泵速。确定最佳泵速可包括基于在测试运行期间收集的参数优化目标函数。目标函数可包括在测试运行期间作为常数收集的参数。目标函数可以表示鉴于GPU服务器、CPU服务器和液体泵的IT机架的总功耗,因此,最佳泵速可以最小化IT机架的总功耗。在框508处,处理逻辑基于最佳泵速经由泵控制器控制液体泵的泵速。

图6是示出根据一个实施例的用于确定液体泵的最佳泵速的过程的示例的流程图。过程600可以由处理逻辑执行,处理逻辑可包括软件、硬件或其组合。例如,过程600可由图2的RMU 202的最佳控制逻辑221执行。

参考图6,在框602处,处理逻辑生成在IT机架的各种GPU和CPU使用率下的一组服务器功率使用相对于操作温度的绘图。GPU服务器和CPU服务器即使在相同的使用率下也可具有不同的功率使用相对于操作温度的绘图。额外地,功率使用相对于温度的绘图在每个使用率下可以不同的并且是唯一的。

在框604处,处理逻辑执行IT机架的测试运行,以及基于测试运行记录操作参数的集合。测试运行可包括执行样本计算任务,在样本计算任务期间可以收集参数。例如,参数可包括泵速、耦接到加速服务器和主机服务器的处理器的冷却板的热电阻、冷却液的温度、主机服务器处理器和加速服务器处理器的数量、以及主机服务器和加速服务器的数量。

在框606处,处理逻辑获取用于GPU服务器和CPU服务器的实时使用率。处理逻辑可以使用实时使用率以识别功率使用相对于操作温度的绘图,其中该功率使用针对最接近地对应于实时使用率的使用率。

在框608处,处理逻辑基于实时使用率和记录的操作参数的集合使用优化算法计算用于IT机架的最佳泵速。优化算法可以最小化用于IT机架的功耗。实时使用率可确定用于GPU和CPU的功率使用相对于温度的关系。泵速可以与GPU和CPU的温度直接有关。因此,GPU和CPU的功耗直接取决于泵速。额外地,液体泵的功耗可直接取决于泵速。因此,处理逻辑可以考虑GPU功耗、CPU功耗和液体泵功耗来确定使IT机架的功耗最小化的最佳泵速。在框610处,处理逻辑发送控制信号以控制液体泵的泵速。

在前述附图中描绘的过程或方法可以由包括硬件(例如,电路、专用逻辑等)、软件(例如,体现在非暂时性计算机可读介质上)或两者的组合的处理逻辑执行。尽管以上按照一些顺序操作描述了过程或方法,但是应当理解的是,可以以不同的顺序执行所描述的操作中的一些。另外,一些操作可以并行执行而不是顺序执行。

在前述说明书中,已经参考本公开的具体示例性实施例描述了本公开的实施例。很明显,在不脱离所附权利要求中阐述的本公开的更宽的精神和范围的情况下,可以对其进行各种修改。因此,说明书和附图应被认为是说明性的而不是限制性的。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:散热控制系统及其方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!