一种基于温度监测的机房异常的处理方法和装置

文档序号:1413393 发布日期:2020-03-10 浏览:14次 >En<

阅读说明:本技术 一种基于温度监测的机房异常的处理方法和装置 (Method and device for processing machine room abnormity based on temperature monitoring ) 是由 刘刚 于 2018-09-04 设计创作,主要内容包括:本发明提供了一种基于温度监测的机房异常的处理方法和装置。该方法包括:获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。本发明通过直接根据机房和服务器的温度信息对机房和服务器的异常情况进行排查和处理,减少了响应时间,从而降低损失,同时减少了人工干预,从而降低人力成本。(The invention provides a method and a device for processing machine room abnormity based on temperature monitoring. The method comprises the following steps: acquiring CPU indexes related to temperature of each server in a machine room and ambient temperature in the machine room; judging whether the acquired environment temperature of the machine room is within a first preset temperature range, and if so, determining that the machine room normally operates; if not, judging whether a server with abnormal operation exists according to the acquired CPU indexes of the servers, which are related to the temperature; if the server with abnormal operation exists, performing exception handling on the server with abnormal operation; and if the server with abnormal operation does not exist, determining that the machine room has abnormal operation, and performing abnormal processing on the machine room. According to the invention, the abnormal conditions of the machine room and the server are checked and processed directly according to the temperature information of the machine room and the server, so that the response time is reduced, the loss is reduced, and meanwhile, the manual intervention is reduced, thereby reducing the labor cost.)

一种基于温度监测的机房异常的处理方法和装置

技术领域

本发明涉及计算机网络技术领域,特别是一种基于温度监测的机房异常的处理方法、基于温度监测的机房异常的处理装置、计算机存储介质以及计算设备。

背景技术

随着计算机信息系统的发展,作为网络设备、主机服务器等核心设备存放地的计算机机房日益显现出重要性。机房通常指的是电信、网通、移动、双线、电力以及政府或者企业等用来存放服务器、为用户以及员工提供IT服务的地方。大型机房,如IDC(InternetData Center,互联网数据中心)机房中通常放置有上千个机柜,甚至更多,机柜里放置各种服务器和小型机等。为了保障机房设备正常运行,需要对机房进行维护运营,以确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。

在现有技术中,运营商通常只在机房内的不同区域设置温度计进行机房温度的监测,当监测到某区域的温度不正常时,通知该区域的所有者,该区域的服务器可能出现宕机问题。然后,该区域的所有者再通知运维工程师,由运维工程师至现场进行人工检查,排查故障,再对应进行故障处理。进一步地,在排查故障时,例如对服务器进行故障排查时,常规方式是先登录服务器,如果无法登录,则检查网络是否正常,如果网络正常但仍然无法登录,则继续查看CPU指标、操作日志等。现有的故障应对方式导致响应时间过长,无法快速应对突发情况。另外,人工故障排查步骤繁琐,增加了人力成本。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于温度监测的机房异常的处理方法、基于温度监测的机房异常的处理装置、计算机存储介质以及计算设备。

根据本发明实施例的一方面,提供了一种基于温度监测的机房异常的处理方法,包括:

获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;

判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;

若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;

若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;

若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。

可选地,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;

根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器,包括:

判断所获取的各服务器的CPU温度是否在第二预设温度范围内;

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;

若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。

可选地,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常,包括:

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则判断其CPU温度不在所述第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;

若是,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常。

可选地,所述第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围;

所述第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。

可选地,所述方法还包括:

保存所获取的机房内的环境温度作为机房环境温度的历史数据;

根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与所述机房环境温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

对所述机房进行异常处理,包括:

对比当前所获取的机房环境温度的变化趋势是否与所述机房环境温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述机房进行异常处理。

可选地,所述方法还包括:

保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据;

根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与所述CPU温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

对所述运行异常的服务器进行异常处理,包括:

对比当前所获取的所述运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述运行异常的服务器进行异常处理。

可选地,所述异常事件的特征属性包括异常事件的处理优先级。

可选地,所述方法还包括:

确定运行异常的服务器在所述机房内的分布;

若相邻的两台或更多台服务器运行异常,则优先对所述相邻的两台或更多台服务器进行异常处理。

可选地,对所述运行异常的服务器进行异常处理包括下列至少之一:

将运行异常的服务器切换至备用服务器;

报警;

调节所述机房内的空调温度;

关闭运行异常的服务器进行降温。

可选地,对所述机房进行异常处理包括下列至少之一:

将所述机房切换至备用机房;

报警;

自动进行物理灭火;

排除空调设备故障。

根据本发明实施例的另一方面,还提供了一种基于温度监测的机房异常的处理装置,包括:

温度获取模块,适于获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;

机房判断模块,适于判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;

服务器判断模块,适于若所获取的机房环境温度不在所述第一预设温度范围内,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;

服务器处理模块,适于若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;以及

机房处理模块,适于若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。

可选地,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;

所述服务器判断模块还适于:

判断所获取的各服务器的CPU温度是否在第二预设温度范围内;

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;

若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。

可选地,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;

所述服务器判断模块还适于:

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则判断其CPU温度不在所述第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;

若是,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常。

可选地,所述第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围;

所述第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。

可选地,所述装置还包括:

第一数据保存模块,适于保存所获取的机房内的环境温度作为机房环境温度的历史数据;

第一变化曲线绘制模块,适于根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与所述机房环境温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

所述机房处理模块还适于:

对比当前所获取的机房环境温度的变化趋势是否与所述机房环境温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述机房进行异常处理。

可选地,所述装置还包括:

第二数据保存模块,适于保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据;

第二变化曲线绘制模块,适于根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与所述CPU温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

所述服务器处理模块还适于:

对比当前所获取的所述运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述运行异常的服务器进行异常处理。

可选地,所述异常事件的特征属性包括异常事件的处理优先级。

可选地,所述装置还包括:

异常分布确定模块,适于确定运行异常的服务器在所述机房内的分布;

若相邻的两台或更多台服务器运行异常,则触发所述服务器处理模块优先对所述相邻的两台或更多台服务器进行异常处理。

可选地,对所述运行异常的服务器进行异常处理包括下列至少之一:

将运行异常的服务器切换至备用服务器;

报警;

调节所述机房内的空调温度;

关闭运行异常的服务器进行降温。

可选地,对所述机房进行异常处理包括下列至少之一:

将所述机房切换至备用机房;

报警;

自动进行物理灭火;

排除空调设备故障。

根据本发明实施例的再一方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行根据上文中任一项所述的基于温度监测的机房异常的处理方法。

根据本发明实施例的又一方面,还提供了一种计算设备,包括:

处理器;以及

存储有计算机程序代码的存储器;

当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行根据上文中任一项所述的基于温度监测的机房异常的处理方法。

本发明实施例提出的基于温度监测的机房异常的处理方法和装置,首先获取机房内各服务器的与温度相关的CPU指标和机房内的环境温度;然后根据所获取的机房环境温度判断机房是否运行正常,若否,则进一步根据所获取的各服务器的与温度相关的CPU指标判断是否存在运行异常的服务器;进而,若存在运行异常的服务器,则对运行异常的服务器进行异常处理,若不存在运行异常的服务器,则对机房进行异常处理。通过直接根据机房和服务器的温度信息对机房和服务器的异常情况进行排查和处理,减少了响应时间,从而降低损失,同时减少了人工干预,从而降低人力成本。

进一步地,在判断服务器是否异常时,结合服务器的CPU温度和CPU空闲时间百分比进行判断,能够更准确地排查出服务器异常。

更进一步地,保存所获取的机房环境温度和服务器的CPU温度作为历史数据,根据机房环境温度和CPU温度的历史数据分别绘制机房环境温度历史变化曲线和服务器的CPU温度历史变化曲线,并分别记录与机房环境温度历史变化曲线中的异常变化段对应的异常事件和该异常事件的特征属性以及与CPU温度历史变化曲线中的异常变化段对应的异常事件和该异常事件的特征属性。这样,在对机房和/或服务器进行异常处理时,可以通过对比当前所获取的机房环境温度的变化趋势与机房环境温度历史变化曲线中的异常变化段的变化趋势是否相同,和/或对比当前所获取的运行异常的服务器的CPU温度的变化趋势与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势是否相同,来确定机房异常事件和/或服务器异常事件的处理优先级,进而,可以根据处理优先级来对机房和/或服务器进行异常处理,防止由于紧急异常事件没有得到及时处理而造成巨大损失,提高了机房的容灾能力。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的

具体实施方式

根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一实施例的基于温度监测的机房异常的处理方法的流程图;

图2示出了根据本发明另一实施例的基于温度监测的机房异常的处理方法的流程图;

图3示出了根据本发明一实施例的基于温度监测的机房异常的处理装置的结构示意图;以及

图4示出了根据本发明另一实施例的基于温度监测的机房异常的处理装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

发明人发现,当服务器的CPU故障时,通常表现为CPU温度异常,而在目前机房运维中,运维人员一般只能得到机房的区域温度异常的通知,而后需要人工去一步步排查故障。例如,对服务器进行故障排查时,常规方式是先登录服务器,如果无法登录,则检查网络是否正常,如果网络正常但仍然无法登录,则继续查看CPU指标、操作日志等。这导致响应时间过长,无法快速应对突发情况。另外,人工故障排查步骤繁琐,增加了人力成本。

为解决上述技术问题,本发明实施例提出一种基于温度监测的机房异常的处理方法。图1示出了根据本发明一实施例的基于温度监测的机房异常的处理方法的流程图。参见图1,该方法至少可以包括以下步骤:

步骤S102,获取机房内各服务器的与温度相关的CPU指标和机房内的环境温度。

步骤S104,判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定机房运行正常。

步骤S106,若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器。

步骤S108,若存在运行异常的服务器,则对运行异常的服务器进行异常处理。

步骤S110,若不存在运行异常的服务器,则确定机房运行异常,并对机房进行异常处理。

本发明实施例提出的基于温度监测的机房异常的处理方法可以通过指定监测管理平台执行。优选地,指定监测管理平台为IPMI(Intelligent Platform ManagementInterface,智能平台管理接口)平台。IPMI是管理基于Intel结构的企业系统中所使用的***设备采用的一种工业标准。IPMI亦是一个开放的免费标准,用户无需支付额外的费用即可使用此标准。IPMI能够横跨不同的操作系统、固件和硬件平台,可以智能的监视、控制和自动回报大量服务器的运作状况,如温度、电压、风扇工作状态、电源状态等,以降低服务器系统成本。

本发明实施例提出的基于温度监测的机房异常的处理方法,首先获取机房内各服务器的与温度相关的CPU指标和机房内的环境温度;然后根据所获取的机房环境温度判断机房是否运行正常,若否,则进一步根据所获取的各服务器的与温度相关的CPU指标判断是否存在运行异常的服务器;进而,若存在运行异常的服务器,则对运行异常的服务器进行异常处理,若不存在运行异常的服务器,则对机房进行异常处理。通过直接根据机房和服务器的温度信息对机房和服务器的异常情况进行排查和处理,减少了响应时间,从而降低损失,同时减少了人工干预,从而降低人力成本。

上文步骤S102中,可以通过指定监测管理平台,特别是IPMI平台,借助各传感器(例如,温度传感器)获取机房内各服务器的与温度相关的CPU指标和机房内的环境温度。

上文步骤S104中,通过将所获取的机房环境温度与第一预设温度范围的上限值和下限值进行对比,判断机房环境温度是否异常。此处提及的第一预设温度范围可以是人为设定的机房正常运行的温度范围,也可以是根据机房环境温度的历史数据进行计算得到的温度范围。

在一种实施方式中,可以通过对每一指定时间区间(如每分钟、每小时、每天等)中的运行正常的机房的环境温度历史数据中的最高值和最低值分别作加和平均,得到最高值的平均值和最低值的平均值,进而根据计算得到的最高值的平均值和最低值的平均值得到第一预设温度范围。举例来说,假设在五天的历史数据中,每天的正常机房环境温度的最高值分别为24℃、25℃、24℃、25℃、24℃,最低值分别为20℃、21℃、20℃、22℃、19℃,则对最高值和最低值分别进行加和平均,得到最高值平均值24.4℃和最低值平均值20.4℃,进而得到第一预设温度范围为20.4-24.4℃。

在另一种可替换的实施方式中,也可以通过对运行正常的机房的环境温度历史数据进行加和平均,得到机房环境温度平均值,然后根据计算得到的机房环境温度平均值和机房环境温度的允许波动范围,得到第一预设温度范围。例如,计算得到机房环境温度平均值为22.4℃,机房环境温度的允许波动范围为±3℃,则得到第一预设温度范围为19.4-25.4℃。需要说明的是,以上第一预设温度范围的计算方式仅是示例性的,本发明并不限于此。

上文步骤S106中,若所获取的机房环境温度不在第一预设温度范围内,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器。

在本发明的一个可选实施例中,所获取的各服务器的与温度相关的CPU指标包括各服务器的CPU温度。相应地,根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器可以实施为如下步骤:

判断所获取的各服务器的CPU温度是否在第二预设温度范围内;

若存在所获取的某服务器的CPU温度不在第二预设温度范围内,则确定其CPU温度不在第二预设温度范围内的服务器运行异常;

若所获取的各服务器的CPU温度均在第二预设温度范围内,则确定不存在运行异常的服务器。

各服务器的CPU温度优选地可以通过IPMI平台,借助安装于各服务器的温度传感器获取得到。

此处提及的第二预设温度范围可以是人为设定的服务器正常运行的CPU温度范围,也可以是根据服务器的CPU温度的历史数据进行计算得到的温度范围。

在一种实施方式中,可以通过对每一指定时间区间(如每分钟、每小时、每天等)中的运行正常的服务器的CPU温度历史数据中的最高值和最低值分别作加和平均,得到最高值的平均值和最低值的平均值,进而根据计算得到的最高值的平均值和最低值的平均值得到第二预设温度范围。举例来说,假设在五天的历史数据中,每天的服务器的正常CPU温度的最高值分别为63℃、65℃、64℃、65℃、62℃,最低值分别为45℃、44℃、46℃、45℃、46℃,则对最高值和最低值分别进行加和平均,得到最高值平均值63.8℃和最低值平均值45.2℃,进而得到第二预设温度范围为45.2-63.8℃。

在另一种可替换的实施方式中,也可以通过对运行正常的服务器的CPU温度历史数据进行加和平均,得到CPU温度平均值,然后根据计算得到的CPU温度平均值和CPU温度的允许波动范围,得到第二预设温度范围。例如,计算得到服务器的CPU温度平均值为54.5℃,CPU温度的允许波动范围为±10℃,则得到第二预设温度范围为44.5-64.5℃。需要说明的是,以上第二预设温度范围的计算方式仅是示例性的,本发明并不限于此。

进一步地,在本发明的另一个可选实施例中,所获取的各服务器的与温度相关的CPU指标除包括各服务器的CPU温度之外,还包括各服务器的CPU空闲时间百分比。相应地,若存在所获取的某服务器的CPU温度不在第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常的步骤还可以实施为:

若存在所获取的某服务器的CPU温度不在第二预设温度范围内,则判断其CPU温度不在第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;

若是,则确定其CPU温度不在第二预设温度范围内的服务器运行异常。

CPU空闲时间百分比,即idle值,是指示CPU运行状态的重要指标之一。Idle值越高,则表明CPU占用越低,CPU越空闲。当服务器进行密集运算时,会导致CPU温度上升,此时,相应的CPU指标表现为低idle值。因此,通过结合服务器的CPU温度和CPU空闲时间百分比(即,idle值)进行判断,当服务器的CPU温度较高并且CPU占用也很高(即,idle值很低)时,表明CPU处于正常的密集运算状态,当服务器的CPU温度较高而CPU却很空闲(即,idle值很高)时,则表明CPU运行异常,从而能够更准确地排查出服务器异常。

上文步骤S108中,若判断出存在运行异常的服务器,则对运行异常的服务器进行异常处理。

可选地,根据不同的服务器异常情况,对运行异常的服务器进行异常处理可以包括下列至少之一:将运行异常的服务器切换至备用服务器;报警;调节机房内的空调温度;关闭运行异常的服务器进行降温。

报警的方式包括但不限于短信、邮件、APP(应用)消息通知等。

下面以一具体实例进行说明:当发现运行异常的服务器后,可以首先调节距离运行异常的服务器所在的机柜最近的空调的温度,直至整个机房的温度下降到正常范围。然后,若仅通过调节空调无法实现将整个机房的温度下降到正常范围,则将运行异常的服务器切换至备用服务器,关闭运行异常的服务器进行降温,进行报警,并记录日志。

上文步骤S110中,若判断出不存在运行异常的服务器,则确定为机房运行异常,并对机房进行异常处理。

可选地,根据不同的机房异常情况,对机房进行异常处理可以包括下列至少之一:

将机房切换至备用机房;

报警;

自动进行物理灭火;

排除空调设备故障。

目前,互联网业务大多都采用了本地多活(即,将一个服务部署到一个城市的多个机房中)或异地多活(即,将一个服务部署到多个城市的多个机房中)的架构设计。在多活架构中,每个机房都是活的,可以实时承担流量,任何一个机房出问题,都可以直接切掉,由另外一个机房直接接管,从而提高机房的容灾能力。在确定机房异常后,通过切换至备用机房,保障业务的正常运行。

报警的方式包括但不限于短信、邮件、APP(应用)消息通知等。

如果机房起火,则可以自动进行物理灭火。

如果空调设备发生故障,则可以通知机房运维人员,进行风道、压缩机、加湿器等的故障排除工作。

在本发明的可选实施例中,该方法还可以包括以下步骤:

保存所获取的机房内的环境温度作为机房环境温度的历史数据;

根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与机房环境温度历史变化曲线中的异常变化段对应的异常事件和异常事件的特征属性。

此时,相应地,对机房进行异常处理的步骤可以包括:

对比当前所获取的机房环境温度的变化趋势是否与机房环境温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与该异常变化段对应的异常事件和异常事件的特征属性,对机房进行异常处理。

此处提及的异常事件可以包括机房起火、空调设备故障等。

进一步地,异常事件的特征属性可以包括异常事件的处理优先级。在实际应用中,异常事件的处理优先级可以根据异常事件的紧急程度或其可能引发的损失的大小来设定。

在一种可选的实施方式中,当前所获取的机房环境温度的变化趋势可以通过结合当前所获取的机房环境温度的数据与当前时间点之前一段时间内所获取的机房环境温度的数据来分析温度的变化而得出。在另一种可选的实施方式中,也可以通过在指定时长内连续获取多个机房环境温度数据,通过分析该多个机房环境温度数据的变化而得出。例如,在1分钟内每秒获取机房环境温度,得到60个机房环境温度数据,进而分析该60个机房环境温度数据的变化,得到当前获取的机房环境温度的变化趋势。

在本发明的可选实施例中,该方法还可以包括以下步骤:

保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据;

根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与各服务器的CPU温度历史变化曲线中的异常变化段对应的异常事件和异常事件的特征属性。

此时,相应地,对运行异常的服务器进行异常处理的步骤可以包括:

对比当前所获取的运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与该异常变化段对应的异常事件和异常事件的特征属性,对运行异常的服务器进行异常处理。

在一种可选的实施方式中,当前所获取的运行异常的服务器的CPU温度可以通过结合当前所获取的该服务器的CPU温度数据与当前时间点之前一段时间内所获取的该服务器的CPU温度数据来分析温度的变化而得出。在另一种可选的实施方式中,也可以通过在指定时长内连续获取多个该服务器的CPU温度数据,通过分析连续获取的这些温度数据的变化而得出。例如,在1分钟内每秒获取该服务器的CPU温度数据,得到60个该服务器的CPU温度数据,进而分析这些CPU温度数据的变化,得到当前获取的服务器的CPU温度的变化趋势。

进一步地,异常事件的特征属性可以包括异常事件的处理优先级。在实际应用中,异常事件的处理优先级可以根据异常事件的紧急程度或其可能引发的损失的大小来设定。

在对机房和/或服务器进行异常处理时,通过对比当前所获取的机房环境温度的变化趋势与机房环境温度历史变化曲线中的异常变化段的变化趋势是否相同,和/或对比当前所获取的运行异常的服务器的CPU温度的变化趋势与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势是否相同,来确定机房异常事件和/或服务器异常事件的处理优先级,进而,可以根据处理优先级来对机房和/或服务器进行异常处理,防止由于紧急异常事件没有得到及时处理而造成巨大损失,提高了机房的容灾能力。

在本发明的可选实施例中,在判断出存在运行异常的服务器之后,该方法还可以包括以下步骤:

确定运行异常的服务器在机房内的分布;

若相邻的两台或更多台服务器运行异常,则优先对相邻的两台或更多台服务器进行异常处理。

异常运行的服务器聚集成片的情形往往预示着更严重的服务器故障,也会导致更多的服务失败和损失。因此,通过分析运行异常的服务器在机房内的分布,进而根据分析结果,对聚集的多台异常运行的服务器优先进行及时处理,避免造成更大的损失。

以上介绍了图1所示实施例的各个环节的多种实现方式,下面将通过具体实施例来详细介绍本发明的基于温度监测的机房异常的处理方法的实现过程。图2示出了根据本发明又一实施例的基于温度监测的机房异常的处理方法的流程图。参见图2,该方法至少可以包括步骤S202至步骤S222。

步骤S202,获取机房内各服务器的CPU温度和CPU空闲时间百分比以及机房内的环境温度。

步骤S204,判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定机房运行正常。

步骤S206,若否,判断所获取的各服务器的CPU温度是否在第二预设温度范围内。

步骤S208,若存在所获取的某服务器的CPU温度不在第二预设温度范围内,则判断其CPU温度不在第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值。

步骤S210,若是,则确定其CPU温度不在第二预设温度范围内的服务器运行异常。

步骤S212,对比当前所获取的运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同,其中,该服务器的CPU温度历史变化曲线是根据所保存的该服务器的CPU温度的历史数据绘制而成,并且记录有与该服务器的CPU温度历史变化曲线中的异常变化段对应的异常事件和异常事件的处理优先级。

步骤S214,若相同,则根据与该CPU温度历史变化曲线中的该异常变化段对应的异常事件和异常事件的处理优先级,对运行异常的服务器进行异常处理;若不同,则按常规对运行异常的服务器进行异常处理。

步骤S216,若所获取的各服务器的CPU温度均在第二预设温度范围内,则确定机房运行异常。

步骤S218,对比当前所获取的机房环境温度的变化趋势是否与机房环境温度历史变化曲线中的异常变化段的变化趋势相同,其中,机房环境温度历史变化曲线是根据所保存的机房环境温度的历史数据绘制而成,并且记录有与机房环境温度历史变化曲线中的异常变化段对应的异常事件和异常事件的处理优先级。

步骤S220,若相同,则根据与机房环境温度历史变化曲线中的该异常变化段对应的异常事件和异常事件的处理优先级,对机房进行异常处理;若不同,则按常规对机房进行异常处理。

步骤S222,保存所获取的机房内的环境温度和各服务器的CPU温度,分别作为机房环境温度和各服务器的CPU温度的历史数据。

需要说明的是,本发明实施例中步骤S222在步骤S220之后执行,在其他可替换实施例中,步骤S222也可以在步骤S202之后的任一步骤执行。

需要说明的是,实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。

基于同一发明构思,本发明实施例还提供了一种基于温度监测的机房异常的处理装置,用于支持上述任意一个实施例或其组合所提供的基于温度监测的机房异常的处理方法。图3示出了根据本发明一实施例的基于温度监测的机房异常的处理装置的结构示意图。参见图3,该装置至少可以包括:温度获取模块310、机房判断模块320、服务器判断模块330、服务器处理模块340以及机房处理模块350。

本发明实施例提出的基于温度监测的机房异常的处理装置可以通过指定监测管理平台实现。优选地,指定监测管理平台为IPMI平台。

现介绍本发明实施例的基于温度监测的机房异常的处理装置的各组成或器件的功能以及各部分间的连接关系:

温度获取模块310,适于获取机房内各服务器的与温度相关的CPU指标和机房内的环境温度。

机房判断模块320,与温度获取模块310连接,适于判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定机房运行正常。

服务器判断模块330,与温度获取模块310和机房判断模块320连接,适于若所获取的机房环境温度不在第一预设温度范围内,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器。

服务器处理模块340,与服务器判断模块330连接,适于若存在运行异常的服务器,则对运行异常的服务器进行异常处理。

机房处理模块350,与服务器判断模块330连接,适于若不存在运行异常的服务器,则确定机房运行异常,并对机房进行异常处理。

在一个可选实施例中,各服务器的与温度相关的CPU指标包括各服务器的CPU温度;此时,相应地,服务器判断模块330还适于:

判断所获取的各服务器的CPU温度是否在第二预设温度范围内;

若存在所获取的某服务器的CPU温度不在第二预设温度范围内,则确定其CPU温度不在第二预设温度范围内的服务器运行异常;

若所获取的各服务器的CPU温度均在第二预设温度范围内,则确定不存在运行异常的服务器。

在一个可选实施例中,各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;此时,相应地,服务器判断模块330还适于:

若存在所获取的某服务器的CPU温度不在第二预设温度范围内,则判断其CPU温度不在第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;

若是,则确定其CPU温度不在第二预设温度范围内的服务器运行异常。

在一个可选实施例中,第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围。第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。

在一个可选实施例中,如图4所示,图3展示的基于温度监测的机房异常的处理装置还可以包括第一数据保存模块460和第一变化曲线绘制模块470。第一数据保存模块460与温度获取模块310连接,适于保存所获取的机房内的环境温度作为机房环境温度的历史数据。第一变化曲线绘制模块470与第一数据保存模块460连接,适于根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与机房环境温度历史变化曲线中的异常变化段对应的异常事件和异常事件的特征属性。

此时,对应地,机房处理模块350还适于:

对比当前所获取的机房环境温度的变化趋势是否与机房环境温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与机房环境温度历史变化曲线中的该异常变化段对应的异常事件和异常事件的特征属性,对机房进行异常处理。

在一个可选实施例中,如图4所示,图3展示的基于温度监测的机房异常的处理装置还可以包括第二数据保存模块480和第二变化曲线绘制模块490。第二数据保存模块480与温度获取模块310连接,适于保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据。第二变化曲线绘制模块490与第二数据保存模块480连接,适于根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与CPU温度历史变化曲线中的异常变化段对应的异常事件和异常事件的特征属性。

此时,对应地,服务器处理模块340还适于:

对比当前所获取的运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与CPU温度历史变化曲线中的该异常变化段对应的异常事件和异常事件的特征属性,对运行异常的服务器进行异常处理。

进一步地,上述提及的异常事件的特征属性包括异常事件的处理优先级。

在一个可选实施例中,如图4所示,图3展示的基于温度监测的机房异常的处理装置还可以包括异常分布确定模块500。异常分布确定模块500与服务器判断模块330和服务器处理模块340连接,适于确定运行异常的服务器在机房内的分布。若相邻的两台或更多台服务器运行异常,则异常分布确定模块500触发服务器处理模块340优先对相邻的两台或更多台服务器进行异常处理。

在一个可选实施例中,对运行异常的服务器进行异常处理包括下列至少之一:将运行异常的服务器切换至备用服务器;报警;调节机房内的空调温度;关闭运行异常的服务器进行降温。

在一个可选实施例中,对机房进行异常处理包括下列至少之一:将机房切换至备用机房;报警;自动进行物理灭火;排除空调设备故障。

基于同一发明构思,本发明实施例还提供了一种计算机存储介质。该计算机存储介质存储有计算机程序代码,当该计算机程序代码在计算设备上运行时,导致计算设备执行根据上述任意一个实施例或其组合所述的基于温度监测的机房异常的处理方法。

基于同一发明构思,本发明实施例还提供了一种计算设备。该计算设备可以包括:

处理器;以及

存储有计算机程序代码的存储器;

当该计算机程序代码被处理器运行时,导致该计算设备执行根据上述任意一个实施例或其组合所述的基于温度监测的机房异常的处理方法。

根据上述任意一个可选实施例或多个可选实施例的组合,本发明实施例能够达到如下有益效果:

本发明实施例提出的基于温度监测的机房异常的处理方法和装置,首先获取机房内各服务器的与温度相关的CPU指标和机房内的环境温度;然后根据所获取的机房环境温度判断机房是否运行正常,若否,则进一步根据所获取的各服务器的与温度相关的CPU指标判断是否存在运行异常的服务器;进而,若存在运行异常的服务器,则对运行异常的服务器进行异常处理,若不存在运行异常的服务器,则对机房进行异常处理。通过直接根据机房和服务器的温度信息对机房和服务器的异常情况进行排查和处理,减少了响应时间,从而降低损失,同时减少了人工干预,从而降低人力成本。

进一步地,在判断服务器是否异常时,结合服务器的CPU温度和CPU空闲时间百分比进行判断,能够更准确地排查出服务器异常。

更进一步地,保存所获取的机房环境温度和服务器的CPU温度作为历史数据,根据机房环境温度和服务器的CPU温度的历史数据分别绘制机房环境温度历史变化曲线和服务器的CPU温度历史变化曲线,并分别记录与机房环境温度历史变化曲线中的异常变化段对应的异常事件和该异常事件的特征属性以及与CPU温度历史变化曲线中的异常变化段对应的异常事件和该异常事件的特征属性。这样,在对机房和/或服务器进行异常处理时,可以通过对比当前所获取的机房环境温度的变化趋势与机房环境温度历史变化曲线中的异常变化段的变化趋势是否相同,和/或对比当前所获取的运行异常的服务器的CPU温度的变化趋势与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势是否相同,来确定机房异常事件和/或服务器异常事件的处理优先级,进而,可以根据处理优先级来对机房和/或服务器进行异常处理,防止由于紧急异常事件没有得到及时处理而造成巨大损失,提高了机房的容灾能力。

所属领域的技术人员可以清楚地了解到,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。

另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。

或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。

根据本发明实施例的一方面,提供了A1.一种基于温度监测的机房异常的处理方法,包括:

获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;

判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;

若否,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;

若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;

若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。

A2.根据A1所述的方法,其中,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;

根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器,包括:

判断所获取的各服务器的CPU温度是否在第二预设温度范围内;

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;

若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。

A3.根据A2所述的方法,其中,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常,包括:

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则判断其CPU温度不在所述第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;

若是,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常。

A4.根据A2或A3所述的方法,其中,所述第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围;

所述第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。

A5.根据A2-A4中任一项所述的方法,其中,还包括:

保存所获取的机房内的环境温度作为机房环境温度的历史数据;

根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与所述机房环境温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

对所述机房进行异常处理,包括:

对比当前所获取的机房环境温度的变化趋势是否与所述机房环境温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述机房进行异常处理。

A6.根据A2-A5中任一项所述的方法,其中,还包括:

保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据;

根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与所述CPU温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

对所述运行异常的服务器进行异常处理,包括:

对比当前所获取的所述运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述运行异常的服务器进行异常处理。

A7.根据A5或A6所述的方法,其中,所述异常事件的特征属性包括异常事件的处理优先级。

A8.根据A1-A7中任一项所述的方法,其中,还包括:

确定运行异常的服务器在所述机房内的分布;

若相邻的两台或更多台服务器运行异常,则优先对所述相邻的两台或更多台服务器进行异常处理。

A9.根据A1-A8中任一项所述的方法,其中,对所述运行异常的服务器进行异常处理包括下列至少之一:

将运行异常的服务器切换至备用服务器;

报警;

调节所述机房内的空调温度;

关闭运行异常的服务器进行降温。

A10.根据A1-A9中任一项所述的方法,其中,对所述机房进行异常处理包括下列至少之一:

将所述机房切换至备用机房;

报警;

自动进行物理灭火;

排除空调设备故障。

根据本发明实施例的另一方面,还提供了B11.一种基于温度监测的机房异常的处理装置,包括:

温度获取模块,适于获取机房内各服务器的与温度相关的CPU指标和所述机房内的环境温度;

机房判断模块,适于判断所获取的机房环境温度是否在第一预设温度范围内,若是,则确定所述机房运行正常;

服务器判断模块,适于若所获取的机房环境温度不在所述第一预设温度范围内,则根据所获取的各服务器的与温度相关的CPU指标,判断是否存在运行异常的服务器;

服务器处理模块,适于若存在运行异常的服务器,则对所述运行异常的服务器进行异常处理;以及

机房处理模块,适于若不存在运行异常的服务器,则确定所述机房运行异常,并对所述机房进行异常处理。

B12.根据B11所述的装置,其中,所述各服务器的与温度相关的CPU指标包括各服务器的CPU温度;

所述服务器判断模块还适于:

判断所获取的各服务器的CPU温度是否在第二预设温度范围内;

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常;

若所获取的各服务器的CPU温度均在所述第二预设温度范围内,则确定不存在运行异常的服务器。

B13.根据B12所述的装置,其中,所述各服务器的与温度相关的CPU指标还包括各服务器的CPU空闲时间百分比;

所述服务器判断模块还适于:

若存在所获取的某服务器的CPU温度不在所述第二预设温度范围内,则判断其CPU温度不在所述第二预设温度范围内的服务器的CPU空闲时间百分比是否高于预设阈值;

若是,则确定其CPU温度不在所述第二预设温度范围内的服务器运行异常。

B14.根据B12或B13所述的装置,其中,所述第一预设温度范围是人为设定的温度范围、或根据机房环境温度的历史数据进行计算得到的温度范围;

所述第二预设温度范围是人为设定的温度范围、或根据服务器的CPU温度的历史数据进行计算得到的温度范围。

B15.根据B12-B14中任一项所述的装置,其中,还包括:

第一数据保存模块,适于保存所获取的机房内的环境温度作为机房环境温度的历史数据;

第一变化曲线绘制模块,适于根据所保存的机房环境温度的历史数据绘制机房环境温度历史变化曲线,并记录与所述机房环境温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

所述机房处理模块还适于:

对比当前所获取的机房环境温度的变化趋势是否与所述机房环境温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述机房进行异常处理。

B16.根据B12-B15中任一项所述的装置,其中,还包括:

第二数据保存模块,适于保存所获取的各服务器的CPU温度作为各服务器的CPU温度的历史数据;

第二变化曲线绘制模块,适于根据所保存的各服务器的CPU温度的历史数据绘制各服务器的CPU温度历史变化曲线,并记录与所述CPU温度历史变化曲线中的异常变化段对应的异常事件和所述异常事件的特征属性;

此时,

所述服务器处理模块还适于:

对比当前所获取的所述运行异常的服务器的CPU温度的变化趋势是否与该服务器的CPU温度历史变化曲线中的异常变化段的变化趋势相同;

若是,则根据与所述异常变化段对应的异常事件和所述异常事件的特征属性,对所述运行异常的服务器进行异常处理。

B17.根据B15或B16所述的装置,其中,所述异常事件的特征属性包括异常事件的处理优先级。

B18.根据B11-B17中任一项所述的装置,其中,还包括:

异常分布确定模块,适于确定运行异常的服务器在所述机房内的分布;

若相邻的两台或更多台服务器运行异常,则触发所述服务器处理模块优先对所述相邻的两台或更多台服务器进行异常处理。

B19.根据B11-B18中任一项所述的装置,其中,对所述运行异常的服务器进行异常处理包括下列至少之一:

将运行异常的服务器切换至备用服务器;

报警;

调节所述机房内的空调温度;

关闭运行异常的服务器进行降温。

B20.根据B11-B19中任一项所述的装置,其中,对所述机房进行异常处理包括下列至少之一:

将所述机房切换至备用机房;

报警;

自动进行物理灭火;

排除空调设备故障。

根据本发明实施例的再一方面,还提供了C21.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行根据A1-A10中任一项所述的基于温度监测的机房异常的处理方法。

根据本发明实施例的又一方面,还提供了D22.一种计算设备,包括:

处理器;以及

存储有计算机程序代码的存储器;

当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行根据A1-A10中任一项所述的基于温度监测的机房异常的处理方法。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于校准温度测量装置的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!