一种云平台的故障告警方法、系统及相关装置

文档序号：1937083 发布日期：2021-12-07 浏览：23次 >En<

阅读说明：本技术 一种云平台的故障告警方法、系统及相关装置 (Fault warning method, system and related device of cloud platform ) 是由王会孔祥生于 2021-08-30 设计创作，主要内容包括：本申请提供一种云平台的故障告警方法,包括：获取监测任务,对所述监测任务对应的待监测对象进行监测,得到监测数据；确认所述待监测对象的告警阈值；根据所述监测数据和所述告警阈值计算告警距离；若所述告警距离小于预设值,发出所述监测任务对应的告警。本申请通过告警距离反馈发生告警的可能性比例,当监测数据越接近告警阈值,告警距离越小,则发生告警的可能性越大。通过告警距离量化告警发生的可能性,有助于运维人员对告警距离较小的待监测对象进行处理,提高处理告警的效率。本申请还提供一种云平台的故障告警系统、计算机可读存储介质和服务器,具有上述有益效果。(The application provides a fault warning method of a cloud platform, which comprises the following steps: acquiring a monitoring task, and monitoring an object to be monitored corresponding to the monitoring task to obtain monitoring data; confirming an alarm threshold value of the object to be monitored; calculating an alarm distance according to the monitoring data and the alarm threshold; and if the alarm distance is smaller than a preset value, sending an alarm corresponding to the monitoring task. The method and the device feed back the possibility proportion of alarm occurrence through the alarm distance, and when the monitoring data is closer to the alarm threshold, the alarm distance is smaller, and the possibility of alarm occurrence is higher. The probability of alarm occurrence is quantified through the alarm distance, operation and maintenance personnel can be facilitated to process the object to be monitored with the smaller alarm distance, and the alarm processing efficiency is improved. The application also provides a fault warning system of the cloud platform, a computer readable storage medium and a server, and the fault warning system, the computer readable storage medium and the server have the beneficial effects.)

技术领域

本申请涉及电子设备运维领域，特别涉及一种云平台的故障告警方法、系统及相关装置。

背景技术

云平台作为顶端的管理平台，通过调用底层虚拟化平台接口获取资源监控数据。为了形成监控和告警数据，一般会通过定时任务去调用接口，比对数据，产生告警。告警的实时性依赖于定时任务的周期。例如，定时任务为5分钟，那么主机发生的告警故障最晚可能在5分钟后在云平台才能发现。虽然可以通过提高定时任务的执行频率以提高告警效率。但是，由于设备的性能瓶颈，定时任务的周期不行无限的缩短，以免影响其他的业务操作。因此，如何提高云平台的告警效率是本领域技术人员亟需解决的技术问题。

发明内容

本申请的目的是提供一种云平台的故障告警方法、故障告警系统、计算机可读存储介质和服务器，通过引入告警距离量化告警发生的可能性，能够提高云平台的告警效率。

为解决上述技术问题，本申请提供一种云平台的故障告警方法，具体技术方案如下：

获取监测任务，对所述监测任务对应的待监测对象进行监测，得到监测数据；

确认所述待监测对象的告警阈值；

根据所述监测数据和所述告警阈值计算告警距离；

若所述告警距离小于预设值，发出所述监测任务对应的告警。

可选的，根据所述监测数据和所述告警阈值计算告警距离包括：

计算所述监测数据与所述告警阈值的差值占所述告警阈值的百分比；

将所述百分比的绝对值作为告警距离。

可选的，对所述监测任务对应的待监测对象进行监测，得到监测数据包括：

按照所述待监测对象对应的告警任务周期对所述监测任务对应的待监测对象进行监测，得到监测数据。

可选的，若所述待监测任务对应的告警距离大于所述告警阈值超过第一预设次数，还包括：

按照周期缩短参数缩小所述告警任务周期。

可选的，若所述待监测任务对应的告警距离小于所述告警阈值超过第二预设次数，还包括：

按照周期延长参数放大所述告警任务周期。

可选的，确认所述待监测对象的告警阈值包括：

根据告警阈值列表确认所述待监测对象的告警阈值；所述告警阈值列表维护了待监测对象和对应告警阈值的映射关系。

可选的，还包括：

根据所述待监测对象的硬件参数确定所述告警阈值列表。

本申请还提供一种云平台的故障告警系统，包括：

监测模块，用于获取监测任务，对所述监测任务对应的待监测对象进行监测，得到监测数据；

阈值确定模块，用于确认所述待监测对象的告警阈值；

告警距离计算模块，用于根据所述监测数据和所述告警阈值计算告警距离；

告警模块，用于若所述告警距离小于预设值，发出所述监测任务对应的告警。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种服务器，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种云平台的故障告警方法，包括：获取监测任务，对所述监测任务对应的待监测对象进行监测，得到监测数据；确认所述待监测对象的告警阈值；根据所述监测数据和所述告警阈值计算告警距离；若所述告警距离小于预设值，发出所述监测任务对应的告警。

本申请在监测待监测对象得到监测数据后，计算相应的告警距离，通过告警距离反馈发生告警的可能性比例，当监测数据越接近告警阈值，告警距离越小，则发生告警的可能性越大。通过告警距离量化告警发生的可能性，有助于运维人员对告警距离较小的待监测对象进行处理，提高处理告警的效率。

本申请还提供一种云平台的故障告警系统、计算机可读存储介质和服务器，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种云平台的故障告警方法的流程图；

图2为本申请实施例所提供的一种云平台的故障告警系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种云平台的故障告警方法的流程图，该方法包括：

S101：获取监测任务，对所述监测任务对应的待监测对象进行监测，得到监测数据；

本步骤旨在获取监测任务，从而监测任务对应的待监测对象进行监测。在此对于监测任务的具体内容不作限定，其至少包含一个待检测对象，当然不同的待监测对象的监测内容也可以不同，例如CPU的使用率，内存的占用率，磁盘的吞吐量等等。需要注意的是，对于同一待监测对象的不同参数的监测，当监测任务中包含至少两个待监测对象，则执行本步骤可以得到两个待监测对象各自的监测数据。

S102：确认所述待监测对象的告警阈值；

本步骤旨在确定待监测对象的告警阈值，当然，若监测任务中包含多个待检测对象，则本步骤应当相应的确定每个待检测对象的告警阈值。在此对于如何确认待监测对象的告警阈值不作限定，可以根据告警阈值列表确认待监测对象的告警阈值，告警阈值列表维护了待监测对象和对应告警阈值的映射关系。则本步骤可以直接查询告警阈值列表，从而获得待监测对象的告警阈值。若告警阈值列表不包含待监测对象的告警阈值，可以根据待监测对象历史告警信息确定其告警阈值。需要注意的是，由于历史告警信息在告警时的状态值可能存在差异，则在根据历史告警信息确认告警阈值时，可以选择最小值作为告警阈值，也可取各历史告警信息的均值作为告警阈值。当然，若利用告警阈值列表，则需要在本步骤执行前根据待监测对象的硬件参数确定告警阈值列表。而告警阈值列表中包含待监测对象的告警阈值，当然该告警阈值可以包括同一待监测对象在不同应用场景或者应用条件下的告警阈值。例如CPU在不同温度下的占用率上限等等。

S103：根据所述监测数据和所述告警阈值计算告警距离；

本步骤旨在根据实际的监测数据和告警阈值确定告警距离，在此对于如何确定告警距离不作限定，本实施例在此提供一种计算告警距离的方式：

第一步、计算监测数据与告警阈值的差值占告警阈值的百分比；

第二步、将百分比的绝对值作为告警距离。

即根据监测数据与告警阈值的差值计算告警距离，通过告警距离反馈当前获取的检测数据与其对应的告警阈值的差值关系。很显然，当监测数据与告警阈值越接近，其即将发生告警的概率越高。本步骤实质上通过采用告警距离将告警发生概率量化。当然，还可以采用其他方式计算告警距离，在此不一一举例限定。例如将检测数据与告警阈值的比值作为告警距离。需要说明的是，本实施例主要针对告警数据未超过告警阈值的状态，即在正常状态下对待监测对象进行告警预测。

S104：若所述告警距离小于预设值，发出所述监测任务对应的告警。

本申请实施例在监测待监测对象得到监测数据后，计算相应的告警距离，通过告警距离反馈发生告警的可能性比例，当监测数据越接近告警阈值，告警距离越小，则发生告警的可能性越大。通过告警距离量化告警发生的可能性，有助于运维人员对告警距离较小的待监测对象进行处理，提高处理告警的效率。

基于上述实施例，作为优选的实施例，由于当前设备的监测通常为周期性进行，即按照待监测对象对应的告警任务周期对监测任务对应的待监测对象进行监测，得到监测数据，则还可以根据告警距离对监测周期进行调整，具体过程如下：

若待监测任务对应的告警距离大于告警阈值超过第一预设次数，按照周期缩短参数缩小告警任务周期。

若待监测任务对应的告警距离小于告警阈值超过第二预设次数，按照周期延长参数放大告警任务周期。

在此对于第一预设次数和第二预设次数不做限定，可以均设为2次，也可以均为3次，或者分别为不同的数值。且周期缩短参数和周期延长参数同样不作具体限定，例如周期缩短参数通常小于1，例如可以为0.5，则原来每10分钟监测一次，当前需5分钟监测一次。而周期延长参数通常大于1，即确保延长后的告警任务周期较大，实现在待监测对象状态较为正常时，减少监测次数，从而降低系统监测所产生的资源负担。

下文对本申请的一种具体应用过程进行描述：

步骤一：通过设定的初始告警任务周期间隔进行告警监测；

步骤二：告警监测完成后，得出每个资源每个任务的告警距离(告警本来就要比对告警阈值，告警距离这是增加了一个运算，不会造成太大的性能消耗)；

步骤三：根据告警距离进行计算，设第一预设次数为两次(N)，即告警距离连续两次变小才会降低告警周期；

步骤四：计算告警周期的增减幅度，以连续两次为例。

如果连续两次告警距离都是减小的，计算两次告警距离的减小比例，以此比例在告警周期的伸缩范围内进行按比例减小告警周期。

例如，主机host的cpu使用率，告警阈值C为80％，第一次监测值V1为20％，第二次监测值V2为60％，初始告警周期为T为120s，初始计算次为N，根据上述示例计算：

1)第一次告警距离：

D1＝|(20％-80％)/(60％)|*100％＝75％。

2)第二次告警距离：

D2＝|(60％-80％)/(60％)|*100％＝25％。

3)告警距离的减小比例：

R＝(D2-D1)/(N-1)＝0.5

减小比例R在伸缩范围[1/8，4]之间，如果R<1/8或者R>4，则以1/8和4为准。当然，两个伸缩值都是系统的默认值，可以根据系统的实际性能调整。

4)告警周期变化为：

T＝120*(1-0.5)s＝60s，即经过告警距离测算后，告警周期变为60s。

相同的，若第二预设次数也为两次，则如果两次告警距离都是增大的，则按照两次告警距离增大的比例增长告警周期。此外，如果设定的是n个告警周期才有效果，则告警距离减小的比例为平均值。

R＝((Dn-Dn-1)+。。。)(D2-D1)/(n-1)

由上述过程可以看出，告警周期会根据告警距离进行自适应的变化，并且使告警系统的整体消耗维持在一个平衡状态。

下面对本申请实施例提供的一种云平台的故障告警系统进行介绍，下文描述的故障告警系统与上文描述的云平台的故障告警方法可相互对应参照。

参见图2，图2为本申请实施例所提供的一种云平台的故障告警系统结构示意图，本申请还提供一种云平台的故障告警系统，包括：

监测模块100，用于获取监测任务，对所述监测任务对应的待监测对象进行监测，得到监测数据；

阈值确定模块200，用于确认所述待监测对象的告警阈值；

告警距离计算模块300，用于根据所述监测数据和所述告警阈值计算告警距离；

告警模块400，用于若所述告警距离小于预设值，发出所述监测任务对应的告警。

基于上述实施例，作为优选的实施例，告警距离计算模块300包括：

第一计算单元，用于计算所述监测数据与所述告警阈值的差值占所述告警阈值的百分比；

第二计算单元，用于将所述百分比的绝对值作为告警距离。

基于上述实施例，作为优选的实施例，监测模块100包括：

周期监测单元，用于按照所述待监测对象对应的告警任务周期对所述监测任务对应的待监测对象进行监测，得到监测数据。

基于上述实施例，作为优选的实施例，还包括：

周期缩短模块，用于若所述待监测任务对应的告警距离大于所述告警阈值超过第一预设次数，按照周期缩短参数缩小所述告警任务周期。

基于上述实施例，作为优选的实施例，还包括：

周期延长模块，用于若所述待监测任务对应的告警距离小于所述告警阈值超过第二预设次数，按照周期延长参数放大所述告警任务周期。

基于上述实施例，作为优选的实施例，阈值确定模块包括：

阈值获取单元，用于根据告警阈值列表确认所述待监测对象的告警阈值；所述告警阈值列表维护了待监测对象和对应告警阈值的映射关系。

基于上述实施例，作为优选的实施例，还包括：

阈值生成模块，用于根据所述待监测对象的硬件参数确定所述告警阈值列表。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种服务器，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述服务器还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

9页详细技术资料下载

一种云平台的故障告警方法、系统及相关装置

相关技术

网友询问留言