一种集群告警方法、系统、设备以及介质

文档序号:190217 发布日期:2021-11-02 浏览:7次 >En<

阅读说明:本技术 一种集群告警方法、系统、设备以及介质 (Cluster alarm method, system, device and medium ) 是由 赵晓青 于 2021-06-20 设计创作,主要内容包括:本发明公开了一种集群告警方法,包括以下步骤:在集群外部设置若干个高可用节点;对每一个所述高可用节点进行预设上报配置;响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。本发明还公开了一种系统、计算机设备以及可读存储介质。本发明提出的方案预先确定若干个集群外部的节点作为高可用节点,当集群内部产生告警时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则会通过预先确定的高可用节点进行上报,以此保证集群告警上报的稳定性。(The invention discloses a cluster alarm method, which comprises the following steps: arranging a plurality of high-availability nodes outside the cluster; performing preset reporting configuration on each high-availability node; responding to the detection that the nodes in the cluster generate alarm information, and judging whether the nodes in the cluster can establish connection with the reported address or not; and responding to the condition that the internal node cannot establish connection with the reporting address, and establishing connection with one of the high-availability nodes so as to call the high-availability node to report the alarm information. The invention also discloses a system, a computer device and a readable storage medium. The proposal provided by the invention determines a plurality of nodes outside the cluster as high-availability nodes in advance, when an alarm is generated inside the cluster, the judgment of whether the node can report the alarm is added, if the current node can not report the alarm, the node can report the alarm through the predetermined high-availability nodes, thereby ensuring the stability of the report of the cluster alarm.)

一种集群告警方法、系统、设备以及介质

技术领域

本发明涉及集群领域,具体涉及一种集群告警方法、系统、设备以及存储介质。

背景技术

随着云计算和大数据技术在现代社会发展中的飞速发展,生产生活中所积累的生产资料数据也呈指数级增长,海量存储技术在互联网发展中越发成为不可或缺的一部分。而在分布式存储系统中,由于需要对海量的数据进行监控和管理,通常需要对一些关键信息或故障进行告警。但是实际情况下,并不能保证运维人员一直在场,通常情况下集群一旦出现异常或告警,就需要及时通过邮件,短信等方式及时通知运维人员。因此对于告警上报的稳定性有很大的要求,一旦遇到故障或网络原因等或者机房的机器无法连接外网,会导致运维人员不能及时获取并处理对应告警,将有可能导致集群出现重大事故,并造成不可估量的损失。

发明内容

有鉴于此,为了克服上述问题的至少一个方面,本发明实施例提出一种集群告警方法,包括以下步骤:

在集群外部设置若干个高可用节点;

对每一个所述高可用节点进行预设上报配置;

响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;

响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。

在一些实施例中,在集群外部设置若干个高可用节点,进一步包括:

在所述集群内部设置预设接口;

通过所述预设接口填写所述每一个高可用节点的信息。

在一些实施例中,还包括:

根据所述预设接口填写的每一个所述高可用节点的信息对每一个所述高可用节点进行是否能够连接到上报地址的测试以及是否能够连接到所述内部的节点的测试。

在一些实施例中,对每一个所述高可用节点进行预设上报配置,进一步包括:

在每一个所述高可用节点上安装提供上报功能的上报模块。

在一些实施例中,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接,进一步包括:

判断所述集群内部的主节点是否能够与所述上报地址建立连接;

响应于所述集群内部的主节点能够与所述上报地址建立连接,利用所述主节点将所述告警信息上报到所述上报地址。

在一些实施例中,还包括:

响应于所述集群内部的主节点无法与所述上报地址建立连接,判断所述集群内部的从节点是否能够与所述上报地址建立连接;

响应于所述集群内部的从节点能够与所述上报地址建立连接,利用所述从节点将所述告警信息上报到所述上报地址。

在一些实施例中,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报,进一步包括:

响应于所述集群内部的从节点无法与所述上报地址建立连接,利用所述主节点建立与其中一个高可用节点的连接;

调用所述高可用节点中预先安装的上报模块以通过所述上报模块将所述告警信息上报到预设地址。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种集群告警系统,包括:

设置模块,配置为在集群外部设置若干个高可用节点;

配置模块,配置为对每一个所述高可用节点进行预设上报配置;

判断模块,配置为响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;

高可用模块,配置为响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机设备,包括:

至少一个处理器;以及

存储器,所述存储器存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时执行如上所述的任一种集群告警方法的步骤。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时执行如上所述的任一种集群告警方法的步骤。

本发明具有以下有益技术效果之一:本发明提出的方案预先确定若干个集群外部的节点作为高可用节点,当集群内部产生告警时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则会通过预先确定的高可用节点进行上报,以此保证集群告警上报的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的集群告警方法的流程示意图;

图2为本发明的实施例提供的集群告警系统的结构示意图;

图3为本发明的实施例提供的计算机设备的结构示意图;

图4为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

根据本发明的一个方面,本发明的实施例提出一种集群告警方法,如图1所示,其可以包括步骤:

S1,在集群外部设置若干个高可用节点;

S2,对每一个所述高可用节点进行预设上报配置;

S3,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;

S4,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。

本发明提出的方案预先确定若干个集群外部的节点作为高可用节点,当集群内部产生告警时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则会通过预先确定的高可用节点进行上报,以此保证集群告警上报的稳定性。

在一些实施例中,在集群外部设置若干个高可用节点,进一步包括:

在所述集群内部设置预设接口;

通过所述预设接口填写所述每一个高可用节点的信息。

具体的,可以在集群内部设置一个高可用节点配置模块。该模块提供一个配置告警上报高可用节点的入口,用户可以将本集群节点可以连接到且可以连接外网的外部节点的信息通过该入口进行填写。例如,用户可以通过该入口配置高可用节点的IP信息,然后集群内部的节点通过IP信息即可实现与设置的高可用节点的连接。

在一些实施例中,对每一个所述高可用节点进行预设上报配置,进一步包括:

在每一个所述高可用节点上安装提供上报功能的上报模块。

具体的,当用户在高可用节点配置模块提供的入口填写完高可用节点的相关信息后,可以向对应的高可用节点发送工具包,此工具包相当于提供一个公共的告警上报接口,作为集群向外发送告警邮件,告警短信等的媒介。

在一些实施例中,还包括:

根据所述预设接口填写的每一个所述高可用节点的信息对每一个所述高可用节点进行是否能够连接到上报地址的测试以及是否能够连接到所述内部的节点的测试。

具体的,当接收到用户填写的高可用节点的信息,例如IP信息后,可以先进行集群节点是否可访问高可用节点的测试以及高可用节点是否能够连接到上报地址的测试,如果提示测试成功,则可进行添加,如果测试失败,则需要重新填写。当填写一个成功后,可以继续添加其他多个高可用节点的信息,或者一次性添加多个高可用节点的信息,然后同时进行测试并将测试失败的节点信息进行反馈。

在一些实施例中,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接,进一步包括:

判断所述集群内部的主节点是否能够与所述上报地址建立连接;

响应于所述集群内部的主节点能够与所述上报地址建立连接,利用所述主节点将所述告警信息上报到所述上报地址。

具体的,当集群产生告警时,可以利用集群的主节点调用集群内部的告警上报模块进行告警上报,在进行上报前,可以先判断当前的主节点是否能够连接到上报地址,若集群内部的主节点能够与所述上报地址建立连接,利用所述主节点将所述告警信息上报到所述上报地址。

在一些实施例中,还包括:

响应于所述集群内部的主节点无法与所述上报地址建立连接,判断所述集群内部的从节点是否能够与所述上报地址建立连接;

响应于所述集群内部的从节点能够与所述上报地址建立连接,利用所述从节点将所述告警信息上报到所述上报地址。

具体的,若当前的主节点无法与上报地址建立连接,则可以通过告警上报自动修复逻辑,调用集群内部的其他节点进行上报。在调用集群内部其他节点进行上报时,可以先校验判断是否有能正常上报的节点,即是否存在能够连接到上报地址的节点,如果有,则使用该节点进行告警上报。

在一些实施例中,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报,进一步包括:

响应于所述集群内部的从节点无法与所述上报地址建立连接,利用所述主节点建立与其中一个高可用节点的连接;

调用所述高可用节点中预先安装的上报模块以通过所述上报模块将所述告警信息上报到预设地址。

具体的,如果利用集群内部的所有节点均无法与上报地址建立连接以上报告警信息,则需要主节点建立与其中一个高可用节点的连接,利用高可用节点进行告警信息的上报,通过调用所述高可用节点中预先安装的上报模块(即预先发送的工具包)以通过所述上报模块将所述告警信息上报到预设地址。

通过本发明提出的告警上报高可用机制,可以有效的避免因机房网络以及局域网网络等原因造成的邮件发送失败的情况。而且多套告警上报备选机制,使得集群告警系统更加强大,告警的及时上报,能够使运维人员提前识别集群健康情况进而进行问题修复,增强了存储系统的整体稳定性,避免了重大事故的发生,节省维修成本。

本发明提出的方案预先配置一些集群外部的节点作为高可用节点,这些高可用节点能够建立与集群内部节点的连接并且还够连接到外网。在集群进行告警上报时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则通过调用告警上报自动修复逻辑,先通过集群其它节点按顺序进行告警上报,如果上报成功,则后续节点不再上报。如果整个集群都无法进行告警上报,比如在内网中,无法向外网发送邮件等,则会通过事先配置的高可用节点调用告警上报工具包进行上报,以此保证存储集群的告警上报的稳定性。

基于同一发明构思,根据本发明的另一个方面,本发明的实施例还提供了一种集群告警系统400,如图2所示,包括:

设置模块401,配置为在集群外部设置若干个高可用节点;

配置模块402,配置为对每一个所述高可用节点进行预设上报配置;

判断模块403,配置为响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;

高可用模块404,配置为响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。

在一些实施例中,在集群外部设置若干个高可用节点,进一步包括:

在所述集群内部设置预设接口;

通过所述预设接口填写所述每一个高可用节点的信息。

在一些实施例中,还包括:

根据所述预设接口填写的每一个所述高可用节点的信息对每一个所述高可用节点进行是否能够连接到上报地址的测试以及是否能够连接到所述内部的节点的测试。

在一些实施例中,对每一个所述高可用节点进行预设上报配置,进一步包括:

在每一个所述高可用节点上安装提供上报功能的上报模块。

在一些实施例中,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接,进一步包括:

判断所述集群内部的主节点是否能够与所述上报地址建立连接;

响应于所述集群内部的主节点能够与所述上报地址建立连接,利用所述主节点将所述告警信息上报到所述上报地址。

在一些实施例中,还包括:

响应于所述集群内部的主节点无法与所述上报地址建立连接,判断所述集群内部的从节点是否能够与所述上报地址建立连接;

响应于所述集群内部的从节点能够与所述上报地址建立连接,利用所述从节点将所述告警信息上报到所述上报地址。

在一些实施例中,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报,进一步包括:

响应于所述集群内部的从节点无法与所述上报地址建立连接,利用所述主节点建立与其中一个高可用节点的连接;

调用所述高可用节点中预先安装的上报模块以通过所述上报模块将所述告警信息上报到预设地址。

本发明提出的方案预先配置一些集群外部的节点作为高可用节点,这些高可用节点能够建立与集群内部节点的连接并且还够连接到外网。在集群进行告警上报时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则通过调用告警上报自动修复逻辑,先通过集群其它节点按顺序进行告警上报,如果上报成功,则后续节点不再上报。如果整个集群都无法进行告警上报,比如在内网中,无法向外网发送邮件等,则会通过事先配置的高可用节点调用告警上报工具包进行上报,以此保证存储集群的告警上报的稳定性。

基于同一发明构思,根据本发明的另一个方面,如图3所示,本发明的实施例还提供了一种计算机设备501,包括:

至少一个处理器520;以及

存储器510,存储器510存储有可在处理器上运行的计算机程序511,处理器520执行程序时执行以下步骤:

S1,在集群外部设置若干个高可用节点;

S2,对每一个所述高可用节点进行预设上报配置;

S3,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;

S4,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。

在一些实施例中,在集群外部设置若干个高可用节点,进一步包括:

在所述集群内部设置预设接口;

通过所述预设接口填写所述每一个高可用节点的信息。

在一些实施例中,还包括:

根据所述预设接口填写的每一个所述高可用节点的信息对每一个所述高可用节点进行是否能够连接到上报地址的测试以及是否能够连接到所述内部的节点的测试。

在一些实施例中,对每一个所述高可用节点进行预设上报配置,进一步包括:

在每一个所述高可用节点上安装提供上报功能的上报模块。

在一些实施例中,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接,进一步包括:

判断所述集群内部的主节点是否能够与所述上报地址建立连接;

响应于所述集群内部的主节点能够与所述上报地址建立连接,利用所述主节点将所述告警信息上报到所述上报地址。

在一些实施例中,还包括:

响应于所述集群内部的主节点无法与所述上报地址建立连接,判断所述集群内部的从节点是否能够与所述上报地址建立连接;

响应于所述集群内部的从节点能够与所述上报地址建立连接,利用所述从节点将所述告警信息上报到所述上报地址。

在一些实施例中,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报,进一步包括:

响应于所述集群内部的从节点无法与所述上报地址建立连接,利用所述主节点建立与其中一个高可用节点的连接;

调用所述高可用节点中预先安装的上报模块以通过所述上报模块将所述告警信息上报到预设地址。

本发明提出的方案预先配置一些集群外部的节点作为高可用节点,这些高可用节点能够建立与集群内部节点的连接并且还够连接到外网。在集群进行告警上报时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则通过调用告警上报自动修复逻辑,先通过集群其它节点按顺序进行告警上报,如果上报成功,则后续节点不再上报。如果整个集群都无法进行告警上报,比如在内网中,无法向外网发送邮件等,则会通过事先配置的高可用节点调用告警上报工具包进行上报,以此保证存储集群的告警上报的稳定性。

基于同一发明构思,根据本发明的另一个方面,如图4所示,本发明的实施例还提供了一种计算机可读存储介质601,计算机可读存储介质601存储有计算机程序指令610,计算机程序指令610被处理器执行以下步骤:

S1,在集群外部设置若干个高可用节点;

S2,对每一个所述高可用节点进行预设上报配置;

S3,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接;

S4,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报。

在一些实施例中,在集群外部设置若干个高可用节点,进一步包括:

在所述集群内部设置预设接口;

通过所述预设接口填写所述每一个高可用节点的信息。

在一些实施例中,还包括:

根据所述预设接口填写的每一个所述高可用节点的信息对每一个所述高可用节点进行是否能够连接到上报地址的测试以及是否能够连接到所述内部的节点的测试。

在一些实施例中,对每一个所述高可用节点进行预设上报配置,进一步包括:

在每一个所述高可用节点上安装提供上报功能的上报模块。

在一些实施例中,响应于检测到集群内部的节点产生告警信息,判断所述内部的节点是否能够与上报地址建立连接,进一步包括:

判断所述集群内部的主节点是否能够与所述上报地址建立连接;

响应于所述集群内部的主节点能够与所述上报地址建立连接,利用所述主节点将所述告警信息上报到所述上报地址。

在一些实施例中,还包括:

响应于所述集群内部的主节点无法与所述上报地址建立连接,判断所述集群内部的从节点是否能够与所述上报地址建立连接;

响应于所述集群内部的从节点能够与所述上报地址建立连接,利用所述从节点将所述告警信息上报到所述上报地址。

在一些实施例中,响应于所述内部的节点无法与上报地址建立连接,与其中一个所述高可用节点建立连接,以调用所述高可用节点进行告警信息的上报,进一步包括:

响应于所述集群内部的从节点无法与所述上报地址建立连接,利用所述主节点建立与其中一个高可用节点的连接;

调用所述高可用节点中预先安装的上报模块以通过所述上报模块将所述告警信息上报到预设地址。

本发明提出的方案预先配置一些集群外部的节点作为高可用节点,这些高可用节点能够建立与集群内部节点的连接并且还够连接到外网。在集群进行告警上报时,增加对节点是否可以进行告警上报的判断,如果当前节点无法进行上报,则通过调用告警上报自动修复逻辑,先通过集群其它节点按顺序进行告警上报,如果上报成功,则后续节点不再上报。如果整个集群都无法进行告警上报,比如在内网中,无法向外网发送邮件等,则会通过事先配置的高可用节点调用告警上报工具包进行上报,以此保证存储集群的告警上报的稳定性。

最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。

此外,应该明白的是,本文的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。

应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种异常信息显示方法及设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!