一种自动化监控和告警方法及系统

文档序号:1952887 发布日期:2021-12-10 浏览:17次 >En<

阅读说明:本技术 一种自动化监控和告警方法及系统 (Automatic monitoring and alarming method and system ) 是由 齐凯 章云光 刘宁 于 2021-08-24 设计创作,主要内容包括:本发明提出了一种自动化监控和告警方法及系统,涉及企业上云技术领域。包括以下步骤:获取云服务资源的清单信息;从获取的云服务资源的清单信息中采集指标数据并批量上报;将指标数据持久化到数据库中;按告警规则表达式定期对持久化的指标数据计算,符合告警规则表达式的计算结果将生成告警消息,并提供告警通知;对数据库中的持久化指标数据动态生成对应的指标图表;还包括:云服务资源发现模块,云服务指标采集上报模块,指标存储模块,告警模块,监控图表模块;从而无需依赖云服务的监控产品,只需调用云服务基础API获取资源清单,监控系统将按照资源清单来自发现、自采集以及自监控,从而实现自动化运行,也就使得运营成本大大降低。(The invention provides an automatic monitoring and alarming method and system, and relates to the technical field of cloud-on-enterprise. The method comprises the following steps: acquiring list information of cloud service resources; acquiring index data from the acquired list information of the cloud service resources and reporting the index data in batches; persisting the index data to a database; calculating the persistent index data according to the alarm rule expression regularly, generating an alarm message according to the calculation result of the alarm rule expression, and providing an alarm notice; dynamically generating a corresponding index chart for the persistent index data in the database; further comprising: the system comprises a cloud service resource discovery module, a cloud service index acquisition and reporting module, an index storage module, an alarm module and a monitoring chart module; therefore, the monitoring product of the cloud service is not needed to be relied on, the cloud service basic API is only needed to be called to obtain the resource list, and the monitoring system can automatically discover, self-collect and self-monitor according to the resource list, so that automatic operation is realized, and the operation cost is greatly reduced.)

一种自动化监控和告警方法及系统

技术领域

本发明涉及企业上云技术领域,具体而言,涉及一种自动化监控和告警方法及系统。

背景技术

企业上云,是指企业以互联网为基础进行信息化基础设施、管理、业务等方面应用,并通过互联网与云计算手段连接社会化资源、共享服务及能力的过程。

而随着云服务日益普及化、资源多元化,传统企业上云已成为一种趋势。但上云后,海量云服务资源的自动化监控、告警将面临挑战。尽管各云服务厂商会提供自有配套监控产品,但使用中通常会面临如下问题:

1.通常是按调用次数计费,而资源越多,指标数量就越多,也就使得调用次数将线性增长,那么最终成本费用也会较高;

2.云服务自带监控指标通常为大众化通用指标,无法根据自身需求去精细定制化;

3.仅能局限监控该云厂商的资源,无法统一适配多云、多平台、多区域、多种资源的统一接入;

4.缺少统一告警控制台;

针对上述问题,如何设计一种自动化监控和告警方法及系统是我们目前迫切需要解决的。

发明内容

本发明的目的在于提供一种自动化监控和告警方法及系统,以解决上述背景技术中存在的问题。

本发明的实施例是这样实现的:

一方面,本申请实施例提供一种自动化监控和告警方法,其包括以下步骤:

获取云服务资源的清单信息;

从清单信息中提取指标数据并上传至预设的数据库中;

按照预设的告警规则定期对数据库中的指标数据进行计算,并生成计算结果;

根据计算结果生成并发送告警信息。

在本发明的一些实施例中,上述所述获取云服务资源的清单信息包括以下步骤;

通过浏览各类云服务API从而获取到云服务资源的清单信息。

在本发明的一些实施例中,上述采集指标数据包括以下步骤:

提取指标数据包括以下步骤:

根据云服务资源的类型对清单信息进行分类;

将分类后的清单信息作为提取作业目标;

定义各类云服务需要提取指标数据的内容;

对预设类型的云服务资源通过HTTP或TCP远程请求方式进行状态数据获取;

将获取到的状态数据对单位、数值进行格式化并存放到临时缓冲区中。

在本发明的一些实施例中,上述指标数据上传至预设的数据库包括以下步骤:

以Push方式将状态数据批量发送至数据库,并按指定间隔周期性执行。

在本发明的一些实施例中,上述还包括:将数据库中的指标数据进行周期性聚合并周期性的清理指定时长外的历史数据;所述周期性聚合通过以下的方式实现:

将超过指定时长的历史小时指标数据聚合为以天为单位的趋势数据;

将超过指定时长的历史天指标数据聚合为以月为单位的趋势数据;

将超过指定时长的历史月指标数据聚合为以年为单位的趋势数据。

在本发明的一些实施例中,上述生成所述告警信息通过以下的方式实现:

计算结果命中告警规则表达式且未处于告警队列中,则生成告警信息,并发送到告警消息队列;

计算结果命中告警规则表达式且已处于告警队列中,则忽略,并等待下次检测;

计算结果命中恢复规则表达式,则生成告警解除信息,并发送到告警消息队列;

提供所述告警通知通过以下的方式实现:

浏览告警队列中的告警信息,按接收端的类型分别对告警信息进行发送通知。

在本发明的一些实施例中,上述还包括对数据库中的指标数据生成对应的指标图表;

生成指标图表通过以下方式实现:

通过开源图表对接数据库作为数据源并提供监控数据查询;

通过创建图表、视图的设置,生成对应指标图表。

另一方面,本申请实施例提供一种自动化监控和告警系统,其包括:云服务资源发现模块,用于通过各类云服务基础API获取到服务资源的清单信息;

云服务指标采集上报模块,用于采集云服务资源的指标并将采集的指标数据批量上报;

指标存储模块,用于将收到的指标数据持久化到数据库中,并能够进行周期性聚合及清理历史数据;

告警模块,用于定期对指标存储模块中持久化的指标数据进行计算,对符合表达式的计算结果生成告警消息,并提供告警通知;

监控图表模块:用于提供WEB版指标数据的查询功能,并动态生成对应指标图表。

另一方面,本申请实施例提供一种电子设备,其包括:至少一个处理单元;以及与处理单元连接的至少一个存储器、总线;

其中,处理单元、存储器通过总线完成相互间的通信;

处理单元用于调用存储器中的程序指令,以执行上述方法中任一的方法。

另一方面,本申请实施例提供一种非暂态计算机可读存储介质,暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述方法中任一的方法。

相对于现有技术,本发明的实施例至少具有如下优点或有益效果:在使用时,采用此种方法,从而便无需依赖云服务的监控产品,只需调用云服务基础API获取资源清单即可,而监控系统将按照资源清单来自发现、自采集以及自监控,从而实现自动化运行,也就使得运营成本大大降低;并且可根据实际需求自定义细化监控指标从而提升监控粒度;还支持监控一体化,可统一对接多云、多资源、多指标数据的采集、存储、监控、告警;而且支持批量上报指标数据到监控服务器,提升监控系统吞吐量和性能;还支持监控系统整体架构可做到水平、垂直扩展;从而达到运营成本降低,且能够根据自身需求去精细定制化,也可适配多云、多平台、多区域、多种资源的统一接入,统一告警控制台,操作简单,提升服务监控覆盖率,保障服务可靠性,具有更高的实用性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例中的方法流程图;

图2为本发明实施例中整体的连接流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。

在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1-图2,图1为本发明实施例中的方法流程图;图2为本发明实施例中整体的连接流程图。

一方面,本申请实施例提供一种自动化监控和告警方法,其包括以下步骤:

S1、获取云服务资源的清单信息;也就是云服务资源相关的信息,包括服务类别、时间、状态等等信息。

S2、从清单信息中提取指标数据并上传至预设的数据库中;即是将在步骤S1中的清单信息进行采集并且分别进行上报,也即是传输至此系统中进行存储。

S3、按照预设的告警规则定期对数据库中的指标数据进行计算,并生成计算结果;

S4、根据计算结果生成并发送告警信息;也就是根据告警规则对采集的指标数据进行计算,若计算结果符合告警规则的表达式,即是符合告警规则的内容,从而便生成对应的告警信息,并提供相应的告警通知。

而告警规则是根据云服务资源的清单信息进行规定和定制。

即告警规则通过以下方式实现:

通过简写表达式方式定义告警规则,将指标、指标时间维度传入预置函数中进行聚合计算,得到一个结果值;

对计算结果值与定义的阈值进行逻辑运算得到表达式最终结果值,表达式结果值返回真则命中规则;反之则未命中规则。

对数据库中的持久化指标数据动态生成对应的指标图表。也就是说,将存储的持久化指标数据进行统计、归纳,而后生成对应的指标图表。

采用此种方法,从而便无需依赖云服务的监控产品,只需调用云服务基础API获取资源清单即可,而监控系统将按照资源清单来自发现、自采集以及自监控,从而实现自动化运行,也就使得运营成本大大降低;并且可根据实际需求自定义细化监控指标从而提升监控粒度;还支持监控一体化,可统一对接多云、多资源、多指标数据的采集、存储、监控、告警;而且支持批量上报指标数据到监控服务器,提升监控系统吞吐量和性能;还支持监控系统整体架构可做到水平、垂直扩展;从而达到运营成本降低,且能够根据自身需求去精细定制化,也可适配多云、多平台、多区域、多种资源的统一接入,统一告警控制台,操作简单,提升服务监控覆盖率,保障服务可靠性,具有更高的实用性。

在本实施例中,上述获取云服务资源的清单信息包括以下步骤;

通过浏览各类云服务API从而获取到云服务资源的清单信息。

应用程序接口又名应用编程接口,(ApplicationProgrammingInterface),简称API,是软件系统不同组成部分衔接的约定。应用程序接口主要目的是提供应用程序与开发人员以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节,主要分为WindowsAPI和linuxAPI。

在本实施例中,上述采集指标数据包括以下步骤:

提取指标数据包括以下步骤:

根据云服务资源的类型对清单信息进行分类;

将分类后的清单信息作为提取作业目标;

定义各类云服务需要提取指标数据的内容;

对预设类型的云服务资源通过HTTP或TCP远程请求方式进行状态数据获取;

将获取到的状态数据对单位、数值进行格式化并存放到临时缓冲区中。

HTTP是超文本传输协议,是用于从万维网服务器传输超文本到本地浏览器的传送协议;而是TCP传输控制协议,是互联网协议组的主要协议之一,它起源于最初的网络实施,在网络实施中,它补充了互联网协议。

HTTP是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。(我们称这个客户端)叫用户代理(useragent)。应答的服务器上存储着(一些)资源,比如HTML文件和图像。(我们称)这个应答服务器为源服务器(originserver)。在用户代理和源服务器中间可能存在http。

多个中间层,比如代理,网关,或者隧道(tunnels)。尽管TCP/IP协议是互联网上最流行的应用,HTTP协议并没有规定必须使用它和(基于)它支持的层。事实上,HTTP可以在任何其他互联网协议上,或者在其他网络上实现。HTTP只假定(其下层协议提供)可靠的传输,任何能够提供这种保证的协议都可以被其使用。

将获取到的状态数据对单位、数值进行格式化并存放到临时缓冲区中。

在本实施例中,上述指标数据上传至预设的数据库包括以下步骤:

以Push方式将状态数据批量发送至数据库,并按指定间隔周期性执行。

在本实施例中,上述还包括:将数据库中的指标数据进行周期性聚合并周期性的清理指定时长外的历史数据;所述周期性聚合通过以下的方式实现:

将超过指定时长的历史小时指标数据聚合为以天为单位的趋势数据;

将超过指定时长的历史天指标数据聚合为以月为单位的趋势数据;

将超过指定时长的历史月指标数据聚合为以年为单位的趋势数据。

在本实施例中,上述生成所述告警信息通过以下的方式实现:

计算结果命中告警规则表达式且未处于告警队列中,则生成告警信息,并发送到告警消息队列;

计算结果命中告警规则表达式且已处于告警队列中,则忽略,并等待下次检测;

计算结果命中恢复规则表达式,则生成告警解除信息,并发送到告警消息队列;

提供所述告警通知通过以下的方式实现:

浏览告警队列中的告警信息,按接收端的类型分别对告警信息进行发送通知。

在本实施例中,上述还包括对数据库中的指标数据生成对应的指标图表;

生成指标图表通过以下方式实现:

通过开源图表对接数据库作为数据源并提供监控数据查询;

通过创建图表、视图的设置,生成对应指标图表。

实施例2

另一方面,本申请实施例提供一种自动化监控和告警系统,其包括:云服务资源发现模块,用于通过各类云服务基础API获取到服务资源的清单信息;

云服务指标采集上报模块,用于采集云服务资源的指标并将采集的指标数据批量上报;

指标存储模块,用于将收到的指标数据持久化到数据库中,并能够进行周期性聚合及清理历史数据;

告警模块,用于定期对指标存储模块中持久化的指标数据进行计算,对符合表达式的计算结果生成告警消息,并提供告警通知;

监控图表模块:用于提供WEB版指标数据的查询功能,并动态生成对应指标图表。

实施例3

另一方面,本申请实施例提供一种电子设备,其包括:至少一个处理单元;以及与处理单元连接的至少一个存储器、总线;

其中,处理单元、存储器通过总线完成相互间的通信;

处理单元用于调用存储器中的程序指令,以执行上述任一的方法。

另一方面,本申请实施例提供一种非暂态计算机可读存储介质,暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述任一的方法。

其中,指标存储模块也即是存储器,此存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。

当然,此系统还有处理器,此处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图2所示的结构仅为示意,还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:列车运行图生成方法及系统、电子设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!