告警数据的处理方法、装置、设备及存储介质

文档序号：153010 发布日期：2021-10-26 浏览：31次 >En<

阅读说明：本技术 告警数据的处理方法、装置、设备及存储介质 (Alarm data processing method, device, equipment and storage medium ) 是由张丽萍于 2021-07-30 设计创作，主要内容包括：本发明涉及基架运维领域,公开了一种告警数据的处理方法、装置、设备及存储介质,用于根据不同告警信息进行故障处理。方法包括：从预置的基础资源平台获取告警数据,所述告警数据是指数据库中基础资源的告警信息；根据预设告警等级定义规则对所述告警数据进行告警等级定义,确定所述告警数据对应的告警等级；基于所述告警等级对所述告警数据进行逻辑判断,确定与所述告警数据对应的故障原因；通过预设处理策略对所述故障原因进行故障处理,得到所述告警数据的目标处理结果；对所述告警数据及所述目标处理结果进行归类处理,生成对应的报告文件并将所述报告文件传输至运维数据库中。本发明还涉及区块链技术,告警数据可存储于区块链中。(The invention relates to the field of operation and maintenance of base frames, and discloses a method, a device, equipment and a storage medium for processing alarm data, which are used for carrying out fault processing according to different alarm information. The method comprises the following steps: acquiring alarm data from a preset basic resource platform, wherein the alarm data refers to alarm information of basic resources in a database; performing alarm level definition on the alarm data according to a preset alarm level definition rule, and determining an alarm level corresponding to the alarm data; performing logic judgment on the alarm data based on the alarm level, and determining a fault reason corresponding to the alarm data; performing fault processing on the fault reason through a preset processing strategy to obtain a target processing result of the alarm data; and classifying the alarm data and the target processing result to generate a corresponding report file and transmitting the report file to an operation and maintenance database. The invention also relates to a blockchain technique, in which alarm data can be stored.)

技术领域

本发明涉及基架运维领域，尤其涉及一种告警数据的处理方法、装置、设备及存储介质。

背景技术

随着信息技术的发展，越来越多运维技术应用在企业中，其中金融领域对于业务的安全性、实时性要求更高，现有的技术中，监控系统监控到业务发生异常时会通知给对应的系统运维人员，运维人员根据告警信息进行手动处理。

但是对于监控告警后基于人工操作的响应处理是运维的一大不足之处，运维人员根据告警信息进行手动处理，例如重启操作。但是这种方法不仅效率低，而且还可能影响整个业务系统运行。人工处理监控告警同时也会存在运维人员未及时接收到告警信息，无法及时处理的情况，对于时效性要求高的业务亟需自动化处理告警信息的技术手段满足运维需求。

发明内容

本发明的主要目的在于解决对告警信息进行处理的时效性较低的技术问题。

本发明第一方面提供了一种告警数据的处理方法，包括：从预置的基础资源平台获取告警数据，所述告警数据是指数据库中基础资源的告警信息；根据预设告警等级定义规则对所述告警数据进行告警等级定义，确定所述告警数据对应的告警等级；基于所述告警等级对所述告警数据进行逻辑判断，确定与所述告警数据对应的故障原因；通过预设处理策略对所述故障原因进行故障处理，得到所述告警数据的目标处理结果；对所述告警数据及所述目标处理结果进行归类处理，生成对应的报告文件并将所述报告文件传输至运维数据库中。

可选的，在本发明第一方面的第一种实现方式中，在所述根据预设告警等级定义规则对所述告警数据进行告警等级定义，确定所述告警数据对应的告警等级包括：从所述告警数据中筛选出未定义告警级别的日志，得到待定义日志；利用预设的告警等级定义规则对所述待定义日志的告警级别进行定义，确定所述告警数据对应的告警等级。

可选的，在本发明第一方面的第二种实现方式中，所述利用预设的告警等级定义规则对所述待定义日志的告警级别进行定义，确定所述告警数据对应的告警等级包括：对所述待定义日志进行扫描，得到所述待定义日志中对应的告警时间及告警触发阈值；通过所述预设的告警等级定义规则，确定所述告警时间及所述告警触发阈值对应的告警等级，并对所述待定义日志进行告警级别标记。

可选的，在本发明第一方面的第三种实现方式中，所述基于所述告警等级对所述告警数据进行逻辑判断，确定与所述告警数据对应的故障原因包括：通过所述告警等级确定与所述告警数据对应的字段信息；对预置多维度的历史告警数据与所述告警数据进行比较，确定与所述字段信息相同字段的目标字段信息；根据预设的候选字段信息与故障原因的映射关系，确定所述目标字段信息与所述候选字段信息对应的匹配标识，通过所述匹配标识获取与所述目标字段信息匹配的目标映射关系，得到与所述告警数据对应的故障原因。

可选的，在本发明第一方面的第四种实现方式中，所述通过预设处理策略对所述故障原因进行故障处理，得到所述告警数据的目标处理结果包括：读取所述预设处理策略，生成多个候选处理脚本；对所述故障原因进行类型判断，若所述故障原因为普通类型，则读取所述普通类型对应的目标处理脚本，并针对所述故障原因执行所述目标处理脚本进行故障处理，得到第一目标处理结果；当按照所述目标处理脚本无法对所述故障原因进行故障处理时，记录所述故障原因的处理报错信息并作为第二目标处理结果；

若所述故障原因为重点类型，则记录所述重点类型对应的特征信息并作为第三目标处理结果，所述特征信息用于表征所述告警数据对应的目标对象中出现的异常信息。

可选的，在本发明第一方面的第五种实现方式中，所述对所述告警数据及所述目标处理结果进行归类处理，生成对应的报告文件并将所述报告文件传输至运维数据库中包括：获取所述告警数据及预置候选数据维度集，所述预置候选数据维度集包括多个候选数据维度；分别获取每个所述候选数据维度的维度评价参数；通过所述维度评价参数从所述多个候选数据维度中确定与所述告警数据匹配的多个目标数据维度；通过所述多个目标数据维度及所述目标处理结果对所述告警数据进行分类，生成对应的报告文件并将所述报告文件传输至运维数据库中。

可选的，在本发明第一方面的第六种实现方式中，所述通过所述多个目标数据维度及所述目标处理结果对所述告警数据进行分类，生成对应的报告文件并将所述报告文件传输至运维数据库中包括：基于所述目标处理结果，对所述告警数据按照所述多个目标数据维度进行划分，得到目标告警数据集；对所述目标告警数据集循环执行预设的数据分类步骤，直至满足预设终止条件时，得到对应的报告文件；将所述报告文件传输至运维数据库中。

本发明第二方面提供了一种告警数据的处理装置，包括：获取模块，用于从预置的基础资源平台获取告警数据，所述告警数据是指数据库中基础资源的告警信息；定义模块，用于根据预设告警等级定义规则对所述告警数据进行告警等级定义，确定所述告警数据对应的告警等级；判断模块，用于基于所述告警等级对所述告警数据进行逻辑判断，确定与所述告警数据对应的故障原因；处理模块，用于通过预设处理策略对所述故障原因进行故障处理，得到所述告警数据的目标处理结果；归类模块，用于对所述告警数据及所述目标处理结果进行归类处理，生成对应的报告文件并将所述报告文件传输至运维数据库中。

可选的，在本发明第二方面的第一种实现方式中，所述定义模块还包括：筛选单元，用于从所述告警数据中筛选出未定义告警级别的日志，得到待定义日志；定义单元，用于利用预设的告警等级定义规则对所述待定义日志的告警级别进行定义，确定所述告警数据对应的告警等级。

可选的，在本发明第二方面的第二种实现方式中，所述定义单元具体用于：对所述待定义日志进行扫描，得到所述待定义日志中对应的告警时间及告警触发阈值；通过所述预设的告警等级定义规则，确定所述告警时间及所述告警触发阈值对应的告警等级，并对所述待定义日志进行告警级别标记。

可选的，在本发明第二方面的第三种实现方式中，所述判断模块具体用于：通过所述告警等级确定与所述告警数据对应的字段信息；对预置多维度的历史告警数据与所述告警数据进行比较，确定与所述字段信息相同字段的目标字段信息；根据预设的候选字段信息与故障原因的映射关系，确定所述目标字段信息与所述候选字段信息对应的匹配标识，通过所述匹配标识获取与所述目标字段信息匹配的目标映射关系，得到与所述告警数据对应的故障原因。

可选的，在本发明第二方面的第四种实现方式中，所述处理模块具体用于：读取所述预设处理策略，生成多个候选处理脚本；对所述故障原因进行类型判断，若所述故障原因为普通类型，则读取所述普通类型对应的目标处理脚本，并针对所述故障原因执行所述目标处理脚本进行故障处理，得到第一目标处理结果；当按照所述目标处理脚本无法对所述故障原因进行故障处理时，记录所述故障原因的处理报错信息并作为第二目标处理结果；若所述故障原因为重点类型，则记录所述重点类型对应的特征信息并作为第三目标处理结果，所述特征信息用于表征所述告警数据对应的目标对象中出现的异常信息。

可选的，在本发明第二方面的第五种实现方式中，所述归类模块还包括：：第一获取单元，用于获取所述告警数据及预置候选数据维度集，所述预置候选数据维度集包括多个候选数据维度；第二获取单元，用于分别获取每个所述候选数据维度的维度评价参数；维度确定单元，用于通过所述维度评价参数从所述多个候选数据维度中确定与所述告警数据匹配的多个目标数据维度；数据分类单元，用于通过所述多个目标数据维度及所述目标处理结果对所述告警数据进行分类，生成对应的报告文件并将所述报告文件传输至运维数据库中。

可选的，在本发明第二方面的第六种实现方式中，所述数据分类单元具体用于：基于所述目标处理结果，对所述告警数据按照所述多个目标数据维度进行划分，得到目标告警数据集；对所述目标告警数据集循环执行预设的数据分类步骤，直至满足预设终止条件时，得到对应的报告文件；将所述报告文件传输至运维数据库中。

本发明第三方面提供了一种告警数据的处理设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机程序；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述告警数据的处理设备执行上述的告警数据的处理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的告警数据的处理方法。

本发明提供的技术方案中，从预置的基础资源平台获取告警数据，所述告警数据是指数据库中基础资源的告警信息；根据预设告警等级定义规则对所述告警数据进行告警等级定义，确定所述告警数据对应的告警等级；基于所述告警等级对所述告警数据进行逻辑判断，确定与所述告警数据对应的故障原因；通过预设处理策略对所述故障原因进行故障处理，得到所述告警数据的目标处理结果；对所述告警数据及所述目标处理结果进行归类处理，生成对应的报告文件并将所述报告文件传输至运维数据库中。本发明实施例中，通过自动化处理方式快速恢复，提高故障解决效率，并且在实现自动处理的同时将告警信息及时反馈，降低故障信息反馈的延迟时间，能够提高故障解决效率。

附图说明

图1为本发明实施例中告警数据的处理方法的一个实施例示意图；

图2为本发明实施例中告警数据的处理方法的另一个实施例示意图；

图3为本发明实施例中告警数据的处理装置的一个实施例示意图；

图4为本发明实施例中告警数据的处理装置的另一个实施例示意图；

图5为本发明实施例中告警数据的处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种告警数据的处理方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中方法的一个实施例包括：

101、从预置的基础资源平台获取告警数据，告警数据是指数据库中基础资源的告警信息；

可以理解的是，本发明的执行主体可以为告警数据的处理装置，还可以是服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

具体的，该预置的基础资源平台是指例如主机、网络及数据库等基础资源平台，服务器从该预置的基础资源平台中接收所有的告警数据，该告警数据由告警日志组成，该告警日志包括指标名称、指标ID、指标值、指标阈值，产生时间、产生组件、告警标题、告警级别、故障号、告警状态、告警类型、设备类型、设备数据接口等信息，需要强调的是，为进一步保证上述告警数据的私密和安全性，上述埋点数据还可以存储于一区块链的节点中。

102、根据预设告警等级定义规则对告警数据进行告警等级定义，确定告警数据对应的告警等级；

具体的，服务器读取该预设告警等级定义规则对该告警数据进行匹配，确定该告警数据对应的告警等级，例如，可以对该告警数据中待定义的告警日志中所记载业务系统连接数据库闪断的待定义的告警日志标记三级告警日志，服务器可以对该告警数据中待定义的告警日志中记载业务系统连接数据库中断1分钟内的待定义日志标记为二级告警日志。

103、基于告警等级对告警数据进行逻辑判断，确定与告警数据对应的故障原因；

具体的，服务器对告警数据进行逻辑判断的方式主要有两种，第一种方式是指服务器将预置的多维度的历史告警数据与配置规则进行比较，以在配置规则中查找与多维度的告警信息相同字段的信息；服务器根据预设的信息与故障原因的映射关系，确定查找的信息对应的故障原因，第二种方式是指在预置多维度的历史告警数据中，服务器根据各个维度的告警数据确定出现故障的源头，该源头为主机、网络、数据库、平台或应用中的任一个或多个；当产生故障的源头为1个时，服务器将该源头产生的故障原因作为本次告警的故障原因，当产生故障的源头包括多个时，服务器对每个源头产生告警数据中的各个子模块进行分析，以确定每个源头产生的故障原因的最终分值，服务器将最终分值最高的源头对应的故障原因作为本次告警的故障原因，本实施例主要以第一种方式说明。

104、通过预设处理策略对故障原因进行故障处理，得到告警数据的目标处理结果；

具体的，服务器根据该告警等级利用故障处理策略库中的数据信息，在确定该故障原因后先进行故障定位，服务器进而对该故障原因进行故障分析，在故障处理策略库中进行选择匹配，进行故障处理，同时，当故障处理完成并检测确认为故障恢复时，服务器还将此次故障处理中所积累的知识提交到故障知识库中，不断积累，以便于后续针对相同类型的故障能够更加快速的进行处理，提升故障解决效率。

105、对告警数据及目标处理结果进行归类处理，生成对应的报告文件并将报告文件传输至运维数据库中。

具体的，服务器可以按照预设周期获取该告警数据，例如，若该预设周期为20分钟，则本步骤可以每隔20分钟采集该告警数据，从而后续步骤中服务器可以对每个预设周期获取到的告警数据进行分类，确定对应的分类结果并根据该分类结果生成报告文件，将该报告文件传输至运维数据库中。

本发明实施例中，服务器从该预置的基础资源平台中接收所有的告警数据，该告警数据由告警日志组成，服务器读取该预设告警等级定义规则对该告警数据进行匹配，确定该告警数据对应的告警等级，服务器可以对该告警数据中待定义的告警日志中记载业务系统连接数据库中断1分钟内的待定义日志标记为二级告警日志，服务器将预置的多维度的历史告警数据与配置规则进行比较，以在配置规则中查找与多维度的告警信息相同字段的信息，服务器根据预设的信息与故障原因的映射关系，确定查找的信息对应的故障原因，服务器根据该告警等级利用故障处理策略库中的数据信息，在确定该故障原因后先进行故障定位，服务器进而对该故障原因进行故障分析，在故障处理策略库中进行选择匹配，进行故障处理，同时，当故障处理完成并检测确认为故障恢复时，服务器还将此次故障处理中所积累的知识提交到故障知识库中，从而后续步骤中服务器可以对每个预设周期获取到的告警数据进行分类，确定对应的分类结果并根据该分类结果生成报告文件，将该报告文件传输至运维数据库中。本发明实施例中，通过自动化处理方式快速恢复，提高故障解决效率，并且在实现自动处理的同时将告警信息及时反馈，降低故障信息反馈的延迟时间，能够提高故障解决效率。

请参阅图2，本发明实施例中告警数据的处理方法的另一个实施例包括：

201、从预置的基础资源平台获取告警数据，告警数据是指数据库中基础资源的告警信息；

具体的，在本实施例中，步骤201的具体实施方式与上述步骤101类似，此处不再赘述。

202、根据预设告警等级定义规则对告警数据进行告警等级定义，确定告警数据对应的告警等级；

具体的，在本实施例中，步骤202的具体实施方式与上述步骤102类似，此处不再赘述。

可选的，步骤202包括：服务器从告警数据中筛选出未定义告警级别的日志，得到待定义日志；服务器利用预设的告警等级定义规则对待定义日志的告警级别进行定义，确定告警数据对应的告警等级。

具体的，服务器通过该预设的告警等级定义规则对待定义日志对应的告警级别进行定义，进而对该待定义的告警日志进行告警级别标记，该预设的告警级别定义规则对应一个配置表，针对待定义日志服务器可以根据该配置表中对应的配置信息确定待定义日志的告警级别。其中，依据配置表中记载的内容，服务器可以根据待定义日志中记载的通讯中断时间对应的时间大小等级对应的阈值对待定义日志进行告警级别标记。

可选的，服务器利用预设的告警等级定义规则对待定义日志的告警级别进行定义，确定告警数据对应的告警等级包括：服务器对待定义日志进行扫描，得到待定义日志中对应的告警时间及告警触发阈值；服务器通过预设的告警等级定义规则，确定告警时间及告警触发阈值对应的告警等级，并对待定义日志进行告警级别标记。

具体的，服务器确定从告警数据中筛选得到待定义的告警日志中对应的告警事件及阈值，并通过该预设的告警等级定义规则对告警事件及阈值对应的告警级别进行定义，服务器进而对该待定义的告警日志进行告警级别标记，该预设的告警级别定义规则对应一个配置表，该配置表中记载有各种告警事件对应的告警级别，该配置表中的内容可以根据实际情况增加、删减或调整数值，服务器针对待定义日志可以根据该配置表中对应的配置信息确定待定义日志的告警级别，例如，可以对待定义日志中记载磁盘使用率为80％至90％的待定义日志标记为三级告警日志；可以对待定义日志中记载磁盘使用率为90％至95％的待定义日志标记为二级告警日志；可以对待定义日志中记载磁盘使用率大于95％的待定义日志标记为一级告警日志。

203、基于告警等级对告警数据进行逻辑判断，确定与告警数据对应的故障原因；

具体的，在本实施例中，步骤203的具体实施方式与上述步骤103类似，此处不再赘述。

可选的，步骤203包括：服务器通过告警等级确定与告警数据对应的字段信息；服务器将预置多维度的历史告警数据与告警数据进行比较，确定与字段信息相同字段的目标字段信息；服务器根据预设的候选字段信息与故障原因的映射关系，确定目标字段信息与候选字段信息对应的匹配标识，通过匹配标识获取与目标字段信息匹配的目标映射关系，得到与告警数据对应的故障原因。

具体的，服务器为实现对告警故障原因的准确判断，本实施例中优选通过多种维度的故障告警信息进行全故障告警分析。多个维度体现在，服务器通过监控平台收集主机、网络、数据库、平台以及各种应用程序上产生的历史告警数据，从而覆盖所有可能的故障原因，提升故障告警分析的准确性，进而节省告警分析事件，提高告警处理时效，服务器将预置的多维度的历史告警数据与配置规则进行比较，以在配置规则中查找与多维度的告警信息相同字段的信息，服务器根据预设的信息与故障原因的映射关系，确定查找的信息对应的故障原因。

204、通过预设处理策略对故障原因进行故障处理，得到告警数据的目标处理结果；

具体的，在本实施例中，步骤204的具体实施方式与上述步骤104类似，此处不再赘述。

可选的，步骤204包括：服务器读取预设处理策略，生成多个候选处理脚本；服务器对故障原因进行类型判断，若故障原因为普通类型，则读取普通类型对应的目标处理脚本，并针对故障原因执行目标处理脚本进行故障处理，得到第一目标处理结果；服务器当按照目标处理脚本无法对故障原因进行故障处理时，记录故障原因的处理报错信息并作为第二目标处理结果；服务器若故障原因为重点类型，则记录重点类型对应的特征信息并作为第三目标处理结果，特征信息用于表征告警数据对应的目标对象中出现的异常信息。

具体的，服务器在预置的故障特征库存储了一个或多个故障信息，以及每个故障信息各自对应的故障解除策略，每个系统可以分别被配置成根据各自的故障信息从各自的故障特征库中匹配相应的故障处理策略，并生成对应候选处理脚本，服务器进而根据告警等级对该故障原因进行类型判断，确定该故障原因是普通类型或重点类型，服务器对该普通类型或重点类型的故障原因采用对应的处理脚本执行故障处理策略指定的操作进行故障恢复，即解除故障，使系统恢复正常。

205、获取告警数据及预置候选数据维度集，预置候选数据维度集包括多个候选数据维度；

具体的，该候选数据维度集包括多个候选数据维度，候选数据维度集包括的候选数据维度均不相同。例如，告警数据包括A1(b1，b2，...，bn)，A2(b1，b2，...，bn)，...，Am(b1，b2，...，bn)的情况下，其中，b1表示第一个候选数据维度，b2表示第二个候选数据维度，bn表示第n个候选数据维度，m、n均为正整数，则本步骤中的候选数据维度集为(d1，d2，...，dn)，上述示例只是举例说明，本发明对此不作限定。

206、分别获取每个候选数据维度的维度评价参数；

具体的，在进行数据分类时，分类纯度通常用于衡量分类结果，进一步地，若分类纯度越高，分类结果越好，相反，若分类纯度越低，分类结果越差，由于基尼值和信息熵均可以表示分类纯度，因此，本发明中的维度评价参数可以包括基尼值或者信息熵，当然，该维度评价参数还可以包括信息增益等参数，本发明对此不作限定，服务器在对该每个候选数据维度进行扫描后，确定与该每个候选数据维度的维度评价参数，在维度评价参数为基尼值的情况下，由基尼值的特性可知，若基尼值越大，则分类纯度越低，若基尼值越小，则分类纯度越高，

207、通过维度评价参数从多个候选数据维度中确定与告警数据匹配的多个目标数据维度；

具体的，服务器在维度评价参数为基尼值的情况下，由基尼值的特性可知，若基尼值越大，则分类纯度越低，若基尼值越小，则分类纯度越高，因此，本步骤可以确定最小基尼值对应的候选数据维度为该目标数据维度，当在维度评价参数包括信息熵的情况下，由信息熵的特性可知，若信息熵越大，则分类纯度越低，若信息熵越小，则分类纯度越高，因此，服务器可以确定最小信息熵对应的候选数据维度为目标数据维度。

208、通过多个目标数据维度及目标处理结果对告警数据进行分类，生成对应的报告文件并将报告文件传输至运维数据库中。

具体的，在本实施例中，服务器若获取到60个告警数据，且告警数据的候选数据维度集包括服务器集群，服务器标识以及异常信息，则60个告警数据可以存放于决策树的根节点，当确定目标数据维度为服务器集群后，服务器将全部告警数据按照服务器集群进行分类，如若服务器集群包括集群T1、集群T2以及集群T3，服务器则将全部告警数据分成集群T1对应的第一目标告警数据集，集群T2对应的第二目标告警数据集，集群T3对应的目标告警数据集，服务器将三个目标告警数据集合并为报告文件，并将该报告文件传输至运维数据库中。

可选的，步骤208包括：服务器基于目标处理结果，对告警数据按照多个目标数据维度进行划分，得到目标告警数据集；服务器对目标告警数据集循环执行预设的数据分类步骤，直至满足预设终止条件时，得到对应的报告文件；服务器将报告文件传输至运维数据库中。

具体的，服务器首先可以将告警数据按照目标数据维度进行划分得到多个目标告警数据集，并对每个目标告警数据集分别循环执行数据分类步骤，直至满足终止条件。其中，数据分类步骤包括：服务器将候选数据维度集中的目标数据维度移除得到目标告警数据集的新候选数据维度集，服务器分别获取新候选数据维度集中包括的候选数据维度的新维度评价参数，服务器根据新维度评价参数从新候选数据维度集中获取目标告警数据集的新目标数据维度，服务器将目标告警数据集按照新目标数据维度进行分类得到更新后的目标告警数据集，在更新后的目标告警数据集不满足终止条件的情况下，服务器将新目标数据维度作为更新后的目标数据维度。另外，终止条件包括：更新后的目标告警数据集对应的新候选数据维度集中不包括任一候选数据维度；或者，更新后的目标告警数据集包括的待分类告警数据的数据量小于或者等于预设数量；或者，更新后的目标告警数据集对应的新候选数据维度集中，包括的候选数据维度的评价阈值均大于或者等于评价阈值。

本发明实施例中，服务器从该预置的基础资源平台中接收所有的告警数据，该告警数据由告警日志组成，服务器通过该预设的告警等级定义规则对待定义日志对应的告警级别进行定义，进而对该待定义的告警日志进行告警级别标记，该预设的告警级别定义规则对应一个配置表，针对待定义日志可以根据该配置表中对应的配置信息确定待定义日志的告警级别，服务器为实现对告警故障原因的准确判断，服务器将预置的多维度的历史告警数据与配置规则进行比较，以在配置规则中查找与多维度的告警信息相同字段的信息；根据预设的信息与故障原因的映射关系，服务器确定查找的信息对应的故障原因具体的，服务器在预置的故障特征库存储了一个或多个故障信息，以及每个故障信息各自对应的故障解除策略，每个系统可以分别被配置成根据各自的故障信息从各自的故障特征库中匹配相应的故障处理策略，服务器并生成对应候选处理脚本，服务器进而根据告警等级对该故障原因进行类型判断，确定该故障原因是普通类型或重点类型，服务器对该普通类型或重点类型的故障原因采用对应的处理脚本执行故障处理策略指定的操作进行故障恢复，即解除故障，使系统恢复正常，同时，当故障处理完成并检测确认为故障恢复时，服务器还将此次故障处理中所积累的知识提交到故障知识库中，从而后续步骤中服务器可以对每个预设周期获取到的告警数据进行分类，确定对应的分类结果并根据该分类结果生成报告文件，服务器将该报告文件传输至运维数据库中。本发明实施例中，通过监控平台收集主机、网络、数据库、平台以及各种应用程序上产生的历史告警数据等多种维度的故障告警信息进行全故障告警分析，从而覆盖所有可能的故障原因，提升故障告警分析的准确性，进而节省告警分析时间，提高告警处理时效，

上面对本发明实施例中告警数据的处理方法进行了描述，下面对本发明实施例中告警数据的处理装置进行描述，请参阅图3，本发明实施例中告警数据的处理装置一个实施例包括：

获取模块301，用于从预置的基础资源平台获取告警数据，所述告警数据是指数据库中基础资源的告警信息；

定义模块302，用于根据预设告警等级定义规则对所述告警数据进行告警等级定义，确定所述告警数据对应的告警等级；

判断模块303，用于基于所述告警等级对所述告警数据进行逻辑判断，确定与所述告警数据对应的故障原因；

处理模块304，用于通过预设处理策略对所述故障原因进行故障处理，得到所述告警数据的目标处理结果；

归类模块305，用于对所述告警数据及所述目标处理结果进行归类处理，生成对应的报告文件并将所述报告文件传输至运维数据库中。

请参阅图4，本发明实施例中告警数据的处理装置另一个实施例包括：

获取模块301，用于从预置的基础资源平台获取告警数据，所述告警数据是指数据库中基础资源的告警信息；

定义模块302，用于根据预设告警等级定义规则对所述告警数据进行告警等级定义，确定所述告警数据对应的告警等级；

判断模块303，用于基于所述告警等级对所述告警数据进行逻辑判断，确定与所述告警数据对应的故障原因；

处理模块304，用于通过预设处理策略对所述故障原因进行故障处理，得到所述告警数据的目标处理结果；

归类模块305，用于对所述告警数据及所述目标处理结果进行归类处理，生成对应的报告文件并将所述报告文件传输至运维数据库中。

可选的，所述定义模块302还包括：

筛选单元3021，用于从所述告警数据中筛选出未定义告警级别的日志，得到待定义日志；

定义单元3022，用于利用预设的告警等级定义规则对所述待定义日志的告警级别进行定义，确定所述告警数据对应的告警等级。

可选的，所述定义单元3022还可以具体用于：对所述待定义日志进行扫描，得到所述待定义日志中对应的告警时间及告警触发阈值；通过所述预设的告警等级定义规则，确定所述告警时间及所述告警触发阈值对应的告警等级，并对所述待定义日志进行告警级别标记。

可选的，所述判断模块303还可以具体用于：通过所述告警等级确定与所述告警数据对应的字段信息；对预置多维度的历史告警数据与所述告警数据进行比较，确定与所述字段信息相同字段的目标字段信息；根据预设的候选字段信息与故障原因的映射关系，确定所述目标字段信息与所述候选字段信息对应的匹配标识，通过所述匹配标识获取与所述目标字段信息匹配的目标映射关系，得到与所述告警数据对应的故障原因。

可选的，所述处理模块304还可以具体用于：读取所述预设处理策略，生成多个候选处理脚本；对所述故障原因进行类型判断，若所述故障原因为普通类型，则读取所述普通类型对应的目标处理脚本，并针对所述故障原因执行所述目标处理脚本进行故障处理，得到第一目标处理结果；当按照所述目标处理脚本无法对所述故障原因进行故障处理时，记录所述故障原因的处理报错信息并作为第二目标处理结果；若所述故障原因为重点类型，则记录所述重点类型对应的特征信息并作为第三目标处理结果，所述特征信息用于表征所述告警数据对应的目标对象中出现的异常信息。

可选的，所述归类模块305还包括：

第一获取单元3051，用于获取所述告警数据及预置候选数据维度集，所述预置候选数据维度集包括多个候选数据维度；

第二获取单元3052，用于分别获取每个所述候选数据维度的维度评价参数；维度确定单元，用于通过所述维度评价参数从所述多个候选数据维度中确定与所述告警数据匹配的多个目标数据维度；

数据分类单元3053，用于通过所述多个目标数据维度及所述目标处理结果对所述告警数据进行分类，生成对应的报告文件并将所述报告文件传输至运维数据库中。

可选的，所述数据分类单元具体3053具体用于：基于所述目标处理结果，对所述告警数据按照所述多个目标数据维度进行划分，得到目标告警数据集；对所述目标告警数据集循环执行预设的数据分类步骤，直至满足预设终止条件时，得到对应的报告文件；将所述报告文件传输至运维数据库中。

上面图4从模块化功能实体的角度对本发明实施例中的装置进行详细描述，下面从硬件处理的角度对本发明实施例中告警数据的处理设备进行详细描述。

图5是本发明实施例提供的一种告警数据的处理设备的结构示意图，该告警数据的处理设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对告警数据的处理设备500中的一系列计算机程序操作。更进一步地，处理器510可以设置为与存储介质530通信，在告警数据的处理设备500上执行存储介质530中的一系列计算机程序操作。

告警数据的处理设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS，Uni，Linu，FreeBSD等等。本领域技术人员可以理解，图5示出的告警数据的处理设备结构并不构成对告警数据的处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种告警数据的处理设备，所述告警数据的处理设备包括存储器和处理器，存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得处理器执行上述各实施例中的所述告警数据的处理方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行所述告警数据的处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机程序用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所指区块链是分布式数据存储，点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库，是一串使用密码方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块，区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

18页详细技术资料下载

告警数据的处理方法、装置、设备及存储介质

相关技术

网友询问留言