告警识别模型的训练方法、告警识别的方法以及装置

文档序号：97734 发布日期：2021-10-12 浏览：17次 >En<

阅读说明：本技术 告警识别模型的训练方法、告警识别的方法以及装置 (Training method of alarm recognition model, alarm recognition method and device ) 是由郭旭田峰罗原杜光耀谷彦章曲大林于 2020-04-03 设计创作，主要内容包括：本发明公开了一种告警识别模型的训练方法、告警识别的方法以及装置。具体包括：获取多个告警数据样本；分别对每个告警数据样本进行预处理,得到每个所述告警数据样本对应的训练样本,每个训练样本包括多个样本告警信息和每个样本告警信息的告警类别；根据多个样本告警信息,构建样本告警信息标签特征矩阵和多个样本告警信息之间关联关系对应的邻接矩阵；将样本告警信息的标签特征矩阵、邻接矩阵作为告警识别模型的输入,以告警类别作为告警识别模型的输出,对待训练的告警识别模型进行迭代训练,得到目标告警识别模型。根据本发明实施例,能够可以提高对告警信息识别的准确率,以减少运营维护人员的工作的难度和工作量。(The invention discloses a training method of an alarm recognition model, an alarm recognition method and an alarm recognition device. The method specifically comprises the following steps: obtaining a plurality of alarm data samples; preprocessing each alarm data sample respectively to obtain a training sample corresponding to each alarm data sample, wherein each training sample comprises a plurality of sample alarm information and an alarm category of each sample alarm information; constructing an adjacent matrix corresponding to the incidence relation between the sample alarm information label characteristic matrix and the plurality of sample alarm information according to the plurality of sample alarm information; and (3) taking the label characteristic matrix and the adjacent matrix of the sample alarm information as the input of the alarm identification model, taking the alarm category as the output of the alarm identification model, and performing iterative training on the alarm identification model to be trained to obtain the target alarm identification model. According to the embodiment of the invention, the accuracy of identifying the alarm information can be improved, so that the difficulty and the workload of the operation and maintenance personnel are reduced.)

技术领域

本发明属于计算机

技术领域

，尤其涉及一种告警识别模型的训练方法、告警识别的方法以及装置、设备及计算机存储介质。

背景技术

许多日常应用的网络安全监测设备，例如僵木蠕监测与处置系统、入侵检测系统以及入侵防御系统，监测到的资产设备异常时，会进行告警。但这些系统发送的告警数据量较庞大，而且有些告警是误报的告警，需要对系统发送的告警信息进行进一步地分析识别，才能得到更加有效准确的告警信息。

目前，通常采用告警识别模型来识别告警信息时，涉及分析的告警信息的不够全面，导致现有告警识别模型对告警信息识别的准确率不高，不能精准定位发生异常的资产设备，进而加大了运营维护人员对问题设备排查工作的难度和工作量。

因此，如何提升告警识别模型的识别准确率，精准定位发生异常的资产设备是亟待解决的问题。

发明内容

本发明实施例提供一种告警识别模型的训练方法、告警识别的方法、装置、设备及计算机存储介质，能够可以提高对告警信息识别的准确率，进而可以精准定位发生异常的资产设备，减少了运营维护人员对问题设备排查工作的难度和工作量。

第一方面，本发明实施例提供一种告警识别模型的训练方法，方法包括：

获取多个告警数据样本；

分别对每个所述告警数据样本进行预处理，得到每个所述告警数据样本对应的训练样本，所述每个训练样本包括多个样本告警信息和每个样本告警信息的告警类别，其中，所述样本告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，所述第二告警特征信息为进行情报匹配后得到的情报匹配特征信息；

根据所述多个样本告警信息，构建样本告警信息的标签特征矩阵和至少两个所述样本告警信息之间关联关系对应的邻接矩阵；

将所述样本告警信息的标签特征矩阵、所述邻接矩阵作为告警识别模型的输入，以告警类别作为告警识别模型的输出，对待训练的所述告警识别模型进行迭代训练，得到目标告警识别模型。

第二方面，本发明实施例提供了一种告警识别的方法，方法包括：

获取多个告警数据；

分别对每个所述告警数据进行预处理，得到每个所述告警数据对应的告警信息，所述告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，第二告警特征信息为进行情报匹配后得到的情报匹配特征信息；

根据多个所述告警信息，构建每个所述告警信息对应的标签特征矩阵和至少两个告警信息之间对应的关联关系信息对应的邻接矩阵；

将所述标签特征矩阵和所述邻接矩阵输入目标告警识别模型中，得到告警数据对应的告警类别；所述目标告警识别模型为利用权利要求1所述的告警识别模型的训练方法训练得到的模型。

可选地，所述分别对每个所述告警数据进行预处理，得到每个所述告警数据对应的告警信息，包括：

分别对每个所述告警数据进行特征提取，得到每个所述告警数据对应的第一告警特征信息；

分别将每个所述告警数据与预设威胁情报库的信息进行匹配，得到每个所述告警数据对应的第二告警特征信息。

可选地，分别对每个所述告警数据进行特征提取，得到每个所述告警数据对应的第一告警特征信息，包括：

分别对每个所述告警数据的基本信息进行特征提取，得到所述第一告警特征信息的第一特征信息；

分别对每个所述告警数据的时间特征信息，利用时间序列分析算法进行计算，得到所述第一告警特征信息的第二特征信息。

可选地，第二告警特征信息包括以下任意的一个或者多个：

网际互连协议(Internet Protocol，IP)信誉信息，IP关联样本信息和IP关联域名信息。

可选地，所述时间特征信息包括第一时间特征信息和第二时间特征信息，所述第一时间特征信息为单日时间特征信息，所述第二时间特征信息为预设时间段内的时间特征信息；

所述分别对每个所述告警数据的时间特征信息，利用时间序列分析算法进行计算，得到所述第一告警特征信息的第二特征信息，包括：

分别对每个所述告警数据的所述第一时间特征信息，利用时间序列分析算法进行计算，得到所述第一时间特征信息对应的第二特征信息；

分别对每个所述告警数据的所述第二时间特征信息，利用时间序列分析算法进行计算，得到所述第二时间特征信息对应的第二特征信息；

将所述第一时间特征信息对应的第二特征信息和所述第二时间特征信息对应的第二特征信息组合，得到所述第一告警特征信息的第二特征信息。

可选地，所述分别对每个所述告警数据的所述第一时间特征信息，利用时间序列分析算法进行计算，得到所述第一时间特征信息对应的第二特征信息，包括：

分别对每个所述告警数据的所述第一时间特征信息，利用最小二乘法进行计算，得到所述第一时间特征信息对应的第二特征信息。

可选地，所述分别对每个所述告警数据的第二时间特征信息，利用时间序列分析算法进行计算，得到所述第二时间特征信息对应的第二特征信息，包括：

选取预设时间段内，所述告警数据中单日告警次数的最小值对应的第一单日特征信息；

对所述第一单日特征信息进行均值计算，得到时间均值；

将所述预设时间段内的第二单日特征信息与所述时间均值进行匹配，得到满足预设匹配条件的时间点，所述第二单日特征信息为所述第一单日特征信息对应的单日以外的每个单日对应的单日特征信息；

利用最小二乘法对所述满足预设条件的时间点进行计算，得到所述第二时间特征信息对应的第二特征信息。

可选地，所述根据多个所述告警信息，构建每个所述告警信息对应的标签特征矩阵和至少两个告警信息之间对应的关联关系信息对应的邻接矩阵，包括：

根据多个所述告警信息的第一告警特征信息和第二告警特征信息，构建每个所述告警信息对应的标签特征矩阵；

根据多个所述告警信息的IP控制关系信息，构建至少两个告警信息之间对应的关联关系信息；

根据所述关联关系信息，确定对应的所述邻接矩阵。

可选地，所述告警识别模型包括图卷积神经网络模型。

第三方面，本发明实施例提供了一种告警识别模型的训练装置，装置包括：

获取模块，用于获取多个告警数据样本；

预处理模块，用于对多个所述样本告警数据进行预处理，得到训练样本，所述训练样本包括多个样本告警信息和每个样本告警信息的告警类别，其中，所述样本告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，所述第二告警特征信息为进行情报匹配后得到的情报匹配特征信息；

构建模块，用于根据所述多个样本告警信息，构建样本告警信息的标签特征矩阵和至少两个所述样本告警信息之间关联关系对应的邻接矩阵；

训练模块，用于将所述样本告警信息的标签特征矩阵、所述邻接矩阵作为告警识别模型的输入，以告警类别作为告警识别模型的输出，对所述待训练的告警识别模型进行迭代训练，得到目标告警识别模型。

第四方面，本发明实施例提供了一种告警识别的装置，装置包括：

获取模块，用于获取多个告警数据；

预处理模块，用于分别对每个所述告警数据进行预处理，得到每个所述告警数据对应的告警信息，所述告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，第二告警特征信息为进行情报匹配后得到的情报匹配特征信息；

构建模块，用于根据多个所述告警信息，构建每个所述告警信息对应的标签特征矩阵和至少两个告警信息之间对应的关联关系信息对应的邻接矩阵；

识别模块，用于将所述标签特征矩阵和所述邻接矩阵输入目标告警识别模型中，得到告警数据对应的告警类别；所述目标告警识别模型为利用第一方面所述的告警识别模型的训练方法训练得到的模型。

第五方面，本发明实施例提供了一种告警识别模型的训练设备，设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所述的告警识别模型的训练方法。

第六方面，本发明实施例提供了一种告警识别的设备，设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第二方面以及第二方面可选的所述的告警识别的方法。

第七方面，本发明实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如第一方面所述的告警识别模型的训练方法，和/或，如第二方面以及第二方面可选的所述的告警识别的方法。

本发明实施例的告警识别模型的训练方法、告警识别的方法、装置、设备及计算机存储介质，通过将样本告警信息和样本告警信息之间关联关系结合，训练得到目标告警识别模型。并且，样本告警信息不仅涉及了告警统计特征信息，还考虑了情报匹配特征信息，将告警信息自身的特征和情报匹配特征信息融合。该告警识别模型的训练样本包括了多个不同维度告警信息以及每个告警信息之间关联关系，这使得该模型可以对网络环境下的告警进行较全面的分析，识别出真正存在感染问题的告警信息，基于此，本发明实施例的技术方案，可以提高对告警信息识别的准确率，进而可以精准定位发生异常的资产设备，减少了运营维护人员对问题设备排查工作的难度和工作量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的告警识别模型的训练方法的流程示意图；

图2是本发明一个实施例提供的告警识别的方法的流程示意图；

图3是本发明一个实施例提供的对僵木蠕系统的告警信息识别分析的示意图；

图4是本发明一个实施例提供的告警日志识别模型场景图谱的示意图；

图5是本发明一个实施例提供的GCN神经网络结构的示意图；

图6是本发明一个实施例提供的告警识别模型的训练装置的结构示意图；

图7是本发明一个实施例提供的告警识别的装置的结构示意图；

图8是本发明实施例提供的告警识别模型的训练设备硬件结构示意图；

图9是本发明实施例提供的告警识别设备的硬件结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，僵木蠕监测与处置系统、入侵检测系统(intrusion detection system，IDS)、入侵防御系统(Intrusion Prevention System，IPS)以及网站应用级入侵防御系统(Web Application Firewall，WAF)等网络安全监测系统，主要用于对网络设备或网络传输等进行即时监视，并在发现可疑传输行为时发出警报。

通常，上述网络安全监测系统虽然可以对被感染的主机进行告警，但是告警误报率很高，需要对系统发送的告警信息进行进一步地分析识别，才能得到更加有效准确的告警信息。然而，现有告警识别模型对告警信息识别的准确率不高，并不能实现精准定位发生异常的资产设备。

为了解决现有技术问题，本发明实施例中提供的告警识别模型的训练方法、告警识别的方法、装置、设备及计算机存储介质，可以通过将样本告警信息和样本告警信息之间关联关系结合，训练得到告警识别模型。该告警识别模型的训练样本包括了多个不同维度告警信息以及每个告警信息之间关联关系，其中，告警信息包括了告警基本统计特征信息和情报匹配特征信息，将告警信息基本特征和情报匹配特征信息融合。这使得该模型可以对网络环境下的告警进行较全面的分析，较为准确的识别出存在感染问题的告警信息，基于此，可以提高对告警信息识别的准确率，进而可以精准定位发生异常的资产设备。基于更加精准的告警信息，可以缩小需要进行问题排查的异常设备的范围，减少了运营维护人员对问题设备排查工作的难度和工作量。

下面结合附图，描述根据本发明实施例提供的告警识别模型的训练方法、告警识别的方法、装置、设备及计算机存储介质。应注意，这些实施例并不是用来限制本发明公开的范围。

下面首先对本发明实施例所提供的告警识别模型的训练方法进行介绍。

在本发明实施例中，如图1所示，图1是本发明一个实施例提供的告警识别模型的训练方法的流程示意图。该告警识别模型的训练方法，具体实施为如下步骤：

S101：获取多个告警数据样本。

具体地，告警数据样本可以包括从相应地网络安全监测系统中获取的告警日志数据。

这里，还有可以先对获取到得告警日志数据进行数据清洗。可以删除告警日志数据中冗余字段，以提高告警日志分析识别的效率。具体地，冗余字段可以包括与识别告警信息无关的字段，或者重复的字段等等。

具体地，对于告警日志数据中的告警时间，也可以将离散的时间格式转换为0至24的连续数值，以便于执行基于告警时间的特征提取操作，进而提高告警日志分析识别的效率。具体地转换方式可以包括但不限于现有的可以实现离散数据转换规则，在此不再赘述。

S102：分别对每个所述告警数据样本进行预处理，得到每个所述告警数据样本对应的训练样本。

具体地，训练样本可以包括多个样本告警信息和每个样本告警信息的告警类别。该样本告警信息可以包括第一告警特征信息和第二告警特征信息。

这里，该第一告警特征信息可以为告警基本特征信息，具体地，可以分别对每个告警数据进行特征提取，得到每个告警数据对应的第一告警特征信息。告警基本特征信息可以包括告警次数、对应被控制IP个数、对应控制IP个数、控制IP的告警次数、被控制IP的告警次数、IP单日回归误差、IP历史横向回归误差以及IP告警间隔方差等特征信息的一个或者多个。可以理解的是，该第一告警特征信息可以是告警的基本统计特征信息。

具体地，该第二告警特征信息为进行情报匹配后得到的情报匹配特征信息。具体地，可以分别将每个告警数据与预设威胁情报库的信息进行匹配，得到每个告警数据对应的第二告警特征信息。

具体地，威胁情报是关于IT或信息资产所面临的现有或潜在威胁的循证知识，包括情境、机制、指标、推论与可行建议，这些知识可为威胁响应提供决策依据。根据数据本身划分，威胁情报可以包括哈希(HASH)值、IP地址、域名、网络或主机特征等。预设威胁情报库可以是基于威胁情报构建的专门数据库。用户可以根据自身工作数据搭建相关威胁情报库，也可以直接使用现有开源的各种威胁情报库。

具体地，第二告警特征信息可以包括IP信誉信息、IP关联样本信息和IP关联域名信息等中的一个或者多个。

具体地，该样本告警信息的告警类别可以为样本告警信息的对应的网络安全问题类别，如主机感染失陷，可以用标签1表示主机感染失陷，可以用标签0表示非主机感染失陷。

S103：根据所述多个样本告警信息，构建样本告警信息标签特征矩阵和所述多个样本告警信息之间关联关系对应的邻接矩阵。

具体地，对于训练样本集合中的多个样本告警信息，一方面，将多个样本告警信息进行特征学习，可以构建得到告警信息对应标签特征矩阵；另一方面，将多个样本告警信息之间关联关系进行特征学习，可以构建得到对应的邻接矩阵。

S104：将所述样本告警信息的标签特征矩阵、邻接矩阵作为告警识别模型的输入，以告警类别作为告警识别模型的输出，对待训练的告警识别模型进行迭代训练，得到目标告警识别模型。

这里，基于样本告警信息的标签特征矩阵、邻接矩阵和每个样本告警信息的告警类别，可以构建告警识别模型，以使该告警识别模型具备根据输入的任一告警信息的标签特征矩阵和对应的邻接矩阵，输出任一告警信息的告警类别的能力。

具体地，该目标告警识别模型是可以用于对节点的特征信息以及节点之间结构关系信息进行深度学习的模型，具体可以包括但不限于图卷积神经网络(GraphConvolutional Network,GCN)模型。

综上，本发明实施例中，该告警识别模型训练的方法，能够以样本告警信息和样本告警信息之间关联关系作为训练样本，训练得到目标告警识别模型。作为训练样本的告警信息不仅有告警基本特征信息，还有情报匹配特征信息。可以看出，由于，训练该模型时考虑了告警的多个维度的告警特征信息以及告警之间结构关系，更准确的学习到存在主机感染问题的告警的相应的特征信息，使得该模型对网络环境下的告警，可以进行较全面准确的识别分析，进而识别出真正可能存在主机感染问题的告警。基于此，本发明实施例的方法，可以提高对告警信息识别的准确率，进而可以精准定位发生异常的资产设备，减少了运营维护人员对问题设备排查工作的难度和工作量。

下面对本发明实施例所提供的告警识别的方法进行详细的介绍。

图2是本发明一个实施例提供的告警识别的方法的流程示意图。如图2所示，在本发明实施例中，该告警识别的方法可以包括以下步骤：

S201：获取多个告警数据。

具体地，该告警数据为待识别的告警数据。告警数据可以包括从网络安全监测系统中获取的告警日志数据。

具体地，对获取的多个告警数据可以进行数据清洗，删除告警日志数据中冗余字段，并且对于告警数据中离散的告警时间进行连续化处理，以提高告警日志分析识别的效率。

S202：分别对每个所述告警数据进行预处理，得到每个所述告警数据对应的告警信息。

这里，告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，第二告警特征信息为进行情报匹配后得到的情报匹配特征信息。对告警数据进行预处理可以包括对告警数据的特征提取和告警数据的威胁情报匹配。

具体地，可以通过分别对每个告警数据进行特征提取，得到每个告警数据对应的第一告警特征信息。该第一告警特征信息可以是告警的基本统计特征信息。

这里，第一告警特征信息可以包括第一特征信息和第二特征信息。

具体地，可以通过分别对每个告警数据的基本信息进行特征提取，得到第一特征信息。这里，告警数据的基本信息可以包括用于统计分析的告警数据相关字段信息。

具体地，第一特征信息可以包括告警次数、对应被控制IP个数、对应控制IP个数、控制IP的告警次数、被控制IP的告警次数以及IP告警间隔方差等特征信息中的一个或者多个。

具体地，分别对每个告警数据的时间特征信息，利用时间序列分析算法进行计算，得到第二特征信息。

这里，时间特征信息可以是通过对告警数据中的告警时间进行连续化处理后得到的。

具体地，该时间特征信息可以包括第一时间特征信息和第二时间特征信息。第一时间特征信息可以为单日时间特征信息，第二时间特征信息可以为预设时间段内的时间特征信息，即历史数据的时间特征信息。

具体地，利用时间序列分析算法，分别对每个告警数据的第一时间特征信息进行计算，可以得到第一时间特征信息对应的第二特征信息。可选地，对于第一时间特征信息，利用最小二乘法进行回归计算，得到第一时间特征信息对应的第二特征信息，即告警数据的IP单日回归误差E_d。

具体地，利用时间序列分析算法，分别对每个告警数据的第二时间特征信息进行计算，可以得到第二时间特征信息对应的第二特征信息。

具体地，第二时间特征信息可以为预设时间段内的时间特征信息。首先，可以选取预设时间段内，告警数据中单日告警次数的最小值对应的第一单日特征信息，该第一单日特征信息可以为对连续化处理后的时间数值，可以为多个时间数值。告警数据中单日告警次数可以为任意一个主机对应的单日告警次数。

其次，对第一单日特征信息进行均值计算，得到时间均值。

再次，将预设时间段内的第二单日特征信息与时间均值进行匹配，得到满足预设匹配条件的时间点。

这里，第二单日特征信息为第一单日特征信息对应的单日以外的每个单日对应的单日特征信息。第二单日特征信息可以理解为预设时间段内，除了告警次数最少的日期以外的其他日期对应的单日特征信息。将这些第二单日特征信息与时间均值进行匹配，确定满足预设匹配条件的时间点。该预设匹配条件可以为第二单日特征信息中的时间点与时间均值一致或者相近。选择满足该预设匹配条件的时间点。

然后，便可以利用最小二乘法对所述满足预设条件的时间点进行计算，得到第二时间特征信息对应的第二特征信息，即告警数据的IP历史横向回归误差E_t。

通过上述操作，可以分别得到第一时间特征信息对应的第二特征信息和第二时间特征信息对应的第二特征信息。将第一时间特征信息对应的第二特征信息和第二时间特征信息对应的第二特征信息进行组合，得到第一告警特征信息的第二特征信息，即总的第二特征信息。

具体地，该第二告警特征信息为进行情报匹配后得到的情报匹配特征信息。具体地，可以分别将每个告警数据与预设威胁情报库的信息进行匹配，得到每个告警数据对应的第二告警特征信息。预设威胁情报库的信息均为已存在的威胁网络安全的信息，将告警数据和威胁情报库中的威胁情报进行匹配，可以增加对告警数据分析维度，以识别告警是否真的为存在网络安全问题的告警。

具体地，预设威胁情报库可以是基于威胁情报构建的专门数据库。威胁情报可以包括HASH值、IP地址、域名、网络或主机特征等。可以理解的是，用户可以根据实际工作积累的威胁数据搭建相关威胁情报库，也可以直接使用现有开源的各种威胁情报库，在此不再赘述。

由此，通过执行上述操作，可以得到关于告警数据的多个维度的特征信息，包括了告警数据基本特征信息和经过威胁情报匹配后的特征信息。基于具有较丰富的告警数据维度进行识别分析，可以增加识别出正确的告警概率，筛除掉大部分误报的告警，降低告警误报率。

S203：根据多个所述告警信息，构建每个所述告警信息对应的标签特征矩阵和至少两个告警信息之间对应的关联关系信息对应的邻接矩阵。

这里，根据多个所述告警信息的IP控制关系信息，构建至少两个告警信息之间对应的关联关系信息。具体地，由于不同的告警信息之间可以存在一定的关联关系，如告警信息的IP控制关系信息，即一部分告警信息的IP为控制IP，一部分告警信息的IP为被控制IP，根据IP控制关系信息，可以构建出告警信息的IP结构关系图，以确定至少两个告警信息之间对应的关联关系信息，根据该关联关系信息，进行特征学习，确定对应的邻接矩阵。

此外，根据多个告警信息的第一告警特征信息和第二告警特征信息，构建每个告警信息对应的标签特征矩阵。具体地，可以对多个告警信息的进行特征学习，得到每个告警信息对应的标签特征矩阵。

S204：将标签特征矩阵和邻接矩阵输入目标告警识别模型中，得到告警数据对应的告警类别。

具体地，目标告警识别模型为利用上述实施例所述的告警识别模型的训练方法训练得到的模型。将多个告警信息和至少两个告警信息之间对应的关联关系信息输入告警识别模型中，可以得到告警识别结果，即告警数据对应的告警类别。

可以理解的是，该告警识别模型可以为图卷积神经网络模型。

具体地，图卷积神经网络是一种能对图数据进行深度学习的算法。实际应用中很多数据并不具备规则的空间结构，比如推荐系统、电子交易系统、计算几何、脑信号、分子结构等抽象出的图谱。这些图谱结构中每个节点连接都不尽相同，有的节点有三个连接，有的节点有两个连接，是不规则的数据结构。因此，一种能对图数据进行深度学习的方法应运而生，即图卷积神经网络。可以理解的是，图(graph)是一种数据格式，它可以用于表示社交网络、通信网络、蛋白分子网络等，一般而言图中的节点用于表示网络中的个体，图中的边用于表示网络中个体之间的连接关系。因此我们可以认为图数据具备两个特性，一是每个节点都有自己的特征信息，二是图中的每个节点还具有结构信息。其中GCN模型则可以基于输入的图数据中的节点特征信息以及节点结构信息进行节点分类或边预测。本发明实施例中，利用GCN模型，结合各个告警信息之间的关联关系(即节点结构信息)和各个告警信息的告警特征信息(节点特征信息)，可确定出各个告警信息的告警信息类别。

综上，本发明实施例中，该告警识别的方法，能够基于告警信息的多个维度的告警特征信息以及告警信息之间结构关系，准确的识别出真正存在主机感染等网络安全问题的告警，可以对网络环境下的告警实现较全面准确的识别分析，可以提高对告警信息识别的准确率。

并且，通过上述告警识别方法，可以筛除大部分的误报告警，较精准的识别出正确的告警，以便于精准定位被感染失陷的主机等网络资产设备，进而可以减少需要进行问题排查异常的资产设备数量，降低了运营维护人员对问题设备排查工作的难度和工作量。

为了可以更好的理解本发明的方法，现结合应用实例，详细说明该告警信息识别的方法。

可选地，在本发明的一些实施例中，以僵木蠕监测与处置系统为例，在该实际应用场景中，可以通过如下所示的方式，较准确地分析出存在主机感染等网络安全问题的告警，实现对告警识别。

具体地，僵木蠕监测与处置系统(下简称僵木蠕系统)是一种监测主机异常行为的安全设备，通过流量镜像的方式采集主机网络中的所有数据，并对数据进行安全检测分析，发现主机网络中的传输的恶意文件和存在的异常事件，并及时发出告警。但是，僵木蠕系统存在告警数量大、误报率较高、告警内容维度少的问题。这些问题极大的提高的运维人员的工作量，导致对资产的排查工作难以开展，被感染资产的威胁无法及时清除。

在本发明实施中，如图3所示，图3是本发明一个实施例提供的对僵木蠕系统的告警信息识别分析的示意图。通过对僵木蠕系统的告警信息识别分析方法，可以识别出大量告警日志数据中被感染的失陷主机的告警。

首先，对僵木蠕系统产生的告警日志进行数据处理，可以包括：删除告警日志中冗余的字段和对告警时间进行连续化处理等等。

具体地，对每日的告警时间进行连续化处理，将离散的时间格式转变为0至24的连续数值，可以通过如下公式进行格式变换：

其中T_hour为当前小时数，T_min为当前分钟数，T_s为当前秒数，T_c为转换后的时间数值。

接下来，可以对处理后的数据进行特征提取和情报匹配融合的操作。

具体地，一方面，基于告警数据进行特征挖掘。首先，通过特征挖掘，提取告警数据的基本特征。

另一方面，通过基于时间序列线性回归方法告警日志数据的时间信息进行分析。具体地，可以包括对告警数据的单日数据进行纵向分析，及对历史数据进行横向分析。

具体地，对单日数据的纵向分析可直接通过最小二乘法回归实现，输出回归误差E_d。

具体地，由于同一个资产，如主机资源，每日可能存在多次告警，因此基于历史数据进行横向的时间序列分析，需要先对告警数据进行一定处理，具体实施步骤如下：

S11，统计每日资产i告警次数；

S12，选取资产i时间段T内告警次数最少的日期d_min，对连续化处理后的时间取均值t_avg；

S13，选取资产i时间段T内其余日期告警时间和均值t_avg相近的时间点t_i；

S14，对选取后的多个时间点t_i，进行最小二乘法回归分析，输出误差E_T。

这里，示例性的，按上述S11至S14方法，在选取时间段为7天，可以选取7个时间点t_i用于最小二乘法回归分析，输出E_T。

具体地，基于告警数据进行特征挖掘提取的结果如下表1所示：

表1

具体地，情报匹配融合是将告警日志中自有的基本信息，还和威胁情报库的威胁情报信息结合，进行情报分析，得到情报匹配特征信息。这里，可以依据告警日志数据中的控制IP和被控IP进行情报匹配分析，得到如表2所示的情报匹配特征信息：

表2

情报匹配融合不仅可以丰富后续GCN模型的场景图谱，同时也在原有告警日志基础上添加新的告警维度，方便工作人员进行排查。

接下来，利用上述分析得到的告警信息可以构建场景图谱。如图4所示，图4是本发明一个实施例提供的告警日志识别模型场景图谱的示意图。

具体地，告警信息中每个告警IP节点特征信息，这些特征信息具体可以上述识别分析操作获得的。

具体地，通过对告警数据进行特征提取，得到基本特征统计信息和时间序列分析信息。基本特征统计可以包括：单日告警次数、控制IP个数、被控制IP个数、时间段T内告警次数等；时间序列分析可以包括：单日回归误差E_d、时间段T内回归误差E_t等。

具体地，通过情报匹配融合的操作，得到IP关联样本信息、IP信誉信息和IP关联域名信息。IP关联样本信息可以包括：MD5值、关联样本总数、关联样本威胁类型、IP信誉信息可以包括：威胁类型、家族、威胁级别、攻击地区等；IP关联域名信息可以包括：域名、关联域名个数、关联域名威胁类型等。

具体地，如图4所示，告警日志识别模型场景图谱中还具有告警IP节点间结构关系。IP1、IP2、IP3、IP4和IP5之间的结构关系是根据告警IP的控制关系确定的。

根据图4场景图谱可以将GCN神经网络模型的输入分为两类数据集，分别为告警特征数据集以及告警间结构关系数据集，具体如下表3：

表3

接下来，可以基于图卷积神经网络进行告警识别模型训练。具体地，输入数据集分别为处理后的告警特征信息和告警间结构关系。通过特征学习后，分别计算得到告警特征信息对应的标签矩阵、告警间结构关系对应的邻接矩阵。

具体地，标签矩阵：每个节点，如告警IP，均有其特征信息X_i，可以用矩阵X_(N*D)表示。其中N表示节点数，D表示每个节点的特征信息数。

具体地，邻接矩阵：指图结构信息及节点间结构关系图的数据集，可以用矩阵A表示。

具体地，GCN模型训练的节点传播规则如下公式：

设中心节点为i，其中为节点i在第l层的特征表达，c_ij归一化因子(取节点度的倒数)，N_i节点i的邻居(包含自身)，R_i节点i的类型，表示R_i节点变换权重参数。该公式可以表示是GCN神经网络的算子。当GCN模型训练达到预期效果时，获得相应地参数，以确定该GCN告警识别模型。预期效果具体可以是模型预测的召回率，即查全率达到90％。该GCN神经网络结构可以如图5所示，图5是本发明一个实施例提供的GCN神经网络结构的示意图。

最后，应用训练好的GCN告警识别模型对待检测的告警进行识别，得到告警识别结果，便可以确定告警日志中被感染的失陷主机。

可以理解的是，该告警识别的方法和告警模型的训练方法，不仅适用于僵木蠕系统告警日志的分析，同时也可以应用于其他类别的网络安全监测系统的告警日志分析，如IDS、IPS及WAF等。

综上，本发明实施例的告警识别的方法，能够基于告警信息的多个维度的告警特征信息以及告警信息之间结构关系，而且多个维度的告警特征信息涉及了基于告警日志本身分析，与威胁情报结合，准确的识别出存在主机感染等网络安全问题的告警，可以对网络环境下的告警实现较全面准确的识别分析，可以提高对告警信息识别的准确率。

此外，本发明实施例中，告警识别分析时，不仅基于告警日志本身分析，同时与威胁情报结合，丰富了告警信息维度，以便于提高告警日志识别的准确率。

基于上述实施例提供的告警识别模型的训练方法，相应地，本申请还提供了告警识别模型的训练装置的具体实现方式。请参见以下实施例。

在本发明一实施例中，如图6所示，图6是本发明另一个实施例提供的告警识别模型的训练装置的结构示意图，该告警识别模型的训练装置，具体包括：

获取模块601，用于获取多个告警数据样本；

预处理模块602，用于对多个所述样本告警数据进行预处理，得到训练样本，所述训练样本包括多个样本告警信息和每个样本告警信息的告警类别，其中，所述样本告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，所述第二告警特征信息为进行情报匹配后得到的情报匹配特征信息；

构建模块603，用于根据所述多个样本告警信息，构建样本告警信息标签特征矩阵和所述多个样本告警信息之间关联关系对应的邻接矩阵；

训练模块604，用于将所述样本告警信息的标签特征矩阵、所述邻接矩阵作为告警识别模型的输入，以告警类别作为告警识别模型的输出，对所述待训练的告警识别模型进行迭代训练，得到目标告警识别模型。

综上，本发明实施例中，该告警识别模型的训练装置可以用于实施告警识别模型训练的方法，能够以样本告警信息和样本告警信息之间关联关系作为训练样本，训练得到目标告警识别模型。作为训练样本的告警信息不仅有告警基本特征信息，还有情报匹配特征信息。可以看出，由于，训练该模型时考虑了告警的多个维度的告警特征信息以及告警之间结构关系，更准确的学习到存在主机感染问题的告警的相应的特征信息，使得该模型对网络环境下的告警，可以进行较全面准确的识别分析，进而识别出真正可能存在主机感染问题的告警。由此可以提高对告警信息识别的准确率，进而可以精准定位发生异常的资产设备，减少了运营维护人员对问题设备排查工作的难度和工作量。

基于上述实施例提供的告警识别的方法，相应地，本申请还提供了告警识别的装置的具体实现方式。请参见以下实施例。

在本发明一实施例中，如图7所示，图7是本发明另一个实施例提供的告警识别的装置的结构示意图，该告警识别的装置，具体包括：

获取模块701，用于获取多个告警数据；

预处理模块702，用于分别对每个所述告警数据进行预处理，得到每个所述告警数据对应的告警信息，所述告警信息包括第一告警特征信息和第二告警特征信息，所述第一告警特征信息为告警基本特征信息，第二告警特征信息为进行情报匹配后得到的情报匹配特征信息；

构建模块703，用于根据所述多个样本告警信息，构建样本告警信息的标签特征矩阵和至少两个所述样本告警信息之间关联关系对应的邻接矩阵；

识别模块704，用于将所述标签特征矩阵和所述邻接矩阵输入目标告警识别模型中，得到告警数据对应的告警类别；所述目标告警识别模型为利用上述实施例所述的告警识别模型的训练方法训练得到的模型。

可选地，在一些实施例中，该预处理模块702包括：

提取单元，用于分别对每个所述告警数据进行特征提取，得到每个所述告警数据对应的第一告警特征信息。

匹配单元，用于分别将每个所述告警数据与预设威胁情报库的信息进行匹配，得到每个所述告警数据对应的第二告警特征信息。

可选地，第二告警特征信息包括以下任意的一个或者多个：网际互连协议IP信誉信息，IP关联样本信息和IP关联域名信息。

可选地，在一些实施例中，该提取单元包括：

提取子单元，用于分别对每个所述告警数据的基本信息进行特征提取，得到所述第一告警特征信息的第一特征信息；

计算子单元，用于分别对每个所述告警数据的时间特征信息，利用时间序列分析算法进行计算，得到所述第一告警特征信息的第二特征信息。

可选地，在一些实施例中，该计算子单元，还用于分别对每个所述告警数据的所述第一时间特征信息，利用时间序列分析算法进行计算，得到所述第一时间特征信息对应的第二特征信息；分别对每个所述告警数据的所述第二时间特征信息，利用时间序列分析算法进行计算，得到所述第二时间特征信息对应的第二特征信息；将所述第一时间特征信息对应的第二特征信息和所述第二时间特征信息对应的第二特征信息组合，得到所述第二特征信息；其中，所述时间特征信息包括第一时间特征信息和第二时间特征信息，所述第一时间特征信息为单日时间特征信息，所述第二时间特征信息为预设时间段内的时间特征信息；

可选地，在一些实施例中，该计算子单元，还用于分别对每个所述告警数据的所述第一时间特征信息，利用最小二乘法进行计算，得到所述第一时间特征信息对应的第二特征信息。

可选地，在一些实施例中，该计算子单元，还用于选取预设时间段内，所述告警数据中单日告警次数的最小值对应的第一单日特征信息；对所述第一单日特征信息进行均值计算，得到时间均值；将所述预设时间段内的第二单日特征信息与所述时间均值进行匹配，得到满足预设匹配条件的时间点，所述第二单日特征信息为所述第一单日特征信息对应的单日以外的每个单日对应的单日特征信息；利用最小二乘法对所述满足预设条件的时间点进行计算，得到所述第二时间特征信息对应的第二特征信息。

可选地，在一些实施例中，该构建模块703，还用于根据多个所述告警信息的第一告警特征信息和第二告警特征信息，构建每个所述告警信息对应的标签特征矩阵；根据多个所述告警信息的IP控制关系信息，构建至少两个告警信息之间对应的关联关系信息；根据该关联关系信息，进行特征学习，确定对应的邻接矩阵。

可选地，在一些实施例中，所述告警识别的装置中的告警识别模型可以为图卷积神经网络模型。

综上，本发明实施例中，该告警识别的装置可以用于实施上述实施例中的告警识别的方法，能够基于告警信息的多个维度的告警特征信息以及告警信息之间结构关系，准确的识别出真正存在主机感染等网络安全问题的告警，可以对网络环境下的告警实现较全面准确的识别分析，可以提高对告警信息识别的准确率。并且，通过上述告警识别方法，可以筛除大部分的误报告警，较精准的识别出正确的告警，以便于精准定位被感染失陷的主机等网络资产设备，进而可以减少需要进行问题排查异常的资产设备数量，降低了运营维护人员对问题设备排查工作的难度和工作量。

基于上述实施例提供的告警识别模型的训练方法和告警识别方法，相应地，本申请还提供了告警识别模型的训练设备和告警识别设备的具体硬件结构说明。请参见以下实施例。

图8示出了本发明实施例提供的告警识别模型的训练设备硬件结构示意图。

告警识别模型的训练设备可以包括处理器801以及存储有计算机程序指令的存储器802。

具体地，上述处理器801可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器802可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器802可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器802可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器802可在综合网关容灾设备的内部或外部。在特定实施例中，存储器802是非易失性固态存储器。在特定实施例中，存储器802包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器801通过读取并执行存储器802中存储的计算机程序指令，以实现上述实施例中的任意一种告警识别模型的训练方法。

在一个示例中，告警识别模型的训练设备还可包括通信接口803和总线810。其中，如图8所示，处理器801、存储器802、通信接口803通过总线810连接并完成相互间的通信。

通信接口803，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线810包括硬件、软件或两者，将告警识别模型的训练设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线810可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该告警识别模型的训练设备可以执行本发明实施例中的告警识别的方法，从而实现结合图1描述的告警识别模型的训练方法。

图9示出了本发明实施例提供的告警识别设备的硬件结构示意图。

告警识别的设备可以包括处理器901以及存储有计算机程序指令的存储器902。

具体地，上述处理器901可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器902可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器902可在综合网关容灾设备的内部或外部。在特定实施例中，存储器902是非易失性固态存储器。在特定实施例中，存储器902包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器901通过读取并执行存储器902中存储的计算机程序指令，以实现上述实施例中的任意一种告警识别的方法。

在一个示例中，告警识别的设备还可包括通信接口903和总线910。其中，如图9所示，处理器901、存储器902、通信接口903通过总线910连接并完成相互间的通信。

通信接口903，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线910包括硬件、软件或两者，将告警识别的设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该告警识别的设备可以执行本发明实施例中的告警识别的方法，从而实现结合图2描述的告警识别的方法。

另外，结合上述实施例中的告警识别模型的训练方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种告警识别模型的训练方法。

另外，结合上述实施例中的告警识别的方法，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种告警识别的方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

25页详细技术资料下载

告警识别模型的训练方法、告警识别的方法以及装置

相关技术

网友询问留言