数据识别方法、设备、存储介质及装置

文档序号：195750 发布日期：2021-11-02 浏览：13次 >En<

阅读说明：本技术 数据识别方法、设备、存储介质及装置 (Data identification method, equipment, storage medium and device ) 是由陶磊于 2020-04-30 设计创作，主要内容包括：本发明涉及数据识别技术领域,公开了一种数据识别方法、设备、存储介质及装置。本发明通过获取当前数据,对所述当前数据进行过滤,得到内网数据,将所述内网数据作为待识别加密数据；从所述待识别加密数据中提取预设类别的特征信息,所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项；根据所述特征信息采用预设恶意分类模型进行类别预测,得到所述待识别加密数据的目标加密数据类别,从而可更细化的通过提取预设类别的特征信息,并通过训练完成的预设恶意分类模型进行类别预测,并进一步通过预设识别策略对预测出目标加密数据类别的进行验证,判断是否符合对应的特征信息,从而提高数据识别的准确性。(The invention relates to the technical field of data identification, and discloses a data identification method, data identification equipment, a storage medium and a data identification device. According to the method, the current data are obtained and filtered to obtain intranet data, and the intranet data are used as encrypted data to be identified; extracting feature information of a preset category from the encrypted data to be identified, wherein the feature information comprises: at least one item of handshake information, certificate information, domain name information, data packet information, and terminal key information; and performing class prediction by adopting a preset malicious classification model according to the characteristic information to obtain the target encrypted data class of the encrypted data to be recognized, so that the characteristic information of the preset class can be extracted more finely, the class prediction is performed by the trained preset malicious classification model, the predicted target encrypted data class is verified by a preset recognition strategy, and whether the predicted target encrypted data class meets the corresponding characteristic information is judged, so that the accuracy of data recognition is improved.)

数据识别方法、设备、存储介质及装置

技术领域

本发明涉及加密数据识别技术领域，尤其涉及数据识别方法、设备、存储介质及装置。

背景技术

目前，针对HTTPS(Hypertext Transfer Protocol Secure，超文本传输安全协议)的识别，可将其解密后进行恶意流量识别，但是需要一系列复杂的手段将其解密后再进行识别，消耗成本大，性能损耗不可忽视，并且需要在客户企业网络内部或云端部署中间服务器，成本较高，部署复杂，且难以满足客户的多样化隐私需求，因此通常进行免解密识别。

但是免解密识别对于识别结果的误报率较高，存在识别精度不高的问题。

发明内容

本发明的主要目的在于提供数据识别方法、设备、存储介质及装置，旨在解决如何提高数据识别的准确性的技术问题。

为实现上述目的，本发明提供一种数据识别方法，所述数据识别方法包括以下步骤：

获取当前数据，对所述当前数据进行过滤，得到内网数据，将所述内网数据作为待识别加密数据；

从所述待识别加密数据中提取预设类别的特征信息，所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项；

根据所述特征信息采用预设恶意分类模型进行类别预测，得到所述待识别加密数据的目标加密数据类别；

根据预设识别策略对所述目标加密数据类别进行验证。

可选的，所述预设识别策略为指纹识别策略；

所述根据预设识别策略对所述目标加密数据类别进行验证，包括：

获取所述待识别加密数据对应的服务器端采用的协议类型；

根据所述协议类型确定对应的指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

可选的，所述协议类型为安全套接层协议；

所述根据所述协议类型确定对应的指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证，包括：

根据所述安全套接层协议确定对应服务器端保存的证书或证书链；

根据所述证书或证书链进行加密得到指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

可选的，所述协议类型为传输层安全性协议；

所述根据所述协议类型确定对应的指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证，包括：

根据所述传输层安全性协议确定会话包信息；

根据所述会话包信息进行加密得到指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

可选的，所述预设识别策略为访问信息识别策略；

所述根据预设识别策略对所述目标加密数据类别进行验证，包括：

在预设时间段内，获取所述待识别加密数据对应终端访问证书的访问次数信息、访问时间信息以及访问频率信息；

根据所述访问次数信息、访问时间信息以及访问频率信息对所述目标加密数据类别进行验证。

可选的，所述预设识别策略为异常特征识别策略，所述异常特征识别策略包括所述待识别加密数据中是否存在证书自签名、证书中是否含有异常信息以及待识别加密数据中是否出现加密套件中至少一项。

可选的，所述预设识别策略为终端识别策略；

所述根据预设识别策略对所述目标加密数据类别进行验证，包括：

获取所述目标加密数据类别对应的加密数据的终端设备信息；

访问所述终端设备信息对应的终端设备，以使所述终端设备查找所述目标类型的加密数据对应的进程信息和应用信息，并调用识别程序，通过所述识别程序对所述进程信息和应用信息进程识别，得到识别结果；

根据所述识别结果对所述目标加密数据类别进行验证。

可选的，所述根据所述特征信息采用预设恶意分类模型进行类别预测，得到所述待识别加密数据的目标加密数据类别之前，所述方法还包括：

获取历史加密数据特征信息；

根据所述历史加密数据特征信息以及对应的加密数据类别信息生成特征向量信息；

通过所述特征向量信息训练分类模型，生成预设恶意分类模型。

可选的，所述获取当前数据，对所述当前数据进行过滤，得到内网数据，将所述内网数据作为待识别加密数据，包括：

获取当前数据，提取所述当前数据中的内网数据；

对所述内网数据进行过滤，得到待识别加密数据。

可选的，所述对所述内网数据进行过滤，得到待识别加密数据，包括：

提取所述内网数据中预设特征信息，所述预设特征信息包括安全服务端口信息、握手信息以及域名信息中至少一项；

根据所述安全服务端口信息、握手信息或域名信息进行过滤，得到当前加密数据；

将所述当前加密数据作为待识别加密数据。

可选的，所述获取当前数据，提取所述当前数据中的内网数据，将所述内网数据作为待识别加密数据，包括：

获取当前数据，提取所述当前数据中的内网地址对应的内网数据；

将所述内网数据作为待识别加密数据。

可选的，所述获取当前数据，提取所述当前数据中的内网数据，将所述内网数据作为待识别加密数据，包括：

获取当前数据，提取所述当前数据中源网络地址信息和目的网络地址信息属于同一网段的内网数据；

将所述内网数据作为待识别加密数据。

此外，为实现上述目的，本发明还提出一种数据识别设备，所述数据识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行数据识别程序，所述数据识别程序被所述处理器执行时实现如上文所述的数据识别方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有数据识别程序，所述数据识别程序被处理器执行时实现如上文所述的数据识别方法的步骤。

此外，为实现上述目的，本发明还提出一种数据识别装置，所述数据识别装置包括：

获取模块，用于获取当前数据，对所述当前数据进行过滤，得到内网数据，将所述内网数据作为待识别加密数据；

提取模块，用于从所述待识别加密数据中提取预设类别的特征信息，所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项，所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项；

预测模块，用于根据所述特征信息采用预设恶意分类模型进行类别预测，得到所述待识别加密数据的目标加密数据类别；

验证模块，用于根据预设识别策略对所述目标加密数据类别进行验证。

本发明提供的技术方案，通过获取当前数据，对所述当前数据进行过滤，得到内网数据，将所述内网数据作为待识别加密数据；从所述待识别加密数据中提取预设类别的特征信息，所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项；根据所述特征信息采用预设恶意分类模型进行类别预测，得到所述待识别加密数据的目标加密数据类别，从而可更细化的通过提取预设类别的特征信息，并通过训练完成的预设恶意分类模型进行类别预测，并进一步通过预设识别策略对预测出目标加密数据类别的进行验证，提高数据识别的准确性，在类别预测为恶意加密数据类别时，通过预设识别策略验证符合恶意加密数据类别，则准确识别出所述待识别加密数据为恶意加密数据类别。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的数据识别设备结构示意图；

图2为本发明数据识别方法一实施例的流程示意图；

图3是本发明数据识别方法一实施例的应用场景网络结构示意图；

图4为本发明数据识别方法另一实施例的流程示意图；

图5为本发明数据识别方法再一实施例的流程示意图；

图6为本发明数据识别装置一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的数据识别设备结构示意图。

如图1所示，该数据识别设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口以及无线接口，而用户接口1003的有线接口在本发明中可为通用串行总线(Universal Serial Bus，USB)接口。网络接口1004可选的可以包括标准的有线接口以及无线接口(如WI-FI接口)。存储器1005可以是高速随机存取存储器(Random Access Memory，RAM)；也可以是稳定的存储器，比如，非易失存储器(Non-volatile Memory)，具体可为，磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对数据识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据识别程序。

在图1所示的数据识别设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接外设；所述数据识别设备通过处理器1001调用存储器1005中存储的数据识别程序，并执行本发明实施例提供的数据识别方法。

基于上述硬件结构，提出本发明数据识别方法的实施例。

参照图2，图2为本发明数据识别方法一实施例的流程示意图。

在图2实施例中，所述数据识别方法包括以下步骤：

步骤S10：获取当前数据，对所述当前数据进行过滤，得到内网数据，将所述内网数据作为待识别加密数据。

需要说明的是，本实施例的执行主体为数据识别设备，还可为其他可实现相同或相似功能的设备，例如客户端或者布设在客户端与服务器端之间的网关等，本实施例对此不作限制，在本实施例中，以网关为例进行说明，当前数据为通过网关采集客户端与服务器之间的交互数据，还可为通过客户端通过内部的采集程序进行采集的，本实施例对此不作限制，待识别加密数据为需要进行分类识别的数据，例如图3所示的应用场景网络结构示意图，客户端在内网中通过服务器提供的服务进行相应的业务处理，并且通过路由设备进入外网，进行互联网的访问。

可以理解的是，内网为局域网，是由几台或者几十台电脑之间互相连接用于资源共享的网络，比如邻居之间的电脑连成内网，外网就是与互联网相通的，可以访问互联网上的所有网络资源，在一般情况下，内网IP(Internet Protocol，网际互连协议)地址范围为10.0.0.0～10.255.255.255、172.16.0.0～172.31.255.255以及192.168.0.0～192.168.255.255，其它的IP为外网IP。

可以理解的是，本实施例主要针对的为HTTPS数据，所述HTTPS数据采用传输层安全性协议，传输层安全性协议(Transport Layer Security，TLS)及其前身安全套接层(Secure Sockets Layer，SSL)是一种安全协议，目的是为互联网通信提供安全及数据完整性保障，HTTPS数据是以安全为目标的HTTP(HyperText Transfer Protocol，超文本传输协议)通道，在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性，HTTPS存在不同于HTTP的默认端口及一个加密/身份验证层，可提供了身份验证与加密通讯方法，更利于保护用户的安全性，因此，HTTPS相比较于HTTP具有更多特定的技术特征，比如证书、握手等，HTTPS数据通常采用Client Hello报文，Client Hello报文为TLS协议握手阶段客户端首先发送的协商数据包，这条消息将客户端的功能和首选项传送给服务器，客户端会在新建连接后，希望重新协商或者响应服务器发起的重新协商请求时，发送这条消息，从而实现完整的会话握手，因此，在从待识别加密数据中提取预设类别的特征信息，特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项之前，需要判断会话是否有完整的TLS握手，如果是完整的TLS握手，则进行步骤S20，即提取预设类别的特征信息，如果不是完整的TLS握手，则返回执行步骤S10，完整的TLS握手为客户端发送的协商数据包，协商数据包将客户端的功能和首选项传送给服务器，得到服务器的响应，以及客户端在新建连接后，希望重新协商或者响应服务器发起的重新协商请求时，发送协商数据包，从而实现完整的TLS握手。

步骤S20：从所述待识别加密数据中提取预设类别的特征信息，所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项。

在本实施例中，特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项，预设类别包括恶意的加密数据和正常的加密数据，由于对待识别加密数据进行细化分析，可知，待识别加密数据相比较于未加密数据存有握手数据包以及其他与加密数据安全相关的特征信息，因此，可通过对待识别加密数据更细化的分析，得到待识别加密数据的特征信息，从而根据特征信息对待识别加密数据进行恶意识别。

步骤S30：根据所述特征信息采用预设恶意分类模型进行类别预测，得到所述待识别加密数据的目标加密数据类别。

在本实施例中，预设恶意分类模型可基于监督机器学习的方式得到，还可基于其他机器训练模型进行训练得到，本实施例对此并不限制，以随机森林模型为例进行说明，在预设恶意分类模型为基于随机森林模型进行训练得到时，可通过预设恶意分类模型对待识别加密数据进行类别预测，得到待识别加密数据的目标加密数据类别，其中，目标加密数据类别可为正常加密数据类别，还可为恶意加密数据类别，恶意加密数据类别可为具有安全风险的数据，例如访问次数频繁的请求数据等，正常加密数据类别可为不具有安全风险的数据，例如参数配置等。

在具体实现中，通过预设恶意分类模型进行类别预测，可得到的输出结果可为0或1，还可为其他参数形式，本实施例对此不作限制，其中，0表示正常的加密数据类别，1表示恶意的加密数据类别。

步骤S40，根据预设识别策略对所述目标加密数据类别进行验证。

在本实施例中，为了更一步提高类别识别的准确性，还通过预设识别策略对目标加密数据类别进行验证，根据验证结果对加密数据的类别进行举证，通过提供多样化的预设识别策略，提供全方位的验证。

在具体实现中，通过预设识别策略对目标加密数据类别进行验证之前，需要判断是否为恶意加密流量类别，在目标加密数据为恶意加密数据时，通过预设识别策略对所述目标加密数据类别进行举证，得到的验证结果认为恶意加密数据时，则说明通过预设恶意分类模型预测目标加密数据为恶意加密数据的预测结果为正确的，在这种情况下，则需要对恶意加密数据进行拦截或其他保证网络安全的处理，反之，在目标加密数据为恶意加密数据时，通过预设识别策略对所述目标加密数据类别进行举证，得到的验证结果认为正常加密数据时，则说明通过预设恶意分类模型预测目标加密数据为恶意加密数据的预测结果为错误的，则对待识别加密数据放行，不进行处理，在目标加密数据不为恶意加密数据时，则返回步骤S10。

本实施例通过上述方案，通过获取当前数据，对当前数据进行过滤，得到内网数据，将内网数据作为待识别加密数据；从待识别加密数据中提取预设类别的特征信息，特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项；根据特征信息采用预设恶意分类模型进行类别预测，得到待识别加密数据的目标加密数据类别，从而可更细化的通过提取预设类别的特征信息，并通过训练完成的预设恶意分类模型进行类别预测，并进一步通过预设识别策略对预测出目标加密数据类别的进行验证，提高数据识别的准确性，在类别预测为恶意加密数据类别时，通过预设识别策略验证符合恶意加密数据类别，则准确识别出待识别加密数据为恶意加密数据类别。

参照图4，图4为本发明数据识别方法另一实施例的流程示意图，基于上述图2所示的一实施例，提出本发明数据识别方法的另一实施例，所述预设识别策略为指纹识别策略；所述步骤S40，包括：

所述步骤S40，包括：

步骤S401，获取所述待识别加密数据对应的服务器端采用的协议类型。

需要说明的是，HTTPS一般采用TLS进行数据传输，及其前身为SSL，是一种安全协议，目的是为互联网通信提供安全及数据完整性保障，由于TLS在报文处理过程中，TLS协议握手阶段客户端首先发送的协商数据包，这条消息将客户端的功能和首选项传送给服务器，客户端会在新建连接后，希望重新协商或者响应服务器发起的重新协商请求时，发送这条消息，即在HTTPS数据中有客户端与服务器之间的握手交互信息。

步骤S402，根据所述协议类型确定对应的指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

在本实施例中，可通过待识别加密数据所使用的协议信息，根据协议信息生成对应的指纹信息进行验证，其中，所述预设黑指纹库为预先统计的恶意加密数据的指纹信息，根据恶意加密数据的指纹信息生成所述预设黑指纹库。

进一步地，所述协议类型为安全套接层协议；

所述根据所述协议类型确定对应的指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证，包括：

根据所述安全套接层协议确定对应服务器端保存的证书或证书链；

根据所述证书或证书链进行加密得到指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

在具体实现中，在所述协议类型为安全套接层协议，即采用SSL协议进行报文传输时，通过证书或证书链进行加密得到指纹信息，通过指纹信息进行验证，所述加密可通过预设加密算法进行加密，例如哈希加密算法，还可通过其他加密算法进行加密，本实施例对此不作限制，在本实施例中，以哈希加密算法为例进行说明，SSL证书通过一个唯一的哈希指纹识别，若服务器端提供的证书或证书链中匹配了SSL黑证书指纹库的记录，则生成该SSL证书指纹的举证信息。

进一步地，所述协议类型为传输层安全性协议；

所述根据所述协议类型确定对应的指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证，包括：

根据所述传输层安全性协议确定会话包信息；

根据所述会话包信息进行加密得到指纹信息，基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

需要说明的是，在所述协议类型为传输层安全性协议时，即TLS传输协议，通过收集客户端发送的Client Hello报文数据包中以下字段的十进制字节值，即TLS版本、可接受的密码套件、扩展列表、椭圆曲线密码以及椭圆曲线密码格式，然后，它将这些值串联在一起，例如：“769,47–53–5–10–49161–49162–49171–49172–50–56–19–4,0–10–11,23–24–25,0”，最后，计算通过MD5(Message-Digest Algorithm，信息摘要算法)生成一个特定的指纹，例如数据JA3指纹，还可通过其他加密算法，本实施例对此不作限制，即根据所述会话包信息进行加密得到指纹信息，然后基于预设黑指纹库对所述指纹信息进行验证，以实现对所述目标加密数据类别的验证。

进一步地，所述预设识别策略为访问信息识别策略；

所述步骤S40，包括：

需要说明的是，所述访问信息识别策略根据访问证书的访问次数信息、访问时间信息以及访问频率信息进行验证。

在预设时间段内，获取待识别加密数据对应终端访问证书的访问次数信息、访问时间信息以及访问频率信息；根据访问次数信息、访问时间信息以及访问频率信息对目标加密数据类别进行验证。

在具体实现中，通过获取待识别加密数据对应主机对于特定证书对应的目的域名访问次数、频率、时段存在明显异常，则生成主机访问异常的举证信息，从而实现对所述目标加密数据类别进行验证。

进一步地，所述预设识别策略为异常特征识别策略，所述异常特征识别策略包括所述待识别加密数据中是否存在证书自签名、证书中是否含有异常信息以及待识别加密数据中是否出现加密套件中至少一项。

可以理解的是，本实施例为泛特征举证，泛特征包含单不仅限于构成特征向量的各特征的拆分和组合，例如当存在证书自签名的情况、证书的签发机构信息存在恶意内容、发现在恶意软件的加密数据中出现频率较高的加密套件组合时，生成对应的举证信息。

在具体实现中，当识别出恶意加密数据时，若将加密数据对应的域名发送至产生该数据的主机端，使用进程钩子找到产生该加密数据的进程和对应应用，用杀毒软件查杀该程序，通过端网联动的方式进行举证，从而实现对目标加密数据类别进行验证。

进一步地，所述预设识别策略为终端识别策略。

所述步骤S40，包括：

获取所述目标加密数据类别对应的加密数据的终端设备信息；访问所述终端设备信息对应的终端设备，以使所述终端设备查找所述目标类型的加密数据对应的进程信息和应用信息，并调用识别程序，通过所述识别程序对所述进程信息和应用信息进程识别，得到识别结果；根据所述识别结果对所述目标加密数据类别进行验证。

在本实施例中，识别程序可为杀毒软件，通过查毒软件查杀进程信息和应用信息，还可为其他识别程序，本实施例对此不作限制，为了访问终端设备信息对应的终端设备，可在终端设备上运行数据识别程序，通过数据识别程序可实现对终端设备的调用，从而可使终端设备调用识别程序，实现恶意加密数据的识别。

本实施例通过上述方案，通过预设识别策略对目标加密数据类别进行验证，根据验证结果对加密数据的类别进行举证，通过提供多样化的预设识别策略，提供全方位的验证，对恶意加密数据预测结果再进行举证，从而提高恶意加密数据预测准确性。

参照图5，图5为本发明数据识别方法再一实施例的流程示意图，基于图2或图4提出本发明数据识别方法的再一实施例，在本实施例中，基于图2实施例进行说明，所述步骤S20之前，所述数据识别方法还包括：

步骤S201，获取历史加密数据特征信息。

需要说明的是，为了采用预设恶意分类模型进行类别预测，需要通过历史数据进行训练得到预设恶意分类模型，其中，所述历史加密数据特征信息包括历史握手信息、历史证书信息、历史域名信息、历史数据包信息以及历史终端密钥信息等，还可包括其他特征信息，本实施例对此不作限制。

步骤S202，根据所述历史加密数据特征信息以及对应的加密数据类别信息生成特征向量信息。

在具体实现中，通过提取会话中的明文信息与非明文的流信息作为模型输入的特征信息，包括：TLS握手特征信息，包括TLS握手中加密套件以及加密扩展向量；证书特征信息，包括证书的编码类型，是否有效，是否自签名，证书链长度等；域名特征信息，包括从TLS握手的扩展或证书的编码字段中提取，计算域名的字符占比、数字占比、网站alexa排名等信息作为特征；流特征信息，包括将通信中上下行包的大小、间隔提取为马尔科夫向量以及分布向量，并对二者做平均数、最大值、最大函数、最小值、最小函数、标准差、样本方差、分位数以及等分等统计操作；额外特征，包括客户端或者服务器端的公钥长度生成特征向量信息，从而实现特征的提取。

步骤S203，通过所述特征向量信息训练分类模型，生成预设恶意分类模型。

可以理解的是，所述分类模型可为随机森林模型，还可为其他分类模型，本实施例对此不作限制，在本实施例中，以随机森林模型为例进行说明，通过提取历史数据中的特征信息，并通过对应的标签信息进行管理，然后带有标签信息的历史数据通过随机森林模型进行训练，得到预设恶意分类模型，通过预设恶意分类模型输入为加密数据，输出为预测的恶意数据或者正常数据。

在本实施例中，对于过滤后的HTTPS数据，提取会话中未加密的关键字段，构造基于时空、证书、握手以及背景信息的特征向量，构造恶意加密数据和正常加密数据的数据集，采用基于有监督机器学习的方式训练恶意加密数据分类器，识别加密数据的恶意性。

进一步地，所述步骤S10，包括：

获取当前数据，提取所述当前数据中的内网数据；对所述内网数据进行过滤，得到待识别加密数据。

需要说明的是，为了提高预测的效率，对得到的当前数据进行过滤，将过滤后的有效的数据进行预测，达到提高预测效率的目的。

进一步地，所述对所述内网数据进行过滤，得到待识别加密数据，包括：

提取所述内网数据中预设特征信息，所述预设特征信息包括安全服务端口信息、握手信息以及域名信息中至少一项；根据所述安全服务端口信息、握手信息或域名信息进行过滤，得到当前加密数据；将所述当前加密数据作为待识别加密数据。

在具体实现中，提取所述内网数据中的端口信息；根据所述端口信息对所述内网数据中进行过滤，得到当前加密数据；将所述当前加密数据作为待识别加密数据。

在本实施例中，主要针对端口信息进行过滤，得到加密数据，即通过安全服务端口进行过滤，例如443端口，还可为其他端口，本实施例对此不作限制，在本实施例中，以443端口为例进行说明，通过443端口进行过滤，过滤掉非443端口的数据，从而只识别HTTPS协议的加密数据，从而保证预设恶意分类模型预测的都为加密数据。

进一步地，所述对所述内网数据进行过滤，得到待识别加密数据，包括：

获取所述内网数据中的握手信息，根据所述握手信息对所述内网数据中进行过滤，得到过滤后的内网数据；将所述过滤后的内网数据中作为待识别加密数据。

在本实施例中，由于HTTPS数据采用完整的握手信息，通过判断当前数据是否携带有完整的TLS握手数据，如果未带有完整的TLS握手数据，则将当前数据中未携带有完整的TLS握手数据进行过滤，过滤后得到携带有完整的TLS握手数据，将携带有完整的TLS握手数据作为待识别加密数据。

进一步地，所述对所述内网数据进行过滤，得到待识别加密数据，包括：

提取内网数据中的域名信息；根据所述域名信息对所述内网数据进行过滤，得到目标域名的内网数据；将所述目标域名的内网数据作为待识别加密数据。

在具体实现中，通过白域名或黑域名进行过滤，所述白域名为包含正常域名的白名单，所述黑域名为包含恶意域名的黑名单，通过提取内网数据的域名信息；根据域名信息通过白域名或黑域名进行比较，判断白域名或黑域名是否存有域名信息，在白域名中存有域名信息，则对内网数据进行过滤，在黑域名中存有域名信息，则不对内网数据进行过滤，得到目标域名的当前数据；将目标域名的内网数据作为待识别加密数据。

进一步地，所述步骤S10，包括：

获取当前数据，提取所述当前数据中的内网地址对应的内网数据；将所述内网数据作为待识别加密数据，或者获取当前数据，提取所述当前数据中源网络地址信息和目的网络地址信息属于同一网段的内网数据；将所述内网数据作为待识别加密数据，从而根据内网数据进行分析。

需要说明的是，由于本实施例只考虑由内到外的访问行为，所以需要过滤的数据包括：目的IP为内网IP或者通过源IP与目的IP处于相同网段的数据，从而得到内网数据，例如源IP为200.200.xxx.xxx，目的IP为200.200.xxx.xxx。

本实施例提供的方案，为了提高识别的效率，对当前数据进行过滤，将过滤后的有效的数据进行预测，达到提高识别效率的目的。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有数据识别程序，所述数据识别程序被处理器执行时实现如上文所述的终端入网方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，参照图6，本发明实施例还提出一种数据识别装置，所述数据识别装置包括：

获取模块10，用于获取当前数据，对所述当前数据进行过滤，得到内网数据，将所述内网数据作为待识别加密数据。

在本实施例中，以网关为例进行说明，当前数据为通过网关采集客户端与服务器之间的交互数据，还可为通过客户端通过内部的采集程序进行采集的，本实施例对此不作限制，待识别加密数据为需要进行分类识别的数据，例如图3所示的应用场景网络结构示意图，客户端在内网中通过服务器提供的服务进行相应的业务处理，并且通过路由设备进入外网，进行互联网的访问。

可以理解的是，内网为局域网，是由几台或者几十台电脑之间互相连接用于资源共享的网络，比如邻居之间的电脑连成内网，外网就是与互联网相通的，可以访问互联网上的所有网络资源，在一般情况下，内网IP地址范围为10.0.0.0～10.255.255.255、172.16.0.0～172.31.255.255以及192.168.0.0～192.168.255.255，其它的IP为外网IP。

可以理解的是，本实施例主要针对的为HTTPS数据，所述HTTPS数据采用传输层安全性协议，TLS及其前身SSL是一种安全协议，目的是为互联网通信提供安全及数据完整性保障，HTTPS数据是以安全为目标的HTTP通道，在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性，HTTPS存在不同于HTTP的默认端口及一个加密/身份验证层，可提供了身份验证与加密通讯方法，更利于保护用户的安全性，因此，HTTPS相比较于HTTP具有更多特定的技术特征，比如证书、握手等，HTTPS数据通常采用Client Hello报文，ClientHello报文为TLS协议握手阶段客户端首先发送的协商数据包，这条消息将客户端的功能和首选项传送给服务器，客户端会在新建连接后，希望重新协商或者响应服务器发起的重新协商请求时，发送这条消息，从而实现完整的会话握手，因此，在从待识别加密数据中提取预设类别的特征信息，特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项之前，需要判断会话是否有完整的TLS握手，如果是完整的TLS握手，则进行步骤S20，即提取预设类别的特征信息，如果不是完整的TLS握手，则返回执行步骤S10，完整的TLS握手为客户端发送的协商数据包，协商数据包将客户端的功能和首选项传送给服务器，得到服务器的响应，以及客户端在新建连接后，希望重新协商或者响应服务器发起的重新协商请求时，发送协商数据包，从而实现完整的TLS握手。

提取模块20，用于从所述待识别加密数据中提取预设类别的特征信息，所述特征信息包括：握手信息、证书信息、域名信息、数据包信息以及终端密钥信息中至少一项。

预测模块30，用于根据所述特征信息采用预设恶意分类模型进行类别预测，得到所述待识别加密数据的目标加密数据类别。

验证模块40，用于根据预设识别策略对所述目标加密数据类别进行验证。

本发明所述数据识别装置采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为名称。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器、RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

22页详细技术资料下载

数据识别方法、设备、存储介质及装置

相关技术

网友询问留言