一种联网智能设备识别信息提取方法及系统

文档序号:1116114 发布日期:2020-09-29 浏览:7次 >En<

阅读说明:本技术 一种联网智能设备识别信息提取方法及系统 (Method and system for extracting identification information of networked intelligent equipment ) 是由 张淼 徐国爱 吕浩 徐国胜 郭燕慧 王浩宇 于 2020-05-14 设计创作,主要内容包括:本发明提供一种联网智能设备识别信息提取方法及系统,涉及物联网设备安全技术领域,该方法包括从应用层响应数据中过滤得到联网智能设备的应用层响应数据并从中提取标识联网智能设备特性的特征关键词序列;再搜索特征关键词序列并爬取前n条网页;从网页中过滤得到第一文本信息并基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取初步设备描述识别信息;在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为该类别的最终设备描述识别信息;该提取方法能够提取未见过的设备描述识别信息;而且最终设备描述识别信息的确定方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。(The invention provides a method and a system for extracting identification information of networked intelligent equipment, which relate to the technical field of Internet of things equipment safety, and the method comprises the steps of filtering application layer response data of the networked intelligent equipment from the application layer response data and extracting a feature keyword sequence for identifying the characteristics of the networked intelligent equipment; searching the characteristic keyword sequence and crawling the first n webpages; filtering the webpage to obtain first text information, and extracting preliminary equipment description identification information from the first text information based on a named entity identification algorithm of a hidden Markov model; selecting the information with the highest frequency of occurrence from the same category of the preliminary device description identification information as the final device description identification information of the category; the extraction method can extract unseen equipment description identification information; and the final method for determining the equipment description identification information can achieve the same accuracy rate as the existing association rule mining algorithm, the algorithm is simple, and the computing resources are far smaller than other existing algorithms.)

一种联网智能设备识别信息提取方法及系统

技术领域

本发明涉及物联网设备安全技术领域,尤其涉及一种联网智能设备识别信息提取方法及系统。

背景技术

中国内外在联网智能设备识别信息提取领域做了一定数量的研究,提出了一些可行的联网智能设备识别信息提取方法;目前联网智能设备识别信息提取方法可分为两类:一类是基于有监督机器学习技术的,另一类是基于自然语言处理和数据挖掘的。

基于有监督机器学习技术的联网智能设备识别信息提取方法

目前联网智能设备识别信息提取方法中大多数利用的是机器学习中的有监督学习;预先收集若干类型物联网设备的网络流量,利用网络流量包中链路层、网络层、传输层、应用层等各层提取的特征来训练机器学习模型,对物联网设备的类型进行预测;然而,这些方法只能预测到设备的类型级别,不能预测到更细粒度的设备信息,并且能够预测的设备类型集合取决于预先收集的设备类型,而且数据集的收集和标注需要大量的人工参与。

基于自然语言处理和数据挖掘的联网智能设备识别信息提取方法

Xuan Feng等人首次提出了一个自动化的联网智能设备标注框架ARE;该框架能够自动化地提取联网智能设备的(类型,厂商,型号)信息;他们从Censys上收集了HTTP、FTP、RTSP、TELNET等4种协议的应用层响应数据,利用自然语言处理和数据挖掘等技术提取联网智能设备的识别信息;该方法对设备描述网页中设备类型、设备厂商、设备型号等信息的提取完全依赖于规则匹配和规则库,这使得提取性能很大程度上依赖于规则的好坏以及规则库的完善与否。

发明内容

有鉴于此,本发明的目的在于提出一种联网智能设备识别信息提取方法及系统,以解决现有联网智能设备的识别信息提取方法中现有规则与设备类型、厂商、型号不匹配时,无法提取设备识别信息的问题,以及基于关联规则挖掘算法在搜索结果中提取设备识别信息耗费时间长和计算资源较高的问题。

基于上述目的,本发明第一方面提供了一种联网智能设备识别信息提取方法,包括如下步骤:

从应用层响应数据中过滤得到联网智能设备的应用层响应数据;

从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;

在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;

从所述网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息;

在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;

根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息。

可选地,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:

在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;

所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;

所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。

可选地,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:

从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列;

所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。

可选地,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:

基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;

或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。

优选地,所述从所述网页中过滤得到第一文本信息包括:

采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。

可选地,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。

本发明第二方面提供了一种联网智能设备识别信息提取框架系统,所述提取框架系统包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;

所述数据处理模块包括过滤模块和预处理模块;所述过滤模块用于从应用层响应数据中过滤得到联网智能设备的应用层响应数据;所述预处理模块用于从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;

所述搜索/处理模块包括搜索模块和处理模块,所述搜索模块用于在搜索引擎中搜索所述特征关键词序列,并在搜索结果中爬取前n条对应的网页;所述处理模块用于从所述网页中过滤得到第一文本信息;

所述管理模块包括提取模块、存储模块和查询模块;

所述提取模块用于采用基于隐马尔科夫模型的命名实体识别算法在所述第一文本信息中提取联网智能设备的初步设备描述识别信息,并在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息,再根据所述最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取所述漏洞识别信息;

所述存储模块用于确定是否储存有所述最终设备描述识别信息和所述漏洞识别信息,若未存储,则存储所述最终设备描述识别信息和所述漏洞识别信息;

所述查询模块用于在所述存储模块中查询联网智能设备的识别信息;

所述前端展示模块用于与所述处理模块、搜索/处理模块和管理模块进行交互。

可选地,所述在所述存储模块中查询联网智能设备的识别信息包括:

根据设备类型、设备厂商、设备型号或设备漏洞编号在所述存储模块中查询联网智能设备的识别信息。

可选地,所述前端展示模块包括关键词输入模块、应用层响应信息输入模块和应用层响应信息获取模块;

所述关键词输入模块与所述查询模块进行交互,用于通过输入关键词在所述存储模块中查询联网智能设备的识别信息;

所述应用层响应信息输入模块用于输入应用层的响应数据,并通过所述数据处理模块、搜索/处理模块和管理模块对输入的应用层响应数据进行处理;

所述应用层响应信息获取模块用于根据输入的IP、端口号或协议获取应用层响应信息,并通过所述数据处理模块、搜索/处理模块和管理模块对获取的应用层响应数据进行处理。

可选地,所述从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:

在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;

所述非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;

所述出错的响应信息为HTTP响应的状态码为4xx和5xx的信息;

优选地,所述从所述联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:

从所述联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从所述第二文本信息中提取标识联网智能设备特性的特征关键词序列,所述物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号;

优选地,所述从所述联网智能设备的应用层响应数据中过滤得到第二文本信息包括:

基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;

或,基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。

优选地,所述从所述网页中过滤得到第一文本信息包括:

采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。

优选地,所述初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。

从上面所述可以看出,本发明提供的一种联网智能设备识别信息提取方法及系统至少包括如下有益效果:

本发明提取方法采用机器学习中的隐马尔科夫模型算法和自然语言处理中的命名实体识别算法在搜索网页中提取设备描述识别信息,实现启发式的提取,并能够提取未见过的设备描述识别信息。

本发明提取方法中在所述初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;该方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。

本发明提取方法还能够根据最终设备描述识别信息提取得到设备漏洞识别信息,能够实现更细粒度的设备信息提取,并方便管理者对网络中的联网智能设备进行管理,减少物联网设备安全问题的发生。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的联网智能设备识别信息提取框架系统对5000条联网智能设备的应用层响应信息的测试结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。

现有联网智能设备的识别信息一般是基于有监督机器学习技术或基于自然语言处理和数据挖掘的提取方法进行提取,然而,基于有监督机器学习技术只能预测到设备的类型级别,不能预测到更细粒度的设备信息,并且能够预测的设备类型集合取决于预先收集的设备类型,而且数据集的收集和标注需要大量的人工参与;而基于自然语言处理和数据挖掘的联网智能设备识别信息提取方法中对设备描述网页中设备类型、设备厂商、设备型号等信息的提取完全依赖于规则匹配和规则库,这使得提取性能很大程度上依赖于规则的好坏以及规则库的完善与否,导致提取性能较差。

针对上述问题,本发明实施例提供了一种联网智能设备识别信息提取方法,包括如下步骤:

从应用层响应数据中过滤得到联网智能设备的应用层响应数据;

从联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列;

在搜索引擎中搜索特征关键词序列,并在搜索结果中爬取前n条对应的网页;

从网页中过滤得到第一文本信息,并基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取联网智能设备的初步设备描述识别信息;

在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息;

根据最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取漏洞识别信息。

本发明上述提取方法不仅能够提取设备描述识别信息,还能够提取设备的漏铜识别信息,能够实现更细粒度的设备信息提取,并方便管理者对网络中的联网智能设备进行管理,减少物联网设备安全问题的发生;此外,该提取方法采用机器学习中的隐马尔科夫模型算法和自然语言处理中的命名实体识别算法在搜索网页中提取设备描述识别信息,实现启发式的提取,并能够提取未见过的设备描述识别信息;而且在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息的方法能够达到与现有关联规则挖掘算法相同的准确率,并且算法简单,计算资源远远小于其他现有算法。

进一步地,在搜索结果中爬取前n条对应的网页中爬取的网页条数可不小于30条。

进一步地,初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商。

本发明从应用层响应数据中过滤得到联网智能设备的应用层响应数据的过滤方法不作严格限制,例如,可以采用本领域常规的过滤方法;具体地,在一些实施方式中,从应用层响应数据中过滤得到联网智能设备的应用层响应数据包括:

在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息;

非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据;

出错的响应信息为HTTP响应的状态码为4xx和5xx的信息。

在一些实施方式中,从联网智能设备的应用层响应数据中提取标识联网智能设备特性的特征关键词序列包括:

从联网智能设备的应用层响应数据中过滤得到第二文本信息,在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从第二文本信息中提取标识联网智能设备特性的特征关键词序列;

其中,物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号。

进一步地,从联网智能设备的应用层响应数据中过滤得到第二文本信息包括:

基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;

基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息。

本发明对从网页中过滤得到第一文本信息的方法不作严格限制,可以根据本领域常规过滤方法进行,例如,在一些实施方式中,从网页中过滤得到第一文本信息包括:

采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息。

本发明实施例还提供了一种联网智能设备识别信息提取框架系统,该提取框架系统包括:数据处理模块、搜索/处理模块、管理模块和前端展示模块;

数据处理模块包括过滤模块和预处理模块;

过滤模块用于在应用层响应数据中过滤掉非物联网设备的应用层响应数据和出错的响应信息得到联网智能设备的应用层响应数据,其中非物联网设备的应用层响应数据包括重量级的Web服务器的应用层响应数据,出错的响应信息为HTTP响应的状态码为4xx和5xx的信息;

预处理模块用于从联网智能设备的应用层响应数据中过滤得到第二文本信息,然后在物联网设备响应信息语料库的基础上,采用词频-逆文档频率算法从第二文本信息中提取标识联网智能设备特性的特征关键词序列,其中,从联网智能设备的应用层响应数据中过滤得到第二文本信息包括:

基于HTTP协议的联网智能设备的应用层响应数据,采用正则表达式和Python的第三方库BeautifulSoup过滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;或基于FTP协议的联网智能设备的应用层响应数据,采用正则表达式过滤掉标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第二文本信息;物联网设备响应信息语料库至少包括一种物联网设备的设备类型、设备厂商和设备型号;

搜索/处理模块包括搜索模块和处理模块,搜索模块用于在搜索引擎中搜索特征关键词序列,并在搜索结果中爬取前n条对应的网页,其中n不小于30;处理模块用于采用正则表达式和Python的第三方库BeautifulSoup过滤掉所述网页中的滤掉HTML标签、标点符号、非数字非文字的字符和超链接内容,保留文本,既得所述第一文本信息;

管理模块包括提取模块、存储模块和查询模块;

提取模块用于采用基于隐马尔科夫模型的命名实体识别算法在第一文本信息中提取联网智能设备的初步设备描述识别信息,并在初步设备描述识别信息的同一类别中选择出现频次最高的信息作为联网智能设备该类别的最终设备描述识别信息,再根据最终设备描述识别信息在CVE漏洞库中检索是否存在联网智能设备的漏洞识别信息,若存在,则在检索结果中提取漏洞识别信息,其中,初步设备描述识别信息和最终设备描述识别信息均包括设备类型、设备型号和设备厂商;

存储模块用于存储现有联网智能设备的识别信息,以及用于确定是否储存有最终设备描述识别信息和漏洞识别信息,若未存储,则存储最终设备描述识别信息和漏洞识别信息;通过存储最终设备描述识别信息和漏洞识别信息,能够增加储存数据库中联网智能设备的识别信息,便于对基于隐马尔科夫模型的命名实体识别算法进行反馈,有利于提升模型的性能;

查询模块用于根据设备类型、设备厂商、设备型号或设备漏洞编号在所述存储模块中查询联网智能设备的识别信息;

前端展示模块包括关键词输入模块、应用层响应信息输入模块和应用层响应信息获取模块,关键词输入模块与查询模块进行交互,用于通过输入关键词在存储模块中查询联网智能设备的识别信息;

应用层响应信息输入模块用于输入应用层的响应数据,并通过数据处理模块、搜索/处理模块和管理模块对输入的应用层响应数据进行处理;

应用层响应信息获取模块用于根据输入的IP、端口号或协议获取应用层响应信息,并通过数据处理模块、搜索/处理模块和管理模块对获取的应用层响应数据进行处理。

基于上述实施例提供的一种联网智能设备识别信息提取框架系统对5000条联网智能设备进行测试,以确定上述联网智能设备识别信息提取框架系统的准确率;

上述联网智能设备识别信息提取框架系统中存储模块存储现有联网智能设备的识别信息包括23个设备类型,118个设备厂商,23871个设备型号;通过上述联网智能设备识别信息提取框架系统对5000条联网智能设备的应用层响应信息进行测试,测试结果如图1所示;

由图1可知,本发明提供的联网智能设备识别信息提取框架系统对联网智能设备识别信息的提取准确率达到了97.26%。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种设备资产探测方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类