一种网络资产确定方法、装置、电子设备和存储介质

文档序号:1504919 发布日期:2020-02-07 浏览:2次 >En<

阅读说明:本技术 一种网络资产确定方法、装置、电子设备和存储介质 (Network asset determination method and device, electronic equipment and storage medium ) 是由 李斌 禹庆华 李虎 武浩 李国辉 于 2019-09-30 设计创作,主要内容包括:本发明实施例提供了一种网络资产确定方法、装置、电子设备和存储介质,该方法检测网页的图片中是否存在商标图片来确定网页是否为企业的网络资产,提供了一种新的确定网络资产的方法。同时,通过是否包含商标图片来确定网络资产,避免了对包含和企业相关信息,实际不是企业网络资产的网页进行的误识别,提高了对企业网络资产识别的准确率。(The embodiment of the invention provides a network asset determining method, a network asset determining device, electronic equipment and a storage medium. Meanwhile, the network assets are determined by judging whether the trademark pictures are contained, so that the error identification of the webpage containing the information related to the enterprise and not the network assets of the enterprise is avoided, and the accuracy of the identification of the network assets of the enterprise is improved.)

一种网络资产确定方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉和机器学习技术领域,尤其是涉及一种网络资产确定方法、装置、电子设备和存储介质。

背景技术

网络资产指的是独立存在于网络中的以数字化形态呈现的网络数字财产资产,包括网页、网站账号、网店、网络游戏账号,以及在网络上发布的文字、图片、音视频等等。例如,某企业的网络资产包括属于该企业的网页。

当前针对网络资产的探测主要采用文本搜索的方式,只要文本中包含某些企业的名称或相关关键词就认为是该企业的网络资产。这种资产探测方式的准确率并不高,因为很多网页中出现这些关键词并不代表属于该企业资产,例如新闻报道。

由此,在实际应用过程中,仅采用文本搜索来确定企业的网络资产,网络资产确定方式单一且准确率较低。

发明内容

本发明实施例提供一种网络资产确定方法、装置、电子设备和存储介质,用以解决现有技术中的现有的仅采用文本搜索来确定企业的网络资产,网络资产确定方式单一且准确率较低的问题。

针对以上技术问题,第一方面,本发明的实施例提供了一种网络资产确定方法,包括:

获取企业的商标图片以及网页中的网页图片;

从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;

将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

可选地,所述从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片,包括:

若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片;

从网页图片中,筛选与所述商标图片匹配的图片;

将包含所述商标文字,且与所述商标图片匹配的图片,作为所述目标图片。

可选地,所述从网页图片中,筛选与所述商标图片匹配的图片,包括:

对任一网页图片,通过神经网络模型提取所述网页图片的第一图片特征,并通过所述经网络模型提取所述商标图片的第二图片特征;

根据所述第一图片特征和所述第二图片特征,计算所述网页图片和所述商标图片的欧式距离,若欧式距离小于预设阈值,则所述网页图片为与所述商标图片匹配的图片。

可选地,所述若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片,包括:

对所述商标图片进行文字识别,若所述商标图片中存在文字,识别出所述商标文字;

对任一网页图片,通过文字识别从所述网页图片中识别出图片文字;

若识别出的图片文字和所述商标文字相同,则所述网页图片为包含了所述商标文字的图片。

可选地,所述获取企业的商标图片以及网页中的网页图片之前,包括:

创建数据库,所述数据库中包括从网页中获取的网页图片,以及从网页图片中识别出的文字。

第二方面,本发明的实施例提供了一种网络资产确定装置,包括:

获取模块,用于获取企业的商标图片以及网页中的网页图片;

匹配模块,用于从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;

输出模块,用于将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

可选地,所述匹配模块还用于若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片;从网页图片中,筛选与所述商标图片匹配的图片;将包含所述商标文字,且与所述商标图片匹配的图片,作为所述目标图片。

可选地,所述匹配模块还用于对任一网页图片,通过神经网络模型提取所述网页图片的第一图片特征,并通过所述经网络模型提取所述商标图片的第二图片特征;根据所述第一图片特征和所述第二图片特征,计算所述网页图片和所述商标图片的欧式距离,若欧式距离小于预设阈值,则所述网页图片为与所述商标图片匹配的图片。

可选地,所述匹配模块还用于对所述商标图片进行文字识别,识别出所述商标文字;对任一网页图片,通过文字识别从所述网页图片中识别出图片文字;若识别出的图片文字和所述商标文字相同,则所述网页图片为包含了所述商标文字的图片。

可选地,所述获取模块还用于创建数据库,所述数据库中包括从网页中获取的网页图片,以及从网页图片中识别出的文字。

第三方面,本发明的实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上所述的网络资产确定方法的步骤。

第四方面,本发明的实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上所述的网络资产确定方法的步骤。

本发明的实施例提供了一种网络资产确定方法、装置、电子设备和存储介质,该方法检测网页的图片中是否存在商标图片来确定网页是否为企业的网络资产,提供了一种新的确定网络资产的方法。同时,通过是否包含商标图片来确定网络资产,避免了对包含和企业相关信息,实际不是企业网络资产的网页进行的误识别,提高了对企业网络资产识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的网络资产确定方法流程示意图;

图2是本发明另一个实施例提供的对企业资产检测的流程示意图;

图3是本发明另一个实施例提供的对***的企业资产进行检测的流程示意图;

图4是本发明另一个实施例提供的一种网络资产确定装置的结构框图;

图5是本发明另一个实施例提供的电子设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本实施例提供的网络资产确定方法流程示意图,该网络资产确定方法包括以下步骤:

步骤101:获取企业的商标图片以及网页中的网页图片;

步骤102:从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;

步骤103:将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

执行上述方法的硬件设备可以是服务器、计算机或者专用于进行网络资产确定的设备,本实施例对此不做具体限制。例如,服务器预先从全网的网页中获取图片,作为网页图片。然后将某企业的商标图片和获取的各网页图片进行匹配,得到目标图片。各目标图片所在的网页即为该企业的网络资产,最后可以输出各目标图片所在的网页对应的网址。

由于绝大部分企业的官网首页都包含企业商标,因此检测该网页图像中是否存在商标,存在商标的网页则为企业资产,这种网络资产的确定方法具有较高的准确率。

步骤101中的企业指的是欲查询网络资产的企业,商标图片为包含该企业商标的图片。网页图片是从全网的网页中获取的,图片格式的文件。步骤102中,目标图片指的是和商标图片具有高相似度的图片,即与商标图片相同或者和商标图片高相似的图片。步骤103中,在网页中获取网页图片时,预先保存了各网页图片所在网页的网址,最终输出确定的目标图片所在的网页的网址,作为企业的网络资产。

本实施例提供了一种网络资产确定方法,该方法检测网页的图片中是否存在商标图片来确定网页是否为企业的网络资产,提供了一种新的确定网络资产的方法。同时,通过是否包含商标图片来确定网络资产,避免了对包含和企业相关信息,实际不是企业网络资产的网页进行的误识别,提高了对企业网络资产识别的准确率。

进一步地,在上述实施例的基础上,所述从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片,包括:

若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片;

从网页图片中,筛选与所述商标图片匹配的图片;

将包含所述商标文字,且与所述商标图片匹配的图片,作为所述目标图片。

为了进一步提高网络资产确定的准确性,对于商标图片中存在文字的商标,本实施例提供了通过文字识别(即OCR,光学字符识别)确定网络资产的方法。结合上述步骤101-103,将确定的包含所述商标文字,且与所述商标图片匹配的图片作为目标图片。当然,若商标图片中不存在文字,则直接将与所述商标图片匹配的图片作为目标图片。

即进一步地,若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片,还包括:

若所述商标图片中不存在文字,则将与所述商标图片匹配的图片作为所述目标图片。

在商标图片中存在文字的情况下,关于确定目标图片,以下介绍3种实现方式。即所述将包含所述商标文字,且与所述商标图片匹配的图片,作为所述目标图片,包括:

取与所述商标图片匹配的图片,和包含所述商标文字的交集,作为目标图片;或者,确定与所述商标图片匹配的图片后,在与所述商标图片匹配的图片中确定包含所述商标文字的图片,作为目标图片;或者,在包含所述商标文字的图片中,确定与所述商标图片匹配的图片,作为目标图片。

本实施例提供了一种网络资产确定方法,通过文字识别和图片匹配结合进行目标图片的筛选,进一步提高了识别的目标图片是企业商标的准确率,提高了网络资产确定的准确率。

进一步地,在上述各实施例的基础上,所述从网页图片中,筛选与所述商标图片匹配的图片,包括:

对任一网页图片,通过神经网络模型提取所述网页图片的第一图片特征,并通过所述经网络模型提取所述商标图片的第二图片特征;

根据所述第一图片特征和所述第二图片特征,计算所述网页图片和所述商标图片的欧式距离,若欧式距离小于预设阈值,则所述网页图片为与所述商标图片匹配的图片。

需要说明的是,神经网络模型为预先训练好的模型,例如,预先对神经网络模型进行训练,使得神经网络模型对图片进行分类。本申请直接获取神经网络模型对图片进行分类时,提取的图片特征,通过图片特征计算欧式距离。当欧式距离小于预设阈值,则认为两张图片相似度较高,即认为两张图片是相互匹配的图片。本实施例中的神经网络模型可以是为是为了实现任一目的训练出来的模型,根据由训练好的神经网络模型对图片提取的特征来判断图片的相似度。

可理解的是,还可以通过其它方法来提取图片的特征,例如,提取梯度直方图HOG特征或者提取局部二值模式LBP特征,通过这些特征来判断商标图片和某一网页图片的相似度,将相似度较高的作为与商标图片匹配的图片。

本实施例提供了一种网络资产确定方法,通过图片相似性的判断找到与商标图片高度相似的网页图片,这些网页图片包含了企业的商标,从而精确地确定企业的网络资产。

进一步地,在上述各实施例的基础上,所述若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片,包括:

对所述商标图片进行文字识别,若所述商标图片中存在文字,识别出所述商标文字;

对任一网页图片,通过文字识别从所述网页图片中识别出图片文字;

若识别出的图片文字和所述商标文字相同,则所述网页图片为包含了所述商标文字的图片。

通过文字识别技术,从商标图片中识别出文字,作为商标文字。对于每一网页图片,从网页图片中也进行文字识别,识别出网页图片中的图片文字。若从某一网页图片中识别的图片文字和商标文字相同,则网页图片为包含了商标文字的图片。

本实施例提供了一种网络资产确定方法,若商标图片中能够识别出商标文字,则通过文字识别获取包含有商标文字的网页图片,这些包含有商标文字的网页图片具有是企业网络资产的可能性,从而结合图片相似性的判断能够精确地确定企业的网络资产。

进一步地,在上述各实施例的基础上,所述获取企业的商标图片以及网页中的网页图片之前,包括:

创建数据库,所述数据库中包括从网页中获取的网页图片,以及从网页图片中识别出的文字。

为了提高确定网络资产的效率,预先创建了数据库,在执行上述方法步骤101-103的过程中,直接从数据库中读取网页图片。

进一步地,网页图片是通过网络爬虫从全网的网页中抓取的图片。

本实施例提供了一种网络资产确定方法,通过预先创建的数据库,使得在确定网络资产的过程中不需要临时从网页中爬取网络图片,提高了确定网络资产的效率。

具体地,图2为实施例提供的对企业资产检测的流程示意图,参见图2,该流程包括:

(1)构建网页图像数据库,包括两个方面,一方面,下载全网的网页并把网页中的图像存入数据库。另一方面,对数据库中的每一幅图像进行OCR识别得到图像中的文字信息并存入数据库。

(2)传入要查找的企业的商标图片和商标图片中的文字,通过商标图片和数据库中图像的相似度确定网络资产。

具体为:提取图像的特征(例如,Hog、LBP、神经网络提取的特征等),计算检测商标特征向量和数据库中图像特征向量的相似度(例如,欧式距离、余弦相似度等),根据相似度的大小判断图像是否相似。同时,查看上传的商标文字和与数据库中OCR识别的文字是否大体一致,基本一致的图标则为匹配图像。

(3)结合上述两种方法找到的图片所对应的网页,即为企业的网络资产。

图3为本实施例提供的对***的企业资产进行检测的流程示意图,参见图3,需要检测属于***的网络资产,图3中的左上角为***的商标,可以看到商标包括图像和文字,其中,商标文字包括“and和”、“***”和“China Mobile”。

首先,预先抓取全网网页,其中包括中移动的官网,从抓取的网页下载图片存入数据库,并使用OCR识别图片中的文字。

然后,上传要检测商标的商标图片和对应图片中的商标文字(如图3中的左上角所示,商标文字包括“and和”、“***”和“China Mobile”),上传的商标可以有多个。提取图像的特征向量,利用相似度(通过欧式距离、余弦相似度和马氏算法等方法计算)度量商标图片和数据库中图片之间是否相似,同时,对比数据库图片中识别的文字和商标文字之间是否一致。

最后,将图片相似且文字一致的图片所对应的网页作为***旗下的网络资产。

本实施例提供的方法通过图片相似度的匹配和文字的一致性判断,提供了一种新的确定网络资产的方法,同时通过这两种方法确定网络资产具有较高的准确性。

图4为本实施例提供的一种网络资产确定装置的结构框图,参见图4,该装置包括获取模块401、匹配模块402和输出模块403,其中,

获取模块401,用于获取企业的商标图片以及网页中的网页图片;

匹配模块402,用于从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;

输出模块403,用于将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

本实施例提供的网络资产确定装置适用于上述实施例中提供的网络资产确定方法,在此不再赘述。

本实施例提供了一种网络资产确定装置,该方法检测网页的图片中是否存在商标图片来确定网页是否为企业的网络资产,提供了一种新的确定网络资产的方法。同时,通过是否包含商标图片来确定网络资产,避免了对包含和企业相关信息,实际不是企业网络资产的网页进行的误识别,提高了对企业网络资产识别的准确率。

进一步地,在上述实施例的基础上,所述匹配模块还用于若所述商标图片中存在文字,则获取从所述商标图片中识别的商标文字,从网页图片中识别出包含了所述商标文字的图片;从网页图片中,筛选与所述商标图片匹配的图片;将包含所述商标文字,且与所述商标图片匹配的图片,作为所述目标图片。

进一步地,在上述各实施例的基础上,所述匹配模块还用于对任一网页图片,通过神经网络模型提取所述网页图片的第一图片特征,并通过所述经网络模型提取所述商标图片的第二图片特征;根据所述第一图片特征和所述第二图片特征,计算所述网页图片和所述商标图片的欧式距离,若欧式距离小于预设阈值,则所述网页图片为与所述商标图片匹配的图片。

进一步地,在上述各实施例的基础上,所述匹配模块还用于对所述商标图片进行文字识别,识别出所述商标文字;对任一网页图片,通过文字识别从所述网页图片中识别出图片文字;若识别出的图片文字和所述商标文字相同,则所述网页图片为包含了所述商标文字的图片。

进一步地,在上述各实施例的基础上,所述获取模块还用于创建数据库,所述数据库中包括从网页中获取的网页图片,以及从网页图片中识别出的文字。

图5是示出本实施例提供的电子设备的结构框图。

参照图5,所述电子设备包括:处理器(processor)501、通信接口(CommunicationsInterface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行如下方法:获取企业的商标图片以及网页中的网页图片;从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行如下方法:获取企业的商标图片以及网页中的网页图片;从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:获取企业的商标图片以及网页中的网页图片;从网页图片中,筛选与所述商标图片匹配的图片,作为目标图片;将目标图片所在的网页作为所述企业的网络资产,输出目标图片所在的网页对应的网址。

以上所描述的电子设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于emoji的语义解析方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!