欺诈网页识别方法、系统、设备及存储介质

文档序号：1953421 发布日期：2021-12-10 浏览：19次 >En<

阅读说明：本技术 欺诈网页识别方法、系统、设备及存储介质 (Method, system, equipment and storage medium for identifying fraudulent webpage ) 是由施丽佳马怡安于 2021-09-24 设计创作，主要内容包括：本发明提供了一种欺诈网页识别方法、系统、设备及存储介质,所述方法包括步骤：分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据；所述预设对比库中具有至少一参考网页；分别获取第一文本数据与每一第二文本数据之间的第一相似度,以及所述第二文本数据对应的参考网页的自相关度；基于所述第一相似度和所述自相关度,分别获取所述待测网页与每一所述参考网页之间的相似率；基于所述相似率,对所述待测网页进行识别；本申请实现对于欺诈网页的检测在保证准确度的同时,具有较好的计算效率。(The invention provides a method, a system, equipment and a storage medium for identifying a cheating webpage, wherein the method comprises the following steps: respectively acquiring first text data in a webpage to be detected and second text data of each reference webpage in a preset comparison library; the preset comparison library is provided with at least one reference webpage; respectively acquiring a first similarity between first text data and each second text data and an autocorrelation of a reference webpage corresponding to the second text data; respectively acquiring the similarity between the webpage to be detected and each reference webpage based on the first similarity and the autocorrelation; identifying the webpage to be detected based on the similarity rate; the method and the device have the advantage that detection of the cheating webpage has better calculation efficiency while accuracy is guaranteed.)

欺诈网页识别方法、系统、设备及存储介质

技术领域

本发明涉及计算机技术领域，具体地说，涉及一种欺诈网页识别方法、系统、设备及存储介质。

背景技术

互联网上存在一些恶意的网页，通过嵌入与官方网站相似标题、关键词和文章内容，使用户混淆，达到钓鱼欺诈的目的。

现有技术中，对欺诈网站(即钓鱼网站)常见的检测算法有TF-IDF(TermFrequency-Inverse Document Frequency)和余弦距离相似度算法相结合的方法、或者simhash文本相似度算法和汉明距离算法相结合的方法，通过比较待测网站与官方网站的文本相似度，来检测仿冒的钓鱼网站。但上述方法分别存在余弦距离算法对于长文本计算效率较低；simhash算法对内容极为敏感，容易造成相似度结果值过低，计算准确度较差的问题。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种欺诈网页识别方法、系统、设备及存储介质，实现对于欺诈网页的检测同时具有较佳的计算效率和准确度。

为实现上述目的，本发明提供了一种欺诈网页识别方法，所述方法包括以下步骤：

分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据；所述预设对比库中具有至少一参考网页；

分别获取第一文本数据与每一第二文本数据之间的第一相似度，以及所述第二文本数据对应的参考网页的自相关度；

基于所述第一相似度和所述自相关度，分别获取所述待测网页与每一所述参考网页之间的相似率；

基于所述相似率，对所述待测网页进行识别。

可选地，所述获取第一文本数据与每一第二文本数据之间的第一相似度，包括：

对第一文本数据进行分词，得到第一词列表；

对所述第一词列表进行去重处理，得到第一词序列；

计算所述第一词序列中的每个词与一第二文本数据之间的第二相似度；

将第一词序列中所有词对应的第二相似度相加，得到第一文本数据与所述第二文本数据之间的第一相似度。

可选地，所述获取第二文本数据对应的参考网页的自相关度，包括：

对第二文本数据进行分词，得到第二词列表；

对所述第二词列表进行去重处理，得到第二词序列；

计算所述第二词序列中的每个词与所述第二文本数据之间的初始自相关度；

将第二词序列中所有词对应的初始自相关度相加，得到所述第二文本数据对应的参考网页的自相关度。

可选地，所述获取待测网页中的第一文本数据，包括：

依据待测网页中包含的多个域标签，自所述待测网页获取归属于不同域标签的第一文本数据；不同的域标签对应有不同的预设权重；

所述对第一文本数据进行分词，得到第一词列表，包括：

对归属于不同域标签的第一文本数据分别进行分词，得到多个第一词列表；每一个第一词列表归属于一域标签；

所述计算所述第一词序列中的每个词与一第二文本数据之间的第二相似度，包括：

依据第一词序列归属的域标签对应的预设权重，计算第一词序列中的每个词与一第二文本数据之间的第二相似度；每一第一词序列归属于一域标签。

可选地，所述计算所述第一词序列中的每个词与一第二文本数据之间的第二相似度，为通过如下公式计算：

其中，

S_1i表示第一词序列中的第i个第一目标词和第二文本数据之间的第二相似度，IDF_1i表示第二文本数据关联所述第i个第一目标词的逆向文件频率，u₁为待测网页中包含的域标签的个数，f_mi表示待测网页中第m个域标签对应的第一词序列中的第i个第一目标词在第二文本数据中的频数，p₁为第一预设参数，w_m表示第m个域标签对应的预设权重，b_mi表示待测网页中第m个域标签对应的第一词序列中的第i个第一目标词对应的预设调节因子，l_m表示第二文本数据中第m个域标签的长度，av_m表示预设对比库中所有第二文本数据在第m个域标签上的平均长度；i大于等于1且小于等于M，M为第一词序列中词的数量。

可选地，所述计算所述第二词序列中的每个词与所述第二文本数据之间的初始自相关度，为通过如下公式计算：

其中，

S_2j表示第二词序列中的第j个第二目标词和第二文本数据之间的初始自相关度，IDF_2j表示第二文本数据关联所述第j个第二目标词的逆向文件频率，u₂为所述第二文本数据对应的参考网页中包含的域标签的个数，f_nj表示所述参考网页中第n个域标签对应的第二词序列中的第j个第二目标词在第二文本数据中的频数，p₂为第二预设参数，w_n表示第n个域标签对应的预设权重，b_nj表示所述参考网页中第n个域标签对应的第二词序列中的第j个第二目标词对应的预设调节因子，l_n表示第二文本数据中第n个域标签的长度，av_n表示预设对比库中所有第二文本数据在第n个域标签上的平均长度；j大于等于1且小于等于N，N为第一词序列中词的数量。

可选地，所述基于所述第一相似度和所述自相关度，分别获取所述待测网页与每一所述参考网页之间的相似率，包括：

将所述第一相似度和所述自相关度之间的比值，作为所述待测网页与所述自相关度对应的参考网页之间的相似率。

可选地，所述基于所述相似率，对所述待测网页进行识别，包括：

将所有参考网页的相似率中的最大值作为待比对相似率，判断所述待比对相似率是否大于等于预设阈值；

若是，则将所述待测网页确定为欺诈网页；

若否，则所述待测网页不是欺诈网页。

本发明还提供了一种欺诈网页识别系统，用于实现上述欺诈网页识别方法，所述系统包括：

文本转换模块，分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据；所述预设对比库中具有至少一参考网页；

相似度计算模块，分别获取第一文本数据与每一第二文本数据之间的第一相似度，以及所述第二文本数据对应的参考网页的自相关度；

相似率计算模块，基于所述第一相似度和所述自相关度，分别获取所述待测网页与每一所述参考网页之间的相似率；

欺诈识别模块，基于所述相似率，对所述待测网页进行识别。

本发明还提供了一种欺诈网页识别设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行程序；

其中，所述处理器配置为经由执行所述可执行程序来执行上述任意一项欺诈网页识别方法的步骤。

本发明还提供了一种计算机可读存储介质，用于存储程序，所述程序被处理器执行时实现上述任意一项欺诈网页识别方法的步骤。

本发明与现有技术相比，具有以下优点及突出性效果：

本发明提供的欺诈网页识别方法、系统、设备及存储介质在获取到待测网页和预设对比库中参考网页的文本数据后，计算待测网页和各个参考网页的相似度；以及计算各个参考网页自身的自相关度；不管对长文本还是短文本都能实现较好的计算效率；然后以参考网页的自相关度为基准获取相似率，基于相似率识别欺诈网页，保证了识别准确度；从而实现在保证识别准确度的同时，不管是短文本还是长文本都具有较好的计算效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1为本发明一实施例公开的一种欺诈网页识别方法的示意图；

图2为本发明一实施例公开的待测网页中的第一文本数据和参考网页的第二文本数据的示意图；

图3为本发明一实施例公开的欺诈网页识别方法中步骤S121的流程示意图；

图4为本发明一实施例公开的欺诈网页识别方法中步骤S122的流程示意图；

图5为本发明一实施例公开的一种欺诈网页识别系统的结构示意图；

图6为本发明一实施例公开的一种欺诈网页识别系统中第一计算子模块的结构示意图；

图7为本发明一实施例公开的一种欺诈网页识别系统中第二计算子模块的结构示意图；

图8为本发明一实施例公开的一种欺诈网页识别设备的结构示意图；

图9为本发明一实施例公开的一种计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

如图1所示，本发明一实施例公开了一种欺诈网页识别方法，该方法包括以下步骤：

S110，分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据。上述预设对比库中具有至少一参考网页。具体而言，该步骤包括：

依据待测网页中包含的多个域标签，自上述待测网页获取归属于不同域标签的第一文本数据。不同的域标签对应有不同的预设权重。

也即，提取待测网页中的文本内容，构成上述第一文本数据。每一个第一文本数据对应一个域标签，所以每一个待测网页可以包含有多个第一文本数据。示例性地，参考图2，图2中示出了待测网页x、预设对比库中的参考网页y₁和参考网页y₂。每一个网页都包含有两个域标签，分别为title域标签和content域标签。

S120，分别获取第一文本数据与每一第二文本数据之间的第一相似度，以及上述第二文本数据对应的参考网页的自相关度。该步骤可以基于预设相似度算法分别计算第一文本数据与每一第二文本数据之间的第一相似度，以及上述第二文本数据对应的参考网页的自相关度。上述预设相似度算法可以为BM25F文本相似度算法，本申请不以此为限。

示例性地，参考图2，先计算待测网页x与参考网页y₁之间的第一相似度，然后计算待测网页x与参考网页y₂之间的第一相似度，这样依次执行下去，直至完成待测网页x与预设对比库中所有参考网页之间的第一相似度计算。

具体而言，步骤S120包括：

S121，获取第一文本数据与每一第二文本数据之间的第一相似度。以及S122，获取第二文本数据对应的参考网页的自相关度。

其中，如图3所示，上述步骤S121包括：

S1211，对第一文本数据进行分词，得到第一词列表。该步骤可以包括：

对归属于不同域标签的第一文本数据分别进行分词，得到多个第一词列表。每一个第一词列表归属于一域标签。示例性地，参考图2，title域标签和content域标签分别对应一个第一词列表。待测网页x中title域标签对应的第一词列表为word_x11，word_x12，…；content域标签对应的第一词列表为word_x21，word_x22，…。分词的具体实现可参考现有技术实现，本申请不再赘述。

S1212，对上述第一词列表进行去重处理，得到第一词序列。去重处理有利于提高后续相似度计算的准确度，进而提高了对欺诈网页的检测准确性。

S1213，计算上述第一词序列中的每个词与一第二文本数据之间的第二相似度。该步骤包括：

依据第一词序列归属的域标签对应的预设权重，计算第一词序列中的每个词与一第二文本数据之间的第二相似度。由于第一词序列和第一词列表一一对应，每一个第一文本数据对应一个域标签，所以每一个第一词序列归属于一域标签。

具体来说，步骤S1213通过如下公式计算：

其中，

S_1i表示第一词序列中的第i个第一目标词和第二文本数据之间的第二相似度，IDF_1i表示第二文本数据关联上述第i个第一目标词的逆向文件频率，u₁为待测网页中包含的域标签的个数，f_mi表示待测网页中第m个域标签对应的第一词序列中的第i个第一目标词在第二文本数据中的频数，p₁为第一预设参数，w_m表示第m个域标签对应的预设权重，b_mi表示待测网页中第m个域标签对应的第一词序列中的第i个第一目标词对应的预设调节因子，l_m表示第二文本数据中第m个域标签的长度，av_m表示预设对比库中所有第二文本数据在第m个域标签上的平均长度；i大于等于1且小于等于M，M为第一词序列中词的数量。上述p₁为正数，w_m和b_mi的取值区间均为[0,1]。

上述IDF_1i即为第二文本数据关联上述第i个第一目标词的IDF值。比如IDF_1i＝log(q₁/q_1i)，其中q₁表示预设对比库中所有的第二文本数据的数量，也即所有参考网页的数量。q_1i表示预设对比库中所有包含上述第i个第一目标词的第二文本数据的数量。也可参考TF-IDF算法中的IDF值计算方法实现。

示例性地，比如通过上述步骤S1213计算待测网页x与参考网页y₁之间的第一相似度，那么上述公式中的各个参数所涉及的第二文本数据即为参考网页y₁对应的第二文本数据。此时u₁也即对应取值为2。w₁可以取值0.7，w₂可以取值0.3。l_m对应的第m个域标签的长度即为第m个域标签对应的第一词列表中包含的词的个数。那么av_m即为所有的参考网页在第m个域标签对应的第一词列表中包含的词的个数的平均数。

S1214，将第一词序列中所有词对应的第二相似度相加，得到第一文本数据与上述第二文本数据之间的第一相似度。也即，第一文本数据与上述第二文本数据之间的第一相似度为第一词序列中所有词对应的第二相似度的和。

其中，如图4所示，上述步骤S122包括：

S1221，对第二文本数据进行分词，得到第二词列表。该步骤具体而言，对归属于不同域标签的第二文本数据分别进行分词，得到对应于不同域标签的多个第二词列表。示例性地，参考图2，参考网页中，title域标签和content域标签分别对应一个第二词列表。参考网页y₁中，title域标签对应的第二词列表为content域标签对应的第二词列表为参考网页y₂中，title域标签对应的第二词列表为content域标签对应的第二词列表为

S1222，对上述第二词列表进行去重处理，得到第二词序列。去重处理有利于提高后续初始自相关度计算的准确度，进而提高了对欺诈网页的检测准确性。

S1223，计算上述第二词序列中的每个词与上述第二文本数据之间的初始自相关度。

具体来说，为通过如下公式计算：

其中，

S_2j表示第二词序列中的第j个第二目标词和第二文本数据之间的初始自相关度，IDF_2j表示第二文本数据关联上述第j个第二目标词的逆向文件频率，u₂为上述第二文本数据对应的参考网页中包含的域标签的个数，f_nj表示上述参考网页中第n个域标签对应的第二词序列中的第j个第二目标词在第二文本数据中的频数，p₂为第二预设参数，w_n表示第n个域标签对应的预设权重，b_nj表示上述参考网页中第n个域标签对应的第二词序列中的第j个第二目标词对应的预设调节因子，l_n表示第二文本数据中第n个域标签的长度，av_n表示预设对比库中所有第二文本数据在第n个域标签上的平均长度；j大于等于1且小于等于N，N为第一词序列中词的数量。上述p₂为正数，w_n和b_nj的取值区间均为[0,1]。

本实施例中，步骤S1223的实现可参考上述S1213的实施过程。上述IDF_2j即为第二文本数据关联上述第j个第二目标词的IDF值。比如IDF_2j＝log(q₁/q_2j)，其中q₁表示预设对比库中所有的第二文本数据的数量，也即所有参考网页的数量。q_2j表示预设对比库中所有包含上述第j个第二目标词的第二文本数据的数量。

示例性地，比如通过上述步骤S1223计算参考网页y₁的初始自相关度，那么上述公式中的各个参数所涉及的第二文本数据即为参考网页y₁对应的第二文本数据。此时u₂也即对应取值为2。w₁可以取值0.7，w₂可以取值0.3。l_n对应的第n个域标签的长度即为算参考网页y₁中第n个域标签对应的第二词列表中包含的词的个数。那么av_n即为所有的参考网页在第n个域标签上包含的词的个数的平均数。

S1224，将第二词序列中所有词对应的初始自相关度相加，得到上述第二文本数据对应的参考网页的自相关度。也即，参考网页y₁的自相关度为第二词序列中所有词对应的第二相似度的和。

S130，基于上述第一相似度和上述自相关度，分别获取上述待测网页与每一上述参考网页之间的相似率。具体而言，本实施例中，将上述第一相似度和上述自相关度之间的比值，作为上述待测网页与上述自相关度对应的参考网页之间的相似率。这样本申请以参考网页的自相关度为基准获取相似率，基于相似率识别欺诈网页，而不是单纯以两个网页的文本相似度分值作为比较对象，导致存在无法衡量该分值大小，无法形成统一标准的问题，本申请保证了对欺诈网页的识别准确性。

S140，基于上述相似率，对上述待测网页进行识别。具体实施时，可以将待测网页与所有参考网页的相似率中的最大值作为待比对相似率，判断上述待比对相似率是否大于等于预设阈值。若是，则将上述待测网页确定为欺诈网页。若否，则上述待测网页不是欺诈网页。其中，上述预设阈值可以为90％，本申请不以此为限。

需要说明的是，本申请中公开的上述所有实施例可以进行自由组合，组合后得到的技术方案也在本申请的保护范围之内。

如图5所示，本发明一实施例还公开了一种欺诈网页识别系统5，该系统包括：

文本转换模块51，分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据。所述预设对比库中具有至少一参考网页。

相似度计算模块52，分别获取第一文本数据与每一第二文本数据之间的第一相似度，以及所述第二文本数据对应的参考网页的自相关度。

相似率计算模块53，基于所述第一相似度和所述自相关度，分别获取所述待测网页与每一所述参考网页之间的相似率。

欺诈识别模块54，基于所述相似率，对所述待测网页进行识别。

本实施例中，上述相似度计算模块52包含有第一计算子模块521和第二计算子模块522。其中，第一计算子模块521用于获取第一文本数据与每一第二文本数据之间的第一相似度。第二计算子模块522用于获取第二文本数据对应的参考网页的自相关度。

在一实施例中，如图6所示，上述第一计算子模块521可以包含：

第一分词单元5211，用于对第一文本数据进行分词，得到第一词列表。

第一去重单元5212，用于对上述第一词列表进行去重处理，得到第一词序列。

第二相似度计算单元5213，用于计算上述第一词序列中的每个词与一第二文本数据之间的第二相似度。

第一相似度计算单元5214，用于将第一词序列中所有词对应的第二相似度相加，得到第一文本数据与上述第二文本数据之间的第一相似度。

在一实施例中，如图7所示，上述第二计算子模块522可以包括：

第二分词单元5221，用于对第二文本数据进行分词，得到第二词列表。

第二去重单元5222，用于对上述第二词列表进行去重处理，得到第二词序列。

初始自相关度计算单元5223，用于计算上述第二词序列中的每个词与上述第二文本数据之间的初始自相关度。

自相关度计算单元5224，用于将第二词序列中所有词对应的初始自相关度相加，得到上述第二文本数据对应的参考网页的自相关度。

可以理解的是，本发明的欺诈网页识别系统还包括其他支持欺诈网页识别系统运行的现有功能模块。图5显示的欺诈网页识别系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本实施例中的欺诈网页识别系统用于实现上述的欺诈网页识别的方法，因此对于欺诈网页识别系统的具体实施步骤可以参照上述对欺诈网页识别的方法的描述，此处不再赘述。

本发明一实施例还公开了一种欺诈网页识别设备，包括处理器和存储器，其中存储器存储有所述处理器的可执行程序；处理器配置为经由执行可执行程序来执行上述欺诈网页识别方法中的步骤。图8是本发明公开的欺诈网页识别设备的结构示意图。下面参照图8来描述根据本发明的这种实施方式的电子设备600。图8显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行本说明书上述欺诈网页识别方法部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明还公开了一种计算机可读存储介质，用于存储程序，所述程序被执行时实现上述欺诈网页识别方法中的步骤。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述欺诈网页识别方法中描述的根据本发明各种示例性实施方式的步骤。

如上所示，该实施例的计算机可读存储介质的程序在执行时，在获取到待测网页和预设对比库中参考网页的文本数据后，计算待测网页和各个参考网页的相似度；以及计算各个参考网页自身的自相关度；不管对长文本还是短文本都能实现较好的计算效率；然后以参考网页的自相关度为基准获取相似率，基于相似率识别欺诈网页，保证了识别准确度；从而实现在保证识别准确度的同时，不管是短文本还是长文本都具有较好的计算效率。

图9是本发明的计算机可读存储介质的结构示意图。参考图9所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例提供的欺诈网页识别方法、系统、设备及存储介质在获取到待测网页和预设对比库中参考网页的文本数据后，计算待测网页和各个参考网页的相似度；以及计算各个参考网页自身的自相关度；不管对长文本还是短文本都能实现较好的计算效率；然后以参考网页的自相关度为基准获取相似率，基于相似率识别欺诈网页，保证了识别准确度；从而实现在保证识别准确度的同时，不管是短文本还是长文本都具有较好的计算效率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

20页详细技术资料下载

欺诈网页识别方法、系统、设备及存储介质

相关技术

网友询问留言