一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质

文档序号:1889400 发布日期:2021-11-26 浏览:3次 >En<

阅读说明:本技术 一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质 (Duplicate removal target page determining method and device, computer equipment and computer readable storage medium ) 是由 李珅 于 2021-08-30 设计创作,主要内容包括:本发明涉及页面去重处理技术领域,公开了一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质。通过本发明创造,提供了一种基于猜试索引实现去重目标页面确定的新方案,即先针对所有已存页面,通过对应的关键字构建一个在输入关键字后可快速返回得到查找失败信息或高匹配度关键字的猜试索引,然后针对新增页面,通过构建对应的新增关键字和前述猜试索引,可以快速高效地查找到可能匹配的已存页面内容,并进行匹配对比得到确定结果,进而无需针对每个已存页面内容进行匹配对比,可以实现提升确定速度、缩短所需时间和降低所需计算资源的目的,利于提升用户搜索体验,便于实际应用和推广。(The invention relates to the technical field of page duplicate removal processing, and discloses a duplicate removal target page determining method and device, computer equipment and a computer readable storage medium. The invention provides a new scheme for determining duplicate removal target pages based on guess indexes, namely, firstly, aiming at all stored pages, constructing a guess index which can quickly return to obtain search failure information or high-matching-degree keywords after inputting keywords through corresponding keywords, then aiming at the new added pages, quickly and efficiently finding stored page contents which are possibly matched through constructing corresponding new added keywords and the guess index, and performing matching comparison to obtain a determination result, further, the matching comparison does not need to be performed on each stored page content, the purposes of increasing the determination speed, shortening the required time and reducing the required computing resources can be realized, the search experience of users can be improved, and the practical application and popularization are facilitated.)

一种去重目标页面确定方法、装置、计算机设备及计算机可读 存储介质

技术领域

本发明属于页面去重处理技术领域,具体地涉及一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质。

背景技术

在搜索引擎优化中,网站内部优化至关重要,其中需要注意的是搜索页面存在重复现象:同一篇文章经常会重复出现在同一个网站的不同网址上。搜索引擎并不喜欢这种重复性的内容,因为用户在搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了;虽然都是内容相关的,但是搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程就成为“优化去重”。

目前,在基于操作系统或虚拟机Hypervisor(又称虚拟机监视器,英语:virtualmachine monitor,缩写为VMM,是用来建立与执行虚拟机器的软件、固件或硬件;被Hypervisor用来执行一个或多个虚拟机器的电脑称为主体机器,这些虚拟机器则称为客体机器;hypervisor提供虚拟的作业平台来执行客体操作系统,负责管理其他客体操作系统的执行阶段;这些客体操作系统,共同分享虚拟化后的硬件资源)启动搜索引擎时,进行重复页面合并存储的核心步骤包括:首先查找到内容相同的页面,即确定出去重目标页面;然后将内容相同的页面用一个物理页表示,最后释放掉多余的页面。但是前述去重目标页面的确定过程一般是将待判定页面逐一地与各个已存页面进行对比,若相同,则确定该待判定页面为去重目标页面,否则确定该待判定页面为非去重目标页面,其确定过程存在速度慢、所需时间较长和所需计算资源较多的问题,进而会影响用户体验。

发明内容

为了解决在重复页面合并存储过程中所存在的去重目标页面确定速度慢、所需时间较长和所需计算资源较多的问题,本发明目的在于提供一种新型的去重目标页面确定方法、装置、计算机设备及计算机可读存储介质,可无需针对每个已存页面内容进行匹配对比,进而实现提升确定速度、缩短所需时间和降低所需计算资源的目的,利于提升用户搜索体验,便于实际应用和推广。

第一方面,本发明提供了一种去重目标页面确定方法,包括:

针对所有已存页面中的各个已存页面,分别构建对应的关键字;

针对所有的所述关键字,构建猜试索引,其中,所述猜试索引满足如下条件(A)~(C):

(A)所有被索引关键字中的任意两被索引关键字不重复;

(B)针对给定的一个输入关键字,若在所述所有被索引关键字中存在与其匹配的唯一被索引关键字,则通过所述猜试索引必然能够找到并返回该唯一被索引关键字;

(C)针对给定的一个输入关键字,若在所述所有被索引关键字中不存在与其匹配的被索引关键字,则通过所述猜试索引返回查找失败信息或一个与该输入关键字不匹配的猜试关键字,其中,所述猜试关键字位于所述所有被索引关键字中,通过所述猜试索引返回所述猜试关键字的概率与返回所述查找失败信息的概率之比小于预设值;

针对新增页面,构建对应的新增关键字,其中,所述新增关键字的构建方式与所述关键字的构建方式一致;

将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回一个待验关键字,则根据所述待验关键字获取对应的页面内容;

判断获取的页面内容是否与所述新增页面的页面内容匹配;

若判定匹配,则将所述新增页面确定为去重目标页面。

基于上述发明内容,提供了一种基于猜试索引实现去重目标页面确定的新方案,即先针对所有已存页面,通过对应的关键字构建一个在输入关键字后可快速返回得到查找失败信息或高匹配度关键字的猜试索引,然后针对新增页面,通过构建对应的新增关键字和前述猜试索引,可以快速高效地查找到可能匹配的已存页面内容,并进行匹配对比得到确定结果,进而无需针对每个已存页面内容进行匹配对比,可以实现提升确定速度、缩短所需时间和降低所需计算资源的目的,利于提升用户搜索体验,便于实际应用和推广。

在一个可能的设计中,所述已存页面包含有已去重页面和/或活跃度低于预设阈值的非活跃页面。

在一个可能的设计中,所述关键字包含有对应已存页面的页面哈希值/和页面内容。

在一个可能的设计中,在针对新增页面,构建对应的新增关键字之后,所述方法还包括:

将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回所述查找失败信息,则将所述新增页面确定为非去重目标页面。

在一个可能的设计中,在判断获取的页面内容是否与所述新增页面的页面内容匹配之后,所述方法还包括:

若判定不匹配,则将所述新增页面确定为非去重目标页面。

在一个可能的设计中,在将所述新增页面确定为非去重目标页面之后,所述方法还包括:

存储所述新增页面,并根据所述新增关键字,更新所述猜试索引。

在一个可能的设计中,在将所述新增页面确定为去重目标页面之后,所述方法还包括:

根据所述待验关键字确定对应的已存页面,并采用与该已存页面对应的物理页表示所述新增页面;

释放所述新增页面。

第二方面,本发明提供了一种去重目标页面确定装置,包括有关键字构建模块、猜试索引构建模块、索引执行模块、匹配判断模块和目标确定模块;

所述关键字构建模块,用于针对所有已存页面中的各个已存页面,分别构建对应的关键字,以及针对新增页面,构建对应的新增关键字,其中,所述新增关键字的构建方式与所述关键字的构建方式一致;

所述猜试索引构建模块,通信连接所述关键字构建模块,用于针对所有的所述关键字,构建猜试索引,其中,所述猜试索引满足如下条件(A)~(C):

(A)所有被索引关键字中的任意两被索引关键字不重复;

(B)针对给定的一个输入关键字,若在所述所有被索引关键字中存在与其匹配的唯一被索引关键字,则通过所述猜试索引必然能够找到并返回该唯一被索引关键字;

(C)针对给定的一个输入关键字,若在所述所有被索引关键字中不存在与其匹配的被索引关键字,则通过所述猜试索引返回查找失败信息或一个与该输入关键字不匹配的猜试关键字,其中,所述猜试关键字位于所述所有被索引关键字中,通过所述猜试索引返回所述猜试关键字的概率与返回所述查找失败信息的概率之比小于预设值;

所述索引执行模块,分别通信连接所述关键字构建模块和所述猜试索引构建模块,用于将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回一个待验关键字,则根据所述待验关键字获取对应的页面内容;

所述匹配判断模块,分别通信连接所述关键字构建模块和所述索引执行模块,用于判断获取的页面内容是否与所述新增页面的页面内容匹配;

所述目标确定模块,通信连接所述匹配判断模块,用于在判定匹配时,将所述新增页面确定为去重目标页面。

第三方面,本发明提供了一种计算机设备,包括有通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意可能设计所述的去重目标页面确定方法。

第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如上第一方面或第一方面中任意可能设计所述的去重目标页面确定方法。

第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如上第一方面或第一方面中任意可能设计所述的去重目标页面确定方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的去重目标页面确定方法的流程示意图。

图2是本发明提供的去重目标页面确定装置的结构示意图。

图3是本发明提供的计算机设备的结构示意图。

具体实施方式

下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明示例的实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解,尽管本文可能使用术语第一和第二等等来描述各种对象,但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象,同时不脱离本发明的示例实施例的范围。

应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A、单独存在B或者同时存在A和B等三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A或者同时存在A和B等两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。

如图1所示,本实施例第一方面提供的所述去重目标页面确定方法,可以但不限于由具有一定计算资源的计算机设备或虚拟机执行,例如由个人计算机(PersonalComputer,PC,指一种大小、价格和性能适用于个人使用的多用途计算机;台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digital assistant,PAD)或可穿戴设备等电子设备执行,或者由虚拟机Hypervisor执行,以便针对新增页面,通过构建对应的新增关键字和提前针对所有已存页面构建的猜试索引,可以快速高效地查找到可能匹配的已存页面内容,并进行匹配对比得到确定结果,进而无需针对每个已存页面内容进行匹配对比,可以实现提升确定速度、缩短所需时间和降低所需计算资源的目的,利于提升用户搜索体验,便于实际应用和推广。如图1所示,所述去重目标页面确定方法,可以但不限于包括有如下步骤S1~S6。

S1.针对所有已存页面中的各个已存页面,分别构建对应的关键字。

在所述步骤S1中,所述已存页面即为已被本地的计算机设备或虚拟机合并存储的页面,可以但不限于包含有已去重页面和/或活跃度低于预设阈值的非活跃页面。所述关键字即是指数据库中的键(key),其是关系模型中的一个重要概念,它是逻辑结构,不是数据库的物理部分;具体的,所述关键字包含但不限于有对应已存页面的页面哈希值/和页面内容,其中,所述页面哈希值为必选项,可以通过常规的哈希算法计算得到,所述页面内容为可选项,可以在对应已存页面中进行常规提取得到。

S2.针对所有的所述关键字,构建猜试索引,其中,所述猜试索引满足如下条件(A)~(C):

(A)所有被索引关键字中的任意两被索引关键字不重复;

(B)针对给定的一个输入关键字,若在所述所有被索引关键字中存在与其匹配的唯一被索引关键字,则通过所述猜试索引必然能够找到并返回该唯一被索引关键字;

(C)针对给定的一个输入关键字,若在所述所有被索引关键字中不存在与其匹配的被索引关键字,则通过所述猜试索引返回查找失败信息或一个与该输入关键字不匹配的猜试关键字,其中,所述猜试关键字位于所述所有被索引关键字中,通过所述猜试索引返回所述猜试关键字的概率与返回所述查找失败信息的概率之比小于预设值。

在所述步骤S2中,所述所有被索引关键字即为所有的所述关键字。所述预设值用于表示通过所述猜试索引返回所述猜试关键字的概率远小于返回所述查找失败信息的概率,其可以进行设置而定,例如设置为0.1、0.01或0.001等。索引是在关系数据库中用于单独地且物理地对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单,即索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。由于索引提供指向存储在表的指定列中的数据值的指针,然后根据指定的排序顺序对这些指针排序,因此数据库可使用索引以找到特定值,然后顺指针找到包含该值的行,这样可以使对应于表的SQL(Structured Query Language,结构化查询语言)语句执行得更快,可快速访问数据库表中的特定信息。所述猜试索引即是满足如上条件(A)~(C)的一种特殊索引,其构建方式为现有常规的索引构建方式,以便基于前述条件(A)~(C)的特征限定,可以通过向所述猜试索引输入关键字,快速得到返回的查找失败信息或具有高匹配度特点的返回关键字。此外,可以通过在所述猜试索引中合理设计键,使返回所述猜试关键字的概率明显低于返回所述查找失败信息的概率。

S3.针对新增页面,构建对应的新增关键字,其中,所述新增关键字的构建方式与所述关键字的构建方式一致。

在所述步骤S3中,所述新增页面即为相对于所述所有已存页面新获取的待判定页面。此外,所述新增关键字的构建步骤可在适当的时机触发,例如在检索到所述新增页面时触发。

S4.将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回一个待验关键字,则根据所述待验关键字获取对应的页面内容。

在所述步骤S4中,由于所述待验关键字即为在所有的所述关键字中的某个关键字,因此可基于一一对应关系,获取对应已存页面的页面内容;或者若所述关键字包含有对应已存页面的页面哈希值和页面内容,还可以直接从所述待验关键字中获取对应的页面内容。此外,若通过所述猜试索引返回所述查找失败信息,则表明所述所有已存页面中不存在与所述新增页面相同的已存页面,可以直接将所述新增页面确定为非去重目标页面,然后存储所述新增页面,并根据所述新增关键字,更新所述猜试索引,其中,所述猜试索引的更新方式可以但不限于为针对所有的所述关键字和所述新增关键字,重新构建所述猜试索引。

S5.判断获取的页面内容是否与所述新增页面的页面内容匹配。

S6.若判定匹配,则将所述新增页面确定为去重目标页面。

在所述步骤S6中,若判定所述获取的页面内容与所述新增页面的页面内容匹配,则表明所述所有已存页面中存在与所述新增页面相同的已存页面,因此需将所述新增页面确定为去重目标页面,然后根据所述待验关键字确定对应的已存页面,并采用与该已存页面对应的物理页表示所述新增页面,最后释放所述新增页面,实现对所述新增页面进行合并存储的目的。而若判定不匹配(即所述待验关键字为一个猜试关键字),则表明所述所有已存页面中不存在与所述新增页面相同的已存页面,可将所述新增页面确定为非去重目标页面,然后同样存储所述新增页面,并根据所述新增关键字,更新所述猜试索引。

由此基于前述步骤S1~S6所描述的去重目标页面确定方法,提供了一种基于猜试索引实现去重目标页面确定的新方案,即先针对所有已存页面,通过对应的关键字构建一个在输入关键字后可快速返回得到查找失败信息或高匹配度关键字的猜试索引,然后针对新增页面,通过构建对应的新增关键字和前述猜试索引,可以快速高效地查找到可能匹配的已存页面内容,并进行匹配对比得到确定结果,进而无需针对每个已存页面内容进行匹配对比,可以实现提升确定速度、缩短所需时间和降低所需计算资源的目的,利于提升用户搜索体验,便于实际应用和推广。

如图2所示,本实施例第二方面提供了一种实现第一方面所述的去重目标页面确定方法的虚拟装置,包括有关键字构建模块、猜试索引构建模块、索引执行模块、匹配判断模块和目标确定模块;

所述关键字构建模块,用于针对所有已存页面中的各个已存页面,分别构建对应的关键字,以及针对新增页面,构建对应的新增关键字,其中,所述新增关键字的构建方式与所述关键字的构建方式一致;

所述猜试索引构建模块,通信连接所述关键字构建模块,用于针对所有的所述关键字,构建猜试索引,其中,所述猜试索引满足如下条件(A)~(C):

(A)所有被索引关键字中的任意两被索引关键字不重复;

(B)针对给定的一个输入关键字,若在所述所有被索引关键字中存在与其匹配的唯一被索引关键字,则通过所述猜试索引必然能够找到并返回该唯一被索引关键字;

(C)针对给定的一个输入关键字,若在所述所有被索引关键字中不存在与其匹配的被索引关键字,则通过所述猜试索引返回查找失败信息或一个与该输入关键字不匹配的猜试关键字,其中,所述猜试关键字位于所述所有被索引关键字中,通过所述猜试索引返回所述猜试关键字的概率与返回所述查找失败信息的概率之比小于预设值;

所述索引执行模块,分别通信连接所述关键字构建模块和所述猜试索引构建模块,用于将所述新增关键字作为一个给定的输入关键字,若通过所述猜试索引返回一个待验关键字,则根据所述待验关键字获取对应的页面内容;

所述匹配判断模块,分别通信连接所述关键字构建模块和所述索引执行模块,用于判断获取的页面内容是否与所述新增页面的页面内容匹配;

所述目标确定模块,通信连接所述匹配判断模块,用于在判定匹配时,将所述新增页面确定为去重目标页面。

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面所述的去重目标页面确定方法,于此不再赘述。

如图3所示,本实施例第三方面提供了一种执行第一方面所述去重目标页面确定方法的计算机设备,包括有通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于读取所述计算机程序,执行如第一方面所述的去重目标页面确定方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(Random-Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(FirstInput First Output,FIFO)和/或先进后出存储器(First Input Last Output,FILO)等等;所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见第一方面所述的去重目标页面确定方法,于此不再赘述。

本实施例第四方面提供了一种存储包含第一方面所述去重目标页面确定方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面所述的去重目标页面确定方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见第一方面所述的去重目标页面确定方法,于此不再赘述。

本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面所述的去重目标页面确定方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于阶段划分的用户黏着度分析方法、装置、设备及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!