一种基于rpa的网页可配置项的采集方法、装置及介质

文档序号:1904790 发布日期:2021-11-30 浏览:5次 >En<

阅读说明:本技术 一种基于rpa的网页可配置项的采集方法、装置及介质 (Method, device and medium for collecting webpage configurable items based on RPA ) 是由 梁威 谢宏亮 于 2021-08-26 设计创作,主要内容包括:本发明公开了一种基于RPA的网页可配置项的采集方法、装置及介质,方法包括在网页界面中锁定一个采集区域,以使采集区域内包含有当前网页的若干个可配置项,并且每个可配置项之间具备相似性;定位采集区域内中的所有可配置项;定位并绑定所有可配置项中的所有采集项。本发明选择在定位网页所有可配置项之前,先锁定一采集区域,使得该采集区域内包含有当前网页的若干个可配置项,并且每个可配置项之间具备相似性,通过先锁定一采集区域,能够避免定位超出该采集区域,从而避免找到不需要的可配置项,然后本发明再结合可配置项内部结构分析,使得采集项的定位更加清晰,采集项的采集更加准确和完整。(The invention discloses a method, a device and a medium for acquiring webpage configurable items based on RPA, wherein the method comprises the steps of locking an acquisition area in a webpage interface so that the acquisition area contains a plurality of configurable items of a current webpage, and each configurable item has similarity; locating all configurable items within the collection area; all acquisition items in all configurable items are located and bound. According to the method, before all configurable items of the webpage are positioned, an acquisition area is firstly locked, so that the acquisition area contains a plurality of configurable items of the current webpage, and each configurable item has similarity, the acquisition area is firstly locked, the acquisition area can be prevented from being positioned beyond the acquisition area, and unnecessary configurable items are prevented from being found.)

一种基于RPA的网页可配置项的采集方法、装置及介质

技术领域

本发明涉及RPA网页配置技术领域,特别涉及一种基于RPA的网页可配置项的采集方法、装置及介质。

背景技术

在BS系统(Brower/Server,建立在广域网的基础上的系统)中,网页中的内容是分区域的,如搜索某购物网页的某个商品,会出现很多此商品的信息,而此区域中的每件不同的商品都在类似一个卡片中,且它们每个卡片里面包裹排列的内容和顺序都具有相似的含义。

目前基于RPA(软件自动化)的网页卡片采集技术都是从网页的整体上去查找具有相似度的区域,但这样很容易分析出不需要的相似度卡片区域,而且即便是在配置期中调整好了,但是在运行期,由于大部分的网页存在翻页的情况,通过翻页采集,且每页的数据发生细微变化时,有可能在某页出现与配置期不同的情况,导致RPA查找到了本不需要的相似度区域,从而导致找到不要的卡片。

发明内容

本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种基于RPA的网页可配置项的采集方法、装置及介质。能够避免采集到不需要的网页可配置项,使得采集项的定位更加清晰,采集项的采集更加准确和完整。

本发明的第一方面,提供了一种基于RPA的网页可配置项的采集方法,包括以下步骤:

在网页界面中锁定一个采集区域,以使所述采集区域内包含有当前网页的若干个可配置项,并且每个所述可配置项之间具备相似性;

定位所述采集区域内中的所有所述可配置项;

定位并绑定所有所述可配置项中的所有采集项。

根据本发明的实施例,至少具有如下技术效果:

相较于现有技术是从网页的整体上去查找相似度的区域,从而使得容易分析出不需要的相似度卡片或表格区域。本方法选择在定位网页所有可配置项之前,先锁定一采集区域,使得该采集区域内包含有当前网页的若干个可配置项,并且每个可配置项之间具备相似性,通过先锁定一采集区域,能够避免定位超出该采集区域,从而避免找到不需要的可配置项,然后本方法再结合可配置项内部结构分析,使得采集项的定位更加清晰,采集项的采集更加准确和完整。

根据本发明的一些实施例,还包括步骤:滚动所述网页界面,若所述当前网页出现新的可配置项加载,按照同样的方式,定位所述采集区域内中的所有所述新的可配置项,定位并绑定所有所述新的可配置项中的所有采集项。

根据本发明的一些实施例,每次滚动所述网页界面的距离与所述网页界面的窗体高度相同。

根据本发明的一些实施例,通过xpath和/或dom在所述网页界面中锁定所述采集区域。

根据本发明的一些实施例,所述可配置项为卡片或表格。

本发明的第二方面,提供了一种基于RPA的网页可配置项的采集装置,包括:

采集区域定位模块,用于在网页界面中锁定一个采集区域,以使所述采集区域内包含有当前网页的若干个可配置项,并且每个所述可配置项之间具备相似性;

可配置项定位模块,用于定位所述采集区域内中的所有所述可配置项;

采集项定位绑定模块,用于定位并绑定所有所述可配置项中的所有采集项。

根据本发明的实施例,至少具有如下技术效果:

相较于现有技术是从网页的整体上去查找相似度的区域,从而使得容易分析出不需要的相似度卡片或表格区域。本装置选择在定位网页所有可配置项之前,先锁定一采集区域,使得该采集区域内包含有当前网页的若干个可配置项,并且每个可配置项之间具备相似性,通过先锁定一采集区域,能够避免定位超出该采集区域,从而避免找到不需要的可配置项,然后本装置再结合可配置项内部结构分析,使得采集项的定位更加清晰,采集项的采集更加准确和完整。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明第一实施例提供的一种基于RPA的网页可配置项的采集方法的流程示意图;

图2为本发明第二实施例提供的一种基于RPA的网页可配置项的采集方法的配置期流程示意图;

图3为本发明第二实施例提供的一种基于RPA的网页可配置项的采集方法的运行期流程示意图;

图4为本发明第二实施例提供的网页的采集区域和卡片区域示意图;

图5为本发明第二实施例提供的采集项对应的详情页的示意图;

图6为本发明第二实施例提供的网页卡片区域的示意图;

图7为本发明第三实施例提供的网页表格区域的示意图;

图8为本发明第三实施例提供的网页卡片的dom元素上的属性特征的示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

目前技术都是从网页的整体上去查找相似度的区域,这样很容易分析出不需要的相似度卡片区域,而且即便是在配置期中调整好了,在运行期,通过翻页采集时,每页的数据发生细微变化时,有可能在某页出现于配置期不同的情况,查找到了本不需要的相似区域,从而找到不要的卡片。

本发明首先锁定大的区域范围,避免找到区域范围外的相似卡片,结合卡片内部结构分析,定位更加清晰,采集更加准确和完整。且本发明也可以作为一种网页表格的采集方案。

参照图1,本发明的第一实施例,提供了一种基于RPA的网页可配置项的采集方法,其中可配置项为卡片,包括以下步骤:

步骤S101、在网页界面中锁定一个采集区域,以使采集区域内包含有当前网页的若干个卡片,并且每个卡片之间具备相似性。

步骤S102、定位采集区域内中的所有卡片。

步骤S103、定位并绑定所有卡片中的所有采集项。

相较于现有技术是从网页的整体上去查找相似度的区域,从而使得容易分析出不需要的相似度卡片或表格区域。本方法选择在定位网页所有卡片之前,先锁定一采集区域,使得该采集区域内包含有当前网页的若干个卡片,并且每个卡片之间具备相似性,通过先锁定一采集区域,能够避免定位超出该采集区域,从而避免找到不需要的卡片,然后本方法再结合卡片内部结构分析,使得采集项的定位更加清晰,采集项的采集更加准确和完整。

需要注意的是,本发明的方案同样可以适用于网页表格的采集方法,原理同网页卡片的采集方法同理,此处不再细述。

作为一种可选的实施方式,还包括步骤:

步骤S104、滚动网页界面,若当前网页出现新的卡片加载,按照同样的方式,定位采集区域内中的所有新的卡片,定位并绑定所有新的卡片中的所有采集项。

当步骤S101至S103中的当前页面的所有卡片中的采集项被采集完成之后,滚动网页界面,用于对下一次的当前页面上的卡片进行定位,并且绑定上面的采集项。需要注意的是,步骤S104和步骤S101中的采集区域是属于同一个区域。通过本实施方式,在翻页采集的时候,也避免了查找到本不需要的卡片。

参照图2和图3,为了便于理解,本发明的第二个实施例,以网页卡片的采集过程进行说明:

首先,配置当前页面的采集区域,锁定该采集区域,避免识别该区域外的相似卡片。提供定位手动修改微调,定位采用dom(Document Object Model,文档对象模型)元素的属性ID、CLASS、样式,以及通过xpath(是一门在XML文档中查找信息的语言)对当前页面的采集区域。

其次,配置卡片定位,定位出采集区域内所有相似的卡片,可设置过滤条件,如设置卡片的宽度或者高度大于或者小于某个数值,再加上一个偏移值作为过滤条件,或者把卡片中一些dom的属性作为过滤条件。

然后,配置采集项,当前的卡片作为采集项的父级定位,卡片遍历到第几个,则该卡片作为采集项的父级定位,且每项作为采集记录,绑定到变量中,用于存储对应数据字段。

最后,配置是否滚动采集,配置为“真”时,则在运行过程中,采集完第一批卡片后,滚动滚动条,判断页面是否会加载新的数据,如果有新数据,则继续遍历采集新数据中的卡片记录,滚动条默认滚动窗体滚动条,可指定元素上的滚动条。

参照图4至图6,图4中包括三个区域的配置过程,在图4中,标号L1的标注框表示采集的区域范围,所有的采集任务都在此范围以内(需要注意的是,图4中标号L1的标注框并未完全示出)。标号L2的标注框表示配置此卡片,定位器会分析出同类的元素,在区域范围内找出所有的类似卡片定位。标号L3的标注框表示在卡片内的采集配置定位项(需要注意的是,标号L2的标注框内包含着多个标号L3的标注框,例如图4所示的“2999.00”等),每一个卡片都会生成当前卡片下的采集项定位器,从而采集此数据并对应到表格字段,从外层往里层配置分为3步骤:

第1步:在定位过程中,先会定位外层(即先定位标号L1的标注框),确定采集区域,缩小定位范围,防止范围过大,在找卡片相似度的时,如果从整个页面查找相似度,会出现的定位超出边界问题,从而可能找到不需要的卡片,此配置用于解决该问题。

第2步:图4中,标号L2的标注框是卡片定位,此配置会在上述第1步中的定位区域(即标号L1的标注框内区域)范围内查找,在选中此区域后,会分析此区域相似的卡片如图6所示。

第3步:图4中,标号L3的标注框是采集项,此定位是相对于当前卡片的定位。

此3步的配置定位时通过xpath或dom中提供的定位器进行定位,每个步骤都可以通过改变xpath或dom的语法对定位进行微调,从而让定位变动更加稳定可靠。

在采集过程中,如图4中,卡片中的采集项,需要和点击到详情页(比如点击的是当前卡片中的图片进入详情页)到达图5(图5是与图4中卡片对应的详情页,标号L3的标注框是详情页的采集项的配置定位项)所示,需要与卡片中的采集项与详情页的采集项进行拼接。每遍历点击一张卡片,进入详情页(如图5界面),返回到卡片页(如图4界面)后,把图4和图5每个采集项作为一行记录进行保存,确保数据完整性。

在采集当前页中所有的卡片后,开始滚动页面滚动条,滚动的距离取当前网页的窗体高度,滚动一次后判断页面是否有新的数据加载项,如果有,则从最新的卡片项逐个采集,采集完后再滚动一个窗体高度,以此类推,直到滚动后没有新数据加载为止,确保采集完当前页所有的卡片对应的数据。

为了便于理解,本发明的第三个实施例,以网页表格的采集过程进行说明:

如图7(标注框的解释与图4相同,需要注意的是,在图7中,使用R1、R2和R3来表示三个标注框),选择表格范围,把表格中的一行作为一个卡片,而每个字段作为采集项。

在分析卡片相似度上,将分析当前卡片dom节点中的元素属性(包括样式属性,节点属性)、元素高宽(可配置)特征(详见图8)作为第一步的分析对象。随着选择配置采集项,会把采集项的元素属性(包括样式属性,节点属性)和节点高宽(可配置),作为分析卡片的内部特征作为卡片筛选条件从而更准确的找到相似卡片。

本发明的第四实施例,提供了一种基于RPA的网页可配置项的采集设备,该设备可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。具体地,该设备包括:一个或多个控制处理器和存储器,这里以一个控制处理器为例。控制处理器和存储器可以通过总线或者其他方式连接,这里以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的基于RPA的网页可配置项的采集设备对应的程序指令/模块。控制处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而实现上述方法实施例的基于RPA的网页可配置项的采集方法。

存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该基于RPA的网页可配置项的采集设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个控制处理器执行时,执行上述实施例中的基于RPA的网页可配置项的采集方法。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行上述实施例中的基于RPA的网页可配置项的采集方法。

通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:提高网页全站静态化生成效率的方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!