文本处理方法、装置、电子设备及计算机可读存储介质

文档序号:699307 发布日期:2021-05-04 浏览:28次 >En<

阅读说明:本技术 文本处理方法、装置、电子设备及计算机可读存储介质 (Text processing method and device, electronic equipment and computer readable storage medium ) 是由 刘鹏 于 2019-10-31 设计创作,主要内容包括:本申请实施例涉及互联网技术领域,公开了一种文本处理方法、装置、电子设备及计算机可读存储介质,其中,文本处理方法包括:当文本网页满足预定条件时,基于文本密度提取文本网页的正文文本;接着,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及基于文本密度,根据目录的链接地址提取文本的目录内容,预设白名单中包括文本的目录的链接地址;接着,显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示。(The embodiment of the application relates to the technical field of Internet and discloses a text processing method, a text processing device, electronic equipment and a computer readable storage medium, wherein the text processing method comprises the following steps: extracting a text of the text webpage based on the text density when the text webpage meets a preset condition; determining a link address of a directory of the text in a preset white list according to the link address of the text webpage, extracting the directory content of the text according to the link address of the directory based on the text density, and presetting the link address of the directory of the text in the white list; and then, displaying the directory content of the text, and displaying the body text of the text webpage and the directory item corresponding to the body text of the text webpage in the directory content in an associated manner.)

文本处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请实施例涉及互联网技术领域,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着网络技术的不断发展,人们越来越倾向于通过互联网来获取信息,包括阅读互联网上各种各样的小说作品,互联网上的小说作品大部分都是以万维网(www,worldwide web)网页的形式存在,其中,万维网网页一般指的是基于个人计算机(PC,PersonalComputer)的网页,即需要通过小说的小说网页对小说进行阅读。

在对现有技术的研究和实践过程中,本申请的发明人发现,目前在通过小说网页阅读某一章节的正文文本时,小说网页并不会同步显示整个小说的目录文本,而且小说的小说网页中的信息丰富而复杂,使得小说网页不像传统的文本那样整齐、干净,其中包含大量的噪音内容,例如为了增强用户交互性而加入的脚本、为了便于用户浏览而加入的导航链接、以及出于商业考虑所加入的广告链接等等,对小说的正文文本的阅读造成严重影响,造成较差的阅读体验。

发明内容

本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:

一方面,提供了一种文本处理方法,包括:

当文本网页满足预定条件时,基于文本密度提取文本网页的正文文本;

根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及基于文本密度,根据目录的链接地址提取文本的目录内容,预设白名单中包括文本的目录的链接地址;

显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示。

一方面,提供了一种文本处理装置,包括:

第一提取模块,用于当文本网页满足预定条件时,基于文本密度提取文本网页的正文文本;

第二提取模块,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及基于文本密度,根据目录的链接地址提取文本的目录内容,预设白名单中包括文本的目录的链接地址;

第一显示模块,用于显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示。

在一种可能的实现方式中,该装置还包括第二显示模块;

第二显示模块,用于当确定文本网页的链接地址不属于预设白名单时,显示预定文本阅读模式的提示信息,预设白名单中包括文本网页的链接地址;

第二提取模块具体用于检测到针对预定文本阅读模式的触发操作时,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,并根据目录的链接地址提取文本的目录内容。

在一种可能的实现方式中,文本网页满足预定条件,包括以下至少一项:

文本网页的正文文本的文本密度不小于预定阈值;

文本网页的链接地址不属于预设黑名单,预设黑名单中的链接地址是被拦截访问的链接地址。

在一种可能的实现方式中,该装置还包括第三显示模块;

第三显示模块,用于当检测到针对目录内容的任一目录项的触发操作时,基于预先建立的对应关系,联动显示与任一目录项相对应的正文文本。

在一种可能的实现方式中,该装置还包括关系建立模块;

关系建立模块,用于基于文本的目录内容,通过对文档对象模型DOM节点进行定位,建立目录内容的各个目录项与文本各个章节所在文本网页的链接地址之间的一一对应关系。

在一种可能的实现方式中,该装置还包括处理模块;

处理模块,用于当检测到针对文本的当前文本网页的正文文本的滑动操作的滑动距离大于预定距离阈值时,加载文本的当前文本网页的下一文本网页的正文文本并进行显示。

在一种可能的实现方式中,该装置还包括第四显示模块,第四显示模块用于执行以下至少一项:

显示目录内容的目录虚拟按键,以用于通过对目录虚拟按键的触发操作来控制目录内容的显示;

显示预定显示模式的显示模式虚拟按键,以用于通过对显示模式虚拟按键的触发操作来控制正文文本和目录内容的显示模式,预定显示模式包括通过不同字体、不同背景色及不同文字颜色中的至少一项来进行显示的模式。

一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述的文本文本处理方法。

一方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的文本处理方法。

本申请实施例提供的文本处理方法,通过确定文本的目录内容与显示文本的目录内容,使得在通过文本网页阅读某一章节的正文文本时,可以在该文本网页中同步显示整个文本的目录文本,从而可以方便、快捷地根据目录文本选择目标阅读章节,极大提高阅读操作的便捷性;通过确定文本网页的正文文本与显示该正文文本,有效滤除文本网页中的广告、导航链接等噪音内容,解决了文本网页干扰因素太多的问题,有效避免噪音内容对正文文本的阅读造成的影响,极大提升阅读体验。

本申请实施例附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。

附图说明

本申请实施例上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请实施例的文本处理方法的流程示意图;

图2为本申请实施例的显示预定文本阅读模式的提示信息的示意图;

图3为本申请实施例的联动显示小说网页的正文文本及目录内容中相应目录项的示意图;

图4为本申请实施例的加载并显示当前小说网页的下一小说网页的正文文本的示意图;

图5为本申请实施例的目录虚拟按键与显示模式虚拟按键的示意图;

图6为本申请实施例的文本处理的整体过程示意图;

图7为本申请实施例的文本处理装置的基本结构示意图;

图8为本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中所涉及到的一些技术用语进行简单说明。

浏览器:是指万维网(Web)服务的客户端浏览程序,其可以向万维网服务器发送各种请求,并对来自万维网服务器的超文本信息和各种多媒体数据格式进行解析、显示和播放等。

进程:是操作系统进行资源分配和调度的一个基本单位,是一个程序及其数据在处理机上顺序执行时所发生的活动。

插件:是根据应用程序接口的规则编写出来的程序,可以实现原纯净操作系统平台或应用软件平台不具备的功能。由于插件需要调用原操作系统提供的函数库或数据,所以其需要运行在应用程序规定的操作系统平台下(可能同时支持多个系统平台),而不能脱离指定的系统平台单独运行。例如,在浏览器中安装相应的插件后,浏览器能够直接调用插件程序,用于处理特定类型的文件。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请实施例的技术方案以及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

本申请一个实施例提供了一种文本处理方法,该方法由终端设备执行,该终端设备可以是台式设备或者移动终端。如图1所示,该方法包括:

步骤S110,当文本网页满足预定条件时,基于文本密度提取文本网页的正文文本。

具体地,用户可以通过终端设备的浏览器访问相应的文本网站,来阅读某一文本的某一章节的内容。通常,文本的各个章节的内容是通过相应的文本网页来展现的,即一个章节的内容通过一个文本网页来展现。

具体地,用户通过浏览器访问某一章节对应的文本网页,来阅读该某一章节的内容时,相当于向浏览器发送访问该文本网页的访问请求,相对应地,浏览器接收该访问请求。浏览器接收到该访问请求后,可以通过预先设定的插件来确定该文本网页是否满足预定条件,当确定该文本网页满足预定条件后,可以基于文本密度提取该文本网页的正文文本,从而可以有效滤除文本网页中的广告、导航链接等噪音内容,解决了文本网页干扰因素太多的问题,有效避免噪音内容对正文文本的阅读造成的影响。

具体地,网页是由各式各样的文本构成的,包括内容文本、脚本文本、锚文本、标签文本等等。从作用上来看,网页上的内容文本主要包括正文内容(记作正文文本)、无关内容。其中,正文内容是指用户浏览一个网页所要获取的主要信息,无关内容是指经常用于标识网站功能的词语,与网页正文内容无关,如“版权”、“声明”、“搜索”、“首页”、“帮助”等。一般认为导航条上的文字、相关链接上的文字都属于无关内容。这些不同类型的文本组合在一起,构成了内容丰富的网页,而将这些文本区别开来,分析它们在标签文本块中的比例,就形成了文本密度。文本密度对网页正文文本的提取具有重要意义,利用它们可以有效地消除网页中的噪音文本(例如脚本文本、锚文本、标签文本等),精确地识别出正文文本。

步骤S120,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及基于文本密度,根据目录的链接地址提取文本的目录内容,预设白名单中包括文本的目录的链接地址。

具体地,在基于文本密度提取文本网页的正文文本后,浏览器还可以根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,其中,预设白名单可以是浏览器预先从相应的本地服务器或云端服务器获取到的,该预设白名单中包括文本的目录的链接地址。假如文本网页的链接地址为http://www.xxxxx.com/book/7/2480870.html,且该链接地址的最后一个“/”之后、且“html”字样之前的部分(即2480870)是根据各个章节动态改变的,则可以将这部分内容记作查询参数,比如第一章节的查询参数为2480870,第二章节的查询参数为2480877,第三章节的查询参数为2480888等,即文本的各个章节的文本网页的链接地址的查询参数是动态改变的,但是文本网页的链接地址的最后一个“/”之前的部分是固定不变的,该固定不变的部分可以是文本的目录的链接地址,也可以与文本的目录的链接地址之间具有唯一对应关系,从而可以根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址。

在确定出文本的目录的链接地址后,可以基于文本密度,根据该目录的链接地址提取文本的目录内容。假如一部文本包括490章,则可以提取如下的目录内容:第1章AAAA,第2章BBBB,第3章CCCCC等,依此类推,第490章YYYY等,即目录内容包括490个目录项。

步骤S130,显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示。

具体地,在提到出文本网页的正文文本与文本的目录内容后,可以显示该提取到的文本的目录内容与文本网页的正文文本,其中,在显示文本的目录内容的时候,可以将文本的目录内容纵向排列为一列的形式进行显示,也可以为其它的显示形式,本申请实施例不对其作限制。

其中,在显示文本的目录内容与文本网页的正文文本的过程中,可以将文本网页的正文文本及文本的目录内容中与该文本网页的正文文本对应的目录项进行关联显示。假如当前的文本网页为第2章节对应的文本网页,即文本网页的正文文本为第2章节的内容,则可以在显示整个目录内容和文本网页的正文文本的同时,通过将目录内容中的“第2章BBBB”加粗显示、更换为其它字体样式、更换为其它字体颜色等,来将其与目录内容中的其它目录项进行区别显示,实现文本网页的正文文本及文本的目录内容中与该文本网页的正文文本对应的目录项进行关联显示。

本申请实施例提供的文本文本处理方法,通过确定文本的目录内容与显示文本的目录内容,使得在通过文本网页阅读某一章节的正文文本时,可以在该文本网页中同步显示整个文本的目录文本,从而可以方便、快捷地根据目录文本选择目标阅读章节,极大提高阅读操作的便捷性;通过确定文本网页的正文文本与显示该正文文本,有效滤除文本网页中的广告、导航链接等噪音内容,解决了文本网页干扰因素太多的问题,有效避免噪音内容对正文文本的阅读造成的影响,极大提升阅读体验。

需要说明的是,上述的文本可以是小说文本、新闻文本、论文文本、专利文本等,本申请实施例不对其作限制,下文将以文本为小说文本、文本网页为小说网页为例,对本申请实施例进行具体介绍。

在一种可能的实现方式中,文本网页满足预定条件,包括以下至少一项:文本网页的正文文本的文本密度不小于预定阈值;文本网页的链接地址不属于预设黑名单,预设黑名单中的链接地址是被拦截访问的链接地址。

具体地,浏览器接收到该访问请求后,可以通过预先设定的插件来确定该小说网页是否满足预定条件,其中,浏览器中预先设定的插件可以通过检测小说网页的正文文本的文本密度是否小于预定阈值,来确定小说网页是否满足预定条件,如果小说网页的正文文本的文本密度不小于预定阈值,则可以确定该小说网页满足预定条件,如果小说网页的正文文本的文本密度小于预定阈值,则可以确定该小说网页不满足预定条件,此时不对该访问请求进行响应,即不返回该访问请求所对应的小说网页的具体内容,也即不呈现该小说网页的相关信息(包括小说网页的正文文本、噪音信息等)。

具体地,浏览器中预先设定的插件也可以通过检测小说网页的链接地址是否为预设黑名单中的链接地址,来确定小说网页是否满足预定条件,其中,预设黑名单中存储有被拦截访问的链接地址。如果小说网页的链接地址不是预设黑名单中的链接地址,即小说网页的链接地址不属于预设黑名单,则确定小说网页满足预定条件,如果小说网页的链接地址是预设黑名单中的链接地址,即小说网页的链接地址属于预设黑名单,则确定小说网页不满足预定条件,此时需要对该小说网页进行拦截,即不返回该小说网页的相关信息(包括小说网页的正文文本、噪音信息等)。

在实际应用中,可以在检测到小说网页的正文文本的文本密度不小于预定阈值、且小说网页的链接地址不属于预设黑名单时,确定小说网页满足预定条件。

在一种可能的实现方式中,在基于文本密度确定文本网页的正文文本之后,还包括:

若确定文本网页的链接地址不属于预设白名单,则显示预定文本阅读模式的提示信息,预设白名单中包括文本网页的链接地址;

根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及根据目录的链接地址提取文本的目录内容,包括:

检测到针对预定文本阅读模式的触发操作时,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及基于文本密度,根据目录的链接地址提取文本的目录内容。

具体地,浏览器从相应服务器获取到的预设白名单中还包括有小说网页的链接地址,其中,该预设白名单中的小说网页的链接地址为不需要显示预定文本阅读模式的提示信息的链接地址。于是,在基于文本密度提取小说网页的正文文本后,可以进一步检测该小说网页的链接地址是否属于预设白名单中的小说网页的链接地址,其中,如果确定该小说网页的链接地址属于预设白名单中的小说网页的链接地址,则不需要显示预定文本阅读模式的提示信息,即可直接根据小说网页的链接地址,在预设白名单中确定小说的目录的链接地址,以及基于文本密度,根据目录的链接地址提取小说的目录内容;如果确定该小说网页的链接地址不属于预设白名单中的小说网页的链接地址,则显示显示预定文本阅读模式的提示信息。

其中,该预定文本阅读模式的提示信息可以显示在小说网页的地址栏的预定位置(比如最右侧),如图2所示,在地址栏的最右侧显示“阅读模式”的触发按钮,用于对预定文本阅读模式进行提示,当用户点击“阅读模式”这一按钮后,即触发了预定文本阅读模式,此时浏览器可以检测到该针对预定文本阅读模式的触发操作。

除了在地址栏的预定位置显示预定文本阅读模式的提示信息外,还可以在小说网页的显示窗口的预定位置进行显示,例如通过悬浮窗的形式,在显示窗口的右上方显示该提示信息,如图2所示,从而可以比较醒目的提醒用户。其中,在图2中,用户可以点击该悬浮窗的关闭按钮,来关闭该提示信息;用户也可以点击“进入阅读模式”按钮,来触发预定文本阅读模式,此时,浏览器可以检测到针对预定文本阅读模式的触发操作。

具体地,当浏览器检测到针对预定文本阅读模式的触发操作时,可以根据小说网页的链接地址,在预设白名单中确定小说的目录的链接地址,以及基于文本密度,根据目录的链接地址提取小说的目录内容。

在一种可能的实现方式中,在显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示之后,还包括:

当检测到针对目录内容的任一目录项的触发操作时,基于预先建立的对应关系,联动显示与任一目录项对应的正文文本。

具体地,在提取到小说的目录内容与小说网页的正文文本后,还可以基于小说的目录内容,进行DOM(Document Object Model,文档对象模型)节点的定位,准确定位小说的各个章节的内容(即各个小说网页的正文文本),并将得到的各个章节的内容同步给目录栏,即建立各个章节的内容与目录栏中相应目录项之间的一一对应关系,其中,目录栏是根据小说的目录内容构成的,即目录栏的内容为目录内容,目录栏的各个目录项即为目录内容的各个目录项。其中,DOM是W3C(Word Wide Web Consortium,万维网联盟)组织推荐的处理可扩展置标语言的标准编程接口。

具体地,由于各个章节的内容与相应的小说网页的链接地址之间是一一对应的,即当访问某个小说网页的链接地址时,会对应呈现相应章节的内容(即正文文本),因此,建立各个章节的内容与目录栏中相应目录项之间的一一对应关系,可以看作是建立小说各个章节所在小说网页的链接地址与目录内容的各个目录项之间的一一对应关系,即基于小说的目录内容,通过对文档对象模型DOM节点进行定位,建立目录内容的各个目录项与小说各个章节所在小说网页的链接地址之间的一一对应关系。

具体地,在建立目录内容的各个目录项与小说各个章节所在小说网页的链接地址之间的一一对应关系之后,用户可以通过点击目录内容中的任一目录项,来查看相应章节的内容,相对应地,浏览器会检测到针对目录内容的任一目录项的触发操作。如果用户点击了目录内容中的某个目录项(例如“第3章CCCC”),则浏览器会根据检测到的触发操作,跳转到目录项“第3章CCCC”对应的小说网页的链接地址,并对“第3章CCCC”的内容(即正文文本)进行提取及显示。

具体地,图3给出了联动显示的示意图,在图3中,左侧为小说的目录内容的各个目录项,加粗及下滑线显示的目录项“第5章龙气”表示用户触发或点击了该目录项,右侧为联动显示的“第5章龙气”的正文文本,其中,“第5章龙气”的正文文本是浏览器根据检测到的触发操作,跳转到目录项“第5章龙气”对应的小说网页的链接地址,提到得到的正文文本。

在一种可能的实现方式中,在显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示之后,还包括:当检测到针对小说的当前文本网页的正文文本的滑动操作的滑动距离大于预定距离阈值时,加载文本的当前文本网页的下一文本网页的正文文本并进行显示。

具体地,当某个小说网页的正文文本比较多时,无法在显示窗口中一次性显示所有的正文文本,此时用户需要通过滑动小说网页的正文文本,来查看未被显示的部分内容,同时随着滑动操作,已被显示的部分会被滑出显示窗口。其中,用户可以通过下滑小说网页的滚动条,来对该某个小说网页的正文文本进行滑动操作,也可以通过触摸显示屏的上滑操作,来对该某个小说网页的正文文本进行滑动操作。相对应地,终端设备的浏览器会检测到针对该某个小说网页的正文文本的滑动操作。其中,可以将上述的当前正在显示的某个小说网页的正文文本记作当前小说网页的正文文本,即终端设备的浏览器会检测到针对当前小说网页的正文文本的滑动操作。

具体地,随着用户对当前小说网页的正文文本的滑动操作,当前小说网页的正文文本相对于显示窗口的预定位置(比如顶部或底部)的滑动距离会越来越大。相对应地,终端设备的浏览器会检测到当前小说网页的正文文本的滑动距离,其中,当检测到针对当前小说网页的正文文本的滑动操作的滑动距离大于预定距离阈值时,预加载并显示当前小说网页的下一小说网页的正文文本,即对当前小说网页的下一小说网页的正文文本进行提取及显示,实现了通过下滑小说的当前章节的内容,来加载并显示当前章节的下一章节的内容的功能,从而达到滑动加载的效果,使得用户可以下滑阅读下一章节的内容,从而进行畅快阅读,避免阅读的持续性遭到隔断。

需要说明的是,上述的预定距离阈值可以是一个具体的距离数值,也可以是根据距离值换算得到的预定比值,若其为一个预定比值,则可以在检测到针对当前小说网页的正文文本的滑动操作的滑动距离后,计算一下滑动距离占总的正文文本高度的比值,再检测该比值是否大于预定比值。

在实际应用中,当显示窗口的显示区域的高度、小说网页的正文文本的实际高度及预定高度值的和,大于或等于小说网页的正文文本的滚动高度时,预加载并显示当前小说网页的下一小说网页的正文文本。其中,图4给出了预加载并显示当前小说网页的下一小说网页的正文文本的示意图,在图4中,“第36章未果xxxxxxx”即为当检测到针对“第35章久逢xxxxxxx”(即当前小说网页的正文文本)的滑动操作的滑动距离大于预定距离阈值时,加载并显示的下一章节的内容(即当前小说网页的下一小说网页的正文文本)。其中,在加载并显示“第36章未果xxxxxxx”后,目录内容中的相应目录项“第36章未果”,联动显示为区别于其它章节的显示方式,例如加粗且下滑线显示。

在一种可能的实现方式中,在显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示之后,还包括以下至少一项:显示目录内容的目录虚拟按键,以用于通过对目录虚拟按键的触发操作来控制目录内容的显示;显示预定显示模式的显示模式虚拟按键,以用于通过对显示模式虚拟按键的触发操作来控制正文文本和目录内容的显示模式,预定显示模式包括通过不同字体、不同背景色及不同文字颜色中的至少一项来进行显示的模式。

具体地,在显示小说的目录内容与小说网页的正文文本后,还可以显示目录内容的目录虚拟按键,如图5所示。用户可以通过触发该目录虚拟按键确定是否要显示小说的目录内容,相对应地,终端设备的浏览器可以检测到针对目录虚拟按键的触发操作。如果浏览器当前已经显示目录内容,则用户可以通过触发目录虚拟按键来取消显示目录内容,即浏览器在已经显示目录内容的情况下,检测到针对目录虚拟按键的触发操作,则可以取消显示目录内容;如果浏览器当前没有显示目录内容,则用户可以通过触发目录虚拟按键来显示目录内容,即浏览器在未显示目录内容的情况下,检测到针对目录虚拟按键的触发操作,则可以显示目录内容。

具体地,在显示小说的目录内容与小说网页的正文文本后,还可以显示预定显示模式的显示模式虚拟按键,例如夜间显示模式的显示模式虚拟按键,又例如白昼显示模式的显示模式虚拟按键,如图5所示。假如预定显示模式为夜间显示模式,用户可以通过触发该夜间显示模式的显示模式虚拟按键,确定是否要切换为夜间显示模式,相对应地,终端设备的浏览器可以检测到针对显示模式虚拟按键的触发操作。如果用户开启了夜间显示模式,则通过预先设定的夜间模式的字体、背景色及文字颜色中的至少一项,来对小说网页的正文文本和目录内容进行显示,即通过预先设定的夜间显示样式,来对小说网页的正文文本和目录内容进行显示;如果用户关闭了夜间显示模式,则取消小说网页的正文文本和目录内容的夜间显示样式,即恢复小说网页的正文文本和目录内容的原来的显示样式。

具体地,如图5所示,给出了开启夜间显示模式的示例图,可以看出,在图5中,在夜间显示模式下,小说网页的正文文本和目录内容均是背景为黑色、文字颜色为白色加粗及斜体。

此外,在图5中,除了显示上述的目录虚拟按键和显示模式虚拟按键外,还显示了“在此网页自动开启”虚拟按键,其中,如果检测到用户开启了该虚拟按键,则可以将当前小说网页的链接地址同步到服务器的预设白名单中,从而当再次访问访小说网页时,不需要弹出预定阅读模式的提示信息,而自动进行小说阅读模式,即直接提取小说网页的正文文本及小说的目录内容并进行显示。

具体地,图6给出了小说文本处理的过程示意图,具体包括如下步骤:

步骤S601:检测小说网页是否满足预定条件,即检测小说网页的正文文本的文本密度是否不小于预定阈值和检测小说网页的链接地址是否在预设黑名单中,如果小说网页满足预定条件,则执行步骤S602;否则结束。

步骤S602,基于文本密度提取小说网页的正文文本,可以先基于文本密度对小说网页的正文文本进行分析,当根据分析结果,确定小说网页的正文文本符合提取条件时,再提取小说网页的正文文本。

步骤S603,检测小说网页的链接地址是否属于预设白名单,如果小说网页的链接地址属于预设白名单,则执行步骤S605,如果小说网页的链接地址不属于预设白名单,则执行步骤S604。

步骤S604:显示预定文本阅读模式的提示信息,其中,可以在小说网页的地址栏的最右侧进行显示,也可以在小说网页的显示窗口的右上角,通过悬浮窗的形式显示。当检测到针对预定文本阅读模式的触发操作时,执行步骤S605。

步骤S605:进行模板渲染,即显示小说网页的正文文本,并根据确定出的小说的目录的链接地址,基于文本密度提取小说的目录内容,同时显示提取到的目录内容。

图7为本申请又一实施例提供的一种文本处理装置的结构示意图,如图7所示,该装置700可以包括第一提取模块701、第二提取模块702及第一显示模块703,其中:

第一提取模块701,用于当文本网页满足预定条件时,基于文本密度提取文本网页的正文文本;

第二提取模块702,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,以及基于文本密度,根据目录的链接地址提取文本的目录内容,预设白名单中包括文本的目录的链接地址;

第一显示模块703,用于显示文本的目录内容,并将文本网页的正文文本及目录内容中与文本网页的正文文本对应的目录项进行关联显示。

在一种可能的实现方式中,该装置还包括第二显示模块;

第二显示模块,用于当确定文本网页的链接地址不属于预设白名单时,显示预定文本阅读模式的提示信息,预设白名单中包括文本网页的链接地址;

第二提取模块具体用于检测到针对预定文本阅读模式的触发操作时,根据文本网页的链接地址,在预设白名单中确定文本的目录的链接地址,并根据目录的链接地址提取文本的目录内容。

在一种可能的实现方式中,文本网页满足预定条件,包括以下至少一项:

文本网页的正文文本的文本密度不小于预定阈值;

文本网页的链接地址不属于预设黑名单,预设黑名单中的链接地址是被拦截访问的链接地址。

在一种可能的实现方式中,该装置还包括第三显示模块;

第三显示模块,用于当检测到针对目录内容的任一目录项的触发操作时,基于预先建立的对应关系,联动显示与任一目录项相对应的正文文本。

在一种可能的实现方式中,该装置还包括关系建立模块;

关系建立模块,用于基于文本的目录内容,通过对文档对象模型DOM节点进行定位,建立目录内容的各个目录项与文本各个章节所在文本网页的链接地址之间的一一对应关系。

在一种可能的实现方式中,该装置还包括处理模块;

处理模块,用于当检测到针对文本的当前文本网页的正文文本的滑动操作的滑动距离大于预定距离阈值时,加载文本的当前文本网页的下一文本网页的正文文本并进行显示。

在一种可能的实现方式中,该装置还包括第四显示模块,第四显示模块用于执行以下至少一项:

显示目录内容的目录虚拟按键,以用于通过对目录虚拟按键的触发操作来控制目录内容的显示;

显示预定显示模式的显示模式虚拟按键,以用于通过对显示模式虚拟按键的触发操作来控制正文文本和目录内容的显示模式,预定显示模式包括通过不同字体、不同背景色及不同文字颜色中的至少一项来进行显示的模式。

本申请实施例提供的装置,通过确定文本的目录内容与显示文本的目录内容,使得在通过文本网页阅读某一章节的正文文本时,可以在该文本网页中同步显示整个文本的目录文本,从而可以方便、快捷地根据目录文本选择目标阅读章节,极大提高阅读操作的便捷性;通过确定文本网页的正文文本与显示该正文文本,有效滤除文本网页中的广告、导航链接等噪音内容,解决了文本网页干扰因素太多的问题,有效避免噪音内容对正文文本的阅读造成的影响,极大提升阅读体验。

需要说明的是,本实施例为与上述的方法项实施例相对应的装置项实施例,本实施例可与上述方法项实施例互相配合实施。上述方法项实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在上述方法项实施例中。

本申请另一实施例提供了一种电子设备,如图8所示,图8所示的电子设备800包括:处理器801和存储器803。其中,处理器801和存储器803相连,如通过总线802相连。进一步地,电子设备800还可以包括收发器804。需要说明的是,实际应用中收发器804不限于一个,该电子设备800的结构并不构成对本申请实施例的限定。

其中,处理器801应用于本申请实施例中,用于实现图7所示的第一提取模块、第二提取模块及第一显示模块的功能。

处理器801可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器801也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。

总线802可包括一通路,在上述组件之间传送信息。总线802可以是PCI总线或EISA总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器803可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器803用于存储执行本申请方案的应用程序代码,并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码,以实现图7所示实施例提供的文本文本处理装置的动作。

本申请实施例提供的电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,可实现:通过确定文本的目录内容与显示文本的目录内容,使得在通过文本网页阅读某一章节的正文文本时,可以在该文本网页中同步显示整个文本的目录文本,从而可以方便、快捷地根据目录文本选择目标阅读章节,极大提高阅读操作的便捷性;通过确定文本网页的正文文本与显示该正文文本,有效滤除文本网页中的广告、导航链接等噪音内容,解决了文本网页干扰因素太多的问题,有效避免噪音内容对正文文本的阅读造成的影响,极大提升阅读体验。

本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例所示的方法。其中,通过确定文本的目录内容与显示文本的目录内容,使得在通过文本网页阅读某一章节的正文文本时,可以在该文本网页中同步显示整个文本的目录文本,从而可以方便、快捷地根据目录文本选择目标阅读章节,极大提高阅读操作的便捷性;通过确定文本网页的正文文本与显示该正文文本,有效滤除文本网页中的广告、导航链接等噪音内容,解决了文本网页干扰因素太多的问题,有效避免噪音内容对正文文本的阅读造成的影响,极大提升阅读体验。

本申请实施例提供的计算机可读存储介质适用于上述方法的任一实施例。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:文字自适应异形编辑框的方法、装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!