辅助阅读方法、装置、电子设备和存储介质

文档序号：1379185 发布日期：2020-08-14 浏览：9次 >En<

阅读说明：本技术 辅助阅读方法、装置、电子设备和存储介质 (Reading assisting method and device, electronic equipment and storage medium ) 是由贾光辉王晓斐于 2020-04-16 设计创作，主要内容包括：本发明实施例提供一种辅助阅读方法、装置、电子设备和存储介质,其中方法包括：确定用户手指在待读页面图像上的页面指读位置；基于页面指读位置,以及待读页面图像及其对应的参照页面图像之间的坐标映射关系,确定页面指读位置映射在参照页面图像中的粗略指读位置；基于页面指读位置在待读页面图像中的页面感兴趣区域,以及粗略指读位置在参照页面图像中的参照感兴趣区域,确定参照页面图像中的精细指读位置；基于精细指读位置,进行辅助阅读。本发明实施例提供的辅助阅读方法、装置、电子设备和存储介质,提高了待读区域确定的便捷性和准确性。(The embodiment of the invention provides an auxiliary reading method, an auxiliary reading device, electronic equipment and a storage medium, wherein the method comprises the following steps: determining a page reading position of a user finger on a page image to be read; determining a rough reading position of the page reading position mapped in the reference page image based on the page reading position and the coordinate mapping relation between the page image to be read and the corresponding reference page image; determining a fine reading position in a reference page image based on a page interested area of the page reading position in the page image to be read and a reference interested area of the rough reading position in the reference page image; and performing auxiliary reading based on the fine reading position. The auxiliary reading method, the auxiliary reading device, the electronic equipment and the storage medium provided by the embodiment of the invention improve the convenience and accuracy of determining the to-be-read area.)

辅助阅读方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种辅助阅读方法、装置、电子设备和存储介质。

背景技术

近年来，由于人们逐渐重视阅读水平的提升，各类辅助阅读方法不断涌现，逐渐替代了成本高、书本覆盖面窄的早期辅助阅读产品“点读笔”。

目前的辅助阅读方法中，需要用户预先设置好将要阅读的内容，或者在用户使用手指指示出将要阅读的区域之后，基于OCR(Optical Character Recognition，光学字符识别)方法识别出用户将要阅读的内容。然而，若是预先设置将要阅读的内容，一旦用户想要更换阅读区域，则需要重新进行设置，操作复杂；若是基于OCR方法识别将要阅读的内容，则会因为手指的遮挡导致无法准确识别出指示区域的内容。

发明内容

本发明实施例提供一种辅助阅读方法、装置、电子设备和存储介质，用以解决现有辅助阅读方法确定用户将要阅读内容的操作复杂、不准确的问题。

第一方面，本发明实施例提供一种辅助阅读方法，包括：

确定用户手指在待读页面图像上的页面指读位置；

基于所述页面指读位置，以及所述待读页面图像及其对应的参照页面图像之间的坐标映射关系，确定所述页面指读位置映射在所述参照页面图像中的粗略指读位置；

基于所述页面指读位置在所述待读页面图像中的页面感兴趣区域，以及所述粗略指读位置在所述参照页面图像中的参照感兴趣区域，确定所述参照页面图像中的精细指读位置；

基于所述精细指读位置，进行辅助阅读。

可选地，所述基于所述页面指读位置在所述待读页面图像中的页面感兴趣区域，以及所述粗略指读位置在所述参照页面图像中的参照感兴趣区域，确定所述参照页面图像中的精细指读位置，具体包括：

将所述页面感兴趣区域的每一特征点和所述参照感兴趣区域的每一特征点进行匹配，得到页面区域特征点集合以及与其相匹配的参照区域特征点集合；

基于所述页面区域特征点集合以及所述参照区域特征点集合，确定所述精细指读位置。

可选地，所述基于所述页面区域特征点集合以及所述参照区域特征点集合，确定所述精细指读位置，具体包括：

基于所述页面区域特征点集合，确定所述页面指读位置对应的每一页面邻域点；

基于每一页面邻域点以及所述参照区域特征点集合，确定所述粗略指读位置对应的每一参照邻域点；

基于每一页面邻域点以及每一参照邻域点，确定所述精细指读位置。

可选地，所述基于所述页面区域特征点集合，确定所述页面指读位置对应的每一页面邻域点，具体包括：

逐次增大所述页面指读位置对应邻域的范围，直至所述邻域内包含的属于所述页面区域特征点集合中的特征点的数量大于预设阈值；

将所述邻域内包含的属于所述页面区域特征点集合中的特征点，作为所述页面指读位置对应的页面邻域点。

可选地，所述基于每一页面邻域点以及每一参照邻域点，确定所述精细指读位置，具体包括：

基于所述页面指读位置，以及每一页面邻域点的位置，确定每一页面邻域点的权重；

基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的权重，确定所述精细指读位置。

可选地，所述基于所述精细指读位置，进行辅助阅读，具体包括：

基于用户阅读语音，确定用户阅读文本；

基于所述精细指读位置，确定待读文本；

对所述用户阅读文本和所述待读文本中的对应文本进行匹配，得到所述用户阅读文本和所述待读文本中的对应文本之间的相似度；

基于所述用户阅读文本和所述待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误。

可选地，所述基于所述用户阅读文本和所述待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误，具体包括：

若所述用户阅读文本和所述待读文本中的对应文本之间的相似度小于第一预设相似度阈值，则计算所述用户阅读文本与所述待读文本中的对应文本之前或之后的文本之间的相似度；

若所述用户阅读文本与所述待读文本中的对应文本之前或之后的文本之间的相似度小于第二预设相似度阈值，或者用户停顿时间大于预设时间，则基于用户当前的阅读状态，向用户提示阅读过程中出现的错误。

可选地，所述用户当前的阅读状态是基于阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数中的至少一种确定的。

可选地，所述确定用户手指在待读页面图像上的页面指读位置，具体包括：

基于用户手指在连续多帧采集页面图像中的手指坐标位置，确定用户手指稳定状态；

若所述用户手指稳定状态为稳定，则基于所述连续多帧采集页面图像中的手指坐标位置，确定所述页面指读位置。

第二方面，本发明实施例提供一种辅助阅读装置，包括：

页面指读位置定位单元，用于确定用户手指在待读页面图像上的页面指读位置；

粗略指读位置定位单元，用于基于所述页面指读位置，以及所述待读页面图像及其对应的参照页面图像之间的坐标映射关系，确定所述页面指读位置映射在所述参照页面图像中的粗略指读位置；

精细指读位置定位单元，用于基于所述页面指读位置在所述待读页面图像中的页面感兴趣区域，以及所述粗略指读位置在所述参照页面图像中的参照感兴趣区域，确定所述参照页面图像中的精细指读位置；

辅助阅读单元，用于基于所述精细指读位置，进行辅助阅读。

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种辅助阅读方法、装置、电子设备和存储介质，基于用户手指在待读页面图像上的页面指读位置，计算参照页面图像中的粗略指读位置，进而得到参照页面图像中的精细指读位置，并基于精细指读位置精确确定待读区域，提高了待读区域确定的便捷性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的辅助阅读方法的流程示意图；

图2为本发明实施例提供的精细指读位置确定方法的流程示意图；

图3为本发明又一实施例提供的精细指读位置确定方法的流程示意图；

图4为本发明实施例提供的页面邻域点确定方法的流程示意图；

图5为本发明实施例提供的阅读提示方法的流程示意图；

图6为本发明又一实施例提供的阅读提示方法的流程示意图；

图7为本发明实施例提供的手指稳定状态检测方法的流程示意图；

图8为本发明实施例提供的辅助阅读装置的结构示意图；

图9为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来，人们逐渐开始重视阅读水平的提升，各类辅助阅读方法也随之不断涌现。

目前的辅助阅读方法，在确定用户将要阅读的内容时，主要有两种方式：一种是由用户预先设置好将要阅读的内容；另一种是用户使用手指指示出将要阅读的区域，然后基于OCR技术识别出用户指示的区域内容，作为用户将要阅读的内容。对于第一种方式，如果用户在设置完毕后想要更改阅读内容，则必须重新设置将要阅读的内容，操作复杂；对于另一种方式，由于手指在指示阅读区域的时候，会遮挡住阅读区域中的部分文字，导致利用OCR技术识别出的指示区域的内容准确性欠佳。

对此，本发明实施例提供了一种辅助阅读方法。图1为本发明实施例提供的辅助阅读方法的流程示意图，如图1所示，该方法包括：

步骤110，确定用户手指在待读页面图像上的页面指读位置。

具体地，在进入阅读状态后，用户可以使用手指在待读页面上进行指读操作，以指示用户将要阅读的区域，即待读区域。此处，待读页面是用户将要阅读的书本页面，待读页面可以是实体书籍中的页面，也可以是电子书中的页面，本发明实施例对此不作具体限定。随即，拍摄得到待读页面对应的待读页面图像，并获得用户手指在待读页面图像上的页面指读位置。此处，页面指读位置是待读页面图像中用户手指的指读位置，可用来确定待读页面图像中的待读区域。

步骤120，基于页面指读位置，以及待读页面图像及其对应的参照页面图像之间的坐标映射关系，确定页面指读位置映射在参照页面图像中的粗略指读位置。

此处，待读页面图像对应的参照页面图像是与待读页面图像属于同一本书的同一页面的页面图像。可选地，可以预先对多本书的页面进行拍摄或者扫描，得到多个参照图像。将待读页面图像和每一参照图像输入至图像分类器，其中图像分类器用于将待读页面图像和每一参照图像进行匹配，然后得到图像分类器输出的参照页面图像。

基于待读页面图像及参照页面图像之间的坐标映射关系，可以确定页面指读位置映射在参照页面图像中的粗略指读位置。此处，粗略指读位置是参照页面图像中与页面指读位置相对应的指读位置，可用来确定参照页面图像中的待读区域。

例如，假设f(x,y)表示待读页面图像及参照页面图像之间的坐标映射关系，T_P表示页面指读位置，则可以采用如下公式得到粗略指读位置H_P：

H_P＝f(x,y)T_P

可选地，可以通过如下方式建立待读页面图像及参照页面图像之间的坐标映射关系：分别提取待读页面图像和参照页面图像的特征点，然后将待读页面图像的特征点和参照页面图像的特征点进行匹配，得到待读页面特征点集合以及与其相匹配的参照页面特征点集合；进而可以根据一一对应的待读页面特征点坐标和参照页面特征点坐标，确定待读页面图像及参照页面图像之间的坐标映射关系。

其中，将待读页面图像的特征点和参照页面图像的特征点进行匹配，可采用如下方式：计算待读页面图像的每一特征点和参照页面图像的每一特征点之间的距离，然后基于待读页面图像的任一特征点和参照页面图像的每一特征点之间的距离，从而确定与待读页面图像的该特征点相匹配的参照页面图像的特征点。

步骤130，基于页面指读位置在待读页面图像中的页面感兴趣区域，以及粗略指读位置在参照页面图像中的参照感兴趣区域，确定参照页面图像中的精细指读位置。

由于待读页面图像中，手指指尖具备一定的长度和宽度，因此确定的页面指读位置并不能准确地表示实际指读位置，此处，实际指读位置即待读页面图像中，用户实际想要指读的位置。相应地，在页面指读位置基础上得到的粗略指读位置也不够准确。

针对上述问题，本发明实施例以页面指读位置为中心，在待读页面图像中划定一个区域作为页面感兴趣区域；同样地，以粗略指读位置为中心，在参照页面图像中划定一个区域作为参照感兴趣区域。此处，页面感兴趣区域中包含实际指读位置，相应地，参照感兴趣区域中包含与实际指读位置对应的指读位置。另外，页面感兴趣区域和参照感兴趣区域的形状和大小可以根据实际情况进行设定，本发明实施例对此不作具体限定。

随即，基于页面感兴趣区域中的坐标点，分析每一坐标点在确定实际指读位置时的重要程度。进而基于参照感兴趣区域中与上述页面感兴趣区域坐标点相对应的坐标点，以及上述页面感兴趣区域坐标点的重要程度，确定参照感兴趣区域中与实际指读位置对应的指读位置，将其作为精细指读位置。此处，精细指读位置可用来确定参照页面图像中的待读区域。

步骤140，基于精细指读位置，进行辅助阅读。

具体地，基于精细指读位置，可以确定参照页面图像中的待读区域，并在此基础上，对用户进行辅助阅读。例如，可以向用户反馈其在阅读过程中存在的问题，或者在用户阅读完成后对其阅读情况进行评分，本发明实施例对此不作具体限定。

由于用户使用手指进行指读操作后，即可确定用户的待读区域，因此用户无需预先设置待读区域，且可以随时更改待读区域，免去了重复设置的复杂操作。另外，由于精细指读位置与实际指读位置相对应，因此根据精细指读位置确定的参照页面图像中的待读区域，能够准确反映用户实际想要阅读的区域，而不受手指遮挡的影响。

本发明实施例提供的方法，基于用户手指在待读页面图像上的页面指读位置，计算参照页面图像中的粗略指读位置，进而得到参照页面图像中的精细指读位置，并基于精细指读位置精确确定待读区域，提高了待读区域确定的便捷性和准确性。

基于上述实施例，图2为本发明实施例提供的精细指读位置确定方法的流程示意图，如图2所示，步骤130具体包括：

步骤131，将页面感兴趣区域的每一特征点和参照感兴趣区域的每一特征点进行匹配，得到页面区域特征点集合以及与其相匹配的参照区域特征点集合。

具体地，考虑到页面感兴趣区域中，特征点相对于其它坐标点，在确定实际指读位置时更重要，因此提取页面感兴趣区域的特征点和参照感兴趣区域的特征点，然后将页面感兴趣区域的每一特征点和参照感兴趣区域的每一特征点进行匹配，得到页面区域特征点集合以及与其相匹配的参照区域特征点集合。此处，页面区域特征点集合由页面感兴趣区域的特征点构成，参照区域特征点集合由参照感兴趣区域中与页面感兴趣区域的特征点匹配的特征点构成。并且，页面区域特征点集合中的特征点可用来定位待读页面图像中的实际指读位置，相对应地，参照区域特征点集合中的特征点可用来定位参照页面图像中与实际指读位置对应的指读位置。

将页面感兴趣区域的每一特征点和参照感兴趣区域的每一特征点进行匹配时，可以采用上述实施例中待读页面图像的特征点和参照页面图像的特征点之间的匹配方式。进一步地，还可以使用随机抽样一致性算法(Random Sample Consensus，RANSAC)，进一步筛选出正确匹配的页面感兴趣区域特征点和参照感兴趣区域特征点，得到页面区域特征点集合以及参照区域特征点集合。

步骤132，基于页面区域特征点集合以及参照区域特征点集合，确定精细指读位置。

具体地，基于页面区域特征点集合中的特征点，分析每一特征点在确定实际指读位置时的重要程度。进而基于参照区域特征点集合中与上述页面区域特征点集合中的特征点相匹配的特征点，以及上述页面区域特征点集合中的特征点的重要程度，确定参照感兴趣区域中的精细指读位置。

本发明实施例提供的方法，基于页面区域特征点集合以及与其相匹配的参照区域特征点集合，确定精细指读位置，能够定位到与实际指读位置相对应的指读位置，有助于提高用户待读区域确定的准确性。

基于上述任一实施例，图3为本发明又一实施例提供的精细指读位置确定方法的流程示意图，如图3所示，步骤132具体包括：

步骤1321，基于页面区域特征点集合，确定页面指读位置对应的每一页面邻域点。

具体地，考虑到实际指读位置与页面指读位置之间的距离比较接近，即页面指读位置附近的特征点在确定实际指读位置时更重要，因此从页面区域特征点集合中，筛选出与页面指读位置更邻近的特征点，作为页面指读位置对应的页面邻域点。

步骤1322，基于每一页面邻域点以及参照区域特征点集合，确定粗略指读位置对应的每一参照邻域点。

具体地，由于页面区域特征点集合中的特征点与参照区域特征点集合中的特征点存在匹配关系，因此可以依据该匹配关系，从参照区域特征点集合中，选取与页面邻域点对应的特征点，作为参照邻域点。

步骤1323，基于每一页面邻域点以及每一参照邻域点，确定精细指读位置。

具体地，首先分析每一页面邻域点在确定实际指读位置时的重要程度。考虑到页面邻域点与参照邻域点之间存在对应关系，因而可以认为任一参照邻域点在确定精细指读位置时的重要程度，与其对应的页面邻域点在确定实际指读位置时的重要程度相同。因此，可以基于每一页面邻域点在确定实际指读位置时的重要程度，以及每一参照邻域点，确定精细指读位置。

本发明实施例提供的方法，通过确定页面指读位置对应的每一页面邻域点，以及粗略指读位置对应的每一参照邻域点，分析每一页面邻域点在确定实际指读位置时的重要程度，从而基于每一参照邻域点以及对应的每一页面邻域点的重要程度，确定精细指读位置，进一步提高了精细指读位置的准确性。

基于上述任一实施例，图4为本发明实施例提供的页面邻域点确定方法的流程示意图，如图4所示，步骤1321具体包括：

步骤1321-1，逐次增大页面指读位置对应邻域的范围，直至邻域内包含的属于页面区域特征点集合中的特征点的数量大于预设阈值。

步骤1321-2，将邻域内包含的属于页面区域特征点集合中的特征点，作为页面指读位置对应的页面邻域点。

具体地，可以以页面指读位置为中心，预设距离为半径确定页面指读位置对应的初始的邻域。判断当前邻域内包含的属于页面区域特征点集合中的特征点的数量是否大于预设阈值，若不大于，则逐步增大领域的范围，直至当前邻域内包含的属于页面区域特征点集合中的特征点的数量大于预设阈值。然后，将邻域内包含的属于页面区域特征点集合中的特征点，作为页面指读位置对应的页面邻域点。

本发明实施例提供的方法，通过逐次增大页面指读位置对应邻域的范围，将包含在邻域范围内的页面区域特征点集合中的特征点作为页面邻域点，为精细指读位置的确定提供了依据。

基于上述任一实施例，步骤1323具体包括：

步骤1323-1，基于页面指读位置，以及每一页面邻域点的位置，确定每一页面邻域点的权重。

具体地，基于页面指读位置，以及每一页面邻域点的位置，确定每一页面邻域点的权重。其中，页面邻域点的位置与页面指读位置之间的距离越近，对应的权重越高，代表该页面邻域点在确定实际指读位置时的重要程度越高。

步骤1323-2，基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的权重，确定精细指读位置。

具体地，在确定每一页面邻域点的权重之后，可以基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的权重，确定精细指读位置。

例如，采用如下公式计算得到精细指读位置：

其中，H_P_LAST为精细指读位置，为第i个页面邻域点对应的参照邻域点的位置，是第i个页面邻域点的权重。

本发明实施例提供的方法，通过确定每一页面邻域点的权重，并基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的权重，确定精细指读位置，能够进一步提高精细指读位置的准确性。

基于上述任一实施例，图5为本发明实施例提供的阅读提示方法的流程示意图，如图5所示，步骤140具体包括：

步骤141，基于用户阅读语音，确定用户阅读文本；

步骤142，基于精细指读位置，确定待读文本；

步骤143，对用户阅读文本和待读文本中的对应文本进行匹配，得到用户阅读文本和待读文本中的对应文本之间的相似度；

步骤144，基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误。

具体地，基于精细指读位置，可以确定参照页面图像中的待读区域，并在此基础上，识别出待读区域中的文本，作为待读文本。在用户开始阅读后，进行录音，获取用户阅读语音。基于用户阅读语音，确定用户阅读文本。此处，用户阅读文本是用户当前实际朗读的文本。同时，实时对用户阅读文本和待读文本中的对应文本进行匹配，确定用户阅读文本和待读文本中的对应文本之间的相似度。此处，待读文本中的对应文本是指待读文本中与用户当前实际朗读的文本对应的文本。

目前的辅助阅读方法通常会在用户阅读过程中实时向用户反馈其在阅读过程中出现的错误，或者在阅读完毕后再向用户反馈其在阅读过程中出现的错误。其中，在阅读过程中进行实时反馈，用户每读错一个字均会向用户反馈该错误，容易打断用户，导致用户的使用体验差；而在阅读完毕后再反馈，无法对用户进行及时纠错。

针对该问题，本发明实施例基于用户当前的阅读状态，以及用户阅读文本和待读文本中的对应文本之间的相似度，向用户提示阅读过程中出现的错误。此处，用户当前的阅读状态可以基于用户阅读过程中的阅读速度变化率或者阅读的正确率等因素确定，本发明实施例对此不作具体限定。当用户当前的阅读状态较好时，不向用户反馈错误，以免打断用户阅读、降低辅助阅读的效果；当用户当前的阅读状态较差时，表明用户当前需要停顿以进行错误纠正，此时基于用户阅读文本和待读文本中的对应文本之间的相似度，向用户提示阅读过程中出现的错误，在实现阅读过程中的及时纠错的同时，也能提高错误纠正的效果，并提升用户的使用体验。

本发明实施例提供的方法，基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误，能够实现阅读过程中的及时纠错，同时提高了错误纠正的效果，提升了用户的使用体验。

基于上述任一实施例，图6为本发明又一实施例提供的阅读提示方法的流程示意图，如图6所示，步骤144具体包括：

步骤1441，若用户阅读文本和待读文本中的对应文本之间的相似度小于第一预设相似度阈值，则计算用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度；

步骤1442，若用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度小于第二预设相似度阈值，或者用户停顿时间大于预设时间，则基于用户当前的阅读状态，向用户提示阅读过程中出现的错误。

具体地，若用户阅读文本和待读文本中的对应文本之间的相似度小于第一预设相似度阈值，表明在当前阅读过程中，用户阅读文本和待读文本中的对应文本之间的相似度较低。然而，导致用户阅读文本和待读文本中的对应文本之间的相似度较低的原因不仅包括用户在当前阅读过程中出现了较多错误，还包括用户阅读时出现了漏读或者重读。如果仅是由于用户漏读或者重读了部分文字，导致用户阅读文本和待读文本中的对应文本之间的相似度较低，则无需向用户提示阅读过程中出现的错误，以免打断用户阅读、降低辅助阅读的效果。

因此，为了区分用户在当前阅读过程中出现了较多错误，以及用户阅读时出现了漏读或者重读这两种情况，当用户阅读文本和待读文本中的对应文本之间的相似度小于第一预设相似度阈值时，计算用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度。此处，待读文本中的对应文本之前的文本，即用户已阅读的文本；待读文本中的对应文本之后的文本，即用户将要阅读的文本。

若用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度大于或等于第二预设相似度阈值，表明用户可能出现了重读或者漏读现象，此时不向用户提示阅读过程中出现的错误。若用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度小于第二预设相似度阈值，表明用户确实在阅读过程中出现了较多错误，则基于用户当前的阅读状态，向用户提示阅读过程中出现的错误。除此之外，若用户的停顿时间大于预设时间，表明用户停顿了较长时间，此时也是一个向用户提示阅读过程中出现的错误的好时机，可以基于用户当前的阅读状态，向用户提示阅读过程中出现的错误。

本发明实施例提供的方法，基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度，确定是否需要向用户进行提示，并在需要提示时基于用户当前的阅读状态，向用户提示阅读过程中出现的错误，能够避免在用户漏读或重读时向用户提示阅读过程中出现的错误，同时提高了错误纠正的效果，提升了用户的使用体验。

基于上述任一实施例，用户当前的阅读状态是基于阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数中的至少一种确定的。

具体地，阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数均会影响用户当前的阅读状态，因此可以基于阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数中的一种或多种确定用户当前的阅读状态。

例如，可以采用如下公式确定用户当前的阅读状态：

S_R＝-w₀Dif+w₁Crt-w₂Num-k₀Spd-k₁Tim

其中，S_R是用户当前的阅读状态，Dif是阅读内容的难度，Crt是用户阅读的正确率，Num是历史提示次数，Spd是阅读的速度变化率，Tim是用户的停顿时间，w₀、w₁、w₂、k₀和k₁分别是预先设置的阅读内容的难度、用户阅读的正确率、历史提示次数、阅读的速度变化率和用户的停顿时间对应的权重。

本发明实施例提供的方法，基于阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数中的至少一种，确定用户当前的阅读状态，为判断是否向用户提示阅读过程中出现的错误提供了依据。

基于上述任一实施例，步骤110具体包括：

基于用户手指在连续多帧采集页面图像中的手指坐标位置，确定用户手指稳定状态；若用户手指稳定状态为稳定，则基于连续多帧采集页面图像中的手指坐标位置，确定页面指读位置。

具体地，用户手指稳定状态可以表明用户是否进行了指读操作。若用户进行了指读操作，则用户手指会在待读页面的同一处停留较长时间，因此可以基于用户手指在连续多帧采集页面图像中的手指坐标位置，判断连续多帧采集页面图像中是否出现了同一个手指，并且手指坐标位置的变化在预设范围内。当用户手指稳定状态为稳定时，可以认为用户当前进行了指读操作，此时可以基于连续多帧采集页面图像以及其中的手指坐标位置，确定待读页面图像以及用户手指在待读页面图像中的页面指读位置。例如，可以选择当前采集页面图像作为待读页面图像，并将用户手指在当前采集页面图像中的手指坐标位置作为页面指读位置。

可选地，图7为本发明实施例提供的手指稳定状态检测方法的流程示意图，如图7所示，该方法中，利用手指检测模型依次检测连续多帧采集页面图像中是否有手指，若未检测到手指，则将计数器和记录的手指坐标位置清零，并检测下一个采集页面图像中是否有手指。若检测到手指，则计数器Timer加一，并记录当前采集页面中的手指坐标位置，判断此时是否同时满足下列两个条件：计数器Timer的值大于第一预设阈值；记录的手指坐标位置的方差小于第二预设阈值。若同时满足了上述两个条件，则确定用户手指稳定状态为稳定，该方法结束；否则继续检测下一个采集页面图像中是否有手指。

本发明实施例提供的方法，通过判断用户手指稳定状态，在用户手指稳定状态为稳定时，即用户当前进行了指读操作，此时基于连续多帧采集页面图像中的手指坐标位置，确定页面指读位置，能够提高页面指读位置的准确性。

基于上述任一实施例，本发明又一实施例提供了一种辅助阅读方法，该方法包括：

首先，在用户进入阅读阶段后，检测用户手指稳定状态。此处，用户可以通过目录选择或语音搜索得到将要阅读的书本的页面，采用点击开始按钮等方式进入阅读阶段；若用户没有选定将要阅读的书本的页面，也可以采集页面图像，并将采集的页面图像与预先收集的多个参照图像进行匹配，若匹配成功，认为用户进入了阅读阶段。

若用户手指稳定状态为稳定，将当前采集页面图像作为待读页面图像，将用户手指在当前采集页面图像中的手指坐标位置作为页面指读位置，然后将待读页面图像和预先收集的每一参照图像输入至图像分类器。图像分类器将待读页面图像和每一参照图像进行匹配，得到每一参照图像的匹配得分，并判断最高的匹配得分是否大于预设的得分阈值，若大于，则将最高匹配得分对应的参照图像作为参照页面图像输出。此处，图像分类器可以采用特征提取算法，例如ORB(Oriented FAST and Rotated BRIEF)、SIFT(Scale-InvariantFeature Transform)算法，以及图像分类算法，例如KNN(K-Nearest Neighbor，K最近邻)、SVM(Support Vector Machine，支持向量机)算法，实现待读页面图像和每一参照图像的匹配。

得到待读页面图像及其对应的参照页面图像后，构建待读页面图像与参照页面图像之间的坐标映射关系。利用特征提取算法，例如ORB、SIFT等，分别提取待读页面图像和参照页面图像的特征点。计算待读页面图像的每一特征点和参照页面图像的每一特征点之间的距离，例如欧氏距离。针对待读页面图像的任一特征点，按距离从小到大排列该特征点与参照页面图像的每一特征点之间的距离，并计算最小的两个距离之间的比值。若该比值小于预设比值阈值，表明最小距离对应的参照页面图像的特征点与该特征点匹配。最终，能够筛选出待读页面特征点集合以及与其相匹配的参照页面特征点集合。进而可以基于一一对应的待读页面特征点坐标和参照页面特征点坐标，利用向量场一致性算法(VFC，VectorField Consensus)确定待读页面图像及参照页面图像之间的坐标映射关系。

基于页面指读位置，以及待读页面图像及其对应的参照页面图像之间的坐标映射关系，可以确定页面指读位置映射在参照页面图像中的粗略指读位置。

然后，以页面指读位置为中心，以预设直径在待读页面图像中划定一个正方形区域作为页面感兴趣区域；同样地，以粗略指读位置为中心，以预设直径在参照页面图像中划定一个正方形区域作为参照感兴趣区域。利用特征提取算法，例如FAST(Features fromAccelerated Segment Test)算法提取页面感兴趣区域的特征点和参照感兴趣区域的特征点，然后将页面感兴趣区域的每一特征点和参照感兴趣区域的每一特征点进行匹配。此处，可以采用上述待读页面图像的特征点和参照页面图像的特征点之间的匹配方式，对页面感兴趣区域的每一特征点和参照感兴趣区域的每一特征点进行匹配。进一步地，还可以使用随机抽样一致性算法，进一步筛选出正确匹配的页面感兴趣区域特征点和参照感兴趣区域特征点，得到页面区域特征点集合以及参照区域特征点集合。

以页面指读位置为中心，预设距离为半径确定页面指读位置对应的初始的邻域。逐步增大领域的范围，直至当前邻域内包含的属于页面区域特征点集合中的特征点的数量大于预设阈值。然后，将邻域内包含的属于页面区域特征点集合中的特征点，作为页面指读位置对应的页面邻域点。基于页面区域特征点集合中的特征点与参照区域特征点集合中的特征点之间的匹配关系，从参照区域特征点集合中，选取与页面邻域点对应的特征点，作为参照邻域点。

基于页面指读位置，以及每一页面邻域点的位置，确定每一页面邻域点的权重。例如，可以采用如下公式计算任一页面邻域点的权重：

其中，p为该页面邻域点的坐标，p₀为页面指读位置，|p-p₀|表示该页面邻域点与页面指读位置之间的距离，β为常量系数。

然后，将每一页面邻域点的权重归一化，并基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的归一化权重，确定精细指读位置。

以精细指读位置为起点，确定参照页面图像中的待读区域，并在此基础上，识别出待读区域中的文本，作为待读文本。在用户开始阅读后，进行录音，获取用户阅读语音，并确定用户阅读文本，然后实时计算用户阅读文本和待读文本中的对应文本之间的相似度。若用户阅读文本和待读文本中的对应文本之间的相似度小于第一预设相似度阈值，则计算用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度。若用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度小于第二预设相似度阈值，或者用户停顿时间大于预设时间，则基于用户当前的阅读状态，向用户提示阅读过程中出现的错误。

其中，基于阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数确定用户当前的阅读状态。阅读内容的难度可以基于将要阅读的字的常见程度、笔画数量以及发音难度中的一种或多种确定。例如，可以采用如下公式确定阅读内容的难度：

Dif＝a₀Fre+a₁Str+a₂Pro

其中，Dif是阅读内容的难度，Fre是字的常见程度，Str是字的笔画数量，Pro是字的发音难度，a₀、a₁和a₂分别是预先设置的字的常见程度、笔画数量和发音难度对应的权重。

在用户阅读结束后，对用户的阅读水平进行评分，并实时展示该评分。用户也可以回放阅读的音频，回顾阅读过程。

基于上述任一实施例，图8为本发明实施例提供的辅助阅读装置的结构示意图，如图8所示，该装置包括页面指读位置定位单元810，粗略指读位置定位单元820，精细指读位置定位单元830和辅助阅读单元840。

其中，页面指读位置定位单元810用于确定用户手指在待读页面图像上的页面指读位置；

粗略指读位置定位单元820用于基于页面指读位置，以及待读页面图像及其对应的参照页面图像之间的坐标映射关系，确定页面指读位置映射在参照页面图像中的粗略指读位置；

精细指读位置定位单元830用于基于页面指读位置在待读页面图像中的页面感兴趣区域，以及粗略指读位置在参照页面图像中的参照感兴趣区域，确定参照页面图像中的精细指读位置；

辅助阅读单元840用于基于精细指读位置，进行辅助阅读。

本发明实施例提供的装置，基于用户手指在待读页面图像上的页面指读位置，计算参照页面图像中的粗略指读位置，进而得到参照页面图像中的精细指读位置，并基于精细指读位置精确确定待读区域，提高了待读区域确定的便捷性和准确性。

基于上述任一实施例，精细指读位置定位单元830具体用于：

将页面感兴趣区域的每一特征点和参照感兴趣区域的每一特征点进行匹配，得到页面区域特征点集合以及与其相匹配的参照区域特征点集合；

基于页面区域特征点集合以及参照区域特征点集合，确定精细指读位置。

本发明实施例提供的装置，基于页面区域特征点集合以及与其相匹配的参照区域特征点集合，确定精细指读位置，能够定位到与实际指读位置相对应的指读位置，有助于提高用户待读区域确定的准确性。

基于上述任一实施例，基于页面区域特征点集合以及参照区域特征点集合，确定精细指读位置，具体包括：

基于页面区域特征点集合，确定页面指读位置对应的每一页面邻域点；

基于每一页面邻域点以及参照区域特征点集合，确定粗略指读位置对应的每一参照邻域点；

基于每一页面邻域点以及每一参照邻域点，确定精细指读位置。

本发明实施例提供的装置，通过确定页面指读位置对应的每一页面邻域点，以及粗略指读位置对应的每一参照邻域点，分析每一页面邻域点在确定实际指读位置时的重要程度，从而基于每一参照邻域点以及对应的每一页面邻域点的重要程度，确定精细指读位置，进一步提高了精细指读位置的准确性。

基于上述任一实施例，基于页面区域特征点集合，确定页面指读位置对应的每一页面邻域点，具体包括：

逐次增大页面指读位置对应邻域的范围，直至邻域内包含的属于页面区域特征点集合中的特征点的数量大于预设阈值；

将邻域内包含的属于页面区域特征点集合中的特征点，作为页面指读位置对应的页面邻域点。

本发明实施例提供的装置，通过逐次增大页面指读位置对应邻域的范围，将包含在邻域范围内的页面区域特征点集合中的特征点作为页面邻域点，为精细指读位置的确定提供了依据。

基于上述任一实施例，基于每一页面邻域点以及每一参照邻域点，确定精细指读位置，具体包括：

基于页面指读位置，以及每一页面邻域点的位置，确定每一页面邻域点的权重；

基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的权重，确定精细指读位置。

本发明实施例提供的装置，通过确定每一页面邻域点的权重，并基于每一参照邻域点，以及每一参照领域点对应的页面邻域点的权重，确定精细指读位置，能够进一步提高精细指读位置的准确性。

基于上述任一实施例，辅助阅读单元840具体用于：

基于用户阅读语音，确定用户阅读文本；

基于精细指读位置，确定待读文本；

对用户阅读文本和待读文本中的对应文本进行匹配，得到用户阅读文本和待读文本中的对应文本之间的相似度；

基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误。

本发明实施例提供的装置，基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误，能够实现阅读过程中的及时纠错，同时提高了错误纠正的效果，提升了用户的使用体验。

基于上述任一实施例，基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户当前的阅读状态，向用户提示阅读过程中出现的错误，具体包括：

若用户阅读文本和待读文本中的对应文本之间的相似度小于第一预设相似度阈值，则计算用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度；

若用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度小于第二预设相似度阈值，或者用户停顿时间大于预设时间，则基于用户当前的阅读状态，向用户提示阅读过程中出现的错误。

本发明实施例提供的装置，基于用户阅读文本和待读文本中的对应文本之间的相似度，以及用户阅读文本与待读文本中的对应文本之前或之后的文本之间的相似度，确定是否需要向用户进行提示，并在需要提示时基于用户当前的阅读状态，向用户提示阅读过程中出现的错误，能够避免在用户漏读或重读时向用户提示阅读过程中出现的错误，同时提高了错误纠正的效果，提升了用户的使用体验。

本发明实施例提供的装置，基于阅读内容的难度、阅读的速度变化率、用户的停顿时间、用户阅读的正确率以及历史提示次数中的至少一种，确定用户当前的阅读状态，为判断是否向用户提示阅读过程中出现的错误提供了依据。

基于上述任一实施例，页面指读位置定位单元810具体用于：

基于用户手指在连续多帧采集页面图像中的手指坐标位置，确定用户手指稳定状态；

若用户手指稳定状态为稳定，则基于连续多帧采集页面图像中的手指坐标位置，确定页面指读位置。

本发明实施例提供的装置，通过判断用户手指稳定状态，在用户手指稳定状态为稳定时，即用户当前进行了指读操作，此时基于连续多帧采集页面图像中的手指坐标位置，确定页面指读位置，能够提高页面指读位置的准确性。

图9为本发明实施例提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑命令，以执行如下方法：确定用户手指在待读页面图像上的页面指读位置；基于所述页面指读位置，以及所述待读页面图像及其对应的参照页面图像之间的坐标映射关系，确定所述页面指读位置映射在所述参照页面图像中的粗略指读位置；基于所述页面指读位置在所述待读页面图像中的页面感兴趣区域，以及所述粗略指读位置在所述参照页面图像中的参照感兴趣区域，确定所述参照页面图像中的精细指读位置；基于所述精细指读位置，进行辅助阅读。

此外，上述的存储器930中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定用户手指在待读页面图像上的页面指读位置；基于所述页面指读位置，以及所述待读页面图像及其对应的参照页面图像之间的坐标映射关系，确定所述页面指读位置映射在所述参照页面图像中的粗略指读位置；基于所述页面指读位置在所述待读页面图像中的页面感兴趣区域，以及所述粗略指读位置在所述参照页面图像中的参照感兴趣区域，确定所述参照页面图像中的精细指读位置；基于所述精细指读位置，进行辅助阅读。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：证件复印件信息识别方法、服务器及存储介质

辅助阅读方法、装置、电子设备和存储介质

相关技术

网友询问留言