一种搜题的方法、装置、电子设备和存储介质

文档序号:1042899 发布日期:2020-10-09 浏览:2次 >En<

阅读说明:本技术 一种搜题的方法、装置、电子设备和存储介质 (Method and device for searching questions, electronic equipment and storage medium ) 是由 何华强 于 2020-06-29 设计创作,主要内容包括:本发明实施例公开了一种搜题的方法、装置、电子设备和存储介质。该方法包括:在电子设备处于指读场景下,接收拍照指令,利用图像采集装置对承载体件拍照;对初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓;根据题号的数值和级别设置每个内部轮廓对应的标签;接收并识别用户发出的第一语音指令中的目标题号;根据目标题号确定目标标签以及目标内部轮廓;根据目标内部轮廓确定目标图像;对目标图像进行OCR识别,并利用识别的结果在数据库中搜索匹配的试题。实施本发明实施例,可以完全避免手指在指读场景下对试题内容遮挡造成的识别内容损失,提高裁取试图片的识别内容完整性以及推送用户试题原题率,提高用户学习的交互体验。(The embodiment of the invention discloses a method and a device for searching questions, electronic equipment and a storage medium. The method comprises the following steps: receiving a photographing instruction when the electronic equipment is in a finger reading scene, and photographing the carrier piece by using an image acquisition device; identifying the initial image to obtain an internal contour corresponding to each question mark in the initial image; setting a label corresponding to each internal contour according to the numerical value and the grade of the question number; receiving and identifying a target question number in a first voice command sent by a user; determining a target label and a target internal contour according to the target question number; determining a target image according to the internal contour of the target; and performing OCR recognition on the target image, and searching the database for a matched test question by using a recognition result. By implementing the embodiment of the invention, the loss of the identification content caused by the shielding of the test question content by fingers in a finger reading scene can be completely avoided, the integrity of the identification content of the cut test picture and the test question rate of the user can be improved, and the interactive experience of the user in learning can be improved.)

一种搜题的方法、装置、电子设备和存储介质

技术领域

本发明涉及智能终端技术领域,具体涉及一种搜题的方法、装置、电子设备和存储介质。

背景技术

当前很多电子教辅设备,大多具有指读场景,现有的指读场景是指用户通过手指指向书本、练习册或试卷等承载体时,教辅设备会通过图像采集装置对承载体进行拍照,并识别手指的位置,从而根据手指位置确定用户意图,进而得到用户意图对应的图像,用于原题搜索等。目前拍摄得到的承载体图像都为用户手指指读时的图片,手指(手掌、握笔等)不可避免的会遮挡一部分有效试题数据,造成部分数据丢失,影响OCR识别和根据识别内容进行试题搜索的匹配度,导致最终推送给用户的试题原题率较低。

发明内容

针对所述缺陷,本发明实施例公开了一种搜题的方法、装置、电子设备和存储介质,其可以避免手指遮挡承载体图像,提高推送用户试题原题率。

本发明实施例第一方面公开一种搜题的方法,所述方法包括:

在电子设备处于指读场景下,接收用户发出的拍照指令,利用图像采集装置对承载体件拍照,得到初始图像;

对所述初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓;

根据所述题号的数值和级别设置每个内部轮廓对应的标签;

接收并识别用户发出的第一语音指令中的目标题号;

根据所述目标题号确定目标标签以及目标内部轮廓,所述目标标签为与目标题号相适配的标签,所述目标内部轮廓为目标标签关联的内部轮廓;

根据所述目标内部轮廓确定文本轮廓,并对文本轮廓内的初始图像进行分割,得到目标图像;

对所述目标图像进行OCR识别,并利用所述识别的结果在数据库中搜索匹配的试题。

作为一种可选的实施方式,在本发明实施例第一方面中,对所述初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓,包括:

将所述初始图像并行输入基于深度学习的题目识别网络模型、文本行检测网络模型以及题号检测网络模型确定题目轮廓、文本行轮廓和题号框;

创建一张空白掩码图,所述空白掩码图与初始图像的尺寸相同;

将所述题目轮廓添加至所述掩码图中;

根据题号框和文本行轮廓确定题号行的上边界,并将所述上边界添加至所述掩码图中;

延长所述上边界的左右端点,以使所述上边界与题目轮廓相连接,所述上边界将题目轮廓分割成多个题目区域,每个题目区域构成每个题号对应的内部轮廓。

作为一种可选的实施方式,在本发明实施例第一方面中,根据所述题号的数值和级别设置每个内部轮廓对应的标签,包括:

通过题号分类模型获取每个题号的级别,所述级别包括一级题目和二级题目;

按照题号的数值以及题号的级别为所述题号设置标签,所述标签体现题号对应的值以及题号的级别。

作为一种可选的实施方式,在本发明实施例第一方面中,根据所述目标题号确定目标标签以及目标内部轮廓,所述目标标签为与目标题号相适配的标签,所述目标内部轮廓为目标标签关联的内部轮廓,包括:

根据所述目标题号遍历所有的所述标签,确定与目标题号匹配的标签,作为目标标签;

在所述目标标签对应的题号为二级题目且目标标签仅为一个时,将所述目标标签对应的内部轮廓作为目标内部轮廓;

在所述目标标签对应的题号为一级题目、或/和目标标签为多个、或不存在目标标签时,向用户发送互动指令;

接收用户根据所述互动指令发送的第二语音指令,并根据所述第二语音指令确定新的目标题号,直至确定的目标标签对应的题号为二级题目且目标标签仅为一个。

作为一种可选的实施方式,在本发明实施例第一方面中,所述接收并识别用户发出的第一语音指令中的目标题号,包括:

接收用户发出的第一语音指令,并提取所述第一语音指令中的一个或多个数字关键词,或,一个或多个数字关键词以及所述数字关键词的关联词;

将所述数字关键词或者所述数字关键词和数字关键词的关联词对应的信息作为目标题号。

作为一种可选的实施方式,在本发明实施例第一方面中,根据所述目标内部轮廓确定文本轮廓,并对文本轮廓内的初始图像进行分割,得到目标图像,包括:

将所述目标内部轮廓作为文本轮廓,对所述初始图像进行分割,得到目标图像,所述目标图像为文本轮廓内的初始图像部分。

作为一种可选的实施方式,在本发明实施例第一方面中,对所述目标图像进行OCR识别,并利用所述识别的结果在数据库中搜索匹配的试题,包括:

对所述目标图像进行OCR识别,得到识别结果;

在数据库中搜索,得到目标试题,所述目标试题与所述识别结果的相似度大于或等于预设阈值;

在所述数据库中的试题与所述识别结果的相似度均小于预设阈值,则选取与所述识别结果相似度最高的预设个数的试题作为目标试题。

本发明实施例第二方面公开一种搜题的装置,所述装置包括:

拍照单元,用于在电子设备处于指读场景下,接收用户发出的拍照指令,利用图像采集装置对承载体件拍照,得到初始图像;

识别单元,用于对所述初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓;

设置单元,用于根据所述题号的数值和级别设置每个内部轮廓对应的标签;

接收单元,用于接收并识别用户发出的第一语音指令中的目标题号;

确定单元,用于根据所述目标题号确定目标标签以及目标内部轮廓,所述目标标签为与目标题号相适配的标签,所述目标内部轮廓为目标标签关联的内部轮廓;

分割单元,用于根据所述目标内部轮廓确定文本轮廓,并对文本轮廓内的初始图像进行分割,得到目标图像;

搜索单元,用于对所述目标图像进行OCR识别,并利用所述识别的结果在数据库中搜索匹配的试题。

作为一种可选的实施方式,在本发明实施例第二方面中,所述识别单元,包括:

输入子单元,用于将所述初始图像并行输入基于深度学习的题目识别网络模型、文本行检测网络模型以及题号检测网络模型确定题目轮廓、文本行轮廓和题号框;

创建子单元,用于创建一张空白掩码图,所述空白掩码图与初始图像的尺寸相同;

添加子单元,用于将所述题目轮廓添加至所述掩码图中;

边界确定子单元,用于根据题号框和文本行轮廓确定题号行的上边界,并将所述上边界添加至所述掩码图中;

延长子单元,用于延长所述上边界的左右端点,以使所述上边界与题目轮廓相连接,所述上边界将题目轮廓分割成多个题目区域,每个题目区域构成每个题号对应的内部轮廓。

作为一种可选的实施方式,在本发明实施例第二方面中,所述设置单元,包括:

分类子单元,用于通过题号分类模型获取每个题号的级别,所述级别包括一级题目和二级题目;

标签设置子单元,用于按照题号的数值以及题号的级别为所述题号设置标签,所述标签体现题号对应的值以及题号的级别。

作为一种可选的实施方式,在本发明实施例第二方面中,所述确定单元,包括:

遍历子单元,用于根据所述目标题号遍历所有的所述标签,确定与目标题号匹配的标签,作为目标标签;

判断子单元,用于在所述目标标签对应的题号为二级题目且目标标签仅为一个时,将所述目标标签对应的内部轮廓作为目标内部轮廓;

反馈子单元,用于在所述目标标签对应的题号为一级题目、或/和目标标签为多个、或不存在目标标签时,向用户发送互动指令;接收用户根据所述互动指令发送的第二语音指令,并根据所述第二语音指令确定新的目标题号,直至确定的目标标签对应的题号为二级题目且目标标签仅为一个。

作为一种可选的实施方式,在本发明实施例第二方面中,所述接收单元,包括:

提取子单元,用于接收用户发出的第一语音指令,并提取所述第一语音指令中的一个或多个数字关键词,或,一个或多个数字关键词以及所述数字关键词的关联词;

目标题号确定子单元,用于将所述数字关键词或者所述数字关键词和数字关键词的关联词对应的信息作为目标题号。

作为一种可选的实施方式,在本发明实施例第二方面中,所述搜索单元,包括:

OCR识别子单元,用于对所述目标图像进行OCR识别,得到识别结果;

计算子单元,用于在数据库中搜索,得到目标试题,所述目标试题与所述识别结果的相似度大于或等于预设阈值;

推送子单元,用于在所述数据库中的试题与所述识别结果的相似度均小于预设阈值,则选取与所述识别结果相似度最高的预设个数的试题作为目标试题。

本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种搜题的方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种搜题的方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种搜题的方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种搜题的方法的部分或全部步骤。

与现有技术相比,本发明实施例具有以下有益效果:

本发明实施例中,在电子设备处于指读场景下,接收用户发出的拍照指令,利用图像采集装置对承载体件拍照,得到初始图像;对所述初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓;根据所述题号的数值和级别设置每个内部轮廓对应的标签;接收并识别用户发出的第一语音指令中的目标题号;根据所述目标题号确定目标标签以及目标内部轮廓,所述目标标签为与目标题号相适配的标签,所述目标内部轮廓为目标标签关联的内部轮廓;根据所述目标内部轮廓确定文本轮廓,并对文本轮廓内的初始图像进行分割,得到目标图像;对所述目标图像进行OCR识别,并利用所述识别的结果在数据库中搜索匹配的试题。可见,实施本发明实施例,可以完全避免手指(手掌、握笔等)在指读场景下对试题内容遮挡造成的识别内容损失,从而提高裁取试图片的识别内容完整性,进而提高推送用户试题原题率,最大限度的满足用户意向,提高用户学习的交互体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种搜题的方法的流程示意图;

图2为本发明实施例公开的图像采集装置预览状态的示意图;

图3为本发明实施例公开的内部轮廓获取方法的示意图;

图4为本发明实施例公开的一个初始图像的示意图;

图5为本发明实施例公开的题目轮廓的示意图;

图6为本发明实施例公开的内部轮廓的示意图;

图7是本发明实施例公开的一种承载体的页面结构图;

图8是本发明实施例公开的另一种承载体的页面结构图;

图9是本发明实施例公开的又一种承载体的页面结构图;

图10为本发明实施例公开的一种搜题的装置的结构示意图;

图11为本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种搜题的方法、装置、电子设备和存储介质,可以完全避免手指(手掌、握笔等)在指读场景下对试题内容遮挡造成的识别内容损失,从而提高裁取试图片的识别内容完整性,进而提高推送用户试题原题率,最大限度的满足用户意向,提高用户学习的交互体验,以下结合附图进行详细描述。

实施例一

请参阅图1,图1是本发明实施例公开的一种搜题的方法的流程示意图。如图1所示,该搜题的方法包括以下步骤:

110、在电子设备处于指读场景下,接收用户发出的拍照指令,利用图像采集装置对承载体件拍照,得到初始图像。

电子设备可以是家教机、学***板电脑等智能设备。启动相应的指读APP例如搜题APP或题目收录APP等时可以自动进入指读场景,也可以是图像采集装置与电子设备完成通讯连接时自动进入指读场景,或者图像采集装置与电子设备完成通讯连接且启动相应的指读APP时自动进入指读场景。承载体为书本、练习册以及作业本等纸质学习文档,通过对承载体拍照以及意图识别获取目标题目的图像,进而通过OCR识别在数据库中匹配对应的原题。

进入指读环境后,如图2所示,图像采集装置可以处于预览模式,电子设备的触控屏幕实时显示书本摆正提示线11(书本已进行梯形矫正),同时,电子设备还可以发出语音提示,例如“请摆放好书本,请勿遮挡书本页面内容”。

用户发出的拍照指令可以是“小布,请拍照”或者“小布,我要解题”等语音指令,也可以是通过机械按键或触控按键触发的拍照命令,图像采集装置对准承载体并对承载体进行拍照,得到初始图像。

120、对所述初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓。

示例性地,可以通过文本行检测方式得到题号对应的内部轮廓,具体地:请参照图3所示,其包括以下步骤:

121、将所述初始图像输入基于深度学习的题目识别网络模型、文本行检测网络模型以及题号检测网络模型确定题目轮廓、文本行轮廓和题号框。

题目识别网络模型是指整个初始图像中的题目轮廓,将初始图像作为一个整体,通过人工标注题目轮廓的样本对题目识别网络模型进行训练,从而在初始图像输入训练后的题目识别网络模型后,得到题目轮廓。题目识别网络模型可以是深度卷积神经网络、卷积神经网络、以及全卷积神经网络等。

文本行检测网络模型主要对初始图像中的各个文本行进行检测,得到文本行轮廓。获取初始图像的文本行轮廓的方式可以有多种,在本发明实施例中,采用基于深度学习的文本行检测网络模型实现,文本行检测网络模型可以采用YOLO、CTPN、PseNet等任意的深度学习网络。示例性地,采用PseNet文本行检测网络模型,使得检测结果对光照、颜色、纹理、模糊等情况具有很强的鲁棒性。

识别初始图像的题号框的方法可以有多种,示例性地,通过创建并训练的YOLO题号检测网络模型对题号信息进行识别。YOLO(You Only Look Once:Unified,Real-TimeObject Detection),是Joseph Redmon和Ali Farhadi等人于2015年提出的基于单个神经网络的目标检测算法,其包括卷积层、目标检测层和NMS筛选层。对YOLO题号检测网络模型训练的样本可以是包含题号的文本图片,样本标签为标注于文本图片中的各个题号框。初始图像输入训练后的YOLO题号检测网络模型可以得到初始图像的各个题号框,这里称之为初始题号框。当然,还可以通过其他深度学习的目标检测方法对题号框进行识别,例如R-CNN、SSD、retinanet、AttentionNet以及FCOS等。

为了防止将文本行内的数字被识别成题号框,在本发明实施例中,可以通过文本行轮廓对题号框进行过滤,当题号框与某一个文本行轮廓交集面积与题号框整体面积的比例大于预设阈值,例如80%时,则删除这个题号框。面积计算可以通过像素点数实现。

122、创建一张空白掩码图,所述空白掩码图与初始图像的尺寸相同。

创建的空白掩码图的尺寸与初始图像的尺寸相同,以便于将得到的各个轮廓添加到该空白掩码中,空白掩码图中各个像素点的初始值均为0,即为一张全黑图像。

123、将所述题目轮廓添加至所述掩码图中。

题目识别网络模型得到的题目轮廓信息为构成题目轮廓像素点的集合,将这些像素点对应于掩码图上位置设置为1,题目轮廓就会被添加到掩码图中。图4示出了一种初始图像的示意图,图5为根据图4图像识别得到的题目轮廓21添加到掩码图上的示意图。

124、根据题号框和文本行轮廓确定题号行的上边界,并将所述上边界添加至所述掩码图中。

根据题号框和文本行轮廓确定目标文本行轮廓,目标文本行轮廓为与题号框存在交集的文本行轮廓,如果题号框与多个文本行轮廓存在交集,则选取交集最大的文本行轮廓作为目标文本行轮廓。选取目标文本行轮廓仪的上边界作为题号行的上边界,以与题目轮廓相类似的方式将题号行的上边界添加到掩码图中。

125、延长所述上边界的左右端点,以使所述上边界与题目轮廓相连接,所述上边界将题目轮廓分割成多个题目区域,每个题目区域构成每个题号对应的内部轮廓。

因为题目轮廓与上边界的识别方式不同,因此,存在极大可能是上边界的两端不与题目轮廓相交,这种情况下,延长上边界的左右端点,将延长线上通过的像素点的像素值均置为1。延长方式可以是水平方向延长,例如,以左右端点的纵坐标为基础,获取从左右端点到达相应题目轮廓对应的纵坐标相同的终点,将左右端点和终点之间相同纵坐标的像素点值均置为1。当然,也会存在上边界的左右端点延伸到题目轮廓外的可能性,这种情况,可以将超出题目轮廓外的像素点的值均置为0。

由此可以看出,上边界将题目轮廓分割成多个题目区域,每个题目区域对应一个题号,将这些题目区域成为内部轮廓,最后将内部轮廓和题号建立关联,根据题号框与内部轮廓的交集关系确定题号归属的内部轮廓,当题号框和多个内部轮廓存在交集时,选取交集最大的内部轮廓作为题号框对应的内部轮廓。从而最终得到每个题号与内部轮廓一一对应的掩码图。

图4所示初始图像的示意图,可以得到图6所示的内部轮廓示意图。其中,图4中题号1对应内部轮廓22、题号(1)对应内部轮廓23、题号(2)对应内部轮廓24、题号(3)对应内部轮廓25。

130、根据所述题号的数值和级别设置每个内部轮廓对应的标签。

设置标签的目的在于一方面可以通过标签直接获取内部轮廓对应题号的级别,另一方面用于通过标签获取相关联题号,例如,每一题号的父题号或子题号等。

试卷、练习册等教辅材料中,题号的级别一般分为2级(形如一、二、三的题目形式或者形如1.2.3.为一级题目;形如1.2.3.或形如(1)(2)(3)为二级题目,当出现(1)(2)(3)类型的二级题目,则一般1.2.3.为一级题目;当出现一、二、三的题目形式的一级题目,则一般1.2.3.为二级题目),一级题目是最大的题目。

对题号级别的识别可以通过题号分类模型确定,题号分类模型可以是聚类算法,也可以是通过深度学习的神经网络训练得到。通过识别得到的题号级别,可能存在只有二级题目的可能性。对题号的数值的确定可以通过OCR识别的方式实现,即对上述步骤120中题号框内的文字进行识别,得到题号的数值。

不同标签赋予不同的标签值,每个标签值对应不同的题号、题号级别以及题号级别的层级关系。示例性地,可以通过设置四位十进制数字对题号的标签值进行设定,其中,前两位对应一级题目,后两位对应二级题目,当然,每个题号级别也可以通过一位或三位或更多位数字构建,每个题号级别在标签值中的顺序也可以任意变换。

示例性地,识别到的一级题目对应的内部轮廓为AB00,其中,AB为该一级题目的数值,00说明其是一级题目,识别到的二级题目对应的内部轮廓为CDEF,其中,CD为该二级题目归属的一级题目的数值,EF为该二级题目的数值。由此可以看出,通过标签值就可以确定某个题目的数值、类别以及从属关系。

基于上述设置规则,图4所示初始图像中题号对应的标签值如图6所示。

140、接收并识别用户发出的第一语音指令中的目标题号。

在上述识别完成后,电子设备也可以发出互动指令指引用户发送第一语音指令,互动指令可以是“你要解答哪一题”等语音指令或文字指令。

第一语音指令可以直接包括带有目标题号的语音信息,例如:第一语音指令为“我要解答第3题”。提取目标题号可以是仅提取第一语音指令中的一个或多个数字关键词。例如第一语音指令为上述的“我要解答第3题”,则关键词也就是目标题号为“3”,当然,在更多的场景中,会出现一些关联词,例如上述的“我要解答第3小题”,关联词则为“小”。一般地,关联词的数量可以穷举,涉及到题号分类的关联词包括但不限于“大”、“小”等。数字关键词构成目标题号或数字关键词与关联词一起构成目标题号。

150、根据所述目标题号确定目标标签以及目标内部轮廓,所述目标标签为与目标题号相适配的标签,所述目标内部轮廓为目标标签关联的内部轮廓。

根据目标题目遍历标签,得到目标标签。具体地,如果目标题号仅为关键词,则通过关键词遍历标签中的各个数值,每个标签可以认为是两组数字组成,遍历时需要全部遍历,确定与关键词相同的标签,作为目标标签。如果目标题号包括关键词和关联词,则根据关键词和关联词确定每个标签中的两组数字需要遍历那一组。例如,如果目标题号仅为“3”,则确定所有标签中的两组数字中均为03的标签,作为目标标签,如果标签中存在0203、0300、0303,则这些标签均为目标标签。如果目标题号为“3”和“小”,则上述标签中0203和0303为目标标签。

在本发明实施例中,由于是对试题进行解答,因此,当目标标签仅为一个且目标标签为二级题目时,才会执行步骤160和170的操作。例如,如果目标题号仅为“3”,而在图6所示的标签中仅存在0103与其对应,则标签值为0103的标签为目标标签,标签值为0103的目标标签对应的内部轮廓25为目标内部轮廓。

如果出现目标标签为多个,或者目标标签中存在有一级题目,或者并不存在对应的目标标签时,则电子设备向用户发送相应的互动指令,例如,目标标签为多个时,电子设备发出的互动指令可以是“请问你要解答的是哪个第3题”,则用户根据指引向电子设备发送第二语音指令“我要解答第2大题的第3小题”,则对应的标签为0203,然后遍历上述的标签,如果存在0203的标签,则作为目标标签,反之,如果不存在0203的标签,电子设备继续发出互动指令,可以是“没有找到第2大题的第3小题,请重新选择”。

经过一次或多次电子设备和用户的交互,直到确定的目标标签对应的题号为二级题目且目标标签仅为一个,或者用户放弃本次交互为止。

目标标签对应的内部轮廓记为目标内部轮廓,通过目标内部轮廓,可以确定用户需要截取目标图像的文本轮廓。

160、根据所述目标内部轮廓确定文本轮廓,并对文本轮廓内的初始图像进行分割,得到目标图像。

将所述目标内部轮廓作为文本轮廓,对所述初始图像进行分割,可以得到目标图像,目标图像即为文本轮廓内的初始图像部分。在一些场景中,可以实现题目收录,例如错题本功能,或者使用目标图像进行搜答案、搜语音或近义词、反义词等,实现搜题功能。在本发明实施例中,获取的目标图像用于原题搜索,即在数据库中搜索与目标图像相同的题目,这个题目优选为文本格式,搜索到的文本格式的原题可以用于题目收录,便于后续打印错题本,也可以在原题搜索中附带或关联答案或/和答题思路,将原题和答案或/和答题思路均展示给用户,用于对用户学习给予一定的启发。

示例性地,在本发明实施例中,可以先将搜索得到的原题发送给电子设备的触控屏进行显示,待用户做题完成并确认后,根据原题关联的答案对用户的做题结果进行批改,在用户做错的情况下,再将答题思路展示给用户。

170、对所述目标图像进行OCR识别,并利用所述识别的结果在数据库中搜索匹配的试题。

原题搜索的方法是先对目标图像进行传统的OCR技术进行字符识别,得到字符的识别结果。由于OCR识别的识别率和准确率并不能保证100%,因此,在与原题进行相似度匹配时,需要设定一个阈值,该预设阈值根据需要设定,也可以设置为OCR技术的常规识别率例如98%。数据库可以是事先创建的教学资源库,为了降低搜索时间,可以根据用户的基础信息例如年级或/和科目信息或/和所在地区使用的版本号等构建多个小数据库,然后可以根据承载体的页眉页脚信息等识别得到相应的搜索关键词,通过关键词匹配小数据库,再通过小数据库进行识别结果和原题的相似度比对。

示例性地,识别所述初始图像中的页眉部分和页脚部分,并根据所述页眉部分和页脚部分确定搜索关键词,所述搜索关键词为第一条件,或者第一条件和第二条件;所述第一条件为年级和科目,所述第二条件为书名、出版社、版本号和品牌名的一种或多种。

图7所示的承载体图像中,在页眉部分可以获取年级信息311(即七年级上)、科目信息312(即语文)、版本信息313(即人教版)以及品牌名信息314(即教材全解)。图8所示的承载体图像中,在页脚部分可以获取年级信息321(即六年级上册)、科目信息322(即语文)、品牌名信息323(即英才教程)以及书名信息324(即“快乐读书吧”导读与精炼)。图9所示的承载体图像中,在页脚部分可以获得年级信息331(即三年级下)、科目信息332(即数学)以及版本信息333(即R,R指代人教版),在页脚部分可以获得品牌名信息334(即带有博士帽的小孩图像,指代品牌名为黄冈小状元)。

由此可知,部分承载体的页眉和页脚中会覆盖年级和科目信息,因此,将此部分信息作为第一条件,部分承载体还会存在书名、出版社、版本号和品牌名的一种或多种,将这些作为辅助的第二条件,当存在第二条件时,将第一条件和第二条件查询,不存在第二条件时,可以直接通过第一条件去查询。

具体地,识别所述页眉部分或/和页脚部分中的字符,从所述字符中筛选年级和科目,作为第一条件。示例性地,识别页眉部分和页脚部分的字符可以通过成熟的OCR(Optical Character Recognition,光学字符识别)技术实现,这里的字符主要为汉字。因为年级和科目是可以穷举的,因此,从所述字符中筛选年级和科目就是通过设置第一搜索库,穷举所有的年级信息和科目信息,去遍历页眉部分或/和页脚部分中的字符,即可得到年级和科目信息。

检测所述页眉部分或/和页脚部分中的字符是否包括版本号、书名以及品牌名中的一种或多种,如果包括,将所述版本号、书名以及品牌名中的一种或多种作为第二条件。与第一条件同样的方法,将常见的版本名、书名以及品牌名设置第二搜索库,遍历页眉部分或/和页脚部分中的字符,如果存在第二条件,则得到具体的第二条件信息。事实上,对于不同地区,其版本号是统一地,因此,在用户使用搜题应用程序或错题收集应用程序时,根据用户输入的基本信息也可以确定版本号,相当于版本号是已知的。

存在一些承载体,其出版社和品牌名使用图标实现例如图9中的品牌名信息334,在这种情况下,可以检测所述页眉部分或/和页脚部分中的非字符部分中是否包括出版社以及品牌名中的一种或多种,如果包括,将所述出版社以及品牌名中的一种或多种作为第二条件。其实现方式是将页眉部分或/和页脚部分中非字符部分通过以图搜图的方式确定出版社信息或品牌名信息,例如相似度达到90%以上,则认为识别出了对应的出版社信息或品牌名信息。

为每个小数据库建立相应的标签,这些标签与上述的第一条件或/和第二条件相匹配,通过第一条件或/和第二条件遍历这些小数据库的标签,可以确定该承载体对应的小数据库,进而可以从该小数据库中匹配相应的试题,大大降低搜索花费的时间。

当某一个试题与识别结果相似度大于或等于预设阈值时,则该试题即为目标试题,搜索完成。可以根据目标试题再确定关联的答案或答题思路等,答案或答题思路也可以存在对应的小数据库中或其他数据库中,通过映射关系或索引搜索方式得到。

如果数据库或对应的小数据库中的所有试题与识别结果的相似度均小于预设阈值,可以在互联网中进行相应的搜索,也未找到与识别结果的相似度大于或等于预设阈值的试题,或者在数据库或对应的小数据库中以及互联网等中搜索时间达到预设时间时,未找到与识别结果相似度大于或等于预设阈值的试题,则对搜索记录中的各个相似度由大到小进行排序,选取这些相似度中排序靠前的预设个数的试题作为目标试题,发送给用户进行展示,给予用户一定的启示,同样地,也可以获取这些目标试题的答案或/和答题思路。当然,如果用户认为这些目标试题均与其意图无关,还可以再重新进行步骤110-160的操作。

实施本发明实施例,可以完全避免手指(手掌、握笔等)在指读场景下对试题内容遮挡造成的识别内容损失,从而提高裁取试图片的识别内容完整性,进而提高推送用户试题原题率,最大限度的满足用户意向,提高用户学习的交互体验。

实施例二

请参阅图10,图10是本发明实施例公开的一种搜题的装置的结构示意图。如图10所示,该搜题的装置可以包括:

拍照单元410,用于在电子设备处于指读场景下,接收用户发出的拍照指令,利用图像采集装置对承载体件拍照,得到初始图像;

识别单元420,用于对所述初始图像进行识别,得到初始图像中每一个题号对应的内部轮廓;

设置单元430,用于根据所述题号的数值和级别设置每个内部轮廓对应的标签;

接收单元440,用于接收并识别用户发出的第一语音指令中的目标题号;

确定单元450,用于根据所述目标题号确定目标标签以及目标内部轮廓,所述目标标签为与目标题号相适配的标签,所述目标内部轮廓为目标标签关联的内部轮廓;

分割单元460,用于根据所述目标内部轮廓确定文本轮廓,并对文本轮廓内的初始图像进行分割,得到目标图像;

搜索单元470,用于对所述目标图像进行OCR识别,并利用所述识别的结果在数据库中搜索匹配的试题。

作为一种可选的实施方式,所述识别单元420,包括:

输入子单元421,用于将所述初始图像并行输入基于深度学习的题目识别网络模型、文本行检测网络模型以及题号检测网络模型确定题目轮廓、文本行轮廓和题号框;

创建子单元422,用于创建一张空白掩码图,所述空白掩码图与初始图像的尺寸相同;

添加子单元423,用于将所述题目轮廓添加至所述掩码图中;

边界确定子单元424,用于根据题号框和文本行轮廓确定题号行的上边界,并将所述上边界添加至所述掩码图中;

延长子单元425,用于延长所述上边界的左右端点,以使所述上边界与题目轮廓相连接,所述上边界将题目轮廓分割成多个题目区域,每个题目区域构成每个题号对应的内部轮廓。

作为一种可选的实施方式,所述设置单元430,包括:

分类子单元431,用于通过题号分类模型获取每个题号的级别,所述级别包括一级题目和二级题目;

标签设置子单元432,用于按照题号的数值以及题号的级别为所述题号设置标签,所述标签体现题号对应的值以及题号的级别。

作为一种可选的实施方式,所述确定单元450,包括:

遍历子单元451,用于根据所述目标题号遍历所有的所述标签,确定与目标题号匹配的标签,作为目标标签;

判断子单元452,用于在所述目标标签对应的题号为二级题目且目标标签仅为一个时,将所述目标标签对应的内部轮廓作为目标内部轮廓;

反馈子单元453,用于在所述目标标签对应的题号为一级题目、或/和目标标签为多个、或不存在目标标签时,向用户发送互动指令;接收用户根据所述互动指令发送的第二语音指令,并根据所述第二语音指令确定新的目标题号,直至确定的目标标签对应的题号为二级题目且目标标签仅为一个。

作为一种可选的实施方式,所述接收单元440,包括:

提取子单元441,用于接收用户发出的第一语音指令,并提取所述第一语音指令中的一个或多个数字关键词,或,一个或多个数字关键词以及所述数字关键词的关联词;

目标题号确定子单元442,用于将所述数字关键词或者所述数字关键词和数字关键词的关联词对应的信息作为目标题号。

作为一种可选的实施方式,所述搜索单元470,包括:

OCR识别子单元471,用于对所述目标图像进行OCR识别,得到识别结果;

计算子单元472,用于在数据库中搜索,得到目标试题,所述目标试题与所述识别结果的相似度大于或等于预设阈值;

推送子单元473,用于在所述数据库中的试题与所述识别结果的相似度均小于预设阈值,则选取与所述识别结果相似度最高的预设个数的试题作为目标试题。

图10所示的搜题的装置,可以完全避免手指(手掌、握笔等)在指读场景下对试题内容遮挡造成的识别内容损失,从而提高裁取试图片的识别内容完整性,进而提高推送用户试题原题率,最大限度的满足用户意向,提高用户学习的交互体验。

实施例三

请参阅图11,图11是本发明实施例公开的一种电子设备的结构示意图。如图11所示,该电子设备可以包括:

存储有可执行程序代码的存储器510;

与存储器510耦合的处理器520;

其中,处理器520调用存储器510中存储的可执行程序代码,执行实施例一中搜题的方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一中搜题的方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中搜题的方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一中搜题的方法中的部分或全部步骤。

在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种搜题的方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:多超谱遥感图像的亚像元目标识别和检索方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!