文本识别方法、装置、计算机可读介质及电子设备

文档序号:169356 发布日期:2021-10-29 浏览:35次 >En<

阅读说明:本技术 文本识别方法、装置、计算机可读介质及电子设备 (Text recognition method and device, computer readable medium and electronic equipment ) 是由 李应弟 蒋亚雄 于 2021-01-29 设计创作,主要内容包括:本申请的实施例提供了一种文本识别方法、装置、计算机可读介质及电子设备。该文本识别方法包括:对待识别文本进行字符提取以及字符位置获取,以获得所述待识别文本中包含的多个字符以及各个字符在所述待识别文本中的位置;基于设定的字符关联关系,获取所述各个字符的关联字符;根据所述各个字符的关联字符以及所述各个字符在所述待识别文本中的位置,确定所述各个字符对应的识别结果;根据所述各个字符对应的识别结果,生成针对所述待识别文本的文本识别结果。本申请实施例的技术方案提高了文本识别的准确率,同时保证了文本识别结果的可读性。(The embodiment of the application provides a text recognition method and device, a computer readable medium and electronic equipment. The text recognition method comprises the following steps: extracting characters and acquiring character positions of a text to be recognized so as to obtain a plurality of characters contained in the text to be recognized and positions of the characters in the text to be recognized; acquiring the associated characters of each character based on the set character association relationship; determining a recognition result corresponding to each character according to the associated character of each character and the position of each character in the text to be recognized; and generating a text recognition result aiming at the text to be recognized according to the recognition result corresponding to each character. According to the technical scheme of the embodiment of the application, the accuracy rate of text recognition is improved, and the readability of a text recognition result is ensured.)

文本识别方法、装置、计算机可读介质及电子设备

技术领域

本申请涉及计算机及通信技术领域,具体而言,涉及一种文本识别方法、装置、计算机可读介质及电子设备。

背景技术

目前世界上大约有60多个民族的文字是以阿拉伯字符为基础来书写的,例如维吾尔文、哈萨克文和柯尔克孜文等。采用阿拉伯字符集书写的维吾尔、哈萨克、柯尔克孜等文字均由30~40个基本字母构成,根据在单词中出现的位置的不同,基本字符有不同的变体形式。在组成单词的过程中,基本字符会选择合适的变体形式相连。

随着维吾尔文、哈萨克文和柯尔克孜文等文字使用人数增多,相关文字识别技术的研究也成为了多种文字信息处理系统发展的迫切需要。然而,现有的识别技术往往存在着识别出的字母不相连,不符合书写规则,识别结果没有可读性等诸多问题。

发明内容

本申请的实施例提供了一种文本识别方法、装置、计算机可读介质及电子设备,进而至少在一定程度上可以克服文本识别结果准确性低、不具备可读性等缺陷。

本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面,提供了一种文本识别方法,包括:对待识别文本进行字符提取以及字符位置获取,以获得所述待识别文本中包含的多个字符以及各个字符在所述待识别文本中的位置;基于设定的字符关联关系,获取所述各个字符的关联字符;根据所述各个字符的关联字符以及所述各个字符在所述待识别文本中的位置,确定所述各个字符对应的识别结果;根据所述各个字符对应的识别结果,生成针对所述待识别文本的文本识别结果。

根据本申请实施例的一个方面,提供了一种文本识别装置,包括:处理单元,配置为对待识别文本进行字符提取以及字符位置获取,以获得所述待识别文本中包含的多个字符以及各个字符在所述待识别文本中的位置;获取单元,配置为基于设定的字符关联关系,获取所述各个字符的关联字符;确定单元,配置为根据所述各个字符的关联字符以及所述各个字符在所述待识别文本中的位置,确定所述各个字符对应的识别结果;生成单元,配置为根据所述各个字符对应的识别结果,生成针对所述待识别文本的文本识别结果。

在本申请的一些实施例中,基于前述方案,所述确定单元配置为:若所述多个字符中存在第一类型字符,则基于所述第一类型字符在所述待识别文本中的位置,根据所述第一类型字符关联的独立体字符、前连体字符、双连体字符和后连体字符中的至少一个,以及所述第一类型字符在所述待识别文本中的位置,确定所述第一类型字符对应的识别结果,所述第一类型字符是关联字符中包含有所述独立体字符、所述前连体字符、所述双连体字符以及所述后连体字符的字符;其中,所述双连体字符为能够与前后相邻位置上的字符进行连接的字符,所述独立体字符为与前后相邻位置上的字符不能进行连接的字符,所述前连体字符为只与前相邻位置上的字符进行连接的字符,所述后连体字符为只与后相邻位置上的字符进行连接的字符。

在本申请的一些实施例中,基于前述方案,所述确定单元包括:第一确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前后相邻位置上均存在字符,则根据所述第一类型字符关联的双连体字符以及所述第一类型字符关联的后连体字符,确定所述第一类型字符对应的识别结果;第二确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符,则根据所述第一类型字符关联的独立体字符以及所述第一类型字符关联的前连体字符,确定所述第一类型字符对应的识别结果;第三确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符,则将所述第一类型字符关联的后连体字符作为所述第一类型字符对应的识别结果;第四确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前后相邻位置上均不存在字符,则将所述第一类型字符关联的独立体字符作为所述第一类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述第一确定子单元配置为:获取所述第一类型字符的前相邻位置上的字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第一类型字符关联的双连体字符作为所述第一类型字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第一类型字符关联的后连体字符作为所述第一类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述第二确定子单元配置为:获取所述第一类型字符的前相邻位置上的字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第一类型字符关联的前连体字符作为所述第一类型字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第一类型字符关联的独立体字符作为所述第一类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述确定单元配置为:若所述多个字符中存在第二类型字符,则基于所述第二类型字符在所述待识别文本中的位置,根据所述第二类型字符关联的独立体字符以及所述第二类型字符关联的前连体字符中的至少一个,确定所述第二类型字符对应的识别结果,所述第二类型字符是关联字符中包含所述独立体字符和所述前连体字符的字符;其中,所述独立体字符为与前后相邻位置上的字符不能进行连接的字符,所述前连体字符为只与前相邻位置上的字符进行连接的字符。

在本申请的一些实施例中,基于前述方案,所述确定单元包括:第五确定子单元,配置为若根据所述第二类型字符在所述待识别文本中的位置确定所述第二类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符或者所述第二类型字符的前后相邻位置上均存在字符,则根据所述第二类型字符关联的独立体字符以及所述第二类型字符关联的前连体字符,确定所述第二类型字符对应的识别结果;第六确定子单元,配置为若根据所述第二类型字符在所述待识别文本中的位置确定所述第二类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符或者所述第二类型字符的前后相邻位置上均不存在字符,则将所述第二类型字符关联的独立体字符作为所述第二类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述第五确定子单元配置为:获取所述第二类型字符的前相邻位置上的字符对应的识别结果;若所述第二类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第二类型字符关联的前连体字符,作为所述第二类型字符对应的识别结果;若所述第二类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第二类型字符关联的独立体字符作为所述第二类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述确定单元配置为:若所述多个字符中存在第三类型字符,则基于所述第三类型字符在所述待识别文本中的位置,根据所述第三类型字符关联的前连体字符和所述第三类型字符中的至少一个,确定所述第三类型字符对应的识别结果,所述第三类型字符是关联字符中只包含所述前连体字符的字符;其中,所述前连体字符为只与前相邻位置上的字符进行连接的字符。

在本申请的一些实施例中,基于前述方案,所述确定单元包括:第七确定子单元,配置为若根据所述第三类型字符在所述待识别文本中的位置确定所述第三类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符或者所述第三类型字符的前后相邻位置上均存在字符,则根据所述第三类型字符关联的前连体字符以及所述第三类型字符,确定所述第三类型字符对应的识别结果;第八确定子单元,配置为若根据所述第三类型字符在所述待识别文本中的位置确定所述第三类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符或者所述第三类型字符的前后相邻位置上均不存在字符,则将所述第三类型字符直接作为所述第三类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述第七确定子单元配置为:获取所述第三类型字符的前相邻位置上的字符对应的识别结果;若所述第三类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第三类型字符关联的前连体字符作为所述第三类型字符对应的识别结果;若所述第三类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第三类型字符直接作为所述第三类型字符对应的识别结果。

在本申请的一些实施例中,基于前述方案,所述确定单元配置为:若所述多个字符中的目标字符不存在所述关联字符,则将所述目标字符直接作为所述目标字符对应的识别结果;所述生成单元配置为:将所述目标字符在多个连续字符中的位置调整为所述多个连续的字符中的首位,得到所述多个连续的字符的新的位置顺序;按照所述新的位置顺序,将所述目标字符以及所述多个连续的字符中除所述目标字符以外的其他字符对应的识别结果进行连接,生成所述待识别文本中包含的单词;根据所述待识别文本中包含的单词,生成针对所述待识别文本的文本识别结果。

根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文本识别方法。

根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文本识别方法。

根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的文本识别方法。

在本申请的一些实施例所提供的技术方案中,通过对待识别文本进行字符提取以及字符位置获取,以获得待识别文本中包含的多个字符以及各个字符在待识别文本中的位置,然后,可以基于设定的字符关联关系,获取到各个字符的关联字符,在获取到各个字符的关联字符之后,则可以根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定出各个字符对应的识别结果,最后,可以根据各个字符对应的识别结果,生成针对待识别文本的文本识别结果。本申请实施例的技术方案确定了字符识别规则,即在获得待识别文本包含的多个字符之后,可以根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定出各个字符对应的识别结果,相比于现有技术方案中由于缺少字符识别规则,直接根据获取到的字符得到文本识别结果导致的文本识别结果准确性低、不具备可读性、不符合书写规则等缺陷,本申请实施例的技术方案能够提高文本识别的准确率,保证文本识别结果的可读性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;

图2示出了根据本申请的一个实施例的文本识别方法的流程图;

图3示出了根据本申请的一个实施例的文本识别方法的流程图;

图4示出了根据本申请的一个实施例的文本识别方法的流程图;

图5示出了根据本申请的一个实施例的文本识别方法的流程图;

图6示出了根据本申请的一个实施例的文本识别方法的流程图;

图7示出了哈萨克语的字符示意图;

图8示出了根据本申请的一个实施例的文本识别方法应用于哈萨克语场景中的识别结果的对比示意图;

图9示出了根据本申请的一个实施例的文本识别装置的框图;

图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

需要说明的是,本申请的说明书和权利要求书及上述附图中使用的术语仅用于描述实施例,并不旨在限制本申请的范围。应该理解的是,术语“包括”、“包含”、“具有”等在本文中使用时指定存在所陈述的特点、整体、步骤、操作、元件、组件和/或其群组,但并不排除存在或添加其他特点、整体、步骤、操作、元件、组件和/或其群组中的一个或多个。

将进一步理解的是,尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元件,但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件和另一个元件。例如,在不脱离本发明的范围的情况下,第一元件可以被称为第二元件。类似地,第二元件可以被称为第一元件。如本文所使用的,术语“和/或”包含关联的列出的项目中的一个或多个的任何和所有组合。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的自然语言处理(Natural Language Processing,NLP)技术和机器学习(Machine Learning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向。其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

文本处理是自然语言处理技术中的主要过程,可以广泛应用于多种应用场景。识别文本中的少数民族文字是文本处理的一个重要部分。例如,在包含有哈萨克语文字的文本中,如果可以准确识别出其中的哈萨克语文字,有利于正确理解文本以及对文本的研究和分析。

基于此,本申请实施例提出了一种文本识别方法,通过对待识别文本进行字符提取以及字符位置获取,以获得待识别文本中包含的多个字符以及各个字符在待识别文本中的位置,然后,可以基于设定的字符关联关系,获取到各个字符的关联字符,在获取到各个字符的关联字符之后,则可以根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定出各个字符对应的识别结果,最后,可以根据各个字符对应的识别结果,生成针对待识别文本的文本识别结果。本申请实施例的技术方案确定了字符识别规则,即在获得待识别文本包含的多个字符之后,可以根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定出各个字符对应的识别结果,相比于现有技术方案中由于缺少字符识别规则而导致的文本识别结果准确性低、文本识别结果不具备可读性,不符合书写规则等缺陷,本申请实施例的技术方案提高了文本识别的准确率,同时保证了文本识别结果的可读性。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

如图1所示,系统架构100可以包括终端设备102,网络和服务器104。网络用以在终端设备102和服务器104之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

终端设备102可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器104可以是独立的物理服务器,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例所提供的文本识别方法一般由服务器104执行,相应地,文本识别装置一般设置于服务器104中。但本领域技术人员容易理解的是,本申请实施例所提供的文本识别方法也可以由终端设备102执行,相应地,文本识别装置也可以设置于终端设备102中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备102将待识别文本上传至服务器104,服务器104通过本申请实施例所提供的文本识别方法对该文本进行处理,并将得到的文本识别结果发送给终端设备102。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

以下对本申请实施例的技术方案的实现细节进行详细阐述:

图2示出了根据本申请的一个实施例的文本识别方法的流程图,该文本识别方法可以由服务器来执行,该服务器可以是图1中所示的服务器。参照图2所示,该文本识别方法至少包括以下步骤:

步骤S210、对待识别文本进行字符提取以及字符位置获取,以获得待识别文本中包含的多个字符以及各个字符在待识别文本中的位置;

步骤S220、基于设定的字符关联关系,获取各个字符的关联字符;

步骤S230、根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定各个字符对应的识别结果;

步骤S240、根据各个字符对应的识别结果,生成针对待识别文本的文本识别结果。

下面对这些步骤进行详细描述。

在步骤S210中,对待识别文本进行字符提取以及字符位置获取,以获得待识别文本中包含的多个字符以及各个字符在待识别文本中的位置。

其中,待识别文本即是需要进行识别的文本。在本实施例中,待识别文本可以是至少包含有以阿拉伯字符为基础进行书写的文字的文本。

以阿拉伯字符为基础进行书写的文字,例如可以是维吾尔文、哈萨克文和柯尔克孜文等。在此需要解释的是,采用阿拉伯字符书写的维吾尔、哈萨克、柯尔克孜等文字是由30~40个基本字符构成的,根据在单词中出现的位置的不同,基本字符有不同的变体形式,在组成单词的过程中,基本字符会选择合适的变体形式进行相连。

正是由于字符是文本的基本构成单元,因此,为了对待识别文本进行识别,可以首先对待识别文本进行字符提取以及字符位置获取,以获得待识别文本中包含的多个字符以及各个字符在待识别文本中的位置。

在一些实施方式中,待识别文本中的字符可以以Unicode编码的形式存储,因此,在对待识别文本进行字符提取的过程中,可以对识别到的待识别文本中的Unicode编码进行解码,从而得到待识别文本中包含的多个字符,其中,Unicode是一种计算机字符编码,也称“统一码”或“万国码”。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

需要说明的是,虽然待识别文本是至少包含有以阿拉伯字符为基础书写的文字的文本,以阿拉伯字符为基础书写的文字是由基本字符构成的,根据在单词中出现的位置的不同,基本字符有不同的变体形式,在组成单词的过程中,基本字符会选择合适的变体形式进行相连。然而,字符提取的过程与组成单词的过程正好相反,只有在组成单词的过程中,基本字符才会选择合适的变体形式进行相连,那么相反地,提取字符的过程中,提取出的字符不会是变体形式,只会是基本字符。

还需要说明的是,在对待识别文本进行字符提取的同时,可以对待识别文本进行字符位置获取,其中,获得的各个字符在待识别文本中的位置可以理解为各个字符在各个字符所属单词中的位置,例如,各个字符在所属单词中处于词首位置、处于词中位置或者处于词尾位置。

步骤S220中,基于设定的字符关联关系,获取各个字符的关联字符。

如前所述,采用阿拉伯字符书写的维吾尔、哈萨克、柯尔克孜等文字是由基本字符构成的,根据在单词中出现的位置的不同,基本字符有不同的变体形式。

那么,可以理解的是,由于文字的规范性特点,因而,构成文字的基本字符或者变体形式可以是预先设定好的,例如,变体形式的数量以及变体形式的样式等都可以是预先设定好的。

具体到本实施例中,在通过步骤S210提取得到待识别文本中包含的多个字符之后,则可以基于设定的字符关联关系,获取各个字符的关联字符,这里获取到的关联字符也就是基本字符的变体形式。

在步骤S230中,根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定各个字符对应的识别结果。

由于本实施例中的待识别文本在形成的过程中,根据在单词中出现的位置不同,字符会选择合适的关联字符进行相连,因此,在通过步骤S210提取得到待识别文本中包含的多个字符之后,并不能将多个字符直接连接起来得到待识别文本的识别结果,而是应该进一步考虑提取得到的各个字符在待识别文本中选择的是何种关联字符进行相连。

具体到本步骤中,为了确定出各个字符在待识别文本中选择的是何种关联字符进行相连,可以根据各个字符的关联字符以及各个字符在待识别文本中的位置进行确定。其中,确定各个字符在待识别文本中选择的是何种关联字符进行相连也即是确定各个字符对应的识别结果。

在本申请的一个实施例中,如果通过步骤S210提取得到待识别文本中包含的多个字符中存在目标字符,该目标字符不存在关联字符,换言之,该目标字符在组成单词的过程中也就不是选择关联字符进行相连,因而,在该实施例中,可以直接将目标字符直接作为目标字符对应的识别结果。

在步骤S240中,根据各个字符对应的识别结果,生成针对待识别文本的文本识别结果。

具体地,在确定出各个字符对应的识别结果之后,根据各个字符对应的识别结果,生成针对待识别文本的文本识别结果可以具体包括:首先,可以按照多个连续的字符的位置顺序,连接多个连续的字符分别对应的识别结果,生成待识别文本中包含的多个单词;然后,可以根据待识别文本中包含的单词,生成针对待识别文本的文本识别结果。其中,多个连续的字符指的是多个字符之间不存在空格、标点符号或者其他不同类字符等,多个字符在位置上是连续的。

在本申请的一个实施例中,如果多个连续的字符中存在目标字符,该目标字符不存在关联字符,则可以直接将目标字符直接作为目标字符对应的识别结果,在得到目标字符对应的识别结果以及多个连续的字符中除目标字符以外的其他字符对应的识别结果之后,生成针对待识别文本的文本识别结果可以具体包括:首先,可以将目标字符在多个连续的字符中的位置调整为多个连续的字符中的首位,得到多个连续的字符的新的位置顺序;接着,可以按照新的位置顺序,将目标字符以及其他字符对应的识别结果进行连接,生成待识别文本中包含的单词;进而,可以根据待识别文本中包含的单词,生成针对待识别文本的文本识别结果。

可见,通过上述步骤,确定了字符识别规则,即在获得待识别文本包含的多个字符之后,可以根据各个字符的关联字符以及各个字符在待识别文本中的位置,确定出各个字符对应的识别结果,相比于现有技术方案中由于缺少字符识别规则,直接根据获取到的字符得到文本识别结果导致的文本识别结果准确性低、文本识别结果不具备可读性,文本识别结果不符合书写规则等缺陷,本申请实施例的技术方案提高了文本识别的准确率,同时保证了文本识别结果的可读性。

在本申请的一个实施例中,根据各个字符的关联字符的不同情况,可以采用对应的确定各个字符对应的识别结果的方式,具体而言,步骤S230可以具体包括:

若多个字符中存在第一类型字符,第一类型字符是关联字符中包含有独立体字符、前连体字符、双连体字符以及后连体字符的字符,则可以基于第一类型字符在待识别文本中的位置,根据第一类型字符关联的独立体字符、前连体字符、双连体字符和后连体字符中的至少一个,确定第一类型字符对应的识别结果。

在此,需要解释的是,独立体字符是指与该字符前后相邻位置上的字符不能进行连接的字符,前连体字符是指只能与该字符前相邻位置上的字符进行连接的字符,双连体字符是指能够与该字符前后相邻位置上的字符进行连接的字符,后连体字符是指只能与该字符后相邻位置上的字符进行连接的字符。

在本申请的一个实施例中,基于第一类型字符在待识别文本中的位置,根据第一类型字符关联的独立体字符、前连体字符、双连体字符和后连体字符中的至少一个,确定第一类型字符对应的识别结果,可以包括:

若根据第一类型字符在待识别文本中的位置确定第一类型字符的前后相邻位置上均存在字符,则可以根据第一类型字符关联的双连体字符以及第一类型字符关联的后连体字符,确定第一类型字符对应的识别结果;

若根据第一类型字符在待识别文本中的位置确定第一类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符,则可以根据第一类型字符关联的独立体字符以及所述第一类型字符关联的前连体字符,确定第一类型字符对应的识别结果;

若根据第一类型字符在待识别文本中的位置为第一类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符,则可以将第一类型字符关联的后连体字符作为第一类型字符对应的识别结果;

若根据第一类型字符在所述待识别文本中的位置确定第一类型字符的前后相邻位置上均不存在字符,则可以将第一类型字符关联的独立体字符作为第一类型字符对应的识别结果。

在本申请的一个实施例中,如图3所示,上述实施例中根据第一类型字符关联的双连体字符以及第一类型字符关联的后连体字符,确定第一类型字符对应的识别结果可以具体包括步骤S310-步骤S330,说明如下:

在步骤S310中,获取第一类型字符的前相邻位置上的字符对应的识别结果。

由于第一类型字符的前相邻位置上的字符可以先于第一类型字符完成识别,得到对应的识别结果,因此,在确定第一类型字符对应的识别结果时,可以首先获取第一类型字符的前相邻位置上的字符对应的识别结果。

在步骤S320中,若第一类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则将第一类型字符关联的双连体字符作为第一类型字符对应的识别结果。

具体地,由于双连体字符是能够与前后相邻位置上的字符进行连接的字符,后连体字符是与后相邻位置上的字符进行连接,不与前相邻位置上的字符进行连接的字符,因此,如果获取到的第一类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则说明第一类型字符对应的识别结果需要与前相邻位置上的字符对应的识别结果进行连接,因而,可以将第一类型字符关联的双连体字符作为第一类型字符对应的识别结果,从而通过双连体字符实现与前相邻位置上的字符对应的识别结果进行连接。

在步骤S330中,若第一类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则将第一类型字符关联的后连体字符作为第一类型字符对应的识别结果。

相反地,如果获取到的第一类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则说明第一类型字符对应的识别结果不需要与前相邻位置上的字符对应的识别结果进行连接,因此可以将第一类型字符关联的后连体字符作为第一类型字符对应的识别结果,因为后连体字符是与后相邻位置进行连接,不与前相邻位置进行连接的字符。

在本申请的一个实施例中,如图4所示,上述实施例中根据第一类型字符关联的独立体字符以及第一类型字符关联的前连体字符,确定第一类型字符对应的识别结果可以具体包括步骤S410-步骤S430,说明如下:

在步骤S410中,获取第一类型字符的前相邻位置上的字符对应的识别结果。

本实施例中,在根据第一类型字符关联的独立体字符以及第一类型字符关联的前连体字符,确定第一类型字符对应的识别结果之前,可以预先获取第一类型字符的前相邻位置上的字符对应的识别结果。

在步骤S420中,若第一类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则将第一类型字符关联的前连体字符作为第一类型字符对应的识别结果。

如前所述,由于双连体字符是能够与前后相邻位置上的字符进行连接的字符,后连体字符是能够与后相邻位置上的字符进行连接的字符,因此,如果获取到的第一类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则说明第一类型字符对应的识别结果需要与前相邻位置上的字符对应的识别结果进行连接,因而可以将第一类型字符关联的前连体字符作为第一类型字符对应的识别结果,从而可以通过前连体字符实现与前相邻位置上的字符进行连接。

在步骤S430中,若第一类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则将第一类型字符关联的独立体字符作为第一类型字符对应的识别结果。

若第一类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则说明第一类型字符对应的识别结果不需要与前相邻位置上的字符对应的识别结果进行连接,则可以将第一类型字符关联的独立体字符作为第一类型字符对应的识别结果,因为独立体字符是不与前后相邻位置进行连接的字符。

在本申请的另一个实施例中,步骤S230还可以具体包括:如果多个字符中存在关联字符中包含有独立体字符和前连体字符的第二类型字符,则可以基于第二类型字符在待识别文本中的位置,根据第二类型字符关联的独立体字符以及第二类型字符关联的前连体字符中的至少一个,确定第二类型字符对应的识别结果。

如前所述,独立体字符是指与该字符前后相邻位置上的字符不能进行连接的字符,前连体字符为与该字符前相邻位置上的字符进行连接,且不与该字符后相邻位置上的字符进行连接的字符。

在本申请的一个实施例中,上述实施例中基于第二类型字符在待识别文本中的位置,根据第二类型字符关联的独立体字符以及第二类型字符关联的前连体字符中的至少一个,确定第二类型字符对应的识别结果可以具体包括:

若根据第二类型字符在待识别文本中的位置确定第二类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符或者第二类型字符的前后相邻位置上均存在字符,则可以根据第二类型字符关联的独立体字符以及第二类型字符关联的前连体字符,确定第二类型字符对应的识别结果;

若根据第二类型字符在待识别文本中的位置确定第二类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符或者第二类型字符的前后相邻位置上均不存在字符,则可以将第二类型字符关联的独立体字符作为第二类型字符对应的识别结果。

在本申请的一个实施例中,如图5所示,上述实施例中根据第二类型字符关联的独立体字符以及第二类型字符关联的前连体字符,确定第二类型字符对应的识别结果可以具体包括步骤S510-步骤S530,说明如下:

在步骤S510中,获取第二类型字符的前相邻位置上的字符对应的识别结果。

由于第二类型字符的前相邻位置上的字符可以先于第二类型字符完成识别,得到对应的识别结果,因此,在确定第二类型字符对应的识别结果时,可以获取到第二类型字符的前相邻位置上的字符对应的识别结果。

在步骤S520中,若第二类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则将第二类型字符关联的前连体字符,作为第二类型字符对应的识别结果。

其中,如果第二类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则说明第二类型字符对应的识别结果需要与前相邻位置上的字符对应的识别结果进行连接,因而可以将第二类型字符关联的前连体字符作为第二类型字符对应的识别结果,通过前连体字符实现与前相邻位置上的字符对应的识别结果的连接。

在步骤S530中,若第二类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则将第二类型字符关联的独立体字符作为第二类型字符对应的识别结果。

在本步骤中,如果第二类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则说明第二类型字符对应的识别结果不需要与前相邻位置上的字符对应的识别结果进行连接,因而可以将第二类型字符关联的独立体字符作为第二类型字符对应的识别结果,因为独立体字符是不与前后相邻位置进行连接的字符。

在本申请的另一个实施例中,步骤S230还可以具体包括:如果多个字符中存在关联字符中只包含有前连体字符的第三类型字符,则可以基于第三类型字符在待识别文本中的位置,根据第三类型字符关联的前连体字符和第三类型字符中的至少一个,确定第三类型字符对应的识别结果,其中,前连体字符为与该字符前相邻位置上的字符进行连接,且不与该字符后相邻位置上的字符进行连接的字符。

在本申请的一个实施例中,上述实施例中根据第三类型字符关联的前连体字符和第三类型字符,以及第三类型字符在待识别文本中的位置,确定第三类型字符对应的识别结果可以具体包括:

若根据第三类型字符在待识别文本中的位置确定第三类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符或者第三类型字符的前后相邻位置上均存在字符,则可以根据第三类型字符关联的前连体字符以及第三类型字符,确定第三类型字符对应的识别结果;

若根据第三类型字符在待识别文本中的位置确定第三类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符或者第三类型字符的前后相邻位置上均不存在字符,则可以将第三类型字符直接作为第三类型字符对应的识别结果。

在本申请的一个实施例中,如图6所示,上述实施例中根据第三类型字符关联的前连体字符以及第三类型字符,确定第三类型字符对应的识别结果可以具体包括步骤S610-步骤S630,说明如下:

在步骤S610中,获取第三类型字符的前相邻位置上的字符对应的识别结果。

在根据第三类型字符关联的前连体字符以及第三类型字符,确定第三类型字符对应的识别结果之前,预先获取第三类型字符的前相邻位置上的字符对应的识别结果。

在步骤S620中,若第三类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则将第三类型字符关联的前连体字符作为第三类型字符对应的识别结果。

其中,如果第三类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则说明第三类型字符对应的识别结果需要与前相邻位置的字符对应的识别结果进行连接,因而,可以将第三类型字符关联的前连体字符作为第三类型字符对应的识别结果。这样一来,通过前连体字符作为对应的识别结果可以实现与前相邻位置上的字符对应的识别结果进行连接。

在步骤S630中,若第三类型字符的前相邻位置上的字符对应的识别结果是独立体字符或者前连体字符,则将第三类型字符直接作为第三类型字符对应的识别结果。

如果第三类型字符的前相邻位置上的字符对应的识别结果是双连体字符或者后连体字符,则说明第三类型字符对应的识别结果不需要与前相邻位置的字符对应的识别结果进行连接,因而,可以将第三类型字符直接作为第三类型字符对应的识别结果。

下面结合图7和图8,以待识别文本为哈萨克语文本为例对本申请实施例的技术方案进行详细说明,图7示出了哈萨克语的基本字符以及基本字符的变体形式,基本字符的变体形式可以包括独立体字符、前连体字符、双连体字符以及后连体字符。其中,独立体字符为与前后相邻位置上的字符不能进行连接的字符,双连体字符为能够与前后相邻位置上的字符进行连接的字符,前连体字符为只与前相邻位置上的字符进行连接的字符,后连体字符为只与后相邻位置上的字符进行连接的字符。

哈萨克语属于阿尔泰语系突厥语族,根据哈萨克语语法规则,在组成单词的过程中,哈萨克语的基本字符会选择合适的变体形式进行连接。现有的哈萨克语识别技术正因为在识别过程缺少判断基础字符选择何种变体形式进行连接的能力,从而导致识别结果并不符合书写规则,识别结果没有可读性等诸多问题。对此,本申请实施例提供了一种文本识别方法,通过本申请实施例的文本识别方法不仅可以保证对哈萨克语文本的识别结果的可读性,符合哈萨克语的书写规则,而且识别准确率高。

在待识别文本为哈萨克语文本的应用场景下,对哈萨克语文本进行识别的方法可以具体包括如下步骤:

S1、对哈萨克语文本进行字符提取以及字符位置获取,以获得哈萨克语文本中包含的多个字符以及各个字符在哈萨克语文本中的位置。

具体地,虽然在组成单词的过程中,哈萨克语的基本字符会选择合适的变体形式进行相连。然而,字符提取的过程与组成单词的过程正好相反,只有在组成单词的过程中,基本字符才会选择合适的变体形式进行相连,那么相反地,提取字符的过程中,提取出的字符不会是变体形式,只会是基本字符,也即图7中示出的基本字符。

S2、基于设定的字符关联关系,获取各个字符的关联字符。

由于哈萨克语在书写时,根据在单词中的位置,基本字符会有不同的变体形式,因此,设定的字符关联关系也即是指哈萨克语的基本字符与基本字符对应的变体形式之间的关联关系,获取各个字符的关联字符也即是获取哈萨克语的基本字符的变体形式。

如图7所示,基本字符的变体形式可以包括独立体字符、前连体字符、双连体字符以及后连体字符,也即是关联字符可以包含有独立体字符、前连体字符、双连体字符和后连体字符四种形式,不同的基本字符的关联字符不相同,例如,序号1的基本字符的关联字符有序号1的独立体字符以及序号34的前连体字符,而序号7的基本字符的关联字符有序号7的独立体字符以及序号40的前连体字符,序号67的双连体字符和序号88的后连体字符。

S3、根据各个字符的关联字符以及各个字符在哈萨克语文本中的位置,确定各个字符对应的识别结果。

由于哈萨克语的书写规则是在组成单词的过程中,基本字符会根据在单词中的位置选择合适的关联字符进行相连,因此,在得到哈萨克语文本中的多个字符之后,并不能将多个字符作为哈萨克语文本的识别结果,而是应该进一步考虑提取得到的各个字符在哈萨克语文本中选择的是何种关联字符进行相连。具体地,可以根据各个字符的关联字符以及各个字符在哈萨克语文本中的位置进行确定各个字符对应的识别结果,也即确定各个字符在哈萨克语文本中选择的是何种关联字符进行相连。

举例说明,如图8所示,图8A示出了哈萨克语文本图8B示出了通过步骤S1获得的哈萨克语文本中包含的三个字符 这三个字符正好分别位于所属单词的词首、词中以及词尾的位置(在此说明一下,哈萨克语的书写是从右到左的书写顺序),图8C为通过步骤S2获取的三个字符的关联字符。

在得到哈萨克语文本中的多个字符之后,并不能将多个字符作为哈萨克语文本的识别结果,如图8D示出的是一种错误的识别结果。在本申请实施例中,还需要进一步确定各个字符对应的识别结果,例如,根据第一个字符的词首位置以及第一个字符的关联字符 可以将关联字符中包含的后连体字符作为第一个字符对应的识别结果;根据第二个字符的词中位置以及第二个字符的关联字符将关联字符中包含的双连体字符作为第二个字符对应的识别结果;根据第三个字符的词尾位置以及第三个字符的关联字符对应的识别结果,将关联字符中包含的前连体字符作为第三个字符对应的识别结果。

S4、根据各个字符对应的识别结果,生成针对哈萨克语文本的文本识别结果。

继续以图7为例进行说明,在通过步骤S3得到第一个字符对应的识别结果第二个字符对应的识别结果第三个字符对应的识别结果之后,则可以将各个字符对应的识别结果按照位置顺序进行连接,得到如图8E示出的正确的识别结果。

以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本识别方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本识别方法的实施例。

图9示出了根据本申请的一个实施例的文本识别装置的框图。

参照图9所示,根据本申请的一个实施例的文本识别装置900,包括:处理单元902,配置为对待识别文本进行字符提取以及字符位置获取,以获得所述待识别文本中包含的多个字符以及各个字符在所述待识别文本中的位置;获取单元904,配置为基于设定的字符关联关系,获取所述各个字符的关联字符;确定单元906,配置为根据所述各个字符的关联字符以及所述各个字符在所述待识别文本中的位置,确定所述各个字符对应的识别结果;生成单元908,配置为根据所述各个字符对应的识别结果,生成针对所述待识别文本的文本识别结果。

在本申请的一些实施例中,所述确定单元906配置为:若所述多个字符中存在第一类型字符,则基于所述第一类型字符在所述待识别文本中的位置,根据所述第一类型字符关联的独立体字符、前连体字符、双连体字符和后连体字符中的至少一个,以及所述第一类型字符在所述待识别文本中的位置,确定所述第一类型字符对应的识别结果,所述第一类型字符是关联字符中包含有所述独立体字符、所述前连体字符、所述双连体字符以及所述后连体字符的字符;其中,所述双连体字符为能够与前后相邻位置上的字符进行连接的字符,所述独立体字符为与前后相邻位置上的字符不能进行连接的字符,所述前连体字符为只与前相邻位置上的字符进行连接的字符,所述后连体字符为只与后相邻位置上的字符进行连接的字符。

在本申请的一些实施例中,所述确定单元906包括:第一确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前后相邻位置上均存在字符,则根据所述第一类型字符关联的双连体字符以及所述第一类型字符关联的后连体字符,确定所述第一类型字符对应的识别结果;第二确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符,则根据所述第一类型字符关联的独立体字符以及所述第一类型字符关联的前连体字符,确定所述第一类型字符对应的识别结果;第三确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符,则将所述第一类型字符关联的后连体字符作为所述第一类型字符对应的识别结果;第四确定子单元,配置为若根据所述第一类型字符在所述待识别文本中的位置确定所述第一类型字符的前后相邻位置上均不存在字符,则将所述第一类型字符关联的独立体字符作为所述第一类型字符对应的识别结果。

在本申请的一些实施例中,所述第一确定子单元配置为:获取所述第一类型字符的前相邻位置上的字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第一类型字符关联的双连体字符作为所述第一类型字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第一类型字符关联的后连体字符作为所述第一类型字符对应的识别结果。

在本申请的一些实施例中,所述第二确定子单元配置为:获取所述第一类型字符的前相邻位置上的字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第一类型字符关联的前连体字符作为所述第一类型字符对应的识别结果;若所述第一类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第一类型字符关联的独立体字符作为所述第一类型字符对应的识别结果。

在本申请的一些实施例中,所述确定单元906配置为:若所述多个字符中存在第二类型字符,则基于所述第二类型字符在所述待识别文本中的位置,根据所述第二类型字符关联的独立体字符以及所述第二类型字符关联的前连体字符中的至少一个,确定所述第二类型字符对应的识别结果,所述第二类型字符是关联字符中包含所述独立体字符和所述前连体字符的字符;其中,所述独立体字符为与前后相邻位置上的字符不能进行连接的字符,所述前连体字符为只与前相邻位置上的字符进行连接的字符。

在本申请的一些实施例中,所述确定单元906包括:第五确定子单元,配置为若根据所述第二类型字符在所述待识别文本中的位置确定所述第二类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符或者所述第二类型字符的前后相邻位置上均存在字符,则根据所述第二类型字符关联的独立体字符以及所述第二类型字符关联的前连体字符,确定所述第二类型字符对应的识别结果;第六确定子单元,配置为若根据所述第二类型字符在所述待识别文本中的位置确定所述第二类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符或者所述第二类型字符的前后相邻位置上均不存在字符,则将所述第二类型字符关联的独立体字符作为所述第二类型字符对应的识别结果。

在本申请的一些实施例中,所述第五确定子单元配置为:获取所述第二类型字符的前相邻位置上的字符对应的识别结果;若所述第二类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第二类型字符关联的前连体字符,作为所述第二类型字符对应的识别结果;若所述第二类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第二类型字符关联的独立体字符作为所述第二类型字符对应的识别结果。

在本申请的一些实施例中,所述确定单元906配置为:若所述多个字符中存在第三类型字符,则基于所述第三类型字符在所述待识别文本中的位置,根据所述第三类型字符关联的前连体字符和所述第三类型字符中的至少一个,确定所述第三类型字符对应的识别结果,所述第三类型字符是关联字符中只包含所述前连体字符的字符;其中,所述前连体字符为只与前相邻位置上的字符进行连接的字符。

在本申请的一些实施例中,所述确定单元906包括:第七确定子单元,配置为若根据所述第三类型字符在所述待识别文本中的位置确定所述第三类型字符的前相邻位置上存在字符,且后相邻位置上不存在字符或者所述第三类型字符的前后相邻位置上均存在字符,则根据所述第三类型字符关联的前连体字符以及所述第三类型字符,确定所述第三类型字符对应的识别结果;第八确定子单元,配置为若根据所述第三类型字符在所述待识别文本中的位置确定所述第三类型字符的前相邻位置上不存在字符,且后相邻位置上存在字符或者所述第三类型字符的前后相邻位置上均不存在字符,则将所述第三类型字符直接作为所述第三类型字符对应的识别结果。

在本申请的一些实施例中,所述第七确定子单元配置为:获取所述第三类型字符的前相邻位置上的字符对应的识别结果;若所述第三类型字符的前相邻位置上的字符对应的识别结果是所述双连体字符或者所述后连体字符,则将所述第三类型字符关联的前连体字符作为所述第三类型字符对应的识别结果;若所述第三类型字符的前相邻位置上的字符对应的识别结果是所述独立体字符或者所述前连体字符,则将所述第三类型字符直接作为所述第三类型字符对应的识别结果。

在本申请的一些实施例中,所述确定单元906配置为:若所述多个字符中的目标字符不存在所述关联字符,则将所述目标字符直接作为所述目标字符对应的识别结果;所述生成单元908配置为:将所述目标字符在多个连续字符中的位置调整为所述多个连续的字符中的首位,得到所述多个连续的字符的新的位置顺序;按照所述新的位置顺序,将所述目标字符以及所述多个连续的字符中除所述目标字符以外的其他字符对应的识别结果进行连接,生成所述待识别文本中包含的单词;根据所述待识别文本中包含的单词,生成针对所述待识别文本的文本识别结果。

图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示,计算机系统1000包括中央处理单元(Central Processing Unit,CPU)1001,其可以根据存储在只读存储器(Read-Only Memory,ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(Random Access Memory,RAM)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output,I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的系统中限定的各种功能。

需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

29页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:文本识别方法、装置、电子设备、存储介质及转账方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!