一种错别词识别方法及装置

文档序号:1938121 发布日期:2021-12-07 浏览:10次 >En<

阅读说明:本技术 一种错别词识别方法及装置 (Wrong-word recognition method and device ) 是由 李萌 张少华 李勇乐 李�昊 于 2021-09-06 设计创作,主要内容包括:本申请实施例提供了一种错别词识别方法及装置。可以先接收并在页面的第一显示区域中显示用户输入的目标文本。可以对目标文本进行错别词识别,并在页面的第二显示区域中显示所述目标文本对应的错别词对列表。其中,错别词对列表可以包括一个或多个错别词对,每个错别词对可以包括目标文本中的错别词和用于对错别词进行纠错的正确词,错别词可以包括实体词和/或非实体词,实体词和非实体词是基于不同方式从目标文本中识别得到的。这样,可以准确地从目标文本中找到存在错误的错别词,并通过第二显示区域显示给用户,使得用户能够看到目标文本中存在的错别词。如此,用户能够方便快捷地对目标文本中的错别词进行处理。(The embodiment of the application provides a method and a device for identifying wrongly-recognized words. Target text input by a user may be received and displayed in a first display area of a page. The method can be used for identifying the wrong entry of the target text and displaying a wrong entry pair list corresponding to the target text in a second display area of the page. The list of the mischief pairs may include one or more mischief pairs, each mischief pair may include a mischief in the target text and a correct word for correcting the mischief, each mischief may include an entity word and/or a non-entity word, and the entity word and the non-entity word are identified from the target text based on different manners. Therefore, the wrongly-distinguished words with errors can be accurately found from the target text and displayed to the user through the second display area, so that the user can see the wrongly-distinguished words in the target text. Therefore, the user can conveniently and quickly process the wrongly-distinguished words in the target text.)

一种错别词识别方法及装置

技术领域

本申请涉及计算机领域,尤其涉及一种错别词识别方法及装置。

背景技术

随着计算机技术的发展,越来越多的人选择利用计算机代替手写对文本进行处理。这样,由于计算机具有便于修改等特点,利用计算机可以高效地对文本进行撰写、编辑和修改等操作,大大提高了办公效率。但是,计算机中的文本由用户手动输入,用户在输入或编辑文本时难免会存在疏漏,导致文本存在错别词。因此,亟需一种能够识别文本中错别词的方法。

发明内容

为了解决现有技术,本申请实施例提供了一种错别词识别方法及装置。

第一方面,本申请实施例提供了一种错别词识别方法,所述方法包括:

接收并在页面的第一显示区域中显示用户输入的目标文本;

在所述页面的第二显示区域显示所述目标文本对应的错别词对列表;其中,所述错别词对列表包括一个或多个错别词对,所述错别词对包括所述目标文本中的错别词和用于对所述错别词进行纠错的正确词,所述错别词包括实体词和/或非实体词,所述实体词和所述非实体词基于不同方式从所述目标文本中识别得到。

第二方面,本申请实施例提供了一种错别词识别方法,所述方法包括:

获取目标文本;

将所述目标文本输入到错字纠错模型中,得到纠错文本,所述纠错文本为所述目标文本中的错别词被纠正之后的正确文本,所述错字纠错模型根据错误句对训练得到,所述错误句对包括错误句和正确句,所述错误句为包括错别词的句子,所述正确句为不包括错别词的句子;

比对所述目标文本和所述纠错文本,得到第一错别词对列表,所述第一错别词对列表包括所述目标文本中的第一错别词以及所述纠错文本中与所述第一错别词对应的第一正确词,所述第一错别词为非实体词;

从所述目标文本中识别多个实体词,根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表,所述第二错别词列表包括第二错别词和第二正确词,所述第二错别词和所述第二正确词均为实体词;

根据所述第一错别词对列表和所述第二错别词对列表得到所述目标文本的错别词对列表。

第三方面,本申请实施例提供了、一种错别词识别装置,所述装置包括:

获取模块,用于接收并在页面的第一显示区域中显示用户输入的目标文本;

显示模块,用于在所述页面的第二显示区域显示所述目标文本对应的错别词对列表;其中,所述错别词对列表包括一个或多个错别词对,所述错别词对包括所述目标文本中的错别词和用于对所述错别词进行纠错的正确词,所述错别词包括实体词和/或非实体词,所述实体词和所述非实体词基于不同方式从所述目标文本中识别得到。

第四方面,本申请实施例提供了一种错别词识别装置,所述装置包括:

获取模块,用于获取目标文本;

纠错模块,用于将所述目标文本输入到错字纠错模型中,得到纠错文本,所述纠错文本为所述目标文本中的错别词被纠正之后的正确文本,所述错字纠错模型根据错误句对训练得到,所述错误句对包括错误句和正确句,所述错误句为包括错别词的句子,所述正确句为不包括错别词的句子;

第一比对模块,用于比对所述目标文本和所述纠错文本,得到第一错别词对列表,所述第一错别词对列表包括所述目标文本中的第一错别词以及所述纠错文本中与所述第一错别词对应的第一正确词,所述第一错别词为非实体词;

第二比对模块,用于从所述目标文本中识别多个实体词,根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表,所述第二错别词列表包括第二错别词和第二正确词,所述第二错别词和所述第二正确词均为实体词;

确定模块,用于根据所述第一错别词对列表和所述第二错别词对列表得到所述目标文本的错别词对列表。

第五方面,本申请实施例提供了一种电子设备,所述电子设备包括:

一个或多个处理器;存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请实施例任一所述的错别字识别方法。

第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例任一所述的错别字识别方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种错别字识别方法的流程示意图;

图2为本申请实施例提供的客户端的显示界面的一种示意图;

图3-A为本申请实施例提供的客户端的显示界面的另一种示意图;

图3-B为本申请实施例提供的客户端的显示界面的再一种示意图;

图4为本申请实施例提供的客户端的显示界面的又一种示意图;

图5为本申请实施例提供的客户端的显示界面的另一种示意图

图6为本申请实施例提供的客户端的显示界面的再一种示意图

图7为本申请实施例提供的一种错别字识别方法的流程示意图

图8为本申请实施例提供的错别字识别装置的一种结构示意图;

图9为本申请实施例提供的错别字识别装置的一种结构示意图;

图10为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。

应当理解,本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

由于计算机上的电子文本具有便于修改、便于调整格式和便于传输等特点,目前的文字工作者为了提高效率,可以利用计算机对文本进行撰写、编辑和修改等操作。但是,电子文本大多由用户通过输入法手动输入计算机,在输入过程中可能出现错漏,导致电子文本中存在错别词。

当电子文本的字数较多时,单凭用户人眼可能难以准确地发现这些错别词,导致电子文本出现问题。例如,对于小说等文字量较大的文本,如果由用户亲自对错别词进行检查,会消耗用户大量的精力,检查的效果也可能较差。因此,亟需一种能够自动识别错别词的方法。

为了解决现有技术的问题,本申请实施例提供了一种错别词识别方法,下面结合说明书附图进行详细介绍。

图1为本申请实施例提供的一种错别词识别方法的流程示意图,本实施例可适用于对目标文本进行错别词识别的场景,该方法可以由错别词识别装置来执行,该错别词识别装置是具有数据处理能力的可以由软件和/或硬件的方式来实现,集成于用户的客户端。其中,客户端可以集成于PC(Personal Computer,个人计算机)端或者移动终端中。当然,本申请实施例提供的错别词识别的方法还可以由服务器等计算机设备执行。下面以该方法由客户端来执行为例进行说明。如图1所示,该方法具体包括以下步骤:

S101:接收并在页面的第一显示区域中显示用户输入的目标文本。

当用户想要对目标文本进行错别词识别时,可以输入目标文本。例如,可以在客户端的显示装置上显示输入框,以便用户在输入框中输入目标文本。可选地,目标文本也可以由用户进行上传。具体地,可以在客户端的显示装置上显示上传控件,用户可以通过触发上传控件上传目标文件。其中,目标文件包括用户需要进行错别词识别的目标文本。

在接收到用户输入的目标文本之后,可以在页面的第一显示区域中显示用户输入的目标文本。可选地,前述用于输入目标文本的输入框所在的显示区域可以为所述第一显示区域。也就是说,可以在页面的第一显示区域中显示输入框,在接收到用户输入的目标文本之后,该目标文本被显示在输入框中。

具体地,如图2所示,显示装置的显示区域可以包括标题输入区域210和文字输入区域220。其中,文字输入区域220相当于前述第一显示区域中的输入框。用户可以在标题输入区域210内输入文章的标题,在文字输入区域220内输入文章正文。那么,在获取用户输入的目标文本时,可以将用户在文字输入区域220中输入的文本作为目标文本。可选地,在一些可能的实现方式中,显示区域也可以不包括标题输入区域210,或包括其他用于输入文字的输入区域。

S102:在页面的第二显示区域显示目标文本对应的错别词对列表。

如果在输入目标文本之后,可以在页面的第二显示区域中显示目标文本对应的错别词对列表。其中,第二显示区域为页面上不同于第一显示区域的显示区域,错别词对列表包括一个或多个错别词对,每个错别词对包括一个错别词和与该错别词对应的正确词。其中,错别词来自目标文本,正确词用于对错别词进行纠正。错别词包括实体词和/或非实体词,实体词和非实体词可以基于不同方式从目标文本中识别得到。关于实体词、非实体词以及错别词识别方法的介绍可以参见后文,这里不再赘述。

可选地,目标文本可以为中文文本。当目标文本为中文文本时,错别词可以包括一个或多个单字。当错别词包括一个单字时,错别词又可以被称为错别字;当错别词包括多个单字时,所述多个单字可以包括一个或多个错别字。也就是说,当错别词为多字词时,错别词可以包括错别字和正确字。

在本申请实施例中,错别词对列表可以是基于错别词显示指令显示的。也就是说,如果检测到用户触发了错别词显示指令,那么可以对目标文本进行错别词识别,确定目标文本中所包括的错别词以及与错别词对应的正确词,并通过错别词对列表进行显示。

在本申请实施例中,错别词显示指令可以用户操作触发的,也可以是自动触发的。下面分别进行介绍。

在第一种可能的实现中,错别词显示指令可以是用户操作触发的。其中,用户操作可以包括对错别词显示控件的点击操作。具体地,可以在客户端的显示区域上显示错别词显示控件。当用户想要对目标文本进行错别词识别时,可以点击显示区域所显示的错别词显示控件。如果检测到错别词显示控件被点击,可以认为用户触发了错别词显示指令,从而继续执行后续操作。

仍以图2为例进行说明。如图2所示,显示装置的显示区域还可以包括错别词显示控件230。该错别词对显示控件230可以位于文字输入区域220侧方,也可以位于显示区域中的其他位置。如果想要对目标文本进行错别词识别,用户可以点击显示区域上的错别词对显示控件230,以便对目标文本进行错别词识别。代表具有实际的、完整的意义词组

在本申请实施例中,除了对错别词显示控件的点击操作以外,用户操作还可以是手势操作,也可以是向客户端发出语音指令等操作。

在第二种可能的实现中,错别词显示指令是自动触发的。

可选地,可以在客户端中设置计时器。这样,在用户输入目标文本之后,可以通过定时器定时触发错别词显示,从而周期性对目标文本进行错别词识别。可选地,也可以通过计时器记录用户输入目标文本的时间。如果检测到用户一段时间内没有输入目标文本,那么可以主动触发错别词显示指令,对目标文本进行错别词识别。

在错别词识别指令被触发之后,可以对目标文本进行错别词识别,从目标文本中得到一个或多个错别词对,并通过错别词对列表展示识别出的一个或多个错别词对。其中,一个错别词对包括一个错别词和与该错别词对应的正确词。关于识别错别词的具体方法可以参见后续实施例的描述,这里不再赘述。

下面对显示错别词对列表的方法进行介绍。

在本申请实施例中,错别词对列表可以显示在显示区域上除目标文本以外的其他显示区域,例如可以与目标文本并列显示。具体地,如图3-A所示,在图2所示的显示区域的基础上,显示区域可以包括错别词对列表显示区域310和目标文本显示区域320。其中,错别词对列表显示区域310用于错别词对列表,目标文本显示区域320用于显示目标文本。在图3-A所示实施例中,错别词对显示区域310中显示有第一错别词对311、第二错别词对312、第三错别词对313、第四错别词对314和第五错别词对315,分别用于显示五个错别词和与这五个错别词分别对应的正确词。

可选地,目标文本显示区域320中显示的目标文本可以是标记后的目标文本。标记是指将目标文本中的错别词与其他正确词进行区分显示,例如可以在目标文本中的错别词下方添加红色波浪线。可选地,当用户将光标等控件移动至错别词时,可以通过浮窗或弹窗显示错别词对应的正确词。

在一些可能的实现方式中,当目标文本中错别词对的数量较多,错别词对列表显示区域310可能无法一次性显示全部的错别词对。那么,错别词对列表显示区域310可以一次显示部分错别词对,并显示翻页控件(图3-A中未示出),以便用户通过翻页控件查看其他错别词对。

在本申请实施例中,在显示错别词对列表时,显示区域上还可以显示错别词对的数据,以便用户了解到目标文件中存在多少个错别词。具体地,如图3-A所示,显示区域还可以包括错别词对数量显示区域320。该错别词对数量显示区域330用于显示目标文本中错别词对的数量。在图3-A所示的实施例中,错别词对数量显示区域330显示的值为5,表示目标文本中共具有5个错别词。可选地,错别词对数量显示区域330也可以属于错别词对列表显示区域310。

在一些可能的实现方式中,错别词对的数量也可以通过前述错别词对显示控件显示,例如可以通过上标或下标的方式显示在错别词对显示控件周围。具体地,如图3-A所示,显示区域还可以包括错别词对显示控件340。在错别词对显示控制控件340的右上角,显示有目标文本具有的错别词对的数量,表示目标文本中共具有5个错别词。

下面介绍错别词对列表中错别词对的显示方式。

在本申请实施例中,错别词对可以包括一个错别词和与该错别词对应的正确词。为了便于用户从错别词对中区分错别词和正确词,在显示错别词对时,可以为错别词对中的错别词添加标记。可选地,可以在错别词和正确词之间添加修改标记,修改标记用于标识错别词和正确词,也可以通过不同的颜色显示正确词和错别词,例如可以用红色显示错别词,黑色显示正确词。

具体地,如图3-B所示,图3-A中的第一错别词对311可以包括错别词显示区域311-1、正确词显示区域311-2和错误标识311-3。在图3-B所示的实施例中,错别词显示区域311-1用于显示错别词“衣复”,正确词显示区域311-2用于显示错别词“衣复”对应的正确词“衣服”,错误标识311-3用于指示“衣复”为错别词,“衣服”为正确词。

在一些可能的实现方式中,目标文本可能包括多个段落。那么为了便于用户快速找到错别词所在的段落,可以根据错别词所在的段落,将错别词对列表所包括的一个或多个错别词进行区分显示。

具体地,可以在第二显示区域中划分出N个显示子区域(N为大于或等于1的整数),每个显示子区域可以对应目标文本中的一个段落。在显示错别词对列表中的各个错别词对时,可以将错别词对显示在该错别词对中错别词所述的段落对应的显示子区域。也就是说,显示子区域可以对应目标文本中的一个段落,该段落中的错别词对应的错别词对可以显示在该显示子区域中。

根据前文介绍可知,在本申请实施例中,错别词可以分为实体词和非实体词,且实体词和非实体词是通过不同的方式从目标文本中检测得到的。相应地,第二显示区域可以分为第一子显示区域和第二子显示区域。其中,第一子显示区域可以用于显示错别词为实体词的错别词对,第二子显示区域可以用于显示错别词为非实体次的错别词对。

在一些可能的实现方式中,用户可以点击错别词对显示列表中显示的错别词对。当检测到错别词对被用户点击时,可以跳转到目标文本中错别词所在的位置,以便用户查看。

在跳转到目标文本中错别词所在的位置之后,可以提示用户错别词在目标文本中的具体位置,例如可以通过高亮闪烁的方式进行提示。关于这部分内容的介绍可以参见后文,这里不再赘述。

在本申请实施例中,用户还可以触发错别词修改指令,用于将目标文本中显示的错别词修改为对应的正确词。可选地,错别词修改指令可以用于将单个错别词修改为对应的正确词,也可以用于将目标文本中多个错别词修改为正确词。下面分别对这可能的实现方式进行介绍

在第一种可能的实现方式中,错别词修改指令可以用于将单个错别词对中的错别词修改为对应的正确词。即,错别词对该指令用于对一个错别词对进行修改。

在本申请实施例中,错别词修改指令可以是用户对错别词修改控件的操作触发的。例如,可以在错别词对列表中显示错别词修改控件。当检测到用户点击了错别词修改控件之后,可以确定错别词修改指令被触发,从而对错别词进行修改。可选地,错别词修改控件可以显示在第二显示区域。

可选地,由于错别词修改指令用于对单个错别词进行修改,错别词修改控件可以与错别词对列表中的错别词对关联显示。具体地。如图4所示,显示区域中可以包括错别词对列表显示区域410和目标文本显示区域420。其中,错别词列表显示区域410包括第一错别词对显示区域411和第一错别词修改控件412。

其中,第一错别词对显示区域411用于显示目标文本中的错别词“衣复”和与错别词对应的正确词“衣服”。第一错别词修改控件412用于触发错别词修改指令。在用户点击第一错别词修改控件412之后,可以触发错别词修改指令,将目标文本中的“衣复”修改为“衣服”。

根据前文介绍可知,在确定目标文本所包括的错别词之后,可以在第一显示区域所显示的目标文本中将错别词标注出来。当用户将光标等控件移动至错别词时,可以通过浮窗或弹窗显示错别词对应的正确词。在这种应用场景中,用户可以对第一显示区域中显示的错别词或正确词触发错别词修改指令,以便将该错别词修改为正确词。可选地,对第一显示区域中显示的错别词或正确词触发错别词修改指令,可以用于修改该错别词进行修改,也可以用于修改目标文本中多个同类的错别词。

在第二种可能的实现方式中,错别词修改指令可以用于将多对错别词对中的多个错别词分别修改为对应的正确词。即,错别词对该指令用于对多个错别词对进行修改。其中,所述多个错别词可以包括错别词对列表中所有的错别词,即目标文本具有的全部错别词。当错别词修改指令用于多目标文本中具有的全部错别词进行修改时,所述错别词修改指令又可以被称为一键修改指令。

与第一种可能的实现方式类似,用于将多个错别词分别修改为对应的正确词的错别词修改指令也可以是用户对错别词修改控件的操作触发的。可选地,用于触发意见修改指令的错别词修改控件可以被称为意见修改控件。

具体地。如图5所示,显示区域中可以包括错别词对列表显示区域510和目标文本显示区域520。其中,错别词列表显示区域510可以包括第一错别词对显示区域511、第一错别词修改控件512、第二错别词对显示区域513、第二错别词修改控件514和一键修改控件515。

其中,第一错别词对显示区域511用于显示目标文本中的错别词“衣复”和与错别词对应的正确词“衣服”。第一错别词修改控件512用于触发错别词修改指令,将目标文本中的“衣复”修改为“衣服”。第二错别词对显示区域513用于显示目标文本中的错别词“用虎”和与错别词对应的正确词“用户”。第二错别词修改控件514用于触发错别词修改指令,将目标文本中的“用虎”修改为“用户”。一键修改控件515用于触发一键修改指令,修改目标文本中存在的所有错别词。在图5所示实施例中,一键修改控制键515被触发后,可以将目标文本中的“衣复”修改为“衣服”,“用虎”修改为“用户”。

需要说明的是,如图5所示,错别词对显示列表(即第二显示区域)既可以包括用于对单个错别词进行修改的错别词修改控件,也可以包括用于对多个错别词进行修改的错别词修改控件。

在一些可能的实现方式中,在用户触发了错别词修改指令后,可以跳转到目标文本中错别词的显示位置。例如,在图4所示实施例中,如果用户通过第一错别词修改控件412触发了对错别词“衣复”的错别词修改指令,目标文本显示区域420所显示的目标文本可以跳转到错别词“衣复”对应的位置。对于用于修改多个错别词的错别词修改指令,可以跳转到目标错别词在目标文本中的显示位置。其中,目标错别词为多个被修改的错别词中在目标文本中的位置最靠后的错别词。

在一些可能的实现方式中,用户也可以通过点击第二显示区域中的错别词对,控制跳转到目标文本中错别词对应的位置。也就是说,用户可以通过点击错别词触发跳转指令。在接收到跳转指令之后,可以跳转到目标文本中目标错别词所在的显示位置,并突出显示目标错别词。

可选地,可以在对错别词被修改之前跳转到错别词在目标文本中的显示位置,也可以在错别词被修改之后跳转到错别词在目标文本中的显示位置。

在一些可能的实现方式中,在跳转到错别词对应的显示位置之后,还提示用户错别词即将被修改或将要被修改。

具体地,在跳转到目标文本中错别词的显示位置之后,在对于错别词进行修改之前,可以将目标文本中显示的错别词进行高亮闪烁,以提示用户错别词在目标文本中的具体位置。其中,高亮是指将错别词的背景色设置为与目标文本中其他字词的背景色不同,例如可以将错别词的背景色设置为黄色。在进行高亮闪烁时,可以先将错别词进行高亮,再将错别词的北京颜色设置为与目标文本中其他字词的背景色,接着再将错别词进行高亮。可选地,也可以通过弹窗或其他形式提示错别词即将被修改。

在一些可能的实现方式中,错别词识别方法识别出的错别词可能不够准确,导致部分正确词可能被识别为错别词,并被显示在错别词对显示列表中。对于这些被误识别为错别词的正确词,用户可以通过触发错别词忽略指令进行保留。在错别词忽略指令被触发后,可以将错别词忽略指令对应的错别词标记为正确词,并从错别词对列表中删除该错别词对应的错别词对。

其中,错别词忽略指令可以是用户对错别词忽略控件的操作触发的。可选地,错别词忽略指令可以用于对单个错别词进行忽略,也可以用于对多个错别词进行忽略,例如可以对目标文本中全部错别词进行忽略。

具体地,如图4所示,错别词对列表显示区域410还可以包括错别词忽略控件413。当用户点击了错别词忽略控件413之后,可以确定错别词忽略指令被触发,从而忽略“衣复”这个错别词。将错别词对“衣复→衣复”从错别词对列表显示区域410中删除。

在一些可能的实现方式中,用户输入的目标文本可能是待发布的目标文本。例如,用户输入的目标文本可以是待发布的博客或小说。为了减少用户发布的目标文本中的错别词,在发布目标文本之前,可以判断目标文本是否存在错别词。并在目标文本包括错别词时提醒用户。在这种应用场景下,本申请实施例提供的错别词识别方法可以由用于发布目标文本的网页或应用程序执行。

具体地,在接收到用户触发的针对目标文本的发布指令之后,可以检测目标文本中是否包含错别词,即目标文本的错别词对列表中错别词对的数量是否为0。如果目标文本错别词对列表中错别词对的数量不为0,可以显示提醒信息。提醒信息例如可以是包含提示话语的弹窗。

具体地,如图6所示,显示区域可以包括目标文本显示区域610、错别词对列表显示区域620、提醒信息显示区域630和发布控件640。在图6所示实施例中,目标文本包括2个错别词,错别词对列表中包括2对错别词。如果检测到用户触发了发布控件,可以确定用户触发了针对目标文本的发布指令。由于目标文本中包括2个错别词,可以通过提醒信息显示区域630提示用户错别词对列表中错别词对的数目不为0。

提醒信息显示区域630可以包括提醒信息,用于提示用户目标文本中仍然存在错别词。在图6所示实施例中提醒信息为“还有错别词,请问是否发布”。如果用户仍然想要发布目标文本,可以触发提醒信息显示区域630中的确认控件631,如果用户想要对目标文本进行调整,可以触发提醒信息显示区域630中的取消控件633。

在本申请实施例提供的错别词识别方法中,可以先获取目标文本,并通过错别词对列表展示目标文本中的错别词,便于用户查看。另外,用户还可以通过触发控件跳转到错别词在目标文本中所在的位置,或者对目标文本中的错别词进行修改或忽略。如此,使得用户可以方便快捷地对目标文本中的错别词进行处理。

上面对介绍了本申请实施例提供的错别词识别方法中展示错别词对列表的方法及其他相关的操作。下面介绍从目标文本中识别错别词的方法。

参见图7,该图为本申请实施例提供的错别词识别方法的一种流程示意图,包括:

S701:获取目标文本。

关于获取目标文本的介绍可以参见前文,这里不再赘述。

S702:将目标文本输入到错字纠错模型中,得到纠错文本。

在得到目标文本后,可以将目标文本输入到错字纠错模型中,得到纠错文本。其中,纠错文本为目标文本中所包括的错别词被纠正为正确词后得到的正确文本。错字纠错模型可以是根据错误句对训练得到,所述错误句对可以包括错误句和正确句。错误句为包括错别词的句子,正确句为与所述错误句相对应,且不包括错别词的句子。

在一些可能的实现方式中,错字纠错模型可以是基于变换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型,也可以是基于BERT的软件面(Softmask-BERT)模型。

在一些可能的实现方式中,用于训练错字纠错模型的错误句对可以是进行替换得到的。具体地,可以先获取多个正确句,接着将正确句中的一个或多个字替换为错别词,得到该正确句对应的错误句。在一些其他可能的实现方式中,错误句对可以是从多篇目标文本中收集得到的。例如,可以获取多篇目标文本,并人工标注其中的错误句,再将错误句中的错别词纠正为正确词,得到正确句。如果错字纠错模型为Softmask-BERT模型或BERT模型,在将训练用的正确句和错误句输入错字纠错模型之前,可以先将错误句和正确局分别处理为对应的向量。

S703:比对目标文本和纠错文本,得到第一错别词对列表。

在得到纠错文本之后,可以将目标文本和纠错文本进行比对,得到第一错别词对列表。其中,第一错别词对列表中包括一个或多个错别词,以及分别与每个错别词对应的正确词。

在本申请实施例中,第一错别词对列表所包括的错别词为非实体词。实体词是指目标文本中具有特定含义的名词或者代词,例如可以包括人名或地名等,也可以包括某些领域通用的名词,还可以包括由目标文本的作者创造且在目标文本中持续被沿用的名词。相反地,非实体词为除实体词以外的其他词。

具体地,在比对目标文本和纠错文本的过程中,如果得到的错别词对中错别词属于实体词,可以拒绝将错别词对加入第一错别词对列表。举例说明,假设通过比对目标文本和纠错文本得到了第一错别词对,其中第一错别词对包括第一错别词和第二正确词。接着,可以判断第一错别词是否为实体词。如果第一错别词为实体词,可以拒绝将第一错别词对加入第一错别词对列表。如果第一错别词为非实体词,可以将第一错别词对加入第一错别词对列表。

如果某个词语中包括错别词,但是该词语可能是具有实际意义的、不可分割格的名词。为了防止将这些词语中的文字识别为错别词判断识别出的错别词是否属于实体词。

例如,“衣复”这个词相对于“衣复”存在错误,“衣复”为错别词,“衣服”为正确词。但是,如果目标文本为一篇小说,其中存在一个人物名叫做“张衣复”。由于“张”字可以表示“衣复”属于人名的一部分,可以将“张衣复”确定为实体词,从而拒绝将“衣复→衣服”这一错别词对加入第一错别词对列表。

在本申请实施例中,可以通过命名实体识别技术判断第一错别词是否为实体词,也可以查询其他目标文本或网页判断第一错别词是否为实体词。

除了实体词以外,在本申请实施例中,还可以通过其他条件判断错别词对是否能够加入第一错别词对列表。下面以第一错别词对为例进行说明。

在第一种可能的实现方式中,可以判断第一错别词在目标文本中出现的次数是否大于阈值。如果第一错别词在目标文本中出现的次数大于第一阈值,可以拒绝将第一错别词对加入第一错别词对列表。

如果某个词语中包括错别词,但是在目标文本中多次出现,那么该错别词可能是用户有意识的添加到目标文本中的。因此,为了防止将这些词语中的文字识别为错别词,可以统计第一错别词在目标文本中出现的次数,并判断该次数是否大于第一阈值。如果次数大于第一阈值,可以拒绝将第一错别词对加入第一错别词对列表。

在第二种可能的实现方式中,可以判断第一错别词和第一正确词是否为近义词或反义词。如果第一错别词为第一正确词的近义词或反义词,可以拒绝将第一错别词对加入第一错别词对列表。

在一些可能的实现方式中,第一错别词可能是目标文本语法上存在问题的字。例如可以是目标文本中的增字或删字。那么,可以通过语法纠错模型判断第一错别词和第一错别词对应的第一正确词是否为近义词或反义词。

如果第一错别词为第一正确词的近义词,说明将第一错别词替换为第一正确词对目标文本的意义影响不大,存在用户处于某种考虑特意使用第一错别词代替第一正确词的可能性。因此,为了降低误报的概率,可以拒绝将第一错别词对加入第一错别词对列表,从而避免对第一错别词对进行修改。

如果第一错别词为第一正确词的反义词,说明将第一错别词替换为第一正确词会导致目标文本的语义颠倒,存在影响目标文本所表达的含义的可能性。因此,为了避免错误修改,可以拒绝将第一错别词对加入第一错别词对列表,从而避免对第一错别词对进行修改。

在第二种可能的实现方式中,可以判断第一正确词是否为在语义上强调所述第一错误字的正确词。如果第一正确词是否为在语义上强调所述第一错误字的正确词,可以拒绝将第一错别词对加入第一错别词对列表。

在一些可能的实现方式中,第一错误字对应的第一正确词可能是用于强调第一错误字。如果将第一错误字修改为第一正确词,相当于增强了目标文本的表达力度,但是并未对目标文本实质表达的含义进行修改。因此,为了降低误报的概率,可以将第一错别词对从错别词对列表中删除,从而避免对第一错别词对进行修改。

S704:从目标文本中识别多个实体词,根据多个实体词中任意两个实体词的相似度确定第二错别词对列表。

在步骤S703中,从目标文本所包括的错别词中选择非实体词,并将包括非实体次的错别词对加入第一错别词对列表。在实际的应用场景中,实体词可能出现错误。例如,在撰写目标文本时,可能将一个实体词写成另一个实体词。例如在输入地名时可能将“武汉”输入为“芜湖”。因此,为了发现目标文本中存在的错误的实体词,可以根据实体词的相似度从目标文本中确定第二错别词对列表。其中,第二错别词包括至少一个第二错别词对,第二错别词对包括第二错别词和第二正确词。第二错别词和第二正确词均为实体词。

下面以目标文本包括第一实体词和第二实体词为例,进行介绍判断第一实体词或第二实体词是否为第二错别词的过程。其中,第一实体词和第二实体词为目标文本中任意两个实体词。当目标文本中实体词的数量多于两个时,可以将多个任意实体词中任意两个实体词作为第一实体词和第二实体词进行判断。

为了判断第一实体词和第二实体词中是否存在错别词,可以先统计第一次数和第二次数,并比较第一实体词和第二实体词之间的相似度。其中,第一次数为第一实体词在目标文本中的出现次数,第二次数为第二实体词在目标文本中的出现次数,相似度表示第一实体词和第二实体词之间的相似程度,能够体现用户将第一实体词输错为第二实体词,或将第二实体词输错为第一实体词的概率。相似度例如可以是第一实体词的拼音串和第二实体词的拼音串中包括的相同字符串中字母的个数,也可以是第一实体词的拼音串和第二实体词的拼音串之间的编辑距离。例如,假设第一实体词为“武汉”,第二实体词为“芜湖”,那么第一实体词的拼音串为“wuhan”,第二实体词的拼音串为“wuhu”,其中包括的相同字符串为“wuh”,字母的个数为3。第一实体词的拼音串到第二实体词的拼音串之间的编辑距离为2。

在得到第一次数、第二次数和第一实体词和第二实体词之间的相似度之后,可以比较第一次数和第二次数的大小,并比较相似度和第二阈值之间的大小。如果相似度大于第二阈值,说明第一实体词和第二实体词之间的相似度较高,存在用户输入错误的可能性。如果第一次数大于第二次数,说明目标文本中第一实体词出现的次数比第二实体词出现的次数更多。那么,可以认为用户在输入第一实体词时,错误地将第一实体词输入成第二实体词。基于此,可以将第一实体词和第二实体词确定为第二错别词对,其中第一实体词为第二正确词,第二实体词为第二错别词。

如果第一次数小第二次数,说明目标文本中第二实体词出现的次数比第一实体词出现的次数更多。那么,可以认为用户在输入第一实体词时,错误地将第二实体词输入成第一实体词。基于此,可以将第一实体词和第二实体词确定为第二错别词对,其中第二实体词为第二正确词,第一实体词为第二错别词。

S705:根据第一错别词对列表和第二错别词对列表得到目标文本的错别词对列表。

在得到第一错别字对列表和第二错别字对列表之后,可以根据第一错别字对列表和第二错别字对列表得到目标文本的错别词对列表,进而通过图1对应实施例所述的方法进行展示。

图8为本申请实施例提供的一种错别词识别装置的结构示意图,本实施例可以适用于从目标文本中识别错别词的场景,该错别词识别装置具体包括获取模块810和显示模块820。

具体地,获取模块810,用于接收并在页面的第一显示区域中显示用户输入的目标文本。

显示模块820,用于在所述页面的第二显示区域显示所述目标文本对应的错别词对列表;其中,所述错别词对列表包括一个或多个错别词对,所述错别词对包括所述目标文本中的错别词和用于对所述错别词进行纠错的正确词,所述错别词包括实体词和/或非实体词,所述实体词和所述非实体词基于不同方式从所述目标文本中识别得到。

本申请实施例所提供错别词识别装置可执行本申请任意实施例所提供的错别词识别方法,具备执行错别词识别方法相应的功能单元和有益效果。

图9为本申请实施例提供的一种错别词识别装置的结构示意图,本实施例可以适用于从目标文本中识别错别词的场景,该错别词识别装置具体包括获取模块910、纠错模块920、第一比对模块930、第二比对模块940和确定模块950。

具体地,获取模块910,用于获取目标文本。

纠错模块920,用于将所述目标文本输入到错字纠错模型中,得到纠错文本,所述纠错文本为所述目标文本中的错别词被纠正之后的正确文本,所述错字纠错模型根据错误句对训练得到,所述错误句对包括错误句和正确句,所述错误句为包括错别词的句子,所述正确句为不包括错别词的句子。

第一比对模块930,用于比对所述目标文本和所述纠错文本,得到第一错别词对列表,所述第一错别词对列表包括所述目标文本中的第一错别词以及所述纠错文本中与所述第一错别词对应的第一正确词,所述第一错别词为非实体词。

第二比对模块940,用于从所述目标文本中识别多个实体词,根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表,所述第二错别词列表包括第二错别词和第二正确词,所述第二错别词和所述第二正确词均为实体词。

确定模块950,用于根据所述第一错别词对列表和所述第二错别词对列表得到所述目标文本的错别词对列表。

本申请实施例所提供错别词识别装置可执行本申请任意实施例所提供的错别词识别方法,具备执行错别词识别方法相应的功能单元和有益效果。

下面参考图10,其示出了适于用来实现本公开实施例的电子设备(例如运行有软件程序的终端设备或服务器)1000的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示,电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储装置1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM1003中,还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

通常,以下装置可以连接至I/O接口1005:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1007;包括例如磁带、硬盘等的存储装置1008;以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行图1和/或图7所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1009从网络上被下载和安装,或者从存储装置1008被安装,或者从ROM1002被安装。在该计算机程序被处理装置1001执行时,执行本公开实施例的方法中限定的上述功能。

本公开实施例提供的电子设备与上述实施例提供的错别词识别方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见上述实施例,并且本公开实施例与上述实施例具有相同的有益效果。本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的错别词识别方法。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:

接收并在页面的第一显示区域中显示用户输入的目标文本;在所述页面的第二显示区域显示所述目标文本对应的错别词对列表;其中,所述错别词对列表包括一个或多个错别词对,所述错别词对包括所述目标文本中的错别词和用于对所述错别词进行纠错的正确词,所述错别词包括实体词和/或非实体词,所述实体词和所述非实体词基于不同方式从所述目标文本中识别得到。

或者,使得该电子设备:

获取目标文本;将所述目标文本输入到错字纠错模型中,得到纠错文本,所述纠错文本为所述目标文本中的错别词被纠正之后的正确文本,所述错字纠错模型根据错误句对训练得到,所述错误句对包括错误句和正确句,所述错误句为包括错别词的句子,所述正确句为不包括错别词的句子;

比对所述目标文本和所述纠错文本,得到第一错别词对列表,所述第一错别词对列表包括所述目标文本中的第一错别词以及所述纠错文本中与所述第一错别词对应的第一正确词,所述第一错别词为非实体词;从所述目标文本中识别多个实体词,根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表,所述第二错别词列表包括第二错别词和第二正确词,所述第二错别词和所述第二正确词均为实体词;根据所述第一错别词对列表和所述第二错别词对列表得到所述目标文本的错别词对列表。

计算机可读存储介质可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元单元的名称在某种情况下并不构成对该单元本身的限定,

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例,【示例一】提供了一种错别词识别方法,该方法包括:

接收并在页面的第一显示区域中显示用户输入的目标文本;

在所述页面的第二显示区域显示所述目标文本对应的错别词对列表;其中,所述错别词对列表包括一个或多个错别词对,所述错别词对包括所述目标文本中的错别词和用于对所述错别词进行纠错的正确词,所述错别词包括实体词和/或非实体词,所述实体词和所述非实体词基于不同方式从所述目标文本中识别得到。

根据本公开的一个或多个实施例,【示例二】提供了一种错别词识别方法,该方法还包括:可选地,所述方法还包括:

响应于所述用户触发的错别词修改指令,确定所述错别词修改指令对应的目标错别词;

将所述目标文本中的所述目标错别词修改为对应的目标正确词。

根据本公开的一个或多个实施例,【示例三】提供了一种错别词识别方法,该方法还包括:可选地,在将所述目标文本中的所述错别词修改为对应的所述正确词之前,所述方法还包括:

响应于所述用户在所述第二显示区域触发的错别词修改指令,跳转到所述目标文本中的所述目标错别词的显示位置,并突出显示所述目标错别词;或,

响应于所述用户点击所述错别词触发的跳转指令,跳转到所述目标文本中的所述目标错别词的显示位置,并突出显示所述目标错别词。

根据本公开的一个或多个实施例,【示例四】提供了一种错别词识别方法,该方法还包括:可选地,所述方法还包括:

响应于所述用户触发的错别词一键修改指令,将所述错别词对列表包括的所述一个或多个错别词修改为对应的正确词。

根据本公开的一个或多个实施例,【示例五】提供了一种错别词识别方法,该方法还包括:可选地,所述目标文本包括N个段落,对应地,所述第二显示区域包括N个显示子区域,N为大于1的整数;

所述在所述页面的第二显示区域显示所述目标文本的错别词对列表,包括:

在所述第二显示区域的各所述显示子区域显示该子区域对应的所述段落的错别词对列表。

根据本公开的一个或多个实施例,【示例六】提供了一种错别词识别方法,该方法还包括:所述第二显示区域包括第一子显示区域和第二子显示区域,所述第一子显示区域用于显示包括所述实体词的错别词对,所述第二子显示区域用于显示包括所述非实体词的错别词对。

根据本公开的一个或多个实施例,【示例七】提供了一种错别词识别方法,该方法还包括:可选地,所述错别词包括第一错别词,所述方法还包括:

在所述第一显示区域中高亮显示所述第一错别词;

响应于所述用户对所述第一错别词触发的显示指令,显示所述第一错别词对应的第一正确词;

响应于所述用户触发的修改操作,将所述目标文本中的所述第一错别词替换为所述第一正确词;

删除所述错别词对列表中的所述第一错别词和所述第一正确词。

根据本公开的一个或多个实施例,【示例八】提供了一种错别词识别方法,该方法还包括:可选地,所述方法还包括:

在所述第二显示区域显示所述错别词在所述目标文本中出现的频次。

根据本公开的一个或多个实施例,【示例九】提供了一种错别词识别方法,该方法包括:

获取目标文本;

将所述目标文本输入到错字纠错模型中,得到纠错文本,所述纠错文本为所述目标文本中的错别词被纠正之后的正确文本,所述错字纠错模型根据错误句对训练得到,所述错误句对包括错误句和正确句,所述错误句为包括错别词的句子,所述正确句为不包括错别词的句子;

比对所述目标文本和所述纠错文本,得到第一错别词对列表,所述第一错别词对列表包括所述目标文本中的第一错别词以及所述纠错文本中与所述第一错别词对应的第一正确词,所述第一错别词为非实体词;

从所述目标文本中识别多个实体词,根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表,所述第二错别词列表包括第二错别词和第二正确词,所述第二错别词和所述第二正确词均为实体词;

根据所述第一错别词对列表和所述第二错别词对列表得到所述目标文本的错别词对列表。

根据本公开的一个或多个实施例,【示例十】提供了一种错别词识别方法,该方法还包括:可选地,所述比对所述目标文本和所述纠错文本,得到第一错别词对列表包括:

比对所述目标文本和所述纠错文本,得到第一错别词对,所述第一错别词对包括第一错别词和第一正确词;

响应于所述第一错别词为非实体词,将所述第一错别词对加入所述第一错别词对列表。

根据本公开的一个或多个实施例,【示例十一】提供了一种错别词识别方法,该方法还包括:可选地,所述方法还包括:

将所述错误句和所述正确句分别处理为对应的向量;

将所述错误句对应的向量和所述正确句对应的向量分别输入到所述错字纠错模型进行训练,所述错字纠错模型为基于变换器的双向编码表征BERT模型或基于BERT的软件面Softmask-BERT模型。

根据本公开的一个或多个实施例,【示例十二】提供了一种错别词识别方法,该方法还包括:可选地,所述目标文本包括第一实体词和第二实体词;所述根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表包括:

确定所述第一实体词和所述第二实体词的相似度;

响应于所述相似度大于或等于第二阈值,且第一次数大于第二次数,将所述第一实体词和所述第二实体词确定为第二错别词对,并将所述第二错别词对加入所述第二错别词对列表,其中,所述第一次数为所述第一实体词在所述目标文本中出现的次数,所述第二次数为所述第二实体词在所述目标文本中出现的次数,所述第一实体词为所述第二错误字对的正确词,所述第二实体词为所述第二错误字对的错别词。

根据本公开的一个或多个实施例,【示例十三】提供了一种错别词识别方法,该方法还包括:可选地,所述相似度表示为所述第一实体词的拼音串和所述第二实体词的拼音串中包括的相同字符串中字母的个数。

根据本公开的一个或多个实施例,【示例十四】提供了一种错别词识别方法,该方法还包括:可选地,所述相似度表示为所述第一实体词的拼音串和所述第二实体词的拼音串之间的编辑距离。

根据本公开的一个或多个实施例,【示例十五】提供了一种错别词识别装置,包括:获取模块,用于接收并在页面的第一显示区域中显示用户输入的目标文本;

显示模块,用于在所述页面的第二显示区域显示所述目标文本对应的错别词对列表;其中,所述错别词对列表包括一个或多个错别词对,所述错别词对包括所述目标文本中的错别词和用于对所述错别词进行纠错的正确词,所述错别词包括实体词和/或非实体词,所述实体词和所述非实体词基于不同方式从所述目标文本中识别得到。

根据本公开的一个或多个实施例,【示例十六】提供了一种错别词识别装置,包括:

获取模块,用于获取目标文本;

纠错模块,用于将所述目标文本输入到错字纠错模型中,得到纠错文本,所述纠错文本为所述目标文本中的错别词被纠正之后的正确文本,所述错字纠错模型根据错误句对训练得到,所述错误句对包括错误句和正确句,所述错误句为包括错别词的句子,所述正确句为不包括错别词的句子;

第一比对模块,用于比对所述目标文本和所述纠错文本,得到第一错别词对列表,所述第一错别词对列表包括所述目标文本中的第一错别词以及所述纠错文本中与所述第一错别词对应的第一正确词,所述第一错别词为非实体词;

第二比对模块,用于从所述目标文本中识别多个实体词,根据所述多个实体词中任意两个实体词的相似度确定第二错别词对列表,所述第二错别词列表包括第二错别词和第二正确词,所述第二错别词和所述第二正确词均为实体词;

确定模块,用于根据所述第一错别词对列表和所述第二错别词对列表得到所述目标文本的错别词对列表。

根据本公开的一个或多个实施例,【示例十七】提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请任一实施例所述的错别词识别方法。

根据本公开的一个或多个实施例,【示例十八】提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请任一实施例所述的错别词识别方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种词典构建方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!