文本处理方法、装置、电子设备及计算机可读存储介质

文档序号：1922143 发布日期：2021-12-03 浏览：11次 >En<

阅读说明：本技术 文本处理方法、装置、电子设备及计算机可读存储介质 (Text processing method and device, electronic equipment and computer readable storage medium ) 是由包祖贻李辰王睿于 2020-05-27 设计创作，主要内容包括：本公开实施例公开了一种文本处理方法、装置、电子设备及计算机可读存储介质,所述方法包括：获取文本对象,并对所述文本对象进行向量化处理,得到与所述文本对象对应的向量化矩阵；对于所述向量化矩阵进行第一特征提取,得到第一特征矩阵,并基于所述第一特征矩阵进行拼写检查,得到拼写检查概率矩阵；对于所述第一特征矩阵进行第二特征提取,得到第二特征矩阵,并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。该技术方案综合使用了拼写检查特征数据和拼写纠错特征数据,在保证文本处理质量、提高文本处理鲁棒性的前提下,还能够有效提高文本处理的效率,节约人工成本。(The embodiment of the disclosure discloses a text processing method, a text processing device, an electronic device and a computer readable storage medium, wherein the method comprises the following steps: acquiring a text object, and performing vectorization processing on the text object to obtain a vectorization matrix corresponding to the text object; performing first feature extraction on the vectorization matrix to obtain a first feature matrix, and performing spell check on the basis of the first feature matrix to obtain a spell check probability matrix; and performing second feature extraction on the first feature matrix to obtain a second feature matrix, and executing processing based on the spell check probability matrix and the second feature matrix to obtain a processing result of the text object. The technical scheme comprehensively uses the spell checking characteristic data and the spell correction characteristic data, and can effectively improve the text processing efficiency and save the labor cost on the premise of ensuring the text processing quality and improving the text processing robustness.)

技术领域

本公开实施例涉及图像处理技术领域，具体涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

背景技术

人们在使用输入工具输入文本时，经常会出现拼写错误、形近字错误、音近字错误等输入错误，上述输入错误通常会使得文本容易被误解，进而影响人们文字交流的效果和效率，而且在很多严谨的文书场景中，比如政策、司法、合同文本等，对于上述输入错误的容忍度几乎是零。因此，很多情况下都需要对于文本进行校对，现有技术中存在人工校对和机器校对两种校对方式，其中，人工校对方式相对校对质量较高，但其耗时耗力，校对效率低下；机器校对方式校对速度快，但由于中文文本表达方式非常复杂，很多拼写错误难以被准确识别，另外，现有机器校对方法中使用的拼写检查特征数据和拼写纠错特征数据是相对独立的数据，无论哪种数据都不足以提高文本校对的鲁棒性，因此校对质量低下。综上，亟需一种能够同时保障校对质量和校对效率又能够节约人工成本的文本处理方法。

发明内容

本公开实施例提供一种文本处理方法、装置、电子设备及计算机可读存储介质。

第一方面，本公开实施例中提供了一种文本处理方法。

具体的，所述文本处理方法，包括：

获取文本对象，并对所述文本对象进行向量化处理，得到与所述文本对象对应的向量化矩阵；

对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵，并基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵；

对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵，并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。

结合第一方面，本公开实施例在第一方面的第一种实现方式中，所述获取文本对象，并对所述文本对象进行向量化处理，得到与所述文本对象对应的向量化矩阵，被实施为：

获取文本对象；

对于所述文本对象进行字分割得到字集合；

对于所述字集合进行向量化矩阵映射，得到与所述文本对象对应的向量化矩阵，其中，所述向量化矩阵的维度为n*d，n为字集合中字的数量，d为预设向量化维度。

结合第一方面和第一方面的第一种实现方式，本公开实施例在第一方面的第二种实现方式中，所述对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵，被实施为：

确定上下文特征提取模型；

利用所述上下文特征提取模型提取所述向量化矩阵的上下文特征，得到第一特征矩阵，其中，所述第一特征矩阵的维度为n*h1，n为字集合中字的数量，h1为所述上下文特征提取模型的预设输出维度。

结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵，被实施为：

确定拼写检查模型；

将所述第一特征矩阵作为所述拼写检查模型的输入进行计算，得到拼写检查概率矩阵，其中，所述拼写检查概率矩阵的维度为n*r，n为字集合中字的数量，r为拼写检查结果类别的数量。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵，被实施为：

确定拼写处理特征提取模型；

利用所述拼写处理特征提取模型提取所述第一特征矩阵的拼写处理特征，得到第二特征矩阵，其中，所述第二特征矩阵的维度为n*h2，n为字集合中字的数量，h2为所述拼写处理特征提取模型的预设输出维度。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，所述基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果，被实施为：

确定预设词表和处理候选概率计算模型，其中，所述预设词表至少包括所述字集合；

将所述第二特征矩阵作为所述处理候选概率计算模型的输入进行计算，得到处理候选概率矩阵，其中，所述处理候选概率矩阵用于表示所述字集合中的字在所述预设词表中的对应校正候选概率，所述处理候选概率矩阵的维度为n*V，n为字集合中字的数量，V为所述预设词表中字的数量；

基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果；

所述基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果，被实施为：

基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵；

将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘得到第一文本对象处理概率矩阵；

将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘得到第二文本对象处理概率矩阵；

将所述第一文本对象处理概率矩阵与第二文本对象处理概率矩阵相加，得到文本对象处理概率矩阵，其中，所述文本对象处理概率矩阵的行向量分别顺序对应所述预设词表中字的处理概率；

将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。

第二方面，本公开实施例中提供了一种文本处理装置。

具体的，所述文本处理装置，包括：

向量化处理模块，被配置为获取文本对象，并对所述文本对象进行向量化处理，得到与所述文本对象对应的向量化矩阵；

拼写检查模块，被配置为对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵，并基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵；

处理模块，被配置为对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵，并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。

结合第二方面，本公开实施例在第二方面的第一种实现方式中，所述向量化处理模块被配置为：

获取文本对象；

对于所述文本对象进行字分割得到字集合；

结合第二方面和第二方面的第一种实现方式，本公开实施例在第二方面的第二种实现方式中，所述拼写检查模块中对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵的部分，被配置为：

确定上下文特征提取模型；

结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述拼写检查模块中基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵的部分，被配置为：

确定拼写检查模型；

结合第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述处理模块中对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵的部分，被配置为：

确定拼写处理特征提取模型；

结合第二方面、第二方面的第二种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，所述处理模块中基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果的部分，被配置为：

确定预设词表和处理候选概率计算模型，其中，所述预设词表至少包括所述字集合；

基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。

结合第二方面、第二方面的第二种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式，本公开在第二方面的第六种实现方式中，所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果；

所述基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果的部分，被配置为：

基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵；

将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘得到第一文本对象处理概率矩阵；

将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘得到第二文本对象处理概率矩阵；

将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持文本处理装置执行上述文本处理方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述文本处理装置还可以包括通信接口，用于文本处理装置与其他设备或通信网络通信。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储文本处理装置所用的计算机指令，其包含用于执行上述文本处理方法为文本处理装置所涉及的计算机指令。

本公开实施例提供的技术方案可包括以下有益效果：

上述技术方案通过对于待处理文本对象进行两次特征提取，首先利用第一次特征提取得到的结果进行拼写检查，然后结合拼写检查结果和第二次特征提取得到的结果进行文本处理来得到文本处理结果。该技术方案综合使用了拼写检查特征数据和拼写纠错特征数据，在保证文本处理质量、提高文本处理鲁棒性的前提下，还能够有效提高文本处理的效率，节约人工成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开实施例。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开实施例的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的文本处理方法的流程图；

图2示出根据本公开一实施方式的文本处理方法的整体流程图；

图3示出根据本公开一实施方式的文本处理装置的结构框图；

图4是适于用来实现根据本公开一实施方式的文本处理方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开实施例的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开实施例中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。

本公开实施例提供的技术方案通过对于待处理文本对象进行两次特征提取，首先利用第一次特征提取得到的结果进行拼写检查，然后结合拼写检查结果和第二次特征提取得到的结果进行文本处理来得到文本处理结果。该技术方案综合使用了拼写检查特征数据和拼写纠错特征数据，在保证文本处理质量、提高文本处理鲁棒性的前提下，还能够有效提高文本处理的效率，节约人工成本。

图1示出根据本公开一实施方式的文本处理方法的流程图，适用于文本处理服务器，如图1所示，所述文本处理方法包括以下步骤S101-S103：

在步骤S101中，获取文本对象，并对所述文本对象进行向量化处理，得到与所述文本对象对应的向量化矩阵；

在步骤S102中，对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵，并基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵；

在步骤S103中，对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵，并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。

上文提及，人们在使用输入工具输入文本时，经常会出现拼写错误、形近字错误、音近字错误等输入错误，上述输入错误通常会使得文本容易被误解，进而影响人们文字交流的效果和效率，而且在很多严谨的文书场景中，比如政策、司法、合同文本等，对于上述输入错误的容忍度几乎是零。因此，很多情况下都需要对于文本进行校对，现有技术中存在人工校对和机器校对两种校对方式，其中，人工校对方式相对校对质量较高，但其耗时耗力，校对效率低下；机器校对方式校对速度快，但由于中文文本表达方式非常复杂，很多拼写错误难以被准确识别，另外，现有机器校对方法中使用的拼写检查特征数据和拼写纠错特征数据是相对独立的数据，无论哪种数据都不足以提高文本校对的鲁棒性，因此校对质量低下。综上，亟需一种能够同时保障校对质量和校对效率又能够节约人工成本的文本处理方法。

考虑到上述问题，在该实施方式中，提出一种文本处理方法，该方法通过对于待处理文本对象进行两次特征提取，首先利用第一次特征提取得到的结果进行拼写检查，然后结合拼写检查结果和第二次特征提取得到的结果进行文本处理来得到文本处理结果。该技术方案综合使用了拼写检查特征数据和拼写纠错特征数据，在保证文本处理质量、提高文本处理鲁棒性的前提下，还能够有效提高文本处理的效率，节约人工成本。

在本公开一实施方式中，所述文本对象指的是有可能存在拼写错误的、需要进行检查和校对等处理的文本，尤其是中文文本。其中，所述文本对象可以为当前输入的文本也可以是从其他文字来源获得的文本。

在本公开一实施方式中，所述向量化处理指的是将非向量转化为向量的处理过程，比如借助向量化矩阵映射方法可将一文本转化为向量化矩阵。

在本公开一实施方式中，所述第一特征指的是后续用于进行拼写检查的特征，所述第二特征指的是后续进行文本处理的特征，其中，所述第一特征和第二特征均可以取为上下文特征，当然也可以使用其他文本特征，本公开对于第一特征和第二特征的具体表现形式不作具体限定。

在本公开一实施方式中，所述步骤S101，即获取文本对象，并对所述文本对象进行向量化处理，得到与所述文本对象对应的向量化矩阵的步骤，可被实施为：

获取文本对象；

对于所述文本对象进行字分割得到字集合；

对于所述字集合进行向量化矩阵映射，得到与所述文本对象对应的向量化矩阵，其中，所述向量化矩阵的维度可以表示为n*d，n为字集合中字的数量，d为预设向量化维度。

为了更方便地对于文本对象进行有效的拼写检查和准确的文字校对等处理，在该实施方式中，需要对于所述文本对象进行向量化处理，以将其转化为向量形式。

首先，对于获取的文本对象进行字分割得到字集合。现有技术中对于英文等西欧语言的拼写和校对相对比较成熟，它们主要是基于词粒度进行文本的检查和校对，中文与英文等西欧语言有着较大的差异，中文文本中没有分词，因此存在拼写错误的文本很容易导致分词系统的分词错误，使得错误积累变得更加严重，所以对于中文文本进行拼写检查时需要基于字粒度，即需要首先对于所述文本对象进行以字为单位的分割，得到分割字组成的、与所述文本对象对应的字集合。

然后，对于所述字集合进行向量化矩阵映射，即对所述字集合中的每个部分通过向量化矩阵映射为向量表示，得到与所述文本对象对应的向量化矩阵，即文本对象的向量化结果，其中，所述向量化矩阵的维度可为n*d，n为字集合中字的数量，d为预设向量化维度，可根据实际应用的需要以及字集合的规模来确定，本公开对其不作具体限定。

比如，若某一文本对象为“我惊天11点，吃KFC”，可首先对其进行字分割，得到分割结果：“我|惊|天|11|点|，|吃|KFC”，进而得到由8个字单元组成的字集合：{我，惊，天，11，点，，，吃，KFC}，然后对所述字集合中的每个部分通过向量化矩阵映射为向量表示，可得到与所述文本对象对应的8*d维的向量化矩阵。

在本公开一实施方式中，所述步骤S102中的对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵的步骤，可被实施为：

确定上下文特征提取模型；

在该实施方式中，所述第一特征取为上下文特征，因此，在获取第一特征矩阵时，首先确定一个上下文特征提取模型；然后再利用所述上下文特征提取模型来提取所述向量化矩阵的上下文特征，最终得到第一特征矩阵，其中，所述第一特征矩阵的维度可以表示为n*h1，n仍然为字集合中字的数量，h1为所述上下文特征提取模型的预设输出维度，与d类似，h1亦可根据实际应用的需要以及字集合的规模来确定，本公开对其不作具体限定。

在本公开一实施方式中，所述上下文特征提取模型可以取为双向长短记忆网络(BiLSTM)。

在本公开一实施方式中，所述步骤S102中的基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵的步骤，可被实施为：

确定拼写检查模型；

在该实施方式中，利用所述第一特征矩阵进行拼写检查，首先，确定一拼写检查模型；然后将所述第一特征矩阵作为所述拼写检查模型的输入，输入至所述拼写检查模型中进行计算，即可得到拼写检查概率矩阵，其中，所述拼写检查概率矩阵的维度为n*r，n仍然为字集合中字的数量，r为拼写检查结果类别的数量，比如，若拼写检查结果分为拼写检查正确和拼写检查错误两种类别，即r＝2，则所述拼写检查概率矩阵中某一行的矩阵元素表示所述字集合中某一个字拼写正确和错误的概率，而所述拼写检查概率矩阵中第一列的矩阵元素表示所述字集合中每一个字拼写正确的概率，第二列的矩阵元素表示所述字集合中每一个字拼写错误的概率。

在本公开一实施方式中，所述拼写检查模型可以取为由一前向神经网络与softmax函数组成的计算模型。

在本公开一实施方式中，还可基于所述拼写检查模型的输出：拼写检查概率矩阵，利用反向传播算法对于上下文特征提取模型和拼写检查模型进行训练，以使其达到更优化，得到目标拼写检查概率矩阵。

在本公开一实施方式中，所述步骤S103中的对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵的步骤，可被实施为：

确定拼写处理特征提取模型；

在该实施方式中，所述第二特征是在第一特征的基础上获得的，与所述第一特征类似，所述第二特征也可取为上下文特征，因此，在获取第二特征矩阵时，需要首先确定一个拼写处理特征提取模型，即第二特征提取模型；然后再利用所述拼写处理特征提取模型基于所述第一特征矩阵提取得到拼写处理特征，最终得到第二特征矩阵，其中，所述第二特征矩阵的维度可以表示为n*h2，n仍然为字集合中字的数量，h2为所述拼写处理特征提取模型的预设输出维度，与d和h1类似，h2亦可根据实际应用的需要以及字集合的规模来确定，本公开对其不作具体限定。

在本公开一实施方式中，所述拼写处理特征提取模型也可以取为双向长短记忆网络(BiLSTM)，所述第一特征提取模型与拼写处理特征提取模型的组合相当于在所述第一特征提取模型的输出上又增加了一个拼写处理特征提取模型来实现特征的二次提取。

在本公开一实施方式中，所述步骤S103中的基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果的步骤，可被实施为：

确定预设词表和处理候选概率计算模型，其中，所述预设词表至少包括所述字集合；

基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。

为了提高文本处理的质量、增强文本处理的鲁棒性，在该实施方式中，综合使用拼写检查特征数据和拼写纠错特征数据来执行处理操作，具体地，首先确定预设词表和处理候选概率计算模型，其中，所述预设词表为预先设置的、至少包括所述字集合的词表，比如一个既包括有可能作为错字出现的字也包括有可能作为正确的字出现的字的、较为完备的或者根据历史校正数据得到的字的集合等等；然后将所述第二特征矩阵作为所述处理候选概率计算模型的输入，输入至所述处理候选概率计算模型中进行计算，即可得到处理候选概率矩阵，其中，所述处理候选概率矩阵用于表示所述字集合中的字在所述预设词表中的对应校正候选概率，因此，所述处理候选概率矩阵的维度为n*V，n仍然为字集合中字的数量，V为所述预设词表中字的数量；最后基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。

在本公开一实施方式中，所述处理候选概率计算模型可以取为由一前向神经网络与softmax函数组成的计算模型。

在本公开一实施方式中，还可基于所述处理候选概率计算模型的输出：处理候选概率矩阵，利用反向传播算法对于上下文特征提取模型、拼写检查模型、拼写处理特征提取模型和处理候选概率计算模型进行训练，以使其达到更优化，得到目标处理候选概率矩阵。

在本公开一实施方式中，所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果；

在该实施方式中，所述基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果的步骤，可被实施为：

基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵；

将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘得到第一文本对象处理概率矩阵；

将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘得到第二文本对象处理概率矩阵；

将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。

上文提及，所述处理候选概率矩阵用于表示所述字集合中的字在所述预设词表中的对应校正候选概率，在该实施方式中，首先基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵O，所述位置概率矩阵用于表示所述字集合中的字在所述预设词表中对应位置上的存在概率，比如所述位置概率矩阵某一行的矩阵元素中除了该行在字集合中对应的字，在所述预设词表中的对应位置处的概率值为1，其他地方都是0，因此，所述位置概率矩阵的维度为n*V，n仍然为字集合中字的数量，V为所述预设词表中字的数量；当所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果时，为了得到所述文本对象的校正结果，首先将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘，得到第一文本对象处理概率矩阵；然后将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘，得到第二文本对象处理概率矩阵；将所述第一文本对象处理概率矩阵与第二文本对象处理概率矩阵相加，得到文本对象处理概率矩阵P，其中，所述文本对象处理概率矩阵P的行向量分别顺序对应所述预设词表中字的处理概率；最后将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。

图2示出根据本公开一实施方式的文本处理方法的整体流程图，如图2所示，首先获取待处理的文本对象，然后对其进行向量化处理，得到与所述文本对象对应的向量化矩阵；利用预设上下文特征提取模型提取所述向量化矩阵的上下文特征，得到第一特征矩阵；将所述第一特征矩阵作为预设拼写检查模型的输入进行拼写检查，得到拼写检查概率矩阵，即拼写检查结果；对于所述第一特征矩阵进行拼写处理特征提取，得到第二特征矩阵，将所述第二特征矩阵作为预设处理候选概率计算模型的输入进行计算，得到处理候选概率矩阵；最后基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。

下面以一具体实例为例对于本公开技术方案进行解释和说明。

假设输入的文本对象为“平果”，词表V仅包括苹、平和果三个字：[苹，平，果]，大小为3，首先对所述文本对象进行字分割，得到分割结果：“平|果”，进而得到由2个字单元组成的字集合：[平，果]，对该字集合进行向量化矩阵映射，由于n＝2，假设向量化维度d为1，则可得到与所述文本对象“平果”对应的n*d＝2*1的向量化矩阵[[平],[果]]；利用双向长短记忆网络(BiLSTM)作为上下文特征提取模型提取所述向量化矩阵的上下文特征，得到第一特征矩阵，再将所述第一特征矩阵作为由一前向神经网络与softmax函数组成的拼写检查模型的输入进行拼写检查，若拼写检查结果分为拼写检查正确和拼写检查错误两种类别，即r＝2，则可得到n*r＝2*2的拼写检查概率矩阵[[0.1,0.9],[0.95,0.05]]，其中，所述拼写检查概率矩阵中第一行概率值[0.1,0.9]表示“平”字拼写正确的概率为0.1，拼写错误的概率为0.9，第二行概率值[0.95,0.05]表示“果”字拼写正确的概率为0.95，拼写错误的概率为0.05，也即，所述拼写检查概率矩阵中第一列概率值[0.1,0.95]对应“平”字和“果”字拼写正确的概率p_c，第二列概率值[0.9,0.05]对应“平”字和“果”字拼写错误的概率p_w；对于所述第一特征矩阵进行拼写处理特征提取，得到第二特征矩阵，将所述第二特征矩阵作为由一前向神经网络与softmax函数组成的处理候选概率计算模型的输入进行计算，得到n*V＝2*3的处理候选概率矩阵C＝[[0.9,0.1,0.0],[0.1,0.1,0.8]]，所述处理候选概率矩阵C中第一行概率值[0.9,0.1,0.0]表示“平”字在词表V中的处理候选概率分别为[苹＝0.9，平＝0.1，果＝0.0]，第二行概率值[0.1,0.1,0.8]表示“果”字在词表V中的处理候选概率分别为[苹＝0.1，平＝0.1，果＝0.8]；基于所述字集合[平，果]与预设词表[苹，平，果]之间字的位置关系建立位置概率矩阵O：[[0,1,0],[0,0,1]]，所述位置概率矩阵O中第一行概率值[0,1,0]表示“平”字在词表V中的位置存在概率分别为[0,1,0]，第二行概率值[0,0,1]表示“果”字在词表V中的位置存在概率分别为[0,0,1]，即“平”字存在于词表V中的第二个字的位置处，“果”字存在于词表V中的第三个字的位置处，则用于表示所述文字对象的处理结果的文本对象处理概率矩阵P可利用下式计算得到：

P＝O*p_c+C*p_w

＝[[0,1,0],[0,0,1]]*[0.1,0.95]+[[0.9,0.1,0.0],[0.1,0.1,0.8]]*[0.9,0.05]

＝[[0,1*0.1,0],[0,0,1*0.95]]+[[0.9*0.9,0.1*0.9,0.0],[0.1*0.05,0.1*0.05,0.8*0.05]]

＝[[0,0.1,0],[0,0,0.95]]+[[0.81,0.09,0.0],[0.005,0.005,0.04]]

＝[[0.81,0.19,0],[0.005,0.005,0.99]]。

所述文本对象处理概率矩阵P第一行行向量中概率最大的向量值0.81对应的字“苹”和第二行行向量中概率最大的向量值0.99对应的字“果”就是所述文本对象中对应位置字“平”和“果”的处理结果，及所述文本对象“平果”的处理结果为“苹果”。

上述技术方案可用于很多场景，比如：

1、文案检查和校对，对于一个已经公开、即将要公开或者刚刚完成的文案，为了避免出现文字输入和使用错误，可以利用上述方案对其进行检查和校对，从而提高文案的撰写质量，同时还可以大大节省人工检查校对的成本，具体地，首先对于所述文案进行向量化处理，得到与其对应的向量化矩阵，然后对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵，基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵，对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵，最后结合所述拼写检查概率矩阵和第二特征矩阵即可得到所述文案的检查结果，进一步地，还可以根据所述检查结果对于所述文案进行校对和纠正。

2、在教育领域，可以实现作业的自动检查和作文的自动批改，在该场景中，可根据正确的作业内容确定词表，在词表内容确定的情况下，就可以利用上文描述的本技术方案对于学生作业和作文进行有效的、自动的检查以及校对，这样可以在很大程度上减轻老师的工作量，同时还能保证作业作文的检查校对准确率。

3、提供文本处理服务，比如可通过云服务器等媒介提供所述文本处理接口，这样很多用户只需要请求调用所述文本处理接口，输入待处理的文本对象，即可马上得到文本检查、校对等处理结果，而无需用户花费时间和人力进行相关技术的开发，既节省用户的时间也节省了用户的人力成本，尤其对于研发能力缺失的用户，所述文本处理服务能够为其提供极大的便利。

本公开技术方案还可以应用于其他很多应用场景，以上仅为解释性示例和说明，并不能被理解为对于本公开技术方案的限制。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图3示出根据本公开一实施方式的文本处理装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部，可实现为文本处理服务器。如图3所示，所述文本处理装置包括：

向量化处理模块301，被配置为获取文本对象，并对所述文本对象进行向量化处理，得到与所述文本对象对应的向量化矩阵；

拼写检查模块302，被配置为对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵，并基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵；

处理模块303，被配置为对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵，并基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果。

考虑到上述问题，在该实施方式中，提出一种文本处理装置，该装置通过对于待处理文本对象进行两次特征提取，首先利用第一次特征提取得到的结果进行拼写检查，然后结合拼写检查结果和第二次特征提取得到的结果进行文本处理来得到文本处理结果。该技术方案综合使用了拼写检查特征数据和拼写纠错特征数据，在保证文本处理质量、提高文本处理鲁棒性的前提下，还能够有效提高文本处理的效率，节约人工成本。

在本公开一实施方式中，所述向量化处理指的是将非向量转化为向量的处理过程，比如借助向量化矩阵映射方法可将一文本转化为向量化矩阵。

在本公开一实施方式中，所述向量化处理模块301可被配置为：

获取文本对象；

对于所述文本对象进行字分割得到字集合；

在本公开一实施方式中，所述拼写检查模块302中对于所述向量化矩阵进行第一特征提取，得到第一特征矩阵的部分，可被配置为：

确定上下文特征提取模型；

在本公开一实施方式中，所述上下文特征提取模型可以取为双向长短记忆网络(BiLSTM)。

在本公开一实施方式中，所述拼写检查模块302中基于所述第一特征矩阵进行拼写检查，得到拼写检查概率矩阵的部分，可被配置为：

确定拼写检查模型；

在本公开一实施方式中，所述拼写检查模型可以取为由一前向神经网络与softmax函数组成的计算模型。

在本公开一实施方式中，所述拼写检查模型还可基于所述拼写检查模型的输出：拼写检查概率矩阵，利用反向传播算法对于上下文特征提取模型和拼写检查模型进行训练，以使其达到更优化，得到目标拼写检查概率矩阵。

在本公开一实施方式中，所述处理模块303中对于所述第一特征矩阵进行第二特征提取，得到第二特征矩阵的部分，可被配置为：

确定拼写处理特征提取模型；

在本公开一实施方式中，所述处理模块303中基于所述拼写检查概率矩阵和第二特征矩阵执行处理得到所述文本对象的处理结果的部分，可被配置为：

确定预设词表和处理候选概率计算模型，其中，所述预设词表至少包括所述字集合；

基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果。

在本公开一实施方式中，所述处理候选概率计算模型可以取为由一前向神经网络与softmax函数组成的计算模型。

在本公开一实施方式中，所述处理候选概率计算模型还可基于所述处理候选概率计算模型的输出：处理候选概率矩阵，利用反向传播算法对于上下文特征提取模型、拼写检查模型、拼写处理特征提取模型和处理候选概率计算模型进行训练，以使其达到更优化，得到目标处理候选概率矩阵。

在本公开一实施方式中，所述拼写检查概率矩阵中包括正确和错误两种拼写检查结果；

在该实施方式中，所述基于所述拼写检查概率矩阵和处理候选概率矩阵得到所述文本对象的处理结果的部分，可被配置为：

基于所述字集合与预设词表之间字的位置关系建立位置概率矩阵；

将所述位置概率矩阵与所述拼写检查概率矩阵中正确拼写检查结果对应的概率向量相乘得到第一文本对象处理概率矩阵；

将所述处理候选概率矩阵与所述拼写检查概率矩阵中错误拼写检查结果对应的概率向量相乘得到第二文本对象处理概率矩阵；

将所述文本对象处理概率矩阵行向量中概率最大的向量值对应的字作为所述文本对象中对应位置字的处理结果。

本公开实施例还公开了一种电子设备，所述电子设备包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方法步骤。

图4适于用来实现根据本公开实施方式的文本处理方法的计算机系统的结构示意图。

如图4所示，计算机系统400包括处理单元401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行上述实施方式中的各种处理。在RAM403中，还存储有系统400操作所需的各种程序和数据。处理单元401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。其中，所述处理单元401可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行所述文本处理方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所特征的功能也可以以不同于附图中所特征的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种文本校正的方法和装置

文本处理方法、装置、电子设备及计算机可读存储介质

相关技术

网友询问留言