智能化文本纠错方法、装置、电子设备及可读存储介质

文档序号:1215827 发布日期:2020-09-04 浏览:12次 >En<

阅读说明:本技术 智能化文本纠错方法、装置、电子设备及可读存储介质 (Intelligent text error correction method and device, electronic equipment and readable storage medium ) 是由 谢静文 阮晓雯 徐亮 于 2020-04-23 设计创作,主要内容包括:本发明涉及人工智能技术,可应用于智慧城市领域中,揭露了一种智能化文本纠错方法,包括:利用未标记文本集对原始文本纠错模型进行非监督训练得到初级文本纠错模型,利用已标记文本集对所述初级文本纠错模型进行监督训练得到标准文本纠错模型,对纠错文本执行文本遮蔽操作得到已遮蔽文本,将所述已遮蔽文本输入至所述标准文本纠错模型中,得到预测文本及所述预测文本的预测概率值,在所述预测文本与所述待纠错文本不相同且所述预测概率值大于所述预设概率值时,根据所述预测文本对所述待纠错文本进行文本纠错。本发明还提出一种智能化文本纠错装置、电子设备以及一种计算机可读存储介质。本发明可以解决在不过度消耗人工和计算机资源的前提下提高文本纠错效果的问题。此外,本发明还涉及区块链技术,所述文本、文本集可存储于区块链中。(The invention relates to an artificial intelligence technology, can be applied to the field of smart cities, and discloses an intelligent text error correction method, which comprises the following steps: the method comprises the steps of carrying out non-supervised training on an original text error correction model by utilizing an unmarked text set to obtain a primary text error correction model, carrying out supervised training on the primary text error correction model by utilizing a marked text set to obtain a standard text error correction model, carrying out text masking operation on an error correction text to obtain a masked text, inputting the masked text into the standard text error correction model to obtain a predicted text and a predicted probability value of the predicted text, and carrying out text error correction on the text to be corrected according to the predicted text when the predicted text is different from the text to be corrected and the predicted probability value is greater than the preset probability value. The invention also provides an intelligent text error correction device, electronic equipment and a computer readable storage medium. The invention can solve the problem of improving the text error correction effect on the premise of not excessively consuming manpower and computer resources. In addition, the invention also relates to a block chain technology, and the text set can be stored in the block chain.)

智能化文本纠错方法、装置、电子设备及可读存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种智能化文本纠错的方法、装置、电子设备及可读存储介质。

背景技术

文本纠错具有广阔的应用前景,如医药领域对于繁琐文字的智能化纠错并提示,加快处方打印员的工作效率、办公聊天时对拼写出的文本进行纠错,防止产生低级错误等等。

现有关于文本纠错的技术主要有两种,一、使用距离计算法得到的传统文本纠错模型;二、使用大型语料库训练得到的深度学习文本纠错模型。两种方法在一定程度上都可以完成文本纠错,但深度学习文本纠错模型在训练阶段需要大量的语料库,不管是语料库收集、清理直至后续的训练过程,都较消耗人工和计算机资源,传统文本纠错模型的鲁棒性较差、对于某些特定场景,文本纠错能力弱效果不理想,特别是医学领域的文本。

发明内容

本发明提供一种智能化文本纠错方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决在不过度消耗人工和计算机资源的前提下,提高文本纠错效果的问题。

为实现上述目的,本发明提供的一种智能化文本纠错方法,包括:

利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型;

利用已标记文本集对所述初级文本纠错模型进行监督训练,得到标准文本纠错模型;

获取待纠错文本,对所述待纠错文本执行文本遮蔽操作得到一组或多组已遮蔽文本,将所述已遮蔽文本输入至所述标准文本纠错模型中,得到预测文本及所述预测文本的预测概率值;

在所述预测文本与所述待纠错文本不相同,且所述预测概率值大于所述预设概率值时,根据所述预测文本对所述待纠错文本进行文本纠错。

可选地,所述利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型,包括:

根据预构建的文本向量转换方法,将所述未标记文本集转化为文本向量集;

对所述未标记文本集进行位置标注得到文本位置集;

根据所述文本向量转换方法,将所述文本位置集转化为位置向量集;

将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,直至所述非监督训练的训练次数满足预设训练要求,退出训练得到初级文本纠错模型。

可选地,所述根据预构建的文本向量转换方法,将所述未标记文本集转化为文本向量集,包括:

采用如下转换方法,将所述未标记文本集转化为文本向量集:

其中,ω表示基于所述文本向量转换方法的文本决策树的路径值,j表示所述未标记文本集的索引,且为正整数,ζ(ω,j)表示在路径ω下,所述未标记文本集第j个未标记文本的文本向量,表示在路径ω内第j个结点对应的霍夫曼编码,,路径ω为正整数,θ为所述文本向量转换方法的迭代因子,σ表示sigmoid函数,Xω为所述未标记文本集。

可选地,所述将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,包括:

将所述文本向量集以向量数据为划分单位,划分出多组词语向量集;

将所述文本向量集以向量的行为划分单位,划分出多组段落向量集;

计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,根据所述权重关系更新所述原始文本纠错模型的内部参数。

可选地,所述计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,包括:

依次选择所述词语向量集、所述段落向量集、所述位置向量集中任意一个向量作为目标向量;

对所述目标向量执行所述文本遮蔽操作,得到遮蔽向量;

计算所述遮蔽向量与所述词语向量集、所述段落向量集、所述位置向量集中内其他向量的权重,得到权重集,将所述权重集进行加权融合得到所述权重关系。

可选地,所述利用已标记文本集对所述初级文本纠错模型进行监督训练,得到标准文本纠错模型,包括:

从所述已标记文本集中提取已标记文本的标签,得到真实标签集;

根据所述文本向量转换方法,将所述已标记文本集转化为已标记文本向量集;

将所述已标记文本向量集输入至所述初级文本纠错模型进行监督训练,得到预测标签集;

若所述预测标签集与所述真实标签集的误差范围大于预设误差,继续进行所述监督训练,直至所述预测标签集与所述真实标签集的误差范围小于所述预设误差,退出所述监督训练,得到所述标准文本纠错模型。

可选地,该方法还包括,包括:

在所述预测文本与所述待纠错文本相同时,重新接收待纠错文本;

在所述预测文本与所述待纠错文本不相同,且所述预测概率值小于预设概率值时,重新接收待纠错文本。

为了解决上述问题,本发明还提供一种智能化文本纠错装置,所述装置包括:

非监督训练模块,用于根据历史信息集与历史标签集的对应关系,对当前信息集进行标签计算得到当前标签集;

监督训练模块,用于根据预设调节因子对所述当前标签集进行标签调节得到标准标签集;

预测文本模块,用于根据卷积神经网络特征提取技术,从所述标准标签集中提取标签特征得到特征提取集;

文本纠错模块,用于将所述特征提取集作为已训练完成的分类神经网络的输入值进行分类预测得到信息分类结果。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

存储器,存储至少一个指令;及

处理器,执行所述存储器中存储的指令以实现上述中任意一项所述的智能化文本纠错方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述中任意一项所述的智能化文本纠错方法。

本发明根据利用未标记文本集对预构建的原始文本纠错模型分别进行非监督训练和监督训练,并通过文本遮蔽操作及训练完成的模型预测文本,由于非监督训练不需要消耗大量人工、计算机资源进行标记及清理,且预构建的原始文本纠错模型基于深度学习为基础,对于某些特定场景,文本纠错能力强效果。因此本发明提出的智能化文本纠错方法、装置、电子设备及计算机可读存储介质,可以解决在不过度消耗人工和计算机资源的前提下,提高文本纠错效果的问题。

附图说明

图1为本发明一实施例提供的智能化文本纠错方法的流程示意图;

图2为本发明一实施例提供的智能化文本纠错方法中S1步骤的详细流程示意图;

图3为本发明一实施例提供的智能化文本纠错方法中S2步骤的详细流程示意图;

图4为本发明一实施例提供的智能化文本纠错方法的模块示意图;

图5为本发明一实施例提供的智能化文本纠错方法的电子设备的内部结构示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种智能化文本纠错方法。参照图1所示,为本发明一实施例提供的智能化文本纠错方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,智能化文本纠错方法包括:

S1、利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型。

文本纠错具有广大的应用场景,特别是在医学领域上,由于用词复杂,导致很多医学书籍、处方会有用词错误,如患者张强患有脂溢性皮炎,医生开了关于复方酮康唑发用洗剂的处方,处方打印员由于失误将复方酮康唑发用洗剂打印成复方桐康唑发用洗剂,则此时使用本发明的技术方案可进行智能纠错。

所述未标记文本集是没有添加标签的文本集,如上述复方酮康唑发用洗剂、复方桐康唑发用洗剂等其实都是未标记文本,简单理解为复方酮康唑发用洗剂是正确的撰写形式,而复方桐康唑发用洗剂是错误的撰写形式,但都并未给予是否撰写正确的标签。

详细地,所述S1可参阅图2步骤的详细流程示意图所示包括:

S11、根据预构建的文本向量转换方法,将所述未标记文本集转化为文本向量集;

S12、对所述未标记文本集进行位置标注得到文本位置集,根据所述文本向量转换方法,将所述文本位置集转化为位置向量集;

S13、将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,直至所述非监督训练的训练次数满足预设训练要求,退出训练得到初级文本纠错模型。

进一步地,所述文本向量转换方法可采用如one-hot词向量转换、Word2Vec词向量转换。

本发明较佳实施例采用Word2Vec词向量转换,所述Word2Vec词向量转换包括:

采用如下方式对所述未标记文本集或所述文本位置集进行向量转换:

其中,ω表示所述Word2Vec词向量转换依赖的决策树路径值,j表示所述未标记文本集的索引,且为正整数,,ζ(ω,j)表示在路径ω下,所述未标记文本集第j个未标记文本的文本向量或所述文本位置集第j个文本位置的位置向量,表示在路径ω内,第j个结点对应的霍夫曼编码,,路径ω为正整数,θ为所述Word2Vec词向量转换的迭代因子,σ表示sigmoid函数,Xω为所述未标记文本集或所述文本位置集。

如原来正确的复方酮康唑发用洗剂,经过上述向量转化变为文本向量和位置向量,其中文本向量比如为[1.6,1.23,6.91,9.4,12.7,0.3,17.03,2.81,1.04],位置向量为[0.11,1.09,3.59,0.4,0.75,2.1,5.1,2.09,3.77]

较佳地,所述原始文本纠错模型以BERT模型(BidirectionalEncoderRepresentations from Transformer,简称BERT)为基础改进得到的。

详细地,所述将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,包括:将所述文本向量集以向量集内的数据为划分单位,划分出多组词语向量集,将所述文本向量集以行为划分单位,划分出多组段落向量集,计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,根据所述权重关系更新所述原始文本纠错模型的内部参数。

如上述复方酮康唑发用洗剂的文本向量是[1.6,1.23,6.91,9.4,12.7,0.3,17.03,2.81,1.04],位置向量为[0.11,1.09,3.59,0.4,0.75,2.1,5.1,2.09,3.77],若对文本向量以数据为划分单位,则可得到[0.75,2.1]、[1.6,2.81,1.04]、[0.3,17.03,2.81,1.04]等形式的多组词语向量集,若上述复方酮康唑发用洗剂的文本向量是多行,比如表现形式为则按行划分得到[1.6,1.23]、[6.91,9.4]两组段落向量集。

进一步地,所述计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,包括:随机选择所述词语向量集、所述段落向量集、所述位置向量集中任意一个向量集内的向量作为目标向量,对所述目标向量使用文本遮蔽操作得到遮蔽向量,计算所述遮蔽向量与每个向量集内向量的权重得到权重集,将所述权重集进行加权融合得到所述权重关系。

如复方酮康唑发用洗剂有一个[0.3,17.03,2.81,1.04]的词语向量选择作为目标向量,所述文本遮蔽操作是遮挡任意的数据,如将[0.3,17.03,2.81,1.04]进行文本遮蔽操作变为[0.3,**,2.81,**],则通过计算[0.3,**,2.81,**]与其他词语向量、段落向量、位置向量的权重得到权重集。

详细地,计算遮蔽向量与每个向量集内向量的权重可采用相似度计算方法,相似度计算方法可采用当前已公开的余弦计算法、欧式距离法等。

所述加权融合可采用高斯分布形式的融合方法、线性方式(如一次函数)、非线性方式(如二次函数),如权重集为[0.101,3.091,2.057,0.4,0.756,2.71,5.103,],利用一次函数进行融合得到一次函数的k值和b值,进而将k值和b值作为所述原始文本纠错模型的内部参数。

S2、利用已标记文本集对所述初级文本纠错模型进行监督训练得到标准文本纠错模型。

所述已标记文本集与所述未标记文本集是对应的,已标记文本集是添加标签的文本集,如S1所述,复方酮康唑发用洗剂、复方桐康唑发用洗剂等可以为未标记文本,即使复方桐康唑发用洗剂是错误的撰写方式,但已标记文本集中,将复方酮康唑发用洗剂添加了正确撰写的标签,且一般不使用撰写错误的文本。

所述监督训练与所述非监督训练基本形式相同,详细地,所述利用已标记文本集对所述初级文本纠错模型进行监督训练得到标准文本纠错模型请参阅图3中S2步骤的详细流程示意图所示,包括:

S21、从所述已标记文本集中提取已标记文本的标签得到真实标签集;

S22、根据所述文本向量转换方法,将所述已标记文本集转化为已标记文本向量集;

S23、将所述已标记文本向量集输入至所述初级文本纠错模型进行监督训练得到预测标签集;

S24、判断所述预测标签集与所述真实标签集的误差范围是否大于预设误差,若所述预测标签集与所述真实标签集的误差范围大于所述预设误差,则继续进行所述监督训练,直至所述预测标签集与所述真实标签集的误差范围小于预设误差,退出所述监督训练得到标准文本纠错模型。

S3、获取待纠错文本,对所述待纠错文本进行文本遮蔽操作得到一组或多组已遮蔽文本,将所述已遮蔽文本输入至所述标准文本纠错模型中得到预测文本及所述预测文本的预测概率值。

如上述处方打印员由于失误将复方酮康唑发用洗剂打印成复方桐康唑发用洗剂,则复方桐康唑发用洗剂即为待纠错文本,如对“复方桐康唑发用洗剂”进行所述文本遮蔽操作可得到“复方**唑发用洗剂”、“*方桐康*发用洗剂”、“复方桐康唑发用**”等已遮蔽文本。

详细地,将所述已遮蔽文本输入至所述标准文本纠错模型中得到预测文本及所述预测文本的预测概率值,包括:根据所述文本向量转换方法,将所述已遮蔽文本转化为已遮蔽向量,将所述已遮蔽向量输入至所述标准文本纠错模型中得到预测文本及所述预测文本的预测概率值。

S4、判断所述预测文本与所述待纠错文本是否相同。

如上述对“复方**唑发用洗剂”进行预测时,得到的预测文本为“复方酮康唑发用洗剂”,则判断预测文本“复方酮康唑发用洗剂”与待纠错文本“复方桐康唑发用洗剂”是否相同。

S5、若所述预测文本与所述待纠错文本相同,不需要对所述待纠错文本进行文本纠错并重新接收待纠错文本。

若上述预测文本“复方桐康唑发用洗剂”与待纠错文本“复方桐康唑发用洗剂”一样,则证明未发现处方打印员的失误。

S6、若所述预测文本与所述待纠错文本不相同,判断所述预测概率值是否大于预设概率值,若所述预测概率值小于预设概率值,不需要对所述待纠错文本进行文本纠错并重新接收待纠错文本。

若上述预测文本“复方酮康唑发用洗剂”与待纠错文本“复方桐康唑发用洗剂”不相同,且预测文本“复方酮康唑发用洗剂”的预测概率为97%。

若所述预设概率值为99%,则本发明认为预测文本精度未达到要求,因此不对待纠错文本进行文本纠错。

S7、若所述预测概率值大于所述预设概率值,根据所述预测文本对所述待纠错文本进行文本纠错。

若所述预设概率值为96%,则用预测文本“复方酮康唑发用洗剂”代替待纠错文本“复方桐康唑发用洗剂”,完成文本纠错。

需要强调的是,为进一步保证上述数据的私密和安全性,上述文本、文本集还可以存储于一区块链的节点中。

本方案可应用于智慧城市领域中的智慧医疗、智慧教育等等子领域中,从而推动智慧城市的建设。

如图4所示,是本发明智能化文本纠错装置的功能模块图。

本发明所述智能化文本纠错装置100可以安装于电子设备中。根据实现的功能,所述智能化文本纠错装置可以包括非监督训练模块101、监督训练模块102、预测文本模块103和文本纠错模块104。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述非监督训练模块101,用于根据历史信息集与历史标签集的对应关系,对当前信息集进行标签计算得到当前标签集;

所述监督训练模块102,用于根据预设调节因子对所述当前标签集进行标签调节得到标准标签集;

所述预测文本模块103,用于根据卷积神经网络特征提取技术,从所述标准标签集中提取标签特征得到特征提取集;

所述文本纠错模块104,用于将所述特征提取集作为已训练完成的分类神经网络的输入值进行分类预测得到信息分类结果。

如图5所示,是本发明实现智能化文本纠错方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如智能化文本纠错程序12。

其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如智能化文本纠错的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行智能化文本纠错等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的智能化文本纠错12是多个指令的组合,在所述处理器10中运行时,可以实现:

利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型。

利用已标记文本集对所述初级文本纠错模型进行监督训练,得到标准文本纠错模型。

获取待纠错文本,对所述待纠错文本执行文本遮蔽操作得到一组或多组已遮蔽文本,将所述已遮蔽文本输入至所述标准文本纠错模型中,得到预测文本及所述预测文本的预测概率值。

在所述预测文本与所述待纠错文本不相同,且所述预测概率值大于所述预设概率值时,根据所述预测文本对所述待纠错文本进行文本纠错。

具体地,所述处理器10对上述指令的具体实现方法如下:

步骤一、利用未标记文本集对预构建的原始文本纠错模型进行非监督训练,得到初级文本纠错模型。

文本纠错具有广大的应用场景,特别是在医学领域上,由于用词复杂,导致很多医学书籍、处方会有用词错误,如患者张强患有脂溢性皮炎,医生开了关于复方酮康唑发用洗剂的处方,处方打印员由于失误将复方酮康唑发用洗剂打印成复方桐康唑发用洗剂,则此时使用本发明的技术方案可进行智能纠错。

所述未标记文本集是没有添加标签的文本集,如上述复方酮康唑发用洗剂、复方桐康唑发用洗剂等其实都是未标记文本,简单理解为复方酮康唑发用洗剂是正确的撰写形式,而复方桐康唑发用洗剂是错误的撰写形式,但都并未给予是否撰写正确的标签。

详细地,所述步骤一包括:

根据预构建的文本向量转换方法,将所述未标记文本集转化为文本向量集;

对所述未标记文本集进行位置标注得到文本位置集,根据所述文本向量转换方法,将所述文本位置集转化为位置向量集;

将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,直至所述非监督训练的训练次数满足预设训练要求,退出训练得到初级文本纠错模型。

进一步地,所述文本向量转换方法可采用如one-hot词向量转换、Word2Vec词向量转换。

本发明较佳实施例采用Word2Vec词向量转换,所述Word2Vec词向量转换包括:

采用如下方式对所述未标记文本集或所述文本位置集进行向量转换:

其中,ω表示所述Word2Vec词向量转换依赖的决策树路径值,j表示所述未标记文本集的索引,且为正整数,ζ(ω,j)表示在路径ω下,所述未标记文本集第j个未标记文本的文本向量或所述文本位置集第j个文本位置的位置向量,表示在路径ω内,第j个结点对应的霍夫曼编码,路径ω为正整数,θ为所述Word2Vec词向量转换的迭代因子,σ表示sigmoid函数,Xω为所述未标记文本集或所述文本位置集。

如原来正确的复方酮康唑发用洗剂,经过上述向量转化变为文本向量和位置向量,其中文本向量比如为[1.6,1.23,6.91,9.4,12.7,0.3,17.03,2.81,1.04],位置向量为[0.11,1.09,3.59,0.4,0.75,2.1,5.1,2.09,3.77]

较佳地,所述原始文本纠错模型以BERT模型(BidirectionalEncoderRepresentations from Transformer,简称BERT)为基础改进得到的。

详细地,所述将所述位置向量集和所述文本向量集输入至所述原始文本纠错模型进行非监督训练,包括:将所述文本向量集以向量集内的数据为划分单位,划分出多组词语向量集,将所述文本向量集以行为划分单位,划分出多组段落向量集,计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,根据所述权重关系更新所述原始文本纠错模型的内部参数。

如上述复方酮康唑发用洗剂的文本向量是[1.6,1.23,6.91,9.4,12.7,0.3,17.03,2.81,1.04],位置向量为[0.11,1.09,3.59,0.4,0.75,2.1,5.1,2.09,3.77],若对文本向量以数据为划分单位,则可得到[0.75,2.1]、[1.6,2.81,1.04]、[0.3,17.03,2.81,1.04]等形式的多组词语向量集,若上述复方酮康唑发用洗剂的文本向量是多行,比如表现形式为则按行划分得到[1.6,1.23]、[6.91,9.4]两组段落向量集。

进一步地,所述计算每组所述词语向量集、每组所述段落向量集及所述位置向量集的权重关系,包括:随机选择所述词语向量集、所述段落向量集、所述位置向量集中任意一个向量集内的向量作为目标向量,对所述目标向量使用文本遮蔽操作得到遮蔽向量,计算所述遮蔽向量与每个向量集内向量的权重得到权重集,将所述权重集进行加权融合得到所述权重关系。

如复方酮康唑发用洗剂有一个[0.3,17.03,2.81,1.04]的词语向量选择作为目标向量,所述文本遮蔽操作是遮挡任意的数据,如将[0.3,17.03,2.81,1.04]进行文本遮蔽操作变为[0.3,**,2.81,**],则通过计算[0.3,**,2.81,**]与其他词语向量、段落向量、位置向量的权重得到权重集。

详细地,计算遮蔽向量与每个向量集内向量的权重可采用相似度计算方法,相似度计算方法可采用当前已公开的余弦计算法、欧式距离法等。

所述加权融合可采用高斯分布形式的融合方法、线性方式(如一次函数)、非线性方式(如二次函数),如权重集为[0.101,3.091,2.057,0.4,0.756,2.71,5.103,],利用一次函数进行融合得到一次函数的k值和b值,进而将k值和b值作为所述原始文本纠错模型的内部参数。

步骤二、利用已标记文本集对所述初级文本纠错模型进行监督训练得到标准文本纠错模型。

所述已标记文本集与所述未标记文本集是对应的,已标记文本集是添加标签的文本集,如步骤一所述,复方酮康唑发用洗剂、复方桐康唑发用洗剂等可以为未标记文本,即使复方桐康唑发用洗剂是错误的撰写方式,但已标记文本集中,将复方酮康唑发用洗剂添加了正确撰写的标签,且一般不使用撰写错误的文本。

所述监督训练与所述非监督训练基本形式相同,详细地,所述利用已标记文本集对所述初级文本纠错模型进行监督训练得到标准文本纠错模型包括:

从所述已标记文本集中提取已标记文本的标签得到真实标签集;

根据所述文本向量转换方法,将所述已标记文本集转化为已标记文本向量集;

将所述已标记文本向量集输入至所述初级文本纠错模型进行监督训练得到预测标签集;

判断所述预测标签集与所述真实标签集的误差范围是否大于预设误差,若所述预测标签集与所述真实标签集的误差范围大于所述预设误差,则继续进行所述监督训练,直至所述预测标签集与所述真实标签集的误差范围小于预设误差,退出所述监督训练得到标准文本纠错模型。

步骤三、获取待纠错文本,对所述待纠错文本进行文本遮蔽操作得到一组或多组已遮蔽文本,将所述已遮蔽文本输入至所述标准文本纠错模型中得到预测文本及所述预测文本的预测概率值。

如上述处方打印员由于失误将复方酮康唑发用洗剂打印成复方桐康唑发用洗剂,则复方桐康唑发用洗剂即为待纠错文本,如对“复方桐康唑发用洗剂”进行所述文本遮蔽操作可得到“复方**唑发用洗剂”、“*方桐康*发用洗剂”、“复方桐康唑发用**”等已遮蔽文本。

详细地,将所述已遮蔽文本输入至所述标准文本纠错模型中得到预测文本及所述预测文本的预测概率值,包括:根据所述文本向量转换方法,将所述已遮蔽文本转化为已遮蔽向量,将所述已遮蔽向量输入至所述标准文本纠错模型中得到预测文本及所述预测文本的预测概率值。

步骤四、判断所述预测文本与所述待纠错文本是否相同。

如上述对“复方**唑发用洗剂”进行预测时,得到的预测文本为“复方酮康唑发用洗剂”,则判断预测文本“复方酮康唑发用洗剂”与待纠错文本“复方桐康唑发用洗剂”是否相同。

步骤五、若所述预测文本与所述待纠错文本相同,不需要对所述待纠错文本进行文本纠错并重新接收待纠错文本。

若上述预测文本“复方桐康唑发用洗剂”与待纠错文本“复方桐康唑发用洗剂”一样,则证明未发现处方打印员的失误。

步骤六、若所述预测文本与所述待纠错文本不相同,判断所述预测概率值是否大于预设概率值,若所述预测概率值小于预设概率值,不需要对所述待纠错文本进行文本纠错并重新接收待纠错文本。

若上述预测文本“复方酮康唑发用洗剂”与待纠错文本“复方桐康唑发用洗剂”不相同,且预测文本“复方酮康唑发用洗剂”的预测概率为97%。

若所述预设概率值为99%,则本发明认为预测文本精度未达到要求,因此不对待纠错文本进行文本纠错。

步骤七、若所述预测概率值大于所述预设概率值,根据所述预测文本对所述待纠错文本进行文本纠错。

若所述预设概率值为96%,则用预测文本“复方酮康唑发用洗剂”代替待纠错文本“复方桐康唑发用洗剂”,完成文本纠错。

进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:文本纠错方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!