关键词校正方法、装置、计算机设备和存储介质

文档序号:1905180 发布日期:2021-11-30 浏览:10次 >En<

阅读说明:本技术 关键词校正方法、装置、计算机设备和存储介质 (Keyword correction method and device, computer equipment and storage medium ) 是由 贾亚龙 杨洋 李锋 张琛 万化 于 2021-08-11 设计创作,主要内容包括:本申请涉及一种关键词校正方法、装置、计算机设备和存储介质,该方法包括:从存储器中筛选出与待处理文本的关键字相关的多个参考文本,根据多个参考文本确定待处理文本中的待校正关键词;通过待校正关键词与多个参考文本的相似度从多个参考文本中确定候选参考文本;并根据待校正关键词与候选参考文本的音素相似度确定目标参考文本,最后基于目标参考文本对待校正关键词进行校正。本申请提供的关键词校正方法从音素力度针对候选参考文本与待校正关键词不同的音素相似度确定目标参考文本,确保了相似度高的待校正关键词与候选参考文本的编辑距离小于相似度低的待校正关键词与候选参考文本的编辑距离,能够提高对待校正关键词校正的准确率。(The application relates to a keyword correction method, a keyword correction device, computer equipment and a storage medium, wherein the method comprises the following steps: screening a plurality of reference texts related to keywords of the text to be processed from a memory, and determining the keywords to be corrected in the text to be processed according to the plurality of reference texts; determining candidate reference texts from the multiple reference texts according to the similarity between the keywords to be corrected and the multiple reference texts; and determining a target reference text according to the phoneme similarity of the keywords to be corrected and the candidate reference text, and finally correcting the keywords to be corrected based on the target reference text. The keyword correction method determines the target reference text according to the phoneme similarity of the candidate reference text and the candidate keywords to be corrected, ensures that the editing distance between the keywords to be corrected with high similarity and the candidate reference text is smaller than the editing distance between the keywords to be corrected with low similarity and the candidate reference text, and can improve the accuracy of correction of the keywords to be corrected.)

关键词校正方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音识别技术领域,特别是涉及一种关键词校正方法、装置、计算机设备和存储介质。

背景技术

语音识别技术即将音频通过智能的识别设备转换成文本,随着语音识别技术的显著进步,语音识别技术逐渐进入汽车电子、医疗、金融、消费电子产品等各个领域。然而因为每个人的出生地、发音习惯等内在原因,以及信号干扰、网络不好等外在原因,语音识别的实际使用准确率较低,这极大地影响到需要利用语音识别进行后续操作的业务和工作。

现有的技术主攻方向是对语音识别的调优和改进,在识别的算法上进行技术的升级,达到更高的识别能力,很少将注意力转向对语音识别后进行二次处理校正这一方面,现存的也只是针对同音词进行校正。然而很多情况并非是识别能力不够,在现有标准普通话识别率几乎都能够准确识别的技术背景下,造成识别偏差的原因是由于人的发音差异和环境带来的干扰等,这些问题单靠提升识别能力很难攻克或者提升的空间极为有限。所以对解决语音识别准确率低的问题,效果不佳。

发明内容

本申请提供了一种能够关键词校正方法、装置、计算机设备和存储介质,能够提高对关键词的校正准确率。

本申请的第一方面提供了一种关键词校正方法,该方法包括:

根据多个参考文本确定待处理文本中的待校正关键词,多个参考文本为与待处理文本相关的文本;

通过待校正关键词与多个参考文本的第一相似度从多个参考文本中确定候选参考文本;

根据待校正关键词与候选参考文本的音素相似度确定目标参考文本;

基于目标参考文本对待校正关键词进行校正。

本申请的第二方面提供了一种关键词校正装置,该装置包括:

第一确定模块,用于根据多个参考文本确定待处理文本中的待校正关键词,多个参考文本为与待处理文本相关的文本;

第二确定模块,用于通过待校正关键词与多个参考文本的第一相似度从多个参考文本中确定候选参考文本;

第三确定模块,用于根据待校正关键词与候选参考文本的音素相似度确定目标参考文本;

校正模块,用于基于目标参考文本对待校正关键词进行校正。

本申请的第三方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一项的方法步骤。

本申请的第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项的方法步骤。

本申请提供了这一种关键词校正方法、装置、计算机设备和存储介质,该方法包括:从存储器中筛选出与待处理文本的关键字相关的多个参考文本,根据多个参考文本确定待处理文本中的待校正关键词;通过待校正关键词与多个参考文本的相似度从多个参考文本中确定候选参考文本;并根据待校正关键词与候选参考文本的音素相似度确定目标参考文本,最后基于目标参考文本对待校正关键词进行校正。本申请提供的关键词校正方法从音素力度针对候选参考文本与待校正关键词不同的音素相似度确定目标参考文本,确保了相似度高的待校正关键词与候选参考文本的编辑距离小于相似度低的待校正关键词与候选参考文本的编辑距离,使得对待校正关键词与候选参考文本的编辑距离的计算更加的精细化,进一步提高了对待校正关键词校正的准确率。

附图说明

图1为一个实施例中关键词校正方法的应用环境图;

图2为一个实施例中关键词校正方法的流程示意图;

图3为另一个实施例中关键词校正方法的流程示意图;

图4为另一个实施例中关键词校正方法的流程示意图;

图5为另一个实施例中关键词校正方法的流程示意图;

图6为另一个实施例中关键词校正方法的流程示意图;

图7为另一个实施例中关键词校正方法的流程示意图;

图8为一个实施例中关键词校正装置的结构框图;

图9为一个实施例中终端设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的关键词校正方法,可以应用于如图1所示的应用环境中。其中,可以通过终端102对用户的语音进行识别,将识别后的语音转换成文本,在输出识别后的文本之前,需要对转换后的初始文本进行关键词校正处理,通过对初始文本的识别,确定该文本的类别,从预存的参考文本库中查找与初始文本中的关键词相关的多个参考文本,并通过比较待校正关键词与多个参考文本的相似度确定一个与该校正关键词相似度最高的参考文本作为候选文本,然后,根据候选文本与待校正关键词的相似度确定计算待校正关键词与候选参考文本的编辑距离的目标编辑距离算法,从而根据目标编辑距离算法计算得到待校正关键词与候选参考文本的编辑距离,并基于编辑距离判断是否基于候选参考文本对待校正关键词进行校正。若需要校正,则将待校正关键词替换为候选参考文本后输出识别后的文本,若不需要校正,则将初始文本输出。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中,如图2所示,提供了一种关键词校正方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:

步骤S202,根据多个参考文本确定待处理文本中的待校正关键词,多个参考文本为与待处理文本相关的文本。

其中,参考文本可以是预选存储在终端中的存储器地址中,可以是预先根据不同的应用场景为该领域常用的关键字、关键词、关键句子进行了分类,建立了不同应用场景对应的常用词库;例如,在金融领域,根据不同的应用场景设置了与贷款相关的词库,与基金相关的词库,与储蓄相关的词库,与信用卡相关的词库等。

参考文本与待校正关键词具有相关性,例如通过对待处理文本中的多个关键词进行识别,确定了该待处理文本与金融领域的基金有关,那么该参考文本就可以是与基金相关的词库中的字、词或者句子等。终端对语音进行识别时,识别不准确的多为一句话中的关键词或者关键字,且用户或者终端对该带处理文本的理解主要依据文本中的一个或者多个关键词,又或者,依据文本中的一个或者多个关键字。所以对于关键字、词的准确识别对后续的操作有着重要的指导意义。

示例性的,用户向终端输入了一段语音,终端识别的初始文本例如为“我要买易方达月线混合型基金”,那么,终端可以是根据易方达、月线、基金、混合型中的至少一个关键词先从终端的多个词库中确定目标词库,那么目标词库为与基金相关的词库,那么与基金相关的词库中的字、词或者句子就是与待处理文本相关的多个参考文本,例如多个参考文本为:易方达、悦享、悦美、悦保、稳健型、高风险型、低风险型、收益、赔付。那么根据多个参考文本就可以确定“我要买易方达月线混合型基金”这一待处理文本中的待校正关键词例如为:易方达、月线、混合型。

步骤S204,通过待校正关键词与多个参考文本的第一相似度从多个参考文本中确定候选参考文本。

其中,待校正关键词与多个参考文本的相似度表征待校正关键词与参考文本之间的差异性,相似度越高,二者的差异性越小。待校正关键词与多个参考文本的相似度例如可以通过将待校正关键词与参考文本转换成音频后,分别提取待校正关键词与各个参考文本的特征,然后将待校正关键词的音频特征与多个参考文本的音频特征进行比对确定特征相似度,根据特征相似度确定待校正关键词与参考文本的第一相似度;可以是通过分别计算待校正关键词与多个参考文本之间的编辑距离来确定待校正关键词与多个参考文本的相似度。其中,待校正关键词与参考文本的编辑距离可以根据将待校正关键词中的字符调整为参考文本中的字符所需的次数来确定;或者,根据将待校正关键词的音节调整为参考文本中的音节所需的次数来确定,或者,根据将待校正关键词的音素调整为参考文本中的音素所需的次数来确定,本申请对此不加以限定。

示例性的,当月线确定为待校正关键词,将月线分别与参考文本(易方达、悦享、悦美、悦保、稳健型、高风险型、低风险型、收益、赔付)进行比对,那么月线与易方达之间的编辑距离为3,月线与悦享之间的编辑距离为2,月线与悦保之间的编辑距离为2,月线与稳健型之间的编辑距离为3,月线与高风险型之间的编辑距离为4,月线与低风险型之间的编辑距离为4,月线与收益之间的编辑距离为2,月线与赔付之间的编辑距离为2。可以是将编辑距离为0的待校正关键词与参考文本的第一相似度设置为98%,可以是将编辑距离为1的待校正关键词与参考文本的第一相似度设置为90%,可以是将编辑距离为2的待校正关键词与参考文本的第一相似度设置为80%等,那么可以是将待校正关键词与参考文本的第一相似度大于等于90%的参考文本确定为候选参考文本,确定的候选参考文本可以是悦享、悦美、悦保、收益、赔付。

步骤S206,根据待校正关键词与候选参考文本的音素相似度确定目标参考文本。

其中,音素是将待校正关键词中的每一个字符转换成音节后,对音节进行拆分得到的,对音节的拆分可以是按照声母和韵母的拆分规则对音节进行拆分,可以是按照每一个字母的拆分规则对音节进行拆分,对此,本申请不加以限定。对于音素相似度的确定方式,可以是按照声母和韵母的拆分规则对待校正关键词以及候选参考文本的音节进行拆分后,将待校正关键词中的每一个声母以及韵母对应与候选参考文本的每一个声母以及韵母进行比对确定待校正关键词与候选参考文本的编辑距离,根据编辑距离确定待校正关键词与候选参考文本的相似度。其中,比对的规则可以是将待校正关键词的声母以及韵母对应调整为候选参考文本的声母以及韵母时,每调整一次编辑距离记为1,最终,根据所有编辑距离之和确定待校正关键词与候选参考文本的编辑距离,基于编辑距离越小,相似度越大的原则,确定待校正关键词与候选参考文本的相似度。比对的规则还可以是将音节的声母相同待校正关键词声母以及韵母对应调整为候选参考文本的声母以及韵母时,每调整一次编辑距离记为0.5;将音节的声母不相同待校正关键词声母以及韵母对应调整为候选参考文本的声母以及韵母时,每调整一次编辑距离记为1,然后根据所有编辑距离之和确定待校正关键词与候选参考文本的编辑距离,基于编辑距离越小,相似度越大的原则,确定待校正关键词与候选参考文本的相似度。或者,将待校正关键词与候选参考文本输入至预设的语言模型中进行向量化处理,根据预设的算法对经过向量化处理后的待校正关键词以及参考文本进行计算,基于计算结果确定待校正关键词与候选参考文本的音素相似度,本申请对此不加以限定。

示例性的,可以是将月线以及悦享、悦美、悦保、收益、赔付转换成音节,yue xian、yue xiang、yue mei、yue bao、shou yi、pei fu,并按照声母韵母的拆分规则进行拆分,为y/ue x/ian、y/ue x/iang、y/ue m/ei、y/ue b/ao、sh/ou y/i、p/ei f/u,首先将y/ue x/ian中的y/ue与y/ue x/iang中的y/ue进行比对,比对的方式为将y与y进行比对,ue与ue进行比对,得到的编辑距离为0,然后将y/ue x/ian中的x/ian与y/ue x/iang中的x/iang进行比对,比对的方式为将x与x进行比对,ian与iang进行比对,得到的编辑距离为1,那么yuexian与yue xiang之间的编辑距离为1;依次类推,其它候选参考文本与待校正关键字之间的比对方式均可以按照上述比对方式进行比对,那么,计算得到yue xian与yue xiang的编辑距离为1,yue xian与yue mei的编辑距离为4,yue xian与yue bao的编辑距离为4,yuexian与shou yi的编辑距离为7,yue xian与pei fu的编辑距离为7,基于编辑距离越小,相似度越高的原则,就可以确定目标参考文本为悦享。

步骤S208,基于目标参考文本对待校正关键词进行校正。

其中,根据上述描述,已从多个候选参考文本中确定了目标参考文本,目标参考文本是从对应场景的词库中提取出来的,词库中包含的字、词以及句子为本场景中常用的准确的字、词以及句子。因为待处理文本的应用场景与词库的应用场景相符,所以基于目标参考文本与待校正关键词的音素的相似度程度较高,确定设备对语音的识别存在误差,基于目标参考文本对待校正关键词进行校正,将校正后的待处理文本输出给用户,或者上报给终端,终端根据校正后的待处理文本进行后续的操作,能够提高终端处理业务的能力。

示例性的,根据上述确定的悦享与待校正关键词月线的音素相似度最高,那么就可以将待校正关键词月线校正为悦享,最后,输出“我要买易方达悦享混合型基金”的识别文本。

本申请提供了这一种关键词校正方法、装置、计算机设备和存储介质,该方法包括:从存储器中筛选出与待处理文本的关键字相关的多个参考文本,根据多个参考文本确定待处理文本中的待校正关键词;通过待校正关键词与多个参考文本的相似度从多个参考文本中确定候选参考文本;并根据待校正关键词与候选参考文本的音素相似度确定目标参考文本,最后基于目标参考文本对待校正关键词进行校正。本申请提供的关键词校正方法从音素力度针对候选参考文本与待校正关键词不同的音素相似度确定目标参考文本,确保了相似度高的待校正关键词与候选参考文本的编辑距离小于相似度低的待校正关键词与候选参考文本的编辑距离,使得对待校正关键词与候选参考文本的编辑距离的计算更加的精细化,进一步提高了对待校正关键词校正的准确率。

在一个实施例中,如图3所示,本实施例是确定候选参考文本的一种可选的方法实施例,该方法步骤如下:

步骤S302,将待校正关键词分别与多个参考文本进行比较,得到多个比较结果,基于比较结果确定待校正关键词与多个参考文本的第一相似度。

其中,待校正关键词与多个参考文本的相似度例如可以通过将待校正关键词与参考文本转换成音频后,分别提取待校正关键词与各个参考文本的特征,然后将待校正关键词的音频特征与多个参考文本的音频特征进行比对确定特征相似度,根据特征相似度确定待校正关键词与参考文本的第一相似度;可以是通过分别计算待校正关键词与多个参考文本之间的编辑距离来确定待校正关键词与多个参考文本的相似度。本申请对此不加以限定。

示例性的,当月线确定为待校正关键词,将月线分别与参考文本(易方达、悦享、悦美、悦保、稳健型、高风险型、低风险型、收益、赔付)进行比对,那么月线与易方达之间的编辑距离为3,月线与悦享之间的编辑距离为2,月线与悦保之间的编辑距离为2,月线与稳健型之间的编辑距离为3,月线与高风险型之间的编辑距离为4,月线与低风险型之间的编辑距离为4,月线与收益之间的编辑距离为2,月线与赔付之间的编辑距离为2。可以是将编辑距离为0的待校正关键词与参考文本的第一相似度设置为98%,可以是将编辑距离为1的待校正关键词与参考文本的第一相似度设置为90%,可以是将编辑距离为2的待校正关键词与参考文本的第一相似度设置为80%等,那么可以是将待校正关键词与参考文本的第一相似度大于等于90%的参考文本确定为候选参考文本,确定的候选参考文本可以是悦享、悦美、悦保、收益、赔付。

步骤S304,将多个参考文本中与待校正关键词的第一相似度大于等于预设第一阈值的参考文本确定为候选参考文本。

其中,预设第一阈值为一相似度阈值,例如该预设的第一阈值为相似度90%,预设第一阈值针对不同的应用场景可以设置成相同的,也可以设置成不同的,设置第一阈值的目的是确定该待校正关键词是否需要校正的门限,预设的第一阈值可以是基于以往实验的结果得到,本申请对此不加以限定。

本申请实施例提供了一种关键词校正方法,通过对待校正关键词与多个参考文本进行比较,并根据比较结果确定候选参考文本,达到对多个参考文本进行初筛的目的,该比较方法简单,不需要占用太多的资源,且通过初筛确定出的相似度若满足小于等于预设第二阈值,那么就可以不用在通过后续的精确筛选确定校正待校正关键词的文本,能够提高对关键词的校正概率。

在一个实施例中,如图4所示,本实施例是当第一相似度为字符相似度时,确定待校正关键词与多个参考文本的第一相似度的一种可选的方法实施例,该方法步骤如下:

步骤S402,以字符为比较单位将待校正关键词中的字符分别与多个参考文本中的字符进行按照字符的排列顺序比较,得到多个编辑距离,编辑距离为待校正关键词中的字符调整为参考文本中的字符所需的次数。

示例性的,若待校正关键词为月线,将月线分别与参考文本(易方达、悦享、悦美、悦保、稳健型、高风险型、低风险型、收益、赔付)进行比对,比对的过程为,首先将月线中月与易方达中的易进行比对,将月线中的线与易方达中的方进行比对,得到月线与易方达之间的编辑距离为3,以此类推,得到月线与悦享之间的编辑距离为2,月线与悦保之间的编辑距离为2,月线与稳健型之间的编辑距离为3,月线与高风险型之间的编辑距离为4,月线与低风险型之间的编辑距离为4,月线与收益之间的编辑距离为2,月线与赔付之间的编辑距离为2。

步骤S404,根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的字符相似度。

其中,若预设的编辑距离与字符相似度的对应关系为:编辑距离为0的待校正关键词与参考文本的第一相似度设置为98%,编辑距离为0-1的待校正关键词与参考文本的第一相似度设置为95%,编辑距离为1的待校正关键词与参考文本的第一相似度设置为90%,编辑距离为1-2的待校正关键词与参考文本的第一相似度设置为88%,编辑距离为2的待校正关键词与参考文本的第一相似度设置为85%,编辑距离为2-3的待校正关键词与参考文本的第一相似度设置为60%,编辑距离为3的待校正关键词与参考文本的第一相似度设置为40%,编辑距离为3-4的待校正关键词与参考文本的第一相似度设置为30%,编辑距离为4的待校正关键词与参考文本的第一相似度设置为10%等,那么就可以确定月线与易方达的字符相似度为40%,月线与悦享的字符相似度为85%,月线与悦保的字符相似度为85%,月线与稳健型之间的字符相似度为40%,月线与高风险型的字符相似度为40%,月线与低风险型的字符相似度为40%,月线与收益的字符相似度为85%,月线与赔付之间的字符相似度为85%。

本申请实施例提供了一种关键词校正方法,通过对待校正关键词与多个参考文本基于字符力度的比较,达到对多个参考文本进行初筛的目的,该比较方法简单,不需要占用太多的资源,能够提高对关键词的校正概率。

在一个实施例中,如图5所示,本实施例是当第一相似度为音节相似度时,确定待校正关键词与多个参考文本的第一相似度的一种可选的方法实施例,该方法步骤如下:

步骤S502,以音节为比较单位将待校正关键词中的各个音节分别与多个参考文本中的各个音节按照音节的排列顺序进行比较,得到多个编辑距离,编辑距离为待校正关键词中的各个音节调整为参考文本中的各个音节所需的次数。

其中,若待校正关键词为月线,将月线分别与参考文本(易方达、悦享、悦美、悦保、稳健型、高风险型、低风险型、收益、赔付)进行比对,比对的过程为,首先将月线以及易方达、悦享、悦美、悦保、稳健型、高风险型、低风险型、收益、赔付转换成音节,yue xian、yifang da、yue xiang、yue mei、yue bao、wen jian xing、gao feng xian xing、di fengxian xing、shou yi、pei fu,比对的方式为将yue与yi进行比对,得到的编辑距离为2,xian与fang进行比对,得到的编辑距离为4,da与空音节进行比对,得到的编辑距离为2,那么yuexian与yi fang da之间的编辑距离为8;依次类推,其它候选参考文本与待校正关键字之间的比对方式均可以按照上述比对方式进行比对,那么,得到yue xian与yue xiang的编辑距离为1,yue xian与yue mei的编辑距离为4,yue xian与yue bao的编辑距离为4等,对此不再赘述。

步骤S504,根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的音节相似度。

其中,若预设的编辑距离与字符相似度的对应关系为:编辑距离为0的待校正关键词与参考文本的第一相似度设置为98%,编辑距离为0-1的待校正关键词与参考文本的第一相似度设置为95%,编辑距离为1的待校正关键词与参考文本的第一相似度设置为90%,编辑距离为1-2的待校正关键词与参考文本的第一相似度设置为88%,编辑距离为2的待校正关键词与参考文本的第一相似度设置为85%,编辑距离为2-3的待校正关键词与参考文本的第一相似度设置为60%,编辑距离为3的待校正关键词与参考文本的第一相似度设置为40%,编辑距离为3-4的待校正关键词与参考文本的第一相似度设置为30%,编辑距离为4的待校正关键词与参考文本的第一相似度设置为10%等。那么就可以确定月线与易方达的字符相似度为1%,月线与悦享的字符相似度为90%,月线与悦美的字符相似度为10%,月线与悦保的字符相似度为10%等。

本申请实施例提供了一种关键词校正方法,通过对待校正关键词与多个参考文本基于音节力度的比较,达到对多个参考文本进行初筛的目的,音节力度的比较使得对待校正关键词与参考文本的编辑距离的确定更加的精细,能够使得相似度高的待校正关键词与候选参考文本的编辑距离远小于相似度低的待校正关键词与候选参考文本的编辑距离,使得对待校正关键词与候选参考文本的编辑距离的计算更加的精准,能够达到对参考文本进行更精准初筛的的效果。

在一个实施例中,如图6所示,本实施例是根据待校正关键词与候选参考文本的音素相似度确定目标参考文本的一种可选的方法实施例,该方法步骤如下:

步骤S602,分别将待校正关键词音节中的各个音素和候选参考文本音节中的各个音素输入到预设的语言模型中进行向量化处理,得到待校正关键词的多个第一词向量以及候选参考文本的多个第二词向量。

其中,预设的语言模型例如为Word2vec语言模型,预设的语言模型是能够生成词向量的工具,所以将待校正关键词音节中的各个音素和候选参考文本音节中的各个音素输入到预设的语言模型中可以实现对音素的向量化处理,得到待校正关键词各个音节的声母词向量以及韵母词向量,以及候选参考文本各个音节的声母词向量以及韵母词向量。因为待校正关键词中的字符可能包括多个,所以待校正关键词的各个音素经过预设的语言模型的处理,会得到多个声母词向量以及多个韵母词向量,在这里统称为第一词向量;同理,将候选参考文本的多个声母词向量以及多个韵母词向量统称为第二词向量。

步骤S604,根据超参数、第一词向量和与第一词向量对应的第二词向量之间的欧氏距离以及最大欧式距离确定待校正关键词与候选参考文本的音素相似度。

其中,超参数的取值范围可以为大于0小于1,在这里,可以将超参数、第一词向量和与第一词向量对应的第二词向量之间的欧氏距离以及最大欧式距离进行加和、求差、做商、加乘、先加和后求差、先做商后加乘等预设计算关系进行计算,得到计算结果,并根据计算结果确定待校正关键词与候选参考文本的音素相似度。本申请对此不加以限定。

步骤S606,将候选文本中与待校正关键词的第二相似度小于预设第二阈值的候选文本确定为目标参考文本。

其中,预设的第二阈值同样为相似度阈值,预设的第二阈值的设置可以是设置的比预设的第一阈值小,那么可以更进一步的缩小对目标参考文本的筛选范围,能够更快的筛选出所需的目标参考文本。

在一个实施例中,本实施例是根据超参数、第一词向量和与第一词向量对应的第二词向量之间的欧氏距离以及最大欧式距离确定待校正关键词与候选参考文本的音素相似度的一种可选的方法实施例,包括:

根据包含的关系式确定待校正关键词与候选参考文本的编辑距离,其中,α为超参数,S为最大欧式距离,n为向量的维度,xi为第一词向量,yi为第二词向量;

根据待校正关键词与候选参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

本申请实施例提供了一种关键词校正方法,该方法通过上述关系式确定待校正关键词与候选参考文本的编辑距离,能够使得向量越接近的待校正关键词以及候选参考文本的编辑距离越小,且能够向量越接近的待校正关键词以及候选参考文本之间的一次更改(增、删、改)小于向量不接近的待校正关键词以及候选参考文本之间一次更改(增、删、改)的距离,基于Word2vec语言模型的特点,读音越相似的待校正关键词以及候选参考文本,两者向量表示也越相近,根据此计算公式得到的编辑距离也越小,可以避免根据人工经验设置读音相似的待校正关键词以及候选参考文本之间的编辑距离时,每一个相似发音对之间的编辑距离都是一个超参数,不利于模型调优,且上述计算公式也更加符合统计规律。

在一个实施例中,如图7所示,本实施例是对编辑距离进行处理的一种可选的方法实施例,该方法步骤如下:

步骤S702、根据待校正关键词与候选参考文本的编辑距离和待校正关键词的音节长度对待校正关键词与候选参考文本的编辑距离进行处理;

步骤S704、根据处理后的待校正关键词与目标参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

其中,根据待校正关键词与目标参考文本的编辑距离和待校正关键词的音节长度对待校正关键词与目标参考文本的编辑距离进行处理例如可以是将编辑距离与待校正关键词的音节长度进行做商处理,这样处理的好处在于在通过模型计算编辑距离时,更容易使得模型收敛,得到最优解。对编辑距离处理后,再根据编辑距离确定待校正关键词与候选参考文本的音素相似度,能够使得对待校正关键词与候选参考文本的音素相似度的确定更加的精准,便于提高关键词的校正准确率。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图8所示,提供了一种关键词校正装置,包括:第一确定模块、第二确定模块、第三确定模块和校正模块,其中:

第一确定模块,用于根据多个参考文本确定待处理文本中的待校正关键词,多个参考文本为与待处理文本相关的文本;

第二确定模块,用于通过待校正关键词与多个参考文本的第一相似度从多个参考文本中确定候选参考文本;

第三确定模块,用于根据待校正关键词与候选参考文本的音素相似度确定目标参考文本;

校正模块,用于基于目标参考文本对待校正关键词进行校正。

在一个实施例中,第二确定模块包括:比较单元和第一确定单元;

比较单元,用于将待校正关键词分别与多个参考文本进行比较,得到多个比较结果,基于比较结果确定待校正关键词与多个参考文本的第一相似度;

确定单元,用于将多个参考文本中与待校正关键词的第一相似度大于等于预设第一阈值的参考文本确定为候选参考文本。

在一个实施例中,比较单元,还用于以字符为比较单位将待校正关键词中的字符分别与多个参考文本中的字符进行按照字符的排列顺序比较,得到多个编辑距离,编辑距离为待校正关键词中的字符调整为参考文本中的字符所需的次数;

确定单元,还用于根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的字符相似度。

在一个实施例中,比较单元,还用于以音节为比较单位将待校正关键词中的各个音节分别与多个参考文本中的各个音节按照音节的排列顺序进行比较,得到多个编辑距离,编辑距离为待校正关键词中的各个音节调整为参考文本中的各个音节所需的次数;

确定单元,还用于根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的音节相似度。

在一个实施例中,第三确定单元包括处理单元、第二确定单元和第三确定单元;

处理单元,用于分别将待校正关键词音节中的各个音素和候选参考文本音节中的各个音素输入到预设的语言模型中进行向量化处理,得到待校正关键词的多个第一词向量以及候选参考文本的多个第二词向量;

第二确定单元,用于根据超参数、第一词向量和与第一词向量对应的第二词向量之间的欧氏距离以及最大欧式距离确定待校正关键词与候选参考文本的音素相似度;

第三确定单元,用于将候选文本中与待校正关键词的第二相似度大于等于预设第二阈值的候选文本确定为目标参考文本。

在一个实施例中,第二确定单元,还用于根据包含的关系式确定待校正关键词与候选参考文本的编辑距离,其中,α为超参数,S为最大欧式距离,n为向量的维度,xi为第一词向量,yi为第二词向量;根据待校正关键词与候选参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

在一个实施例中,该装置还包括处理模块;

处理模块,用于根据待校正关键词与候选参考文本的编辑距离和待校正关键词的音节长度对待校正关键词与候选参考文本的编辑距离进行处理;

第三确定模块,还用于根据处理后的待校正关键词与目标参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

关于关键词校正装置的具体限定可以参见上文中对于关键词校正方法的限定,在此不再赘述。上述关键词校正装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种关键词校正方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

根据多个参考文本确定待处理文本中的待校正关键词,多个参考文本为与待处理文本相关的文本;

通过待校正关键词与多个参考文本的第一相似度从多个参考文本中确定候选参考文本;

根据待校正关键词与候选参考文本的音素相似度确定目标参考文本;

基于目标参考文本对待校正关键词进行校正。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将待校正关键词分别与多个参考文本进行比较,得到多个比较结果,基于比较结果确定待校正关键词与多个参考文本的第一相似度;将多个参考文本中与待校正关键词的第一相似度大于等于预设第一阈值的参考文本确定为候选参考文本。

在一个实施例中,当第一相似度为字符相似度时,处理器执行计算机程序时还实现以下步骤:以字符为比较单位将待校正关键词中的字符分别与多个参考文本中的字符进行按照字符的排列顺序比较,得到多个编辑距离,编辑距离为待校正关键词中的字符调整为参考文本中的字符所需的次数;根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的字符相似度。

在一个实施例中,当第一相似度为音节相似度时,处理器执行计算机程序时还实现以下步骤:以音节为比较单位将待校正关键词中的各个音节分别与多个参考文本中的各个音节按照音节的排列顺序进行比较,得到多个编辑距离,编辑距离为待校正关键词中的各个音节调整为参考文本中的各个音节所需的次数;根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的音节相似度。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别将待校正关键词音节中的各个音素和候选参考文本音节中的各个音素输入到预设的语言模型中进行向量化处理,得到待校正关键词的多个第一词向量以及候选参考文本的多个第二词向量;根据超参数、第一词向量和与第一词向量对应的第二词向量之间的欧氏距离以及最大欧式距离确定待校正关键词与候选参考文本的音素相似度;将候选文本中与待校正关键词的第二相似度大于等于预设第二阈值的候选文本确定为目标参考文本。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据包含的关系式确定待校正关键词与候选参考文本的编辑距离,其中,α为超参数,S为最大欧式距离,n为向量的维度,xi为第一词向量,yi为第二词向量;根据待校正关键词与候选参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据待校正关键词与候选参考文本的编辑距离和待校正关键词的音节长度对待校正关键词与候选参考文本的编辑距离进行处理;根据处理后的待校正关键词与目标参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

根据多个参考文本确定待处理文本中的待校正关键词,多个参考文本为与待处理文本相关的文本;

通过待校正关键词与多个参考文本的第一相似度从多个参考文本中确定候选参考文本;

根据待校正关键词与候选参考文本的音素相似度确定目标参考文本;

基于目标参考文本对待校正关键词进行校正。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将待校正关键词分别与多个参考文本进行比较,得到多个比较结果,基于比较结果确定待校正关键词与多个参考文本的第一相似度;将多个参考文本中与待校正关键词的第一相似度大于等于预设第一阈值的参考文本确定为候选参考文本。

在一个实施例中,当第一相似度为字符相似度时,计算机程序被处理器执行时还实现以下步骤:以字符为比较单位将待校正关键词中的字符分别与多个参考文本中的字符进行按照字符的排列顺序比较,得到多个编辑距离,编辑距离为待校正关键词中的字符调整为参考文本中的字符所需的次数;根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的字符相似度。

在一个实施例中,当第一相似度为音节相似度时,计算机程序被处理器执行时还实现以下步骤:以音节为比较单位将待校正关键词中的各个音节分别与多个参考文本中的各个音节按照音节的排列顺序进行比较,得到多个编辑距离,编辑距离为待校正关键词中的各个音节调整为参考文本中的各个音节所需的次数;根据待校正关键词与参考文本的编辑距离确定待校正关键词与多个参考文本的音节相似度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别将待校正关键词音节中的各个音素和候选参考文本音节中的各个音素输入到预设的语言模型中进行向量化处理,得到待校正关键词的多个第一词向量以及候选参考文本的多个第二词向量;根据超参数、第一词向量和与第一词向量对应的第二词向量之间的欧氏距离以及最大欧式距离确定待校正关键词与候选参考文本的音素相似度;将候选文本中与待校正关键词的第二相似度大于等于预设第二阈值的候选文本确定为目标参考文本。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据包含的关系式确定待校正关键词与候选参考文本的编辑距离,其中,α为超参数,S为最大欧式距离,n为向量的维度,xi为第一词向量,yi为第二词向量;根据待校正关键词与候选参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据待校正关键词与候选参考文本的编辑距离和待校正关键词的音节长度对待校正关键词与候选参考文本的编辑距离进行处理;根据处理后的待校正关键词与目标参考文本的编辑距离确定待校正关键词与候选参考文本的音素相似度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于BERT模型的带权消极监督文本情感分析方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!