语音识别信号预处理方法、装置、设备及计算机存储介质

文档序号:170843 发布日期:2021-10-29 浏览:47次 >En<

阅读说明:本技术 语音识别信号预处理方法、装置、设备及计算机存储介质 (Speech recognition signal preprocessing method, device, equipment and computer storage medium ) 是由 陈润泽 陈航 任永华 胡瑛 王振志 于 2020-04-28 设计创作,主要内容包括:本发明实施例涉及语音信号处理技术领域,公开了一种语音识别信号预处理方法,该方法包括:接收待识别语音信号,并提取待识别语音信号中各待识别语句的声纹特征,其中,待识别语音信号包括至少一个待识别语句;根据声纹模型库对各待识别语句的声纹特征进行识别,得到初始识别结果;其中,声纹模型库为根据待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到;对待识别的语音信号的各待识别语句进行失真性分析,得到各待识别语句的失真度结果;根据失真度结果对声纹模型库及初始识别结果进行调整,得到目标声纹模型库及目标识别结果。通过上述方式,本发明实施例实现了语音识别的准确性的有益效果。(The embodiment of the invention relates to the technical field of voice signal processing, and discloses a voice recognition signal preprocessing method, which comprises the following steps: receiving a voice signal to be recognized, and extracting the voiceprint characteristics of each sentence to be recognized in the voice signal to be recognized, wherein the voice signal to be recognized comprises at least one sentence to be recognized; recognizing the voiceprint characteristics of each sentence to be recognized according to the voiceprint model library to obtain an initial recognition result; the voice print model base is obtained by performing short-time registration construction on each sentence to be recognized before the current sentence to be recognized in the voice signal to be recognized; performing distortion analysis on each sentence to be recognized of the voice signal to be recognized to obtain a distortion degree result of each sentence to be recognized; and adjusting the voiceprint model library and the initial recognition result according to the distortion degree result to obtain a target voiceprint model library and a target recognition result. Through the mode, the embodiment of the invention has the beneficial effect of realizing the accuracy of voice recognition.)

语音识别信号预处理方法、装置、设备及计算机存储介质

技术领域

本发明实施例涉及人工智能技术领域,具体涉及一种语音识别信号预处理方法、装置、设备及计算机可读存储介质。

背景技术

目前,为了提高语音识别的准确性,通常通过麦克风阵列来实现对信号输入的筛选和过滤,其主要目的是去有效声源以外的干扰源,主要包括如下几个部分:

1、声源定位:通过角度和距离测量来定位声源。

2、回声抑制及消除:抑制背景噪声、干扰、混响、回声等异常的信号。

3.信号分离和提取:按照规则,进行信号分离和提取

然而,现有麦克风阵列技术主要技术目标的是针对麦克风输入的声音信号,对于去除人声以外的其他干扰源,诸如对背景噪音、混响、回声、干扰、汽车喇叭声等异常信号有明显效果。但无法对因使用环境原因引入的使用用户周围其他人的声音信号进行处理。

因此,亟需一种可以消除因使用环境原因引入的使用用户周围其他人的声音信号的语音信号预处理方法,以提高语音识别的准确度。

发明内容

鉴于上述问题,本发明实施例提供了一种语音识别信号预处理方法、语音识别方法装置、设备及计算机可读存储介质,用于解决现有技术中存在的语音识别信号无法消除因周围环境引起的其他人的声音的技术问题。

根据本发明实施例的一个方面,提供了一种语音识别信号预处理方法,所述方法包括:

接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句;

根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系;

对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果;

根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

在一种可选的方式中,

接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句,进一步包括:

将所述待识别语音信号划分为多个语句;

提取所述待识别语音信号中当前待识别语句之前的各待识别语句的身份特征和文本特征,融合得到声纹特征。

在一种可选的方式中,根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果,其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,进一步包括:

将所述声纹特征与对应的用户标识关联存储,构建声纹模型库;

将当前待识别语句与声纹模型库中存储的声纹特征进行比较,判断相似度,为当前待识别语音信号匹配对应的用户标识,并关联存储至声纹模型库。

在一种可选的方式中,对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果,进一步包括:

采用THD总谐波失真分析方法对所述待识别语音信号中的各待识别语句进行失真度分析,得到各个语句对应的失真度结果。

在一种可选的方式中,所述THD总谐波失真分析方法,进一步包括:

采用THD总谐波失真分析公式进行失真度分析:

其中,VTHD_R表示指定N次全部谐波分量均方根值与总均方根值之比,Vh,rms表示音量均方根,rms表示均方根,h表示指定阶数。

在一种可选的方式中,根据所述失真度结果对所述初始识别结果进行调整,得到目标识别结果,进一步包括:

确定各待识别的语句的失真度结果是否在失真度阈值区间内;

在声纹模型库中将所述失真度结果不在所述失真度阈值区间内的待识别语句及对应的用户标识剔除,得到目标声纹模型库及目标识别结果。

根据本发明实施例的另一方面,还提供了一种语音识别信号预处理装置,包括:

声纹提取模块,用于接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句;

声纹注册模块,用于根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系;

失真度分析模块,用于对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果;

调整模块,用于根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

在一种可选的方式中,所述声纹注册模块根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果,其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,进一步包括:

将所述声纹特征与对应的用户标识关联存储,构建声纹模型库;

将当前待识别语句与声纹模型库中存储的声纹特征进行比较,判断相似度,为当前待识别语音信号匹配对应的用户标识,并关联存储至声纹模型库。

根据本发明实施例的另一方面,提供了一种语音识别信号预处理设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的语音识别信号预处理方法的操作。

根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在语音识别信号预处理设备/装置上运行时,使得所述语音识别信号预处理设备/装置执行上述语音识别信号预处理方法的操作。

本实施例的语音识别信号预处理方法,通过结合THD总谐波失真分析的方法进行信号失真度分析,并根据失真度分析结果对声纹模型库进行微调,并针对声纹模型库分析后的不同的说话人结果进行微调,将微调后的语音识别结果作为目标待识别语音,从而提升语音识别结果的准确性。

上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的

具体实施方式

附图说明

附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的语音识别信号预处理方法的流程示意图;

图2示出了本发明实施例提供的语音识别信号预处理装置的结构示意图;

图3示出了本发明实施例提供的语音识别信号预处理设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。

图1示出了本发明实施例提供的语音识别信号预处理方法的流程示意图,该方法由语音识别信号的预处理装置执行。如图1所示,该方法包括以下步骤:

S110:接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句。

其中,该待识别语音信号为经过麦克风阵列处理后,剩余的人声部分的语音信号。本发明的目的是为了有效提取使用该语音识别装置的用户的声音信号,去除因使用环境原因引入的使用用户周围其他人的声音信号,提升输入语音信号识别的正确度。对于背景噪音、混响、回声、干扰、汽车喇叭声等异常信号等异常信息号在经过麦克风阵列时已被处理。

具体地,在接收到待识别语音信号后,将待识别语音信号划分为多个语句。以待识别语音信号中的每一句话作为一个语句。提取所述待识别语音信号中当前待识别语句之前的各待识别语句的身份特征和文本特征,融合得到声纹特征。采用DNN算法分别提取语音中所蕴含的说话人自身的身份特征和对应的与语音信息的内容相关的文本特征。其中,身份特征包括声音音色、响度、音调等时域和频域的特征,比如短时能量,短时平均幅度、短时果岭率、MFCC参数、PLP参数、基音等。文本特征为与待识别语音信号的内容相关的文本内容。将该身份特征和文本特征进行融合,得到声纹特征。

S120:根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系。

具体地,本实施例中,该步骤具体包括:

将声纹特征与用户标识关联存储,构建声纹模型库。具体地,将接收到的待识别语音信号中各个待识别语句的声纹特征分别与用户标识进行关联存储。以每一个待识别语句(每一句话)为单位进行声纹自注册,关联用户标识后,建立自由说声纹模型库,储存用户声纹特征。此用户标识为预先设置的多个标识,用于匹配声纹特征。识别结果为待识别语句与用户的对应关系通过待识别语句的声纹特征与用户标识的对应关系来表示。

将当前待识别语音信号与声纹模型库中之前存储的各待识别语句的声纹特征进行比较,判断相似度,从而为当前待识别语音信号匹配用户标识。

例如:在会议场景下,接收语音信号。当接收到第一句话时,将该第一句话进行声纹特征提取,并匹配一个随机的用户标识,如用户1,关联存储后,存储在声纹模型库中。当接收到第二句话时,提取第二句话的声纹特征,并与声纹模型库中的第一句话的声纹特征进行比较,如相似度达到预设的相似度阈值,则将第二句话也匹配为用户1,说明该第二句话也是用户1所说。若相似度未达到相似度阈值,则为第二句话随机匹配一个用户标识,如标识2。将第二句话的声纹特征与对应的用户标识关联,并存储在声纹模型库中。在接收到第三句话时,采用上述同样的方式,分别与第一句话和第二句话的声纹特征进行匹配,获得第三句话的用户标识,关联存储在声纹模型库中。其中,用户标识可为添加字段的形式实现与待识别语句的关联存储。

采用上述的方式,将当前待识别语句与声纹模型库中存储的各个之前待识别语句的声纹特征进行比较,匹配对应的用户标识,从而得到各个待识别语句所对应的用户标识,所述各个待识别语句的声纹特征以及对应的用户标识即为初始识别结果。也即,通过上述处理,可以获得各个待识别语句所对应的说话人。从而实现准确判断在会议中产生的语音信号,哪些语句是一个用户所说,哪些语句是另一个用户所说。

S130:对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果。

其中,失真度定义为声音在转换、放大、传输过程中受到干扰和噪声的影响,输出信号会相对于输入信号发生波形上的变化。输出信号相对于输入信号偏离大小的程度就是失真度。这些干扰和噪声包括说话人周围其他人的声音。因此,进行失真度分析可以辅助分辨说话人和其他人的语音信号。

本实施例中,采用THD总谐波失真分析公式进行该原始语音信号的失真度的分析。对待识别语句的每一句语句为单位进行信号失真度分析,得到该语音识别信号预处理设备的输入信号相对于输出信号的失真度。

采用以下THD总谐波失真分析公式进行失真度分析:

首先,使用选中的待识别语音信号的音量的波形样本采样点的值Vsamp进行相应的音量均方根Vrms的测量,并将其插入标准均方根方程:

然后,按照信号中全部谐波含量计算THD参数:

其中,VTHD_R表示指定N次全部谐波分量均方根值与总均方根值之比,Vh,rms表示音量均方根,rms表示均方根。

根据上述失真度公式进行分析计算后,获得待识别语音信号中各个待识别语句对应的音量的失真度结果。本实施例中,失真度结果可以用百分比来表示,如失真度为5%,表示该待识别语句的相对于其原始输入失真了5%。

S140:根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

本实施例中,在得到初始识别结果后,即得到了一个各个待识别语句的声纹特征以及对应的用户标识的初始对应结果,并得到了一个所有待识别语句的声纹特征均与对应的用户标识进行关联存储的声纹模型库。初始识别结果并未将失真度考虑进去,因此需要根据计算得到的各个待识别语句的失真度结果,来判断各个待识别语句是否失真。在相同音色音调等声纹特征下,需要在待识别语句自注册中剔除信号失真度变化较大的待识别语句的声纹特征,仅仅选择增加在失真度合理范围内的待识别语句作为自注册有效待识别语句的声纹特征。因此,本实施例中,设置了失真度阈值区间。在超过该失真度阈值区间后,说明该待识别语句的失真度较高,因此,需要在声纹模型库中将失真度结果不在失真度阈值区间内的待识别语句及对应的识别结果剔除,以调整声纹模型库,得到目标声纹模型库。同时得到剔除失真度高的待识别语句后的目标识别结果。本实施例中,失真度阈值区间为0-5%。若某句待识别语句的失真度结果超过5%则将该待识别语句剔除。

本实施例中,在根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标识别结果后,还根据语音识别信号的音量大小、谐波完整度、失真度等特征对待识别语句进行排序,选择用户标识对应的待识别语句进行语音识别结果的输出,得到输出结果。例如,选择语音识别信号的音量大、谐波完整、失真度小的待识别语句及对应的用户标识输出。通过用户行为辅助对目标识别结果进行判断,如输出错误,则提示用户重复上述语音识别的步骤,以优化该声纹模型库,修正输出的用户标识及识别结果,进一步提升声纹模型库对用户语音识别结果的准确性。

本实施例中,场景为在会议记录中,根据待识别语音注册的不同的声纹特征及失真度结果,对待识别语句进行分类汇总,将相同用户标识的待识别语音汇总在一起,并将对应的用户标识作为名称,做为结果输出。

本实施例的语音识别信号预处理方法,通过结合THD总谐波失真分析的方法进行信号失真度分析,并根据失真度分析结果对声纹模型库进行微调,并针对声纹模型库分析后的不同的说话人结果进行微调,将微调后的语音识别结果作为目标待识别语音,从而提升语音识别结果的准确性。

图2示出了本发明语音识别信号预处理装置一个实施例的结构示意图。如图2所示,该装置200包括:声纹提取模块210、声纹注册模块220、失真度分析模块230、调整模块240。

声纹提取模块210,用于接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句。

声纹注册模块220,用于根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系。

失真度分析模块230,用于对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果。

调整模块140,用于根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

各模块具体的工作过程如下:

声纹提取模块210接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,待识别语音信号包括至少一个待识别语句。

其中,该待识别语音信号为经过麦克风阵列处理后,剩余的人声部分的语音信号。本发明的目的是为了有效提取使用该语音识别装置的用户的声音信号,去除因使用环境原因引入的使用用户周围其他人的声音信号,提升输入声音信号的正确度。对于背景噪音、混响、回声、干扰、汽车喇叭声等异常信号等异常信息号在经过麦克风阵列时已被处理。

本实施例中,声纹提取模块210包括语音划分子模块及声纹融合子模块。

语句划分模块,用于将待识别语音信号划分为多个语句。以待识别语音信号中的每一句话作为一个语句。

声纹融合子模块,用于提取所述待识别语音信号中当前待识别语句之前的各待识别语句的身份特征和文本特征,融合得到声纹特征。

具体地,声纹融合子模块采用DNN算法分别提取语音中所蕴含的说话人自身的身份特征和对应的与语音信息的内容相关的文本特征。其中,身份特征包括声音音色、响度、音调等时域和频域的特征,比如短时能量,短时平均幅度、短时果岭率、MFCC参数、PLP参数、基音等。文本特征为与待识别语音信号的内容相关的文本内容。将该身份特征和文本特征进行融合,得到声纹特征。

声纹注册模块220根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系。

其中,声纹注册模块220将声纹特征与用户标识关联存储,构建声纹模型库。具体地,将接收到的待识别语音信号中各个待识别语句的声纹特征分别与用户标识进行关联存储。以每一个待识别语句(每一句话)为单位进行声纹自注册,关联用户标识后,建立自由说声纹模型库,储存用户声纹特征。此用户标识为预先设置的多个标识,用于匹配声纹特征。将当前待识别语音信号与声纹模型库中之前存储的各待识别语句的声纹特征进行比较,判断相似度,从而为当前待识别语音信号匹配用户标识。识别结果为待识别语句与用户的对应关系通过待识别语句的声纹特征与用户标识的对应关系来表示。

例如:在会议场景下,接收语音信号。当接收到第一句话时,将该第一句话进行声纹特征提取,并匹配一个随机的用户标识,如用户1,关联存储后,存储在声纹模型库中。当接收到第二句话时,提取第二句话的声纹特征,并与声纹模型库中的第一句话的声纹特征进行比较,如相似度达到预设的相似度阈值,则将第二句话也匹配为用户1,说明该第二句话也是用户1所说。若相似度未达到相似度阈值,则为第二句话随机匹配一个用户标识,如标识2。将第二句话的声纹特征与对应的用户标识关联,并存储在声纹模型库中。在接收到第三句话时,采用上述同样的方式,分别与第一句话和第二句话的声纹特征进行匹配,获得第三句话的用户标识,关联存储在声纹模型库中。其中,用户标识可为添加字段的形式实现与待识别语句的关联存储。

声纹注册模块220通过上述的操作,将当前待识别语句与声纹模型库中存储的各个之前待识别语句的声纹特征进行比较,匹配对应的用户标识,从而得到各个待识别语句所对应的用户标识,所述各个待识别语句的声纹特征以及对应的用户标识即为初始识别结果。也即,通过上述处理,可以获得各个待识别语句所对应的说话人。从而实现准确判断在会议中产生的语音信号,哪些语句是一个用户所说,哪些语句是另一个用户所说。

失真度分析模块230对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果。

其中,失真度定义为声音在转换、放大、传输过程中受到干扰和噪声的影响,输出信号会相对于输入信号发生波形上的变化。输出信号相对于输入信号偏离大小的程度就是失真度。这些干扰和噪声包括说话人周围其他人的声音。因此,进行失真度分析可以辅助分辨说话人和其他人的语音信号。

本实施例中,采用THD总谐波失真分析公式进行该原始语音信号的失真度的分析。对待识别语句的每一句语句为单位进行信号失真度分析,得到该语音识别信号预处理设备的输入信号相对于输出信号的失真度。

采用THD总谐波失真分析公式进行失真度分析:

首先,使用选中的待识别语音信号的音量的波形样本采样点的值Vsamp进行相应的音量均方根Vrms的测量,并将其插入标准均方根方程:

然后,按照信号中全部谐波含量计算THD参数:

其中,VTHD_R表示指定N次全部谐波分量均方根值与总均方根值之比,Vh,rms表示音量均方根,rms表示均方根,h表示指定阶数。

根据上述失真度公式进行分析计算后,获得待识别语音信号中各个待识别语句对应的失真度结果。本实施例中,失真度结果可以用百分比来表示,如失真度为5%,表示该待识别语句的相对于其原始输入失真了5%。

调整模块140根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

本实施例中,在得到初始识别结果后,即得到了一个各个待识别语句的声纹特征以及对应的用户标识的初始对应结果,并得到了一个所有待识别语句的声纹特征均与对应的用户标识进行关联存储的声纹模型库。初始识别结果并未将失真度考虑进去,因此需要根据计算得到的各个待识别语句的失真度结果,来判断各个待识别语句是否失真。在相同音色音调等声纹特征下,需要在待识别语句自注册中剔除信号失真度变化较大的待识别语句的声纹特征,仅仅选择增加在失真度合理范围内的待识别语句作为自注册有效待识别语句的声纹特征。因此,本实施例中,设置了失真度阈值区间。在超过该失真度阈值区间后,说明该待识别语句的失真度较高,因此,需要在声纹模型库中将失真度结果不在失真度阈值区间内的待识别语句及对应的识别结果剔除,以调整声纹模型库,得到目标声纹模型库。同时得到剔除失真度高的待识别语句后的目标识别结果。本实施例中,失真度阈值区间为0-5%。若某句待识别语句的失真度结果超过5%则将该待识别语句剔除。

本实施例中,在根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标识别结果后,还根据语音识别信号的音量大小、谐波完整度、失真度等特征对待识别语句进行排序,选择用户标识对应的待识别语句进行语音识别结果的输出,得到输出结果。例如,选择语音识别信号的音量大、谐波完整、失真度小的待识别语句及对应的用户标识输出。通过用户行为辅助对目标识别结果进行判断,如输出错误,则提示用户重复上述语音识别的步骤,以优化该声纹模型库,修正输出的用户标识及识别结果,进一步提升声纹模型库对用户语音识别结果的准确性。

本实施例中,场景为在会议记录中,根据待识别语音注册的不同的声纹特征及失真度结果,对待识别语句进行分类汇总,将相同用户标识的待识别语音汇总在一起,并将对应的用户标识作为名称,做为结果输出。

本实施例的语音识别信号预处理装置,通过结合THD总谐波失真分析的方法进行信号失真度分析,并根据失真度分析结果对声纹模型库进行微调,并针对声纹模型库分析后的不同的说话人结果进行微调,将微调后的语音识别结果作为目标待识别语音,从而提升语音识别结果的准确性。

图3示出了本发明语音识别信号预处理设备实施例的结构示意图,本发明具体实施例并不对该语音识别信号预处理设备的具体实现做限定。

如图3所示,该语音识别信号预处理设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)506、以及通信总线308。

其中:处理器302、通信接口304、以及存储器306通过通信总线508完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它应用服务端等的网元通信。处理器302,用于执行程序310,具体可以执行上述用于语音识别信号预处理方法实施例中的相关步骤。

具体地,程序310可以包括程序代码,该程序代码包括计算机可执行指令。

处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。身份验证设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序310具体可以被处理器302调用使该电子设备执行以下操作:

接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句;

根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系;

对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果;

根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

在一种可选的方式中,接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句,进一步包括:

将所述待识别语音信号划分为多个语句;

提取所述待识别语音信号中当前待识别语句之前的各待识别语句的身份特征和文本特征,融合得到声纹特征。

在一种可选的方式中,根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果,其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,进一步包括:

将所述声纹特征与对应的用户标识关联存储,构建声纹模型库;

将当前待识别语句与声纹模型库中存储的声纹特征进行比较,判断相似度,为当前待识别语音信号匹配对应的用户标识,并关联存储至声纹模型库。

在一种可选的方式中,对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果,进一步包括:

采用THD总谐波失真分析方法对所述待识别语音信号中的各待识别语句进行失真度分析,得到各个语句对应的失真度结果。

在一种可选的方式中,所述THD总谐波失真分析方法,进一步包括:

采用THD总谐波失真分析公式进行失真度分析:

其中,VTHD_R表示指定N次全部谐波分量均方根值与总均方根值之比,Vh,rms表示音量均方根,rms表示均方根,h表示指定阶数。

在一种可选的方式中,根据所述失真度结果对所述初始识别结果进行调整,得到目标识别结果,进一步包括:

确定各待识别的语句的失真度结果是否在失真度阈值区间内;

在声纹模型库中将所述失真度结果不在所述失真度阈值区间内的待识别语句及对应的用户标识剔除,得到目标声纹模型库及目标识别结果。

本实施例的语音识别信号预处理设备,通过结合THD总谐波失真分析的方法进行信号失真度分析,并根据失真度分析结果对声纹模型库进行微调,并针对声纹模型库分析后的不同的说话人结果进行微调,将微调后的语音识别结果作为目标待识别语音,从而提升语音识别结果的准确性。

本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在语音识别信号预处理设备/装置上运行时,使得所述语音识别信号预处理设备/装置执行上述任意方法实施例中的语音识别信号预处理方法。

可执行指令具体可以用于使得语音识别信号预处理设备/装置执行以下操作:

接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句;

根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果;其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,所述识别结果为待识别语句与用户的对应关系;

对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果;

根据所述失真度结果对所述声纹模型库及所述初始识别结果进行调整,得到目标声纹模型库及目标识别结果。

在一种可选的方式中,接收待识别语音信号,并提取所述待识别语音信号中各待识别语句的声纹特征,其中,所述待识别语音信号包括至少一个待识别语句,进一步包括:

将所述待识别语音信号划分为多个语句;

提取所述待识别语音信号中当前待识别语句之前的各待识别语句的身份特征和文本特征,融合得到声纹特征。

在一种可选的方式中,根据声纹模型库对所述各待识别语句的声纹特征进行识别,得到初始识别结果,其中,所述声纹模型库为根据所述待识别语音信号中当前待识别语句之前的各待识别语句进行短时注册构建得到,进一步包括:

将所述声纹特征与对应的用户标识关联存储,构建声纹模型库;

将当前待识别语句与声纹模型库中存储的声纹特征进行比较,判断相似度,为当前待识别语音信号匹配对应的用户标识,并关联存储至声纹模型库。

在一种可选的方式中,对所述待识别的语音信号的各待识别语句进行失真性分析,得到所述各待识别语句的失真度结果,进一步包括:

采用THD总谐波失真分析方法对所述待识别语音信号中的各待识别语句进行失真度分析,得到各个语句对应的失真度结果。

在一种可选的方式中,所述THD总谐波失真分析方法,进一步包括:

采用THD总谐波失真分析公式进行失真度分析:

其中,VTHD_R表示指定N次全部谐波分量均方根值与总均方根值之比,Vh,rms表示音量均方根,rms表示均方根,h表示指定阶数。

在一种可选的方式中,根据所述失真度结果对所述初始识别结果进行调整,得到目标识别结果,进一步包括:

确定各待识别的语句的失真度结果是否在失真度阈值区间内;

在声纹模型库中将所述失真度结果不在所述失真度阈值区间内的待识别语句及对应的用户标识剔除,得到目标声纹模型库及目标识别结果。

本实施例通过结合THD总谐波失真分析的方法进行信号失真度分析,并根据失真度分析结果对声纹模型库进行微调,并针对声纹模型库分析后的不同的说话人结果进行微调,将微调后的语音识别结果作为目标待识别语音,从而提升语音识别结果的准确性。

本发明实施例提供一种基于语音识别信号预处理装置,用于执行上述语音识别信号预处理方法。

本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使上述电子设备执行上述任意方法实施例中的语音识别信号预处理方法。

本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的语音识别信号预处理方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种智能语音沙发控制系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!