基于人工智能的语音检测方法、装置及电子设备

文档序号:193306 发布日期:2021-11-02 浏览:49次 >En<

阅读说明:本技术 基于人工智能的语音检测方法、装置及电子设备 (Speech detection method and device based on artificial intelligence and electronic equipment ) 是由 林炳怀 王丽园 于 2021-01-20 设计创作,主要内容包括:本申请提供了一种基于人工智能的语音检测方法、装置、电子设备及计算机可读存储介质;方法包括:将音频信号划分为多个发音片段,获取每个所述发音片段的音频特征;基于每个所述发音片段的音频特征,对每个所述发音片段进行人声分类处理,得到每个所述发音片段的人声分类结果;基于每个所述发音片段的音频特征,对每个所述发音片段进行语种分类处理,得到每个所述发音片段的语种分类结果;基于每个所述发音片段的人声分类结果确定所述音频信号的人声分类结果,并基于每个所述发音片段的语种分类结果确定所述音频信号的语种分类结果。通过本申请,能够提高语音识别的实时性和准确度。(The application provides a voice detection method, a voice detection device, electronic equipment and a computer-readable storage medium based on artificial intelligence; the method comprises the following steps: dividing an audio signal into a plurality of pronunciation segments, and acquiring the audio characteristics of each pronunciation segment; based on the audio features of each pronunciation segment, carrying out voice classification processing on each pronunciation segment to obtain a voice classification result of each pronunciation segment; performing language classification processing on each pronunciation segment based on the audio features of each pronunciation segment to obtain a language classification result of each pronunciation segment; and determining a human voice classification result of the audio signal based on the human voice classification result of each pronunciation segment, and determining a language classification result of the audio signal based on the language classification result of each pronunciation segment. By the method and the device, the instantaneity and the accuracy of voice recognition can be improved.)

基于人工智能的语音检测方法、装置及电子设备

技术领域

本申请涉及人工智能技术,尤其涉及一种基于人工智能的语音检测方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

越来越多的人工智能产品具备语音交互的功能,语音交互可以应用于各种语音评分系统,例如,百科问答系统,语言教育应用的语言测试系统,口语考试系统,智能助手控制系统,内嵌在客户端的语音输入系统,内嵌在客户端的语音控制系统等等,在语音交互功能的使用过程中容易出现多种情况的异常语音,影响语音交互的实时性以及准确性。

发明内容

本申请实施例提供一种基于人工智能的语音检测方法、装置、电子设备及计算机可读存储介质,能够提高语音识别的实时性和准确度。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种基于人工智能的语音检测方法,包括:

将音频信号划分为多个发音片段,获取每个所述发音片段的音频特征;

基于每个所述发音片段的音频特征,对每个所述发音片段进行人声分类处理,得到每个所述发音片段的人声分类结果;

基于每个所述发音片段的音频特征,对每个所述发音片段进行语种分类处理,得到每个所述发音片段的语种分类结果;

基于每个所述发音片段的人声分类结果确定所述音频信号的人声分类结果,并基于每个所述发音片段的语种分类结果确定所述音频信号的语种分类结果。

本申请实施例提供一种基于人工智能的语音检测装置,包括:

获取模块,用于将音频信号划分为多个发音片段,获取每个所述发音片段的音频特征;

人声模块,用于基于每个所述发音片段的音频特征,对每个所述发音片段进行人声分类处理,得到每个所述发音片段的人声分类结果;

语种模块,用于基于每个所述发音片段的音频特征,对每个所述发音片段进行语种分类处理,得到每个所述发音片段的语种分类结果;

结果模块,用于基于每个所述发音片段的人声分类结果确定所述音频信号的人声分类结果,并基于每个所述发音片段的语种分类结果确定所述音频信号的语种分类结果。

在上述方案中,所述获取模块,还用于:确定所述音频信号中每个音频帧的语音能量;将所述音频信号中语音能量大于背景噪音能量的多个连续的音频帧,组合为发音片段。

在上述方案中,所述获取模块,还用于:对所述音频信号进行分帧处理,得到对应所述音频信号的多个音频帧;通过音频帧分类网络对每个所述音频帧进行特征提取处理,得到对应每个所述音频帧的音频帧分类特征;其中,所述音频帧分类特征包括以下至少之一:对数帧能量特征;过零率特征;标准化自相关特征;通过所述音频帧分类网络对每个所述音频帧进行基于所述音频帧分类特征的分类处理,将分类结果是发音数据的多个连续的音频帧组合为发音片段;其中,所述音频帧分类网络的训练样本包括音频帧样本,所述训练样本的标注数据包括所述音频帧样本的预标记分类结果。

在上述方案中,所述人声分类处理和所述语种分类处理是通过多分类任务模型实现的,所述多分类任务模型包括人声分类网络和语种分类网络;所述人声模块,还用于:将每个所述发音片段的音频特征,在所述人声分类网络中进行前向传输,得到每个所述发音片段的人声分类结果;所述语种模块,还用于:将每个所述发音片段的音频特征,在所述语种分类网络中进行前向传输,得到每个所述发音片段的语种分类结果。

在上述方案中,所述人声模块,还用于:通过所述人声分类网络与所述语种分类网络的共享全连接层,对每个所述发音片段进行第一全连接处理,得到对应每个所述发音片段的第一全连接处理结果;通过所述人声分类网络的人声全连接层,对每个所述发音片段的第一全连接处理结果进行第二全连接处理,得到每个所述发音片段的第二全连接处理结果;对每个所述发音片段的第二全连接处理结果进行最大似然处理,得到对应每个人声分类标签的概率;将概率最大的人声分类标签确定为每个所述发音片段的人声分类结果;所述语种模块,还用于:通过所述语种分类网络与所述语种分类网络的共享全连接层,对每个所述发音片段进行第三全连接处理,得到对应每个所述发音片段的第三全连接处理结果;通过所述语种分类网络的语种全连接层,对每个所述发音片段的第三全连接处理结果进行第四全连接处理,得到每个所述发音片段的第四全连接处理结果;对每个所述发音片段的第四全连接处理结果进行最大似然处理,得到对应每个语种分类标签的概率;将概率最大的语种分类标签确定为每个所述发音片段的语种分类结果。

在上述方案中,每个所述发音片段的音频特征是通过多分类任务模型中的共享特征网络获取的;所述获取模块,还用于:将每个所述发音片段的类型从时域信号变换到频域信号,对变换为频域信号的每个所述发音片段进行梅尔计算,得到每个所述发音片段的梅尔刻度的频谱;将每个所述发音片段的梅尔刻度的频谱在所述共享特征网络中进行前向传输,得到对应每个所述发音片段的音频特征。

在上述方案中,所述共享特征网络包括N个级联的特征提取网络,N为大于或等于2的整数;所述获取模块,还用于:通过N个级联的特征提取网络中的第n特征提取网络,对所述第n特征提取网络的输入进行特征提取处理;将所述第n特征提取网络输出的第n特征提取结果传输到第n+1特征提取网络以继续进行特征提取处理;其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1,;当n取值为1时,所述第n特征提取网络的输入为每个所述发音片段的梅尔刻度的频谱,当n取值为2≤n≤N-1时,所述第n特征提取网络的输入为第n-1特征提取网络的特征提取结果。

在上述方案中,所述第n特征提取网络包括卷积层、归一化层、线性整流层以及平均池化层;所述获取模块,还用于:将所述第n特征提取网络的输入与所述第n特征提取网络的卷积层的卷积层参数进行卷积处理,得到第n卷积层处理结果;通过所述第n特征提取网络的归一化层对所述第n卷积层处理结果进行归一化处理,得到第n归一化处理结果;通过所述第n特征提取网络的线性整流层对所述第n归一化处理结果进行线性整流处理,得到第n线性整流处理结果;通过所述第n特征提取网络的平均池化层对所述第n线性整流处理结果进行平均池化处理,得到第n特征提取结果。

在上述方案中,所述人声模块,还用于:基于所述音频信号的应用场景,进行多个候选分类处理的适配;当在所述多个候选分类处理中适配到所述人声分类处理时,对每个所述发音片段进行人声分类处理,得到每个所述发音片段的人声分类结果;所述语种模块,还用于:基于所述音频信号的应用场景,进行多个候选分类处理的适配;当在所述多个候选分类处理中适配到所述语种分类处理时,对每个所述发音片段进行语种分类处理,得到每个所述发音片段的语种分类结果。

在上述方案中,所述人声模块,还用于:获取所述应用场景的限定条件,以将所述多个候选分类处理中对应所述限定条件的候选分类处理确定为与所述应用场景适配的分类处理;其中,所述限定条件包括以下至少之一:年龄;物种;语种;性别。

在上述方案中,所述人声分类处理和所述语种分类处理是通过多分类任务模型实现的,所述多分类任务模型包括共享特征网络、人声分类网络以及语种分类网络;所述装置还包括:训练模块,用于:将训练样本集合中的语料样本,在所述共享特征网络、所述人声分类网络和所述语种分类网络的共享全连接层、以及对应所述共享特征网络的全连接层中进行正向传播和反向传播,以更新所述共享特征网络以及所述共享全连接层的参数;将所述训练样本集合中的语料样本,在更新后的所述共享特征网络、更新后的所述共享全连接层、所述人声分类网络的人声全连接层以及所述语种分类网络的语种全连接层中进行正向传播和反向传播,以更新所述多分类任务模型的参数。

在上述方案中,所述结果模块,还用于:获取所述人声分类结果为非人声的发音片段的第一数目、以及所述人声分类结果为人声的发音片段的第二数目;将所述第一数目和所述第二数目中的较大数目对应的人声分类结果确定为所述音频信号的人声分类结果;获取所述语种分类结果为每个语种的发音片段的数目;将最大数目对应的语种确定为所述音频信号的语种分类结果。

本申请实施例提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的语音检测方法。

本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的基于人工智能的语音检测方法。

本申请实施例具有以下有益效果:

通过对音频信号中每个发音片段进行特征提取,并分别针对提取的音频特征进行人声分类处理以及语种分类处理,从而准确地检测出音频信号所存在的多种异常,从而更准确地实现语音识别。

附图说明

图1是本申请实施例提供的基于人工智能的语音检测系统的结构示意图;

图2是本申请实施例提供的电子设备的结构示意图;

图3A-3D是本申请实施例提供的基于人工智能的语音检测方法的流程示意图;

图4A-4B是本申请实施例提供的基于人工智能的语音检测方法的界面示意图;

图5是本申请实施例提供的基于人工智能的语音检测方法的流程示意图;

图6A是本申请实施例提供的基于人工智能的语音检测方法的多分类任务模型的结构示意图;

图6B是本申请实施例提供的基于人工智能的语音检测方法的基础分类模型的结构示意图;

图7是本申请实施例提供的基于人工智能的语音检测方法的数据结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)语音识别技术:自动语音识别(ASR,Automatic Speech Recognition),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

2)梅尔频率倒谱系数(MFCC,Mel-Frequency Cepstrum Coefficient):是在梅尔标度频率域提取出来的倒谱参数,梅尔标度描述了人耳频率的非线性特性,梅尔谱图是频率转换为梅尔标度的谱图。

3)身份认证矢量(I-Vector,Identity Vector):将语音特征提取为一个低维的矢量矩阵,用来表征说话者的信息差异性。

4)语音端点检测(VAD,Voice Activity Detection):检测一段音频信号的发音段与静音段。

5)全连接(FC,Full Connection):全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。

相关技术中语音交互功能的典型应用之一是口语评测应用场景,口语评测是对发音者的语音进行评测的过程,首先进行语音识别,再基于语音识别提取的发音置信度等特征进行评测,为了提升评测的准确度,语音识别的语种与需要评测的语种需要保持一致,例如,针对中文的口语评测,所采取的语音识别引擎应是中文识别引擎,但是在本申请实施例中发现口语评测的场景是多种多样,例如,发音者不说对应的评测语言,即评测中文但发音者讲述英文,或者随机录制非人声音频,如动物声音、桌子敲打声、键盘声等用于评测,这些异常情况降低了口语评测的鲁棒性,因此需要在评测之前对音频信号进行异常检测,以减少异常音频信号对评测准确度的影响。

相关技术中针对语种判别的过程和针对非人声判别的过程是相互独立的,申请人在实施本申请实施例时发现在应用语音交互功能的场景中,例如口语评测场景,音频信号的语种不符合规定以及音频信号非人声这两种状况都属于异常情况,都会影响语音交互的准确度以及实时性,并且语种判别也是非人声判别的人声类别中的一种人声,非人声判别以及语种判别这两者是具有联系的,仅进行非人声判别或者仅进行语种判别,无法有效检测出全面的异常情况。

本申请实施例提供一种基于人工智能的语音检测方法、装置、电子设备和计算机可读存储介质,能够将语种分类任务和非人声分类任务合并,提取针对这两个任务均有效的音频特征,基于多任务学习同时对两个任务进行优化,以同时输出语种分类结果以及人声分类结果,从而提高语音交互的准确度以及实时性,本申请实施例提供的设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端,也可以实施为服务器。下面,将说明设备实施为终端时的示例性应用。

参见图1,图1是本申请实施例提供的基于人工智能的语音检测系统的结构示意图,为实现支撑一个口语评测应用,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。服务器200接收终端400发送的用户回答问题的音频信号,并对音频信号同时进行人声分类处理以及语种分类处理,当人声分类结果和语种分类结果中至少之一存在异常,则服务器200将存在异常的分类结果返回至终端400进行显示。

在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。

在一些实施例中,在口语评测场景中,需要进行分类的音频信号为用户回答问题的音频信号,响应于用户的语音采集操作,终端400接收用户针对跟读题型的音频信号,针对跟读题型所设定的语种为英文,终端400将音频信号(即用户针对跟读题型的答案)发送至服务器200,由服务器200对音频信号进行人声分类处理以及语种分类处理,当人声分类结果为非人声,或者语种分类结果不为英文时,将所得到的表征音频信号存在异常的分类结果(非人声、或者人声且非英文)返回至终端400,以提示用户重新作答。

在一些实施例中,在智能语音助手场景中,需要进行分类的音频信号为用户唤醒智能语音助手的音频信号,响应于用户的语音采集操作,终端400接收用户唤醒智能语音助手的音频信号,终端400将音频信号发送至服务器200,由服务器200对音频信号进行人声分类处理以及语种分类处理,当人声分类结果为人声,语种分类结果为英文时,将与上述分类结果对应的智能语音助手的虚拟形象返回并呈现在终端400,并控制智能语音助手以英文人声的方式于用户进行交互。

在一些实施例中,在语音输入场景中,需要进行分类的音频信号为用户输入的音频信号,响应于用户的语音采集操作,终端400所设定的语音输入语种为中文,终端400接收用户输入的音频信号,终端400将音频信号发送至服务器200,由服务器200对音频信号进行人声分类处理以及语种分类处理,当人声分类结果为非人声,或者语种分类结果不为中文时,将所得到的表征音频信号存在异常的分类结果(非人声、或者人声且非中文)返回至终端400,以提示用户重新进行语音输入,以而完成语音输入过程。

参见图2,图2是本申请实施例提供的电子设备的结构示意图,以电子设备是服务器200为例,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;

呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

在一些实施例中,本申请实施例提供的基于人工智能的语音检测装置可以采用软件方式实现,图2示出了存储在存储器250中的基于人工智能的语音检测装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、人声模块2552、语种模块2553、结果模块2554和训练模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。

将结合本申请实施例提供的服务器200的示例性应用和实施,说明本申请实施例提供的基于人工智能的语音检测方法。

参见图6A,图6A是本申请实施例提供的基于人工智能的语音检测方法的多分类任务模型的结构示意图,多分类任务模型包括共享特征网络、人声分类网络以及语种分类网络,共享特征网络用于进行特征提取,共享特征网络的输入是基于音频信号得到的梅尔频谱,共享特征网络的输出是音频信号的音频特征,通过人声分类网络和语种分类网络的共享全连接层对音频特征进行全连接处理,再通过对应人声分类网络和语种分类网络各自对应的全连接层进行全连接处理,分别得到人声分类结果和语种分类结果,人声分类网络包括上述共享全连接层和对应人声分类网络的人声全连接层,语种分类网络包括上述共享全连接层和对应语种分类网络的语种全连接层。

参见图6B,图6B是本申请实施例提供的基于人工智能的语音检测方法的基础分类模型的结构示意图,基础分类模型包括多个特征提取网络、共享全连接层(FC2048和线性整流函数)以及对应527个类别的全连接层(FC527和sigmoid激活函数),每个特征提取网络包括卷积层(例如,卷积层3*[email protected])、归一化层、线性整流层以及平均池化层,共享全连接层即为上述对应人声分类网络和语种分类网络的共享全连接层,多个特征提取网络组合为上述共享特征网络,对应527个类别的全连接层可以直接输出527种分类结果以对基础分类模型进行可视化训练。

参见图3A,图3A是本申请实施例提供的基于人工智能的语音检测方法的流程示意图,将结合图3A示出的步骤101-104进行说明。

在步骤101中,将音频信号划分为多个发音片段,获取每个发音片段的音频特征。

作为示例,在口语评测场景中,音频信号是采集用户回答问题的音频内容得到的,在智能助手场景中,音频信号是采集携带用户指令的音频内容得到的,在语音输入场景中,音频信号是采集携带用户输入文本的音频内容得到的。

在一些实施例中,在步骤101中将音频信号划分为多个发音片段,可以通过以下技术方案实现:确定音频信号中每个音频帧的语音能量;将音频信号中语音能量大于背景噪音能量的多个连续的音频帧,组合为发音片段。

作为示例,基于能量准则检测音频信号的强度,当音频信号中音频帧的语音能量大于背景噪声能量时,确定该音频帧是有语音存在的,当音频信号中音频帧的语音能量不大于背景噪声能量时,确定该音频帧是不存在语音的,例如,该音频帧是背景噪声。

在一些实施例中,参见图3B,图3B是本申请实施例提供的基于人工智能的语音检测方法的流程示意图,步骤101中将音频信号划分为多个发音片段,可以通过步骤1011-1013实现。

在步骤1011中,对音频信号进行分帧处理,得到对应音频信号的多个音频帧。

在步骤1012中,通过音频帧分类网络对每个音频帧进行特征提取处理,得到对应每个音频帧的音频帧分类特征。

在步骤1013中,通过音频帧分类网络对每个音频帧进行基于音频帧分类特征的分类处理,将分类结果是发音数据的多个连续的音频帧组合为发音片段;

作为示例,音频帧分类特征包括以下至少之一:对数帧能量特征;过零率特征;标准化自相关特征。音频帧分类网络的训练样本包括音频帧样本,训练样本的标注数据包括音频帧样本的预标记分类结果。

作为示例,将音频信号进行分帧处理,从每个音频帧的数据中提取音频帧分类特征,在已知语音信号区域和静默信号区域的音频帧集合上训练音频帧分类网络,通过训练得到的音频帧分类网络对未知的音频帧进行分类,以确定音频帧属于语音信号或静默信号,音频帧分类网络将音频信号划分为发音片段和未发音片段,首先将音频信号通过高通滤波器,以移除音频信号中直流偏置分量和低频噪声,在进行特征提取之前对音频信号进行长度为20-40毫秒(ms)的分帧,音频帧与音频帧之间的重叠为10ms,分帧完成之后,对每个音频帧进行下面三种特征中至少之一的提取:对数帧能量特征;过零率特征;标准化自相关特征。通过对多种特征进行组合,可以有效降低音频帧错误分类的概率,进而提高语音识别的准确度。

在一些实施例中,参见图3C,图3C是本申请实施例提供的基于人工智能的语音检测方法的流程示意图,步骤101中获取每个发音片段的音频特征,可以通过步骤1014-1015实现。

在步骤1014中,将每个发音片段的类型从时域信号变换到频域信号,对变换为频域信号的每个发音片段进行梅尔计算,得到每个发音片段的梅尔刻度的频谱。

在步骤1015中,将每个发音片段的梅尔刻度的频谱在共享特征网络中进行前向传输,得到对应每个发音片段的音频特征。

作为示例,每个发音片段的音频特征是通过多分类任务模型中的共享特征网络获取的。由于原始的音频信号是随时间变化的波形图,无法分解成多个基础信号,因此将原始的音频信号从时域变换到频域得到频谱图,将音频信号从时域变换到频域是通过傅立叶变换实现的,频谱图的横轴是时间,纵轴是频率,由于人类难以感知线性范围的频率,感知低频差异的能力强于感知高频差异的能力,为了克服感知困难,可以对频率进行梅尔计算,对变换为频域信号的发音片段进行梅尔计算得到梅尔刻度,最终原始的音频信号被转化为梅尔刻度的频谱,梅尔刻度的频谱的横轴为时间,纵轴为梅尔刻度的频率,将梅尔刻度的频谱作为多分类任务模型的输入。

在一些实施例中,共享特征网络包括N个级联的特征提取网络,N为大于或等于2的整数;步骤1015中将每个发音片段的梅尔刻度的频谱在共享特征网络中进行前向传输,得到对应每个发音片段的音频特征,可以通过以下技术方案实现,通过N个级联的特征提取网络中的第n特征提取网络,对第n特征提取网络的输入进行特征提取处理;将第n特征提取网络输出的第n特征提取结果传输到第n+1特征提取网络以继续进行特征提取处理;其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,第n特征提取网络的输入为每个发音片段的梅尔刻度的频谱,当n取值为2≤n≤N-1时,第n特征提取网络的输入为第n-1特征提取网络的特征提取结果。

作为示例,参见图6B,基础分类模型包括多个特征提取网络、共享全连接层(FC2048和线性整流函数)以及对应527个类别的全连接层(FC527和sigmoid激活函数),共享全连接层是人声分类网络和语种分类网络之间共享的全连接层,多个特征提取网络组成共享特征网络。共享特征网络的输入为每个发音片段的梅尔刻度的频谱,共享特征网络的输出为音频特征。

在一些实施例中,第n特征提取网络包括卷积层、归一化层、线性整流层以及平均池化层;上述通过N个级联的特征提取网络中的第n特征提取网络,对第n特征提取网络的输入进行特征提取处理,可以通过以下技术方案实现:将第n特征提取网络的输入与第n特征提取网络的卷积层的卷积层参数进行卷积处理,得到第n卷积层处理结果;通过第n特征提取网络的归一化层对第n卷积层处理结果进行归一化处理,得到第n归一化处理结果;通过第n特征提取网络的线性整流层对第n归一化处理结果进行线性整流处理,得到第n线性整流处理结果;通过第n特征提取网络的平均池化层对第n线性整流处理结果进行平均池化处理,得到第n特征提取结果。

作为示例,每个特征提取网络包括卷积层、归一化层、线性整流层以及平均池化层;通过特征提取网络对该特征提取网络的输入进行卷积处理、归一化处理,线性整流处理以及平均池化处理,得到该特征提取网络输出的特征提取结果,最后一个特征提取网络输出发音片段的音频特征。

在步骤102中,基于每个发音片段的音频特征,对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果。

在一些实施例中,参见图3D,图3D是本申请实施例提供的基于人工智能的语音检测方法的流程示意图,步骤102中基于每个发音片段的音频特征,对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果,可以通过步骤1021-1022实现。

在步骤1021中,基于音频信号的应用场景,进行多个候选分类处理的适配。

在步骤1022中,当在多个候选分类处理中适配到人声分类处理时,对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果。

作为示例,基于音频信号的应用场景,进行多个候选分类处理的适配,例如,当应用场景为口语评测场景时,对多个候选分类处理进行适配,候选分类处理包括:人声分类处理,年龄分类处理,性别分类处理以及语种分类处理等等,在口语评测场景中,要求音频信号是人声,在智能助手场景中,要求音频信号是人声,因此在多个候选分类处理中适配到人声分类处理时,再对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果。

在一些实施例中,步骤102中基于每个发音片段的音频特征,对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果,可以通过以下技术方案实现,将每个发音片段的音频特征,在人声分类网络中进行前向传输,得到每个发音片段的人声分类结果。

在一些实施例中,上述将每个发音片段的音频特征,在人声分类网络中进行前向传输,得到每个发音片段的人声分类结果,可以通过以下技术方案实现,通过人声分类网络与语种分类网络的共享全连接层,对每个发音片段进行第一全连接处理,得到对应每个发音片段的第一全连接处理结果;通过人声分类网络的人声全连接层,对每个发音片段的第一全连接处理结果进行第二全连接处理,得到每个发音片段的第二全连接处理结果;对每个发音片段的第二全连接处理结果进行最大似然处理,得到对应每个人声分类标签的概率;将概率最大的人声分类标签确定为每个发音片段的人声分类结果。

作为示例,人声分类处理和语种分类处理是通过多分类任务模型实现的,多分类任务模型包括人声分类网络和语种分类网络;参见图6A,多分类任务模型包括共享特征网络、人声分类网络以及语种分类网络,共享特征网络用于进行特征提取,共享特征网络的输入是基于音频信号得到的梅尔频谱,共享特征网络输出的是每个发音片段的音频特征,通过人声分类网络和语种分类网络的共享全连接层对音频特征进行第一全连接处理,共享全连接层如图6B所示,该全连接层还会进行基于线性整流函数的处理,再通过对应人声分类网络的人声全连接层进行第二全连接处理以及最大似然处理,通过最大似然处理可以得到每个人声分类标签的概率,存在两个人声分类标签(人声和非人声),将概率最大的人声分类标签确定为每个发音片段的人声分类结果,假设非人声的概率为0.9,人声的概率为0.1,则人声分类结果为非人声。

在步骤103中,基于每个发音片段的音频特征,对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果。

在一些实施例中,步骤103中基于每个发音片段的音频特征,对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果,可以通过以下技术方案实现:基于音频信号的应用场景,进行多个候选分类处理的适配;当在多个候选分类处理中适配到语种分类处理时,对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果。

作为示例,基于音频信号的应用场景,进行多个候选分类处理的适配,例如,当应用场景为口语评测场景时,对多个候选分类处理进行适配,候选分类处理包括:语种分类处理,年龄分类处理,性别分类处理以及语种分类处理等等,在口语评测场景中,要求音频信号的语种为英语,在智能助手场景中,要求音频信号是中文,因此在多个候选分类处理中适配到语种分类处理时,再对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果。

在一些实施例中,上述基于音频信号的应用场景,进行多个候选分类处理的适配,可以通过以下技术方案实现,获取应用场景的限定条件,以将多个候选分类处理中对应限定条件的候选分类处理确定为与应用场景适配的分类处理;其中,限定条件包括以下至少之一:年龄;物种;语种;性别。

作为示例,不同的应用场景具有不同的限定条件,例如,口语评测应用场景对用户的年龄有限定,例如,要求参与口语评测的用户是儿童,则将语种分类处理,年龄分类处理,性别分类处理以及语种分类处理中与年龄限定条件对应的年龄分类处理作为与应用场景适配的分类处理。

在一些实施例中,步骤103中基于每个发音片段的音频特征,对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果,可以通过以下技术方案实现,将每个发音片段的音频特征,在语种分类网络中进行前向传输,得到每个发音片段的语种分类结果。

在一些实施例中,上述将每个发音片段的音频特征,在语种分类网络中进行前向传输,得到每个发音片段的语种分类结果,可以通过以下技术方案实现:通过语种分类网络与语种分类网络的共享全连接层,对每个发音片段进行第三全连接处理,得到对应每个发音片段的第三全连接处理结果;通过语种分类网络的语种全连接层,对每个发音片段的第三全连接处理结果进行第四全连接处理,得到每个发音片段的第四全连接处理结果;对每个发音片段的第四全连接处理结果进行最大似然处理,得到对应每个语种分类标签的概率;将概率最大的语种分类标签确定为每个发音片段的语种分类结果。

作为示例,人声分类处理和语种分类处理是通过多分类任务模型实现的,多分类任务模型包括人声分类网络和语种分类网络;参见图6A,多分类任务模型包括共享特征网络、人声分类网络以及语种分类网络,共享特征网络用于进行特征提取,共享特征网络的输入是基于音频信号得到的梅尔频谱,共享特征网络输出的是每个发音片段的音频特征,通过人声分类网络和语种分类网络的共享全连接层对音频特征进行第三全连接处理,共享全连接层即为图6B中具有2048个节点的全连接层,在该全连接层中还会进行基于线性整流激活函数的处理,再通过对应语种分类网络的语种全连接层进行第四全连接处理以及最大似然处理,通过最大似然处理可以得到每个语种分类标签的概率,存在多个语种分类标签(例如,英语、中文和日文),将概率最大的语种分类标签确定为每个发音片段的语种分类结果,假设英文的概率为0.8,中文的概率为0.1,日文的概率为0.1,则语种分类结果为英文。

在步骤104中,基于每个发音片段的人声分类结果确定音频信号的人声分类结果,并基于每个发音片段的语种分类结果确定音频信号的语种分类结果。

在一些实施例中,步骤104中基于每个发音片段的人声分类结果确定音频信号的人声分类结果,可以通过以下技术方案实现,获取人声分类结果为非人声的发音片段的第一数目、以及人声分类结果为人声的发音片段的第二数目;将第一数目和第二数目中的较大数目对应的人声分类结果确定为音频信号的人声分类结果;步骤104中基于每个发音片段的语种分类结果确定音频信号的语种分类结果,可以通过以下技术方案实现:获取语种分类结果为每个语种的发音片段的数目;将最大数目对应的语种确定为音频信号的语种分类结果。

作为示例,将音频信号划分为10个发音片段,有8个发音片段被分类为人声,有2个发音片段被分类为非人声,则音频信号的人声分类结果是人声,将音频信号划分为10个发音片段,有8个发音片段被分类为英文,有2个发音片段被分类为中文,则音频信号的语种分类结果是英文。

作为示例,当人声分类结果为非人声时,显示提示信息以提示音频信号属于异常信号;当人声分类结果为非人声时,执行以下处理:当接收音频信号的客户端属于智能语音控制场景时,显示对应语种分类结果的智能语音助手;当接收音频信号的客户端属于语音测试场景,且语种分类结果不符合设定语种时,显示提示信息以提示音频信号属于异常信号。

在一些实施例中,人声分类处理和语种分类处理是通过多分类任务模型实现的,多分类任务模型包括共享特征网络、人声分类网络以及语种分类网络;将训练样本集合中的语料样本,在共享特征网络、人声分类网络和语种分类网络的共享全连接层、以及对应共享特征网络的全连接层中进行正向传播和反向传播,以更新共享特征网络以及共享全连接层的参数;将训练样本集合中的语料样本,在更新后的共享特征网络、更新后的共享全连接层、人声分类网络的人声全连接层以及语种分类网络的语种全连接层中进行正向传播和反向传播,以更新多分类任务模型的参数。

作为示例,参见图6B,首先训练基础分类模型,基础分类模型包括多个特征提取网络(共享特征网络)以及两个全连接层,第一个全连接层是具有2048个节点的共享全连接层(对应人声分类网络和语种分类网络的共享全连接层),在该层中可以实现线性整流处理,第二个全连接层是实现527种语音类型分类的全连接层(对应共享特征网络的全连接层),第二个全连接层中可以实现最大似然处理,通过第二个全连接层可以实现基础分类模型的可视化更新,再完成基础分类模型的训练之后,保留基础分类模型的共享特征网络以及共享全连接层,并在保留的网络的基础上增加人声分类网络的人声全连接层以及语种分类网络的语种全连接层,得到多分类任务模型,继续训练多分类任务模型。

作为示例,在多分类任务模型每次迭代训练过程中执行以下处理:将每个语料样本在多分类任务模型的共享特征网络以及人声分类网络中进行正向传播,以得到对语料样本进行人声分类处理时对应的预测人声分类类别;将每个语料样本在多分类任务模型的共享特征网络以及语种分类网络中进行正向传播,以得到对语料样本进行语种分类处理时对应的预测语种分类类别;确定预测人声分类类别和预标记的人声真实类别之间的人声误差、以及预测语种分类类别和预标记的语种真实类别之间的语种误差;根据损失函数聚合语种误差以及人声误差以得到聚合误差,并在多分类任务模型中反向传播聚合误差,以确定损失函数取得最小值时多分类任务模型的参数变化值,并基于参数变化值更新多分类任务模型的参数。

下面,将说明本申请实施例提供的基于人工智能的语音检测方法在以应用场景为口语考试场景的示例性应用。

针对语种分类处理,可以采取以下两种方案:1、基于多种语音识别引擎,选择输出概率最大的语音识别引擎对应的语言作为识别语种;2、提取有效发音特征,以构建语种分类器对语种进行判别,提取有效发音特征时可以基于专业知识提取有效的发音特征,还可以基于神经网络提取音频的有效特征,例如,提取梅尔频率倒谱系数、身份认证矢量等特征对语种进行分类;使用原始音频波形信号输入到深度神经网络中,输出语种分类结果;提取语音对应的原始频谱图,输入到深度神经网络中,输出语种分类结果;针对人声分类处理,可以构建多种声音的分类器,基于提取的语音频谱图,对多种声音进行分类。

在口语考试场景中,语音交互功能主要应用于口语考试的跟读题型或开放表达题型。

例如,参见图4A,图4A是本申请实施例提供的基于人工智能的语音检测方法的界面示意图,人机交互界面501A中呈现有跟读文本“我知道真相,您知道吗?(I know thefact,do you know)”,响应于针对人机交互界面501A中开始朗读按钮502A的触发操作,例如,点击操作,接收用户朗读课文的音频信号,响应于针对人机交互界面501A中结束朗读按钮503A的触发操作,例如,点击操作,停止接收用户朗读课文的音频信号。参见图4B,图4B是本申请实施例提供的基于人工智能的语音检测方法的界面示意图,人机交互界面501B上呈现有音频信号的异常检测结果,例如,非英文异常检测结果。

参见图5,图5是本申请实施例提供的基于人工智能的语音检测方法的流程示意图,响应于客户端的初始化,客户端的人机交互界面中显示跟读文本,响应于针对客户端中开始朗读按钮的开始录音操作,采集用户进行课文背诵时的音频信号,客户端将采集到的音频信号发送给服务器,服务器将音频信号发送给异常检测模块,异常检测模块输出是否为非人声的人声分类结果以及语种分类结果后返回至服务器,当出现非人声分类结果或与当前口语评测无关的语种分类结果,服务器返回异常检测结果至客户端以提醒用户,否则服务器返回针对口语评测的评测结果至客户端。

在一些实施例中,语种分类过程中,音频信号可以包括至少一个语种,将一段音频信号切分成多个发音片段,可以有效解决一段音频信号中包含至少一个语种的情况,可以采用语音端点检测技术对音频进行检测,例如,判别音频信号中每一帧音频是否静音,判别任意一帧音频属于音频信号还是静默信号。

在一些实施例中,由于音频原始信号是随时间变化的波形图,无法分解成多个基础信号,因此将信号从时域变换到频域,将信号从时域变换到频域是通过傅立叶变换实现的,通过傅立叶变换,将信号变换成频谱图,频谱图的横轴是时间,纵轴是频率,由于人类不会感知线性范围的频率,感知低频差异的能力强于感知高频差异的能力,可以对频率进行梅尔计算,将频率转换为梅尔刻度,最终原始信号被转化为梅尔频谱图,梅尔频谱图的横轴为时间,纵轴为梅尔刻度的频率,将梅尔频谱作为多分类任务模型的输入。

在一些实施例中,通过基础分类模型(预训练的)单独进行非人声检测和语种检测,预训练的基础分类模型是一种音频分类网络,其可以是基于音频训练得到的卷积神经网络,具有对527个音频种类进行分类的能力,基础分类模型的基础结构如图6B所示,基础分类模型的网络结构从上到下进行输入输出,基础分类模型的每个单元由卷积神经网络,批量归一化(BN),线性整流函数(ReLU)以及平均池化(pooling)构成,最终经过全局平均池化(Global Pooling)以及两个全连接变换(FC2048以及FC527)进行527个音频种类的分类。

在一些实施例中,参见图6A,基于已经训练好的基础分类模型进行迁移学习得到多分类任务模型,使其可以进行人声分类处理以及语种分类处理,具体地,将基础分类模型中最后一个全连接层(包括FC527和sigmoid激活函数)进行替换,替换成所需要的两个独立全连接层(包括FC和最大似然函数),最终输出两个分类结果,包括是否为人声的人声分类结果以及语种分类结果。

在一些实施例中,多分类任务模型的损失函数分为两个部分,包括针对人声分类的损失部分以及针对语种分类的损失部分,损失函数由两个分类的损失部分进行叠加得到,参见公式(1),

Ltotal=w1*L人声+w2*L语种 (1);

其中,Ltotal是多分类任务模型的损失函数,w1是预设的针对人声分类的损失的参数,w2是预设的针对语种分类的损失的参数,w1和w2用于平衡两个损失部分的损失,L人声是针对人声分类的损失,L语种是针对语种分类的损失。

人声分类处理与语种分类处理的损失,参见公式(2),L为针对人声分类的损失或者针对语种分类的损失,y为音频信号是否为人声的真实标签或语种真实标签,P为多分类任务模型输出的人声分类结果的预测概率或语种分类结果的预测概率。

L=-y*log(p) (2);

参见图7,图7是本申请实施例提供的基于人工智能的语音检测方法的数据结构示意图,多分类任务模型的输入为梅尔频谱图,多分类任务模型包括预训练的语音神经网络(PANN,Pretrained Audio Neural Networks)、人声分类网络的人声全连接层(FC和最大似然函数)以及语种分类网络的语种全连接层(FC和最大似然函数),输出为两个异常检测结果,包括:人声分类结果(0表示人声,概率为0.9,1表示非人声,概率为0.1)以及语种分类结果(0表示英文,概率为0.2,1表示非英文,概率为0.8)。

本申请实施例提供的基于人工智能的语音检测方法的数据测试主要针对人声分类处理以及语种分类处理进行,语种分类结果主要体现为英文语种和非英文语种,人声分类结果主要体现为人声和非人声,数据测试主要针对单词、句子、段落场景进行,测试数据来自于某场口语考试数据,每种类型数据各1000条,包括:句子1000条(500条英文,500条非英文),单词1000条(500条英文,500条非英文),段落1000条(500条英文,500条非英文),非人声1000条,人声1000条),分类结果准确率如下表1所示。

语种检测结果 非人声检测结果
单词 89% 99%
句子 99% 99%
段落 92% 99%
非人声 -- 99%

表1测试准确率表

在一些实施例中,语种分类网络和人声分类网络可以基于多种神经网络结构实现,还可以添加更多相关的异常检测任务,例如,儿童音与成人音分类任务,以实现基于一个模型实现多维度异常情况判别的技术效果。

下面继续说明本申请实施例提供的基于人工智能的语音检测装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的基于人工智能的语音检测装置255中的软件模块可以包括:获取模块2551,用于将音频信号划分为多个发音片段,获取每个发音片段的音频特征;人声模块2552,用于基于每个发音片段的音频特征,对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果;语种模块2553,用于基于每个发音片段的音频特征,对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果;结果模块2554,用于基于每个发音片段的人声分类结果确定音频信号的人声分类结果,并基于每个发音片段的语种分类结果确定音频信号的语种分类结果。

在一些实施例中,获取模块2551,还用于:确定音频信号中每个音频帧的语音能量;将音频信号中语音能量大于背景噪音能量的多个连续的音频帧,组合为发音片段。

在一些实施例中,获取模块2551,还用于:对音频信号进行分帧处理,得到对应音频信号的多个音频帧;通过音频帧分类网络对每个音频帧进行特征提取处理,得到对应每个音频帧的音频帧分类特征;其中,音频帧分类特征包括以下至少之一:对数帧能量特征;过零率特征;标准化自相关特征;通过音频帧分类网络对每个音频帧进行基于音频帧分类特征的分类处理,将分类结果是发音数据的多个连续的音频帧组合为发音片段;其中,音频帧分类网络的训练样本包括音频帧样本,训练样本的标注数据包括音频帧样本的预标记分类结果。

在一些实施例中,人声分类处理和语种分类处理是通过多分类任务模型实现的,多分类任务模型包括人声分类网络和语种分类网络;人声模块2552,还用于:将每个发音片段的音频特征,在人声分类网络中进行前向传输,得到每个发音片段的人声分类结果;语种模块2553,还用于:将每个发音片段的音频特征,在语种分类网络中进行前向传输,得到每个发音片段的语种分类结果。

在一些实施例中,人声模块2551,还用于:通过人声分类网络与语种分类网络的共享全连接层,对每个发音片段进行第一全连接处理,得到对应每个发音片段的第一全连接处理结果;通过人声分类网络的人声全连接层,对每个发音片段的第一全连接处理结果进行第二全连接处理,得到每个发音片段的第二全连接处理结果;对每个发音片段的第二全连接处理结果进行最大似然处理,得到对应每个人声分类标签的概率;将概率最大的人声分类标签确定为每个发音片段的人声分类结果;语种模块2553,还用于:通过语种分类网络与语种分类网络的共享全连接层,对每个发音片段进行第三全连接处理,得到对应每个发音片段的第三全连接处理结果;通过语种分类网络的语种全连接层,对每个发音片段的第三全连接处理结果进行第四全连接处理,得到每个发音片段的第四全连接处理结果;对每个发音片段的第四全连接处理结果进行最大似然处理,得到对应每个语种分类标签的概率;将概率最大的语种分类标签确定为每个发音片段的语种分类结果。

在一些实施例中,每个发音片段的音频特征是通过多分类任务模型中的共享特征网络获取的;获取模块2551,还用于:将每个发音片段的类型从时域信号变换到频域信号,对变换为频域信号的每个发音片段进行梅尔计算,得到每个发音片段的梅尔刻度的频谱;将每个发音片段的梅尔刻度的频谱在共享特征网络中进行前向传输,得到对应每个发音片段的音频特征。

在一些实施例中,共享特征网络包括N个级联的特征提取网络,N为大于或等于2的整数;获取模块2551,还用于:通过N个级联的特征提取网络中的第n特征提取网络,对第n特征提取网络的输入进行特征提取处理;将第n特征提取网络输出的第n特征提取结果传输到第n+1特征提取网络以继续进行特征提取处理;其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1,;当n取值为1时,第n特征提取网络的输入为每个发音片段的梅尔刻度的频谱,当n取值为2≤n≤N-1时,第n特征提取网络的输入为第n-1特征提取网络的特征提取结果。

在一些实施例中,第n特征提取网络包括卷积层、归一化层、线性整流层以及平均池化层;获取模块2551,还用于:将第n特征提取网络的输入与第n特征提取网络的卷积层的卷积层参数进行卷积处理,得到第n卷积层处理结果;通过第n特征提取网络的归一化层对第n卷积层处理结果进行归一化处理,得到第n归一化处理结果;通过第n特征提取网络的线性整流层对第n归一化处理结果进行线性整流处理,得到第n线性整流处理结果;通过第n特征提取网络的平均池化层对第n线性整流处理结果进行平均池化处理,得到第n特征提取结果。

在一些实施例中,人声模块2552,还用于:基于音频信号的应用场景,进行多个候选分类处理的适配;当在多个候选分类处理中适配到人声分类处理时,对每个发音片段进行人声分类处理,得到每个发音片段的人声分类结果;语种模块2553,还用于:基于音频信号的应用场景,进行多个候选分类处理的适配;当在多个候选分类处理中适配到语种分类处理时,对每个发音片段进行语种分类处理,得到每个发音片段的语种分类结果。

在一些实施例中,人声模块2552,还用于:获取应用场景的限定条件,以将多个候选分类处理中对应限定条件的候选分类处理确定为与应用场景适配的分类处理;其中,限定条件包括以下至少之一:年龄;物种;语种;性别。

在一些实施例中,人声分类处理和语种分类处理是通过多分类任务模型实现的,多分类任务模型包括共享特征网络、人声分类网络以及语种分类网络;装置还包括:训练模块2555,用于:将训练样本集合中的语料样本,在共享特征网络、人声分类网络和语种分类网络的共享全连接层、以及对应共享特征网络的全连接层中进行正向传播和反向传播,以更新共享特征网络以及共享全连接层的参数;将训练样本集合中的语料样本,在更新后的共享特征网络、更新后的共享全连接层、人声分类网络的人声全连接层以及语种分类网络的语种全连接层中进行正向传播和反向传播,以更新多分类任务模型的参数。

在一些实施例中,结果模块2554,还用于:获取人声分类结果为非人声的发音片段的第一数目、以及人声分类结果为人声的发音片段的第二数目;将第一数目和第二数目中的较大数目对应的人声分类结果确定为音频信号的人声分类结果;获取语种分类结果为每个语种的发音片段的数目;将最大数目对应的语种确定为音频信号的语种分类结果。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的语音检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的语音检测方法,例如,如图3A-3D示出的基于人工智能的语音检测方法。

在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述,通过本申请实施例对音频信号中每个发音片段进行特征提取,并分别针对提取的音频特征进行人声分类处理以及语种分类处理,从而准确地检测出音频信号所存在的异常,从而更准确地实现语音识别。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:口音识别声学模型训练、口音识别方法、装置和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!