音频识别方法、装置及设备

文档序号:1393449 发布日期:2020-02-28 浏览:12次 >En<

阅读说明:本技术 音频识别方法、装置及设备 (Audio identification method, device and equipment ) 是由 贺利强 苏丹 于 2019-11-08 设计创作,主要内容包括:本申请实施例公开了一种音频识别的方法、装置及设备,属于人工智能-语音相关的技术领域。其中,该方法包括:获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征,对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分,对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理,对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。本申请通过对发音单元集合的声学得分进行声学补偿处理,能够提高音频识别的准确度。(The embodiment of the application discloses a method, a device and equipment for audio recognition, and belongs to the technical field of artificial intelligence-voice correlation. Wherein, the method comprises the following steps: the method comprises the steps of obtaining pronunciation data to be recognized, extracting an acoustic feature set of the pronunciation data, wherein the acoustic feature set comprises a plurality of acoustic features, conducting acoustic recognition processing on the acoustic feature set of the pronunciation data to obtain a target pronunciation unit set corresponding to the pronunciation data, wherein the target pronunciation unit set comprises a plurality of pronunciation units and acoustic scores of the pronunciation units, conducting acoustic compensation processing on the acoustic scores of the pronunciation units in the target pronunciation unit set, and conducting text recognition on the target pronunciation unit set after the acoustic compensation processing to obtain text information corresponding to the pronunciation data. The accuracy of audio recognition can be improved by carrying out acoustic compensation processing on the acoustic scores of the pronunciation unit set.)

音频识别方法、装置及设备

技术领域

本申请涉及人工智能-语音相关的技术领域,具体涉及语音处理技术领域,尤其涉及一种音频识别方法、一种音频识别装置及一种音频识别设备。

背景技术

人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,语音识别技术(也可称之为音频识别技术)是指一种将发音数据转换为相应的文本信息或操作指令的技术,被广泛应用于机器翻译、语音搜索、语音输入、语音对话、智能问答等各个领域。解码器是语音识别技术的核心模块之一,是基于己优化训练的声学模型、发音词典、语言模型建立的一个识别网络,该识别网络包括多条路径,各条路径分别与各种文本信息、以及各文本信息的发音相对应;该识别网络用于为待识别的发音数据寻找解码得分最大的一条路径,基于该路径输出待识别的发音数据对应的文本内容,完成音频识别。实践中发现,受地域等因素的影响,存在用户对某些词或词组的发音不准确的情况,这样使识别网络不能准确地识别出待识别的发音数据对应的文本信息,不能达到预期的音频识别效果。

申请内容

本申请实施例所要解决的技术问题在于,提供一种音频识别方法、装置及设备,通过对发音单元集合的声学得分进行声学补偿处理,能够提高音频识别的准确度,

一方面,本申请实施例提供一种音频识别方法,该方法包括:

获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征;

对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分;

对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理;

对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。

一方面,本申请实施例提供一种音频识别装置,该装置包括:

获取单元,用于获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征;

识别单元,用于对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分;

补偿单元,用于对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理;

所述识别单元,还用于对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。

又一方面,本申请实施例提供了一种音频识别设备,包括:

处理器,适于实现一条或多条指令;以及,

计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:

获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征;

对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分;

对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理;

对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。

又一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:

获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征;

对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分;

对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理;

对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。

本申请实施例中,通过对目标发音单元集合中的发音单元的声学得分进行声学补偿处理,可提高目标发音单元集合中的发音单元的声学得分,可避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分较低的问题。另外,通过对声学补偿处理后的目标发音单元集合进行文本识别得到该发音数据对应的文本信息,可提高识别发音数据的准确度;同时,不影响对其他音频词的发音数据的识别。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音技术(Speech Technology)的关键技术有自动语音识别技术(Automatic SpeechRecognition,ASR)和语音合成技术(TextToSpeech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。

其中,人工智能中涉及的语音识别技术是指利用声纹识别算法、语音转换算法等将发音数据转换为相应的文本信息或操作指令的技术,此处发音数据可以由用户输入得到的,或者从网络中下载得到,发音数据的语种可以包括但不限于:中文、英文、法文等等;发音数据具体可以是一个词(如一个英文单词)、一个字(如一个中文字)、多个词或词组对应的发音数据。音频识别过程具体可包括如下三个阶段:1、对待识别的发音数据进行特征提取阶段;2、获取发音数据对应的发音信息阶段;3、根据发音信息确定发音数据的文本信息阶段。下面结合图1对上述三个阶段进行详细介绍。

图1示出了本申请一个示例性实施例提供的一种音频识别系统的结构示意图,该音频识别系统包括服务器及至少一个终端。其中,终端是指面向用户的终端,具体可以是智能手机、平板电脑、便携式个人计算机、智能手表、手环及智能电视等智能设备。服务器可以是一***立的服务器、或由若干台服务器组成的服务器集群、或云计算中心。在本申请的一个示例性实施例中,终端可以用于采集发音数据;而服务器可以作为音频识别设备,即该服务器可以包括用于进行音频识别的解码器,服务器采用其内置的解码器对终端采集的发音数据进行识别处理,得到识别结果。在本申请的另一个示例性实施例中,服务器可以将解码器发送至终端,那么,终端既可以用于采集发音数据,又可以作为音频识别设备直接采用解码器对发音数据进行识别处理,得到识别结果。本申请后续实施例以终端采集发音数据,而服务器可以作为音频识别设备对终端采集的发音数据进行音频识别为例进行说明。

上述解码器是指用于进行音频识别的工具,该解码器可参见图2所示,该解码器是基于声学模型、发音词典、语言模型建立的一个识别网络,该识别网络包括多条路径,各条路径分别与各种文本信息、以及发音数据的发音信息相对应;该识别网络用于为待识别的发音数据寻找解码得分最高的一条路径,基于该路径输出待识别的发音数据对应的文本信息,完成音频识别。

其中,声学模型是指用于构成大量声学解码路径的模型,声学解码路径与发音数据的发音信息相对应,所谓发音数据对应的发音信息包括发音数据对应至少一个候选发音单元集合,每个候选发音单元集合包括多个发音单元及每个发音单元的声学得分,声学得分可以等于发音单元的后验概率与先验概率之差。一个声学解码路径与一个候选发音单元集合相对应,每个声学解码路径用于指示对应候选发音单元集合中各个发音单元的发音顺序。声学得分用于指示发音数据与发音单元之间的匹配度,即匹配度越大,声学得分越高;匹配度越小,声学得分越低。同时,候选发音单元集合中各个发音单元的声学得分越高,候选发音单元集合中的各个发音单元与发音数据之间的匹配度越高,即候选发音单元集合中的各个发音单元的标准发音与发音数据更接近,也即候选发音单元集合的准确度越高。此处发音单元的准确发音可以是根据大量发音数据统计得到。候选发音单元集合中各个发音单元的声学得分越低,候选发音单元集合中的各个发音单元与发音数据之间的匹配度越低,即候选发音单元集合中的各个发音单元的标准发音与发音数据之间的差异较大,即候选发音单元集合的准确度越低。发音单元是指发音数据对应候选文本信息的发音单元,当发音数据的语种为中文时,发音单元具体可以是指音素、生母、韵母、音节;当发音数据的语种为英文时,发音单元具体可以是音素(phone)、词片(word-pieces);每个发音单元可采用多个发音状态来表示。例如,如图3所示,以发音数据的语种为英文,发音单元为三状态的声学模型例,该模型中包括三条声学解码路径,分别为声学解码路径1、声学解码路径2、声学解码路径3,声学解码路径上的圆圈表示发音单元的一个发音状态,箭头用于指示发音顺序。以声学解码路径1为例,声学解码路径1对应的候选发音单元集合包括发音单元为w、ah、n,各个发音单元的发音顺序依次为w、ah、n。各个发音单元对应的发音状态分别为w、w和w,ah、ah和ah,n、n和n;即此处各个发音单元的发音状态均是采用对应的发音单元来表示的,当然,发音单元的发音状态还可采用其他信息来表示,如s1、s2、s3等。其中,图3中声学解码路径中的sil表示静音,表示已完成对发音数据的声学识别处理。

其中,发音词典,包含解码器所能处理的词集合及词集合中各个词的发音单元集合,可用于将发音单元集合映射到词。词集合可包括英文单词、中文字等。例如,图3所示,该发音词典11包括英文单词及英文单词对应的发音单元,根据该发音词典可知词“one”的发音单元包括w、ah、n。英文词“two”的发音单元包括的t、uw等等。

其中,语言模型是指用于构成大量语言解码路径的模型,语言解码路径与发音数据对应的文本信息相对应,即一条语言解码路径与发音数据对应的一个候选文本信息相对应,候选文本信息是根据候选发音单元集合与发音词典进行匹配得到的。候选文本信息中可由一个字、一个词或多个词组构成的,每个候选文本信息具有一个语言得分,语言得分用于指示候选发音单元集合中的各个发音单元与发音词典中的发音单元之间的相似度。可选的,语言得分还可以用于词与上下文之间的关联度。

基于上述的描述,请参见图4所示的音频识别的处理流程,该处理流程可包括如下步骤S1-S6。

S1、终端获取待识别的发音数据,并将该发音数据发送至服务器,此处发音数据可以是终端通过语音装置采集得到的,或从网络中下载得到的,语音装置可以是指麦克风等。

S2、服务器获取该发音数据对应的声学特征集合,该声学特征集合包括多个声学特征。为了滤除发音数据的中的噪声,首先可对发音数据进行滤波处理,得到处理后发音数据;并对处理后的发音数据进行分帧处理,得到多帧发音子数据。进一步,对多帧发音子数据中的每帧发音子数据进行频域变换,得到频域的发音子数据,并对频域的每帧发音子数据进行特征提取,得到发音数据对应的声学特征集合。其中,各个声学特征集合包括多个声学特征,且各个声学特征集合中的各声学特征按序排列,每个声学特征与一帧发音子数据相对应,各声学特征在声学特征集合中的排列顺序与发音子数据被采集到的时间顺序相对应。此处声学特征用于表征发音数据的能量、振幅、过零率、线性预测(Linear PredictionCoefficient,LPC)系数等,具体可包括基于滤波器组的(Filter bank,Fbank)特征、梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)特征、感知线性预测系数(Perceptual Linear Predictive,PLP)特征等。

S3、服务器将声学特征集合输入到解码器的声学模型中进行声学识别处理,得到发音数据对应的发音信息。其中,该发音信息包括多个候选发音单元集合,该每个候选发音单元集合中包括多个发音单元,及每个发音单元的声学得分。

S4、服务器可通过解码器的发音词典查询该每个候选发音单元集合对应的候选文本信息,并通过语言模型计算每个候选发音单元集合的语言得分。

S5、服务器可根据该每个候选发音单元集合中的各个发音单元的声学得分,计算每个候选发音单元集合的声学得分,此处候选发音单元集合的声学得分可以为对应候选发音单元集合中各个发音单元的声学得分之积。进一步,可将每个候选发音单元集合的声学得分与对应候选文本信息的语言得分之和确定为候选文本信息对应解码得分,并从多个候选文本信息中选择解码得分最高的候选文本信息作为发音数据的识别结果,完成对发音数据的音频识别。

S6、服务器将识别结果返回至终端。

上述步骤S1-S2为对待识别的发音数据进行特征提取阶段;步骤S3为获取发音数据对应的发音信息阶段;S4-S6为根据发音信息确定发音数据的文本信息阶段。实践中发现,由于地域口音、发音变体等因素的影响,容易导致某些发音单元的发音不准确或发音不充分。例如,1)发音变体的发音单元容易被发音不准确,此处发音变体可以是指同一个发音单元在不同词中的发音不同。发音变体具体可以包括如下4种情况:①软颚化齿龈边近音,并伴随软腭化或咽化协同发音,如单词all、little中的发音单元l。②齿龈闪音,即发音单元的发音顺序位于元音之后,发音没有***,如单词better的发音单元t。③塞擦音,如单词its的发音单元ts,单词goods的发音单元dz。④发音不送气,如当单词中的发音单元的p、t或k的发音顺序位于发音单元s的发音顺序之后,如单词speak的发音单元p。2)地域口音的问题容易导致某些发音单元被发音不充分,如单词basketball的发音单元t容易被发音不充分;或相邻单词之间的叠音容易被连读,使某些发音单元被发音不充分,如词组next to中发音单元t容易被连读,使词next中的发音单元t容易被发音不充分。如果发音单元出现上述1)或2)中被发音不充分或被发音不准确的情况,容易使这些发音单元的声学得分比较低,这样使解码器不能准确地识别出发音数据对应的文本信息,不能达到预期的音频识别效果。

为了提升音频识别的准确性,本申请实施例提供一种音频识别方法,该方法对上述S1-S5所示的基本处理流程作出如下几方面的改进:(1)在上述获取发音数据对应的发音信息阶段中,对发音数据的发音单元集合中的各个发音单元的声学得分进行声学补偿处理。(2)在上述根据发音信息确定发音数据的文本信息阶段中,通过对声学补偿处理后的发音单元集合进行文本识别得到发音数据对应的文本信息。通过上述改进,本申请能够缓解由于地域口音或发音变体等因素,导致发音单元的声学得分偏低的问题,通过对发音单元进行声学补偿处理,能够为发音单元补偿得到合适的声学得分,这样能够正确地对发音数据进行解码,提高对发音数据进行音频识别的准确度。

基于上述描述,本申请实施例提出的音频识别方法可参见图5,该音频识别方法可以是由音频识别设备来执行,该音频识别设备例如可以是图1所示的服务器或终端。如图5所示,该音频识别方法可以如下步骤S101-S104:

S101、获取待识别的发音数据,并提取该发音数据的声学特征集合,该声学特征集合包括多个声学特征。

发音数据是指需要转换为文本信息的发音数据。在一个实施例中,该发音数据可以是由用户输入的,具体的,终端可包括音频控件,该音频控件可用于采集发音数据,如果检测到对该音频控件的操作,则可通过终端的语音装置采集得到用户输入的音频数据。此处音频控件可以物理按键或虚拟按键,触控操作可以是指触摸操作、光标操作、按键操作或者语音操作等;其中,对该音频控件的操作可以是触摸点击操作、触摸按压操作或者触摸滑动操作,触摸操作可以是单点触摸操作或者多点触摸操作;光标操作可以是控制光标进行点击的操作或者控制光标进行按压的操作;按键操作可以是虚拟按键操作或者实体按键操作等。在另一种实施例中,该发音数据可以是从网络上下载的,以语音会话场景为例,该发音数据可以是指从会话窗口中所下载得到。在获取到发音数据后,当音频识别设备为服务器时,终端可将发音数据发送至服务器,服务器可以接收该发音数据,并提取该发音数据的声学特征集合,该声学特征集合包括多个声学特征;当音频识别设备为终端时,终端可直接提取该发音数据的声学特征集合。此处提取发音数据的声学特征集合的方式可参见上述步骤S1。

S102、对该发音数据的声学特征集合进行声学识别处理,得到该发音数据对应的目标发音单元集合,该目标发音单元集合包括多个发音单元及每个该发音单元的声学得分。

音频识别设备可将发音数据的声学特征集合输入到声学模型中进行声学识别处理,得到该发音数据对应的多个候选发音单元集合,此处目标发音单元集合可以为多个候选发音单元集合中的任一发音单元集合。此处声学模型具体可以包括但不限于:基于隐马尔可夫模型(Hidden Markov Model,HMM)的声学模型,例如混合高斯-隐马尔科夫模型(GMM-HMM)和深度神经网络-隐马尔科夫模型(Deep Neural Networks Hidden MarkovModel,DNN-HMM);当然,还可以包括端到端(End to End)的声学模型,例如连接时序分类(ConnectionistTemporal Classification,CTC)模型、长短时记忆(Long-Short TermMemory,LSTM)模型和注意力(Attention)模型。

S103、对该目标发音单元集合中的各发音单元的声学得分进行声学补偿处理。

为了避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分较低的问题,音频识别设备可以对该目标发音单元集合中的各发音单元的声学得分进行声学补偿处理,以提高目标发音单元集合中的发音单元的声学得分。具体的,音频识别设备可以判断该目标发音单元集合是否满足声学补偿条件,若不满足,则不对目标发音单元集合进行声学补偿处理;若满足,则对该目标发音单元集合进行声学补偿处理。此处目标发音单元集合不满足声学补偿条件可以是指:目标发音单元集合中各个发音单元均被充分发音和均被准确发音,即目标发音单元集合中各个发音单元的声学得分均较高;此时表明目标发音单元集合各个发音单元的标准发音与发音数据的匹配度比较高,即目标发音单元集合的准确度比较高,这时音频识别设备可以对目标发音单元集合进行文本识别得到发音数据的识别结果。可选的,该目标发音单元集合不满足声学补偿条件还可以是指:目标发音单元集合中大多数发音单元的声学得分比较低,即目标发音单元集合中的发音单元的标准发音与发音数据的匹配度比较低,也即目标发音单元集合的准确度比较低,这时可将目标发音单元集合丢弃。该目标发音单元集合满足声学补偿条件可以是指:目标发音单元集合中存在少数发音单元的声学得分比较低,即目标发音单元集合中存在少数发音单元被发音不充分或被发音不准确。

在一个实施例中,对该目标发音单元集合中的各发音单元的声学得分进行声学补偿处理具体可包括:对目标发音单元集合中被发音不充分或被发音不准确的发音单元的声学得分进行声学补偿处理。在另一种可选的实施例中,可根据该目标发音单元集合中的各发音单元的声学得分计算目标发音单元集合的声学得分,对目标发音单元集合的声学得分进行声学补偿处理。

S104、对声学补偿处理后的目标发音单元集合进行文本识别得到该发音数据对应的文本信息。

音频识别设备可根据发音词典确定声学补偿处理后的目标发音单元集合对应的候选文本信息;并通过语言模型计算该候选文本信息的语言得分,根据声学补偿处理后的目标发音单元集合中各个发音单元的声学得分计算目标发音单元集合的声学得分。进一步,将候选文本信息的语言得分和目标发音单元集合的声学得分之和作为候选文本信息的解码得分,若该候选文本信息的解码得分大于预设得分阈值,则将该候选文本信息作为发音数据的识别结果。当发音数据与多个候选发音单元集合相对应,对每个候选发音单元集合进行识别可得到一个候选文本信息。通过上述方法计算每个候选文本信息的解码得分,并从多个候选文本信息中筛选出解码得分最高的候选文本信息作为发音数据的识别结果。

本申请实施例中,通过对目标发音单元集合中的发音单元的声学得分进行声学补偿处理,可提高目标发音单元集合中的发音单元的声学得分,可避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分较低的问题。另外,通过对声学补偿处理后的目标发音单元集合进行文本识别得到该发音数据对应的文本信息,可提高识别发音数据的准确度;同时,不影响对其他音频词的发音数据的识别。另外,本申请不需要通过大量训练数据对声学模型进行优化的方式来提高音频识别准确度,即不需要获取大量训练数据,且不需要对声学模型进行大量迭代训练,可降低数据获取的难度,并可节省大量资源。

在一个实施例中,该发音单元包括多个发音状态,每个发音状态对应一个声学特征;该发音数据的声学特征集合中的各声学特征按序排列;S102可包括如下步骤s11-s13。

s11、按照该声学特征集合中的各声学特征的排列顺序,依次对该声学特征集合中的各声学特征进行识别。

s12、每识别出一个该发音单元,则计算该发音单元的声学得分。

s13、当该声学特征集合中的每个声学特征均被识别后,得到该目标发音单元集合。

其中,该目标发音单元集合中的各个发音单元被识别的顺序对应该各个发音单元的发音顺序。

在步骤s11-s13中,音频识别设备可按照该声学特征集合中的各声学特征的排列顺序,依次对该声学特征集合的各声学特征进行识别,此处由上述S2可知,一个声学特征与一个发音子数据相对应,各个声学特征的排列顺序与发音子数据被采集到的顺序相对应。即音频识别设备可以按照该声学特征集合中的各声学特征的排列顺序,依次将各声学特征输入到声学模型中进行识别,每识别出一个发音单元,则计算该发音单元的声学得分。当该声学特征集合中的每个声学特征均被识别后,得到该目标发音单元集合。

可选的,在步骤S103之前,该方法还包括如下步骤s21。

s21、在该声学识别处理过程中,根据该目标发音单元集合中的各个发音单元的声学得分,判断该目标发音单元集合是否满足声学补偿条件,若满足,则执行步骤S103。

在步骤s21中,若目标发音单元集合不满足声学补偿条件时,表明目标发音单元集的准确度比较低,如果这时仍对目标发音单元集合进行声学补偿处理,这样容易将准确度低的目标发音单元集合对应候选文本信息作为识别结果,降低了音频识别的准确度。因此,音频识别设备可在目标发音单元集合满足声学补偿条件时对目标发音单元集合进行声学补偿处理。具体的,音频识别设备可以在对声学识别处理过程中,实时地根据该目标发音单元集合中的各个发音单元的声学得分,判断该目标发音单元集合是否满足声学补偿条件。即每识别出一个发音单元,根据当前已识别出的发音单元的声学得分,判断该目标发音单元集合是否满足声学补偿条件;若满足,表明目标发音单元集合中存在被发音不充分或被发音不准确的发音单元,则执行步骤S103;这里仅在目标发音单元集合满足声学补偿条件时,对目标发音单元集合中的发音单元的声学得分进行补偿,能够避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分比较低的问题,并且,避免对不满足声学补偿条件的目标发音单元集合进行声学补偿处理,提高对目标发音单元集合进行声学补偿处理的准确度和有效性。

在此实施例中,步骤s21包括如下步骤s31~s34。

s31、每识别到一个发音单元,判断当前被识别的发音单元是否为第一发音单元,该第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元。

s32、若是,则验证该当前被识别的发音单元的声学得分是否小于该预设声学得分阈值。

s33、若小于,则统计该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元与预设声学得分阈值之间的大小。

s34、若该统计的数量大于第一数量阈值,且该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于该预设声学得分阈值,则确定该目标发音单元集合满足声学补偿条件。

在步骤s31~s34中,音频识别设备可结合历史经验数据来实时检测目标发音单元是否满足声学补偿条件。具体的,音频识别设备每识别到一个发音单元,判断当前被识别的发音单元是否为第一发音单元。此处该第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元,即第一发音单元是指容易被发音不充分或被发音不准确的发音单元,也即第一发音单元是指历史音频识别过程出现声学得分小于预设声学得分阈值对应的频率大于预设频率阈值。例如,在10次历史音频识别过程中,发音单元t在8次历史音频识别过程中的声学得分均小于预设声学得分阈值,因此,将发音单元t称为第一发音单元。若当前被识别的发音单元是第一发音单元,表明当前被识别的发音单元为容易被发音不充分或发音不准确的发音单元,则验证该当前被识别的发音单元的声学得分是否小于该预设声学得分阈值;若小于,表明当前被识别的发音单元的声学得分比较低,则统计该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元与预设声学得分阈值之间的大小。若该统计的数量大于第一数量阈值,且该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于该预设声学得分阈值,表明已被识别得到发音单元中仅当前被识别的发音单元的声学得分较低,即当前被识别的发音单元被发音不充分或被发音的准确度较低;即目标发音单元集合的准确度比较高,仅存在少数发音单元被发音不充分或被发音不准确;则确定该目标发音单元集合满足声学补偿条件。这样可避免对准确度比较低的目标发音单元集合进行声学补偿处理,提高对发目标音单元集合进行声学补偿处理的准确度。

可选的,步骤s21包括如下步骤s41~s43。

s41、每识别到一个发音单元,则验证当前被识别的发音单元的声学得分是否小于该预设声学得分阈值。

s42、若小于,则统计该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元与预设声学得分阈值之间的大小。

s43、若该统计的数量大于第二数量阈值,且该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于该预设声学得分阈值,则确定该目标发音单元集合满足声学补偿条件。

在步骤s41~s43中,音频识别设备可在声学识别处理过程中实时地检测目标发音单元是否满足声学补偿条件。具体的,每识别到一个发音单元,则验证该当前被识别的发音单元的声学得分是否小于该预设声学得分阈值;若小于,表明当前被识别的发音单元的声学得分比较低,则统计该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元与预设声学得分阈值之间的大小。若该统计的数量大于第一数量阈值,且该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于该预设声学得分阈值,表明已被识别得到发音单元中仅当前被识别的发音单元的声学得分较低,即当前被识别的发音单元被发音不充分或被发音的准确度较低;也即目标发音单元集合的准确度比较高,仅存在少数发音单元被发音不充分或被发音不准确;则确定该目标发音单元集合满足声学补偿条件。这样可避免对准确度比较低的目标发音单元集合进行声学补偿处理,提高对发目标音单元集合进行声学补偿处理的准确度。

在此实施例中,步骤S103可包括如下步骤s51和s52。

s51、采用该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分对该当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的该当前被识别的发音单元的声学得分。

s52、采用补偿后的该当前被识别的发音单元的声学得分更新该目标发音单元集合,得到声学补偿处理后的目标发音单元集合。

在步骤s51和s52中,在声学识别处理过程实时检测到目标发音单元集合满足声学补偿条件时,可实时地对目标发音单元集合进行声学补偿处理。具体的,音频识别设备可采用该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分对该当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的该当前被识别的发音单元的声学得分。在一个实施例中,可采用该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分中的最大声学得分或平均声学得分对该当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的该当前被识别的发音单元的声学得分。可选的,可从该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分中随机选取一个声学得分对该当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的该当前被识别的发音单元的声学得分。进一步,采用补偿后的该当前被识别的发音单元的声学得分更新该目标发音单元集合,得到声学补偿处理后的目标发音单元集合。这里仅对目标发音单元集合中被发音不充分或被发音不准确的发音单元进行补偿,可提高目标发音单元集合的声学得分,可提高对目标发音单元集合进行补偿的准确度。并且,可避免对目标发音单元集合中所有的发音单元集合进行声学补偿处理,且不影响对其他音频词的发音数据的正常识别。

在此实施例中,步骤s51可包括如下步骤s61~s64。

s61、计算该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分的第一平均值。

s62、获取该当前被识别的发音单元的声学得分小于该预设声学得分阈值的概率。

s63、根据该第一平均值及该概率确定对该当前被识别的发音单元的补偿声学得分。

s64、将该当前被识别的发音单元的声学得分与该补偿声学得分之和确定为补偿后的该当前被识别的发音单元的声学得分。

在步骤s61~s64中,音频识别设备可计算目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分的平均值,对该当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的该当前被识别的发音单元的声学得分。具体的,音频识别设备可采用预设平均算法计算该目标发音单元集合中发音顺序位于该当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分的第一平均值,预设平均算法可以是指算术平均算法、统计平均算法等。进一步,获取该当前被识别的发音单元的声学得分小于该预设声学得分阈值的概率,此概率是在历史音频识别处理过程中统计得到的;并根据该第一平均值及该概率确定对该当前被识别的发音单元的补偿声学得分。然后,将该当前被识别的发音单元的声学得分与该补偿声学得分之和确定为补偿后的该当前被识别的发音单元的声学得分,补偿后的该当前被识别的发音单元的声学得分可采用如下公式(1)表示。

Figure BDA0002266059900000151

在公式(1)中,xn表示目标发音单元集合中的第n个发音单元,即xn为当前被识别的发音单元。P(xn)表示当前被识别的发音单元的声学得分,Pprior(xn)表示该当前被识别的发音单元的声学得分小于该预设声学得分阈值的概率,

Figure BDA0002266059900000152

表示第一平均值,α、β表示权重系数,可以是根据历史音频识别过程中统计的得。

Figure BDA0002266059900000161

表示该补偿声学得分,P(x′n)表示补偿后的该当前被识别的发音单元的声学得分。

可选的,在步骤S103之前,该方法还包括如下步骤s71。

s71、在该声学识别处理完成后,根据该目标发音单元集合中的各个发音单元的声学得分,判断该目标发音单元集合是否满足声学补偿条件,若满足,则执行步骤S103。

在步骤s71中,若目标发音单元集合不满足声学补偿条件时,表明目标发音单元集的准确度比较低,如果这时仍对目标发音单元集合进行声学补偿处理,这样容易将准确度低的目标发音单元集合对应候选文本信息作为识别结果,降低了音频识别的准确度。因此,音频识别设备可在目标发音单元集合满足声学补偿条件时对目标发音单元集合进行声学补偿处理。具体的,音频识别设备可以在该声学识别处理完成后,根据该目标发音单元集合中的各个发音单元的声学得分,判断该目标发音单元集合是否满足声学补偿条件。即各声学特征均被识别完成后,根据该目标发音单元集合中的各个发音单元的声学得分,判断该目标发音单元集合是否满足声学补偿条件;若满足,表明目标发音单元集合中存在发音不充分或发音不准确的发音单元,则执行步骤S103;若不满足,则不对目标发音单元集合进行声学补偿处理。这里仅在目标发音单元集合满足声学补偿条件时,对目标发音单元集合中的发音单元的声学得分进行补偿,能够避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分比较低的问题,并且,避免对不满足声学补偿条件的目标发音单元集合进行声学补偿处理,提高对目标发音单元集合进行声学补偿处理的准确度和有效性。

在此实施例中,步骤s71包括如下步骤s81~s84。

s81、在该声学识别处理完成后,检测该目标发音单元集合中是否存在与第一发音单元相同的目标发音单元,该第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元。

s82、若存在,则验证该目标发音单元的声学得分是否小于预设声学得分阈值。

s83、若小于,则统计该目标发音单元集合中声学得分大于预设声学得分阈值的所有发音单元的数量。

s84、若该统计的数量大于第三数量阈值,则确定该目标发音单元集合满足声学补偿条件。

在步骤s81~s84中,音频识别设备可在该声学识别处理完成后,结合历史经验数据来检测目标发音单元集合是否满足声学补偿条件。具体的,音频识别设备可在该声学识别处理完成后,检测该目标发音单元集合中是否存在与第一发音单元相同的目标发音单元,若存在,表明目标发音单元为容易被发音不充分或发音不准确的发音单元,则验证该目标发音单元的声学得分是否小于预设声学得分阈值。若小于,表明目标发音单元的声学得分比较低,则统计该目标发音单元集合中声学得分大于预设声学得分阈值的所有发音单元的数量。若该统计的数量大于第三数量阈值,表明目标发音单元集合大多数发音单元的声学得分较高,少数发音单元的声学得分较低,即目标发音单元集合中仅目标发音单元被发音不充分或被发音的准确度较低;也即目标发音单元集合的准确度比较高,仅存在少数发音单元被发音不充分或被发音不准确;则确定该目标发音单元集合满足声学补偿条件。这样可避免对准确度比较低的目标发音单元集合进行声学补偿处理,提高对发目标音单元集合进行声学补偿处理的准确度。需要说明的是,上述预设声学得分阈值、第一数量阈值、第二数量阈值、第三数量阈值及第四数量阈值可以是对历史音频识别进行统计得到的,其中,第一数量阈值、第二数量阈值、第三数量阈值及第四数量阈值具体可以根据目标发音单元集合中的发音单词数量动态调整。

在此实施例中,步骤s71包括如下步骤s91~s93。

s91、在该声学识别处理完成后,判断该目标发音单元集合中是否存在声学得分小于预设声学得分阈值的目标发音单元。

s92、若存在,统计该目标发音单元集合中声学得分大于该预设声学得分阈值的所有发音单元的数量。

s93、若该统计的数量大于第四数量阈值,则确定该目标发音单元集合满足声学补偿条件。

在步骤s91~s93中,音频识别设备可在声学识别处理完成后,检测目标发音单元集合是否满足声学补偿条件。具体的,在该声学识别处理完成后,判断该目标发音单元集合中是否存在声学得分小于预设声学得分阈值的目标发音单元,若小于,表明目标发音单元的声学得分比较低,则统计该目标发音单元集合中声学得分大于预设声学得分阈值的所有发音单元的数量。若该统计的数量大于第三数量阈值,表明目标发音单元集合大多数发音单元的声学得分较高,少数发音单元的声学得分较低,即目标发音单元集合中仅目标发音单元被发音不充分或被发音的准确度较低;也即目标发音单元集合的准确度比较高,仅存在少数发音单元被发音不充分或被发音不准确;则确定该目标发音单元集合满足声学补偿条件。这样可避免对准确度比较低的目标发音单元集合进行声学补偿处理,提高对发目标音单元集合进行声学补偿处理的准确度。

在此实施例中,步骤S103包括如下步骤s111~s112。

s111、采用该目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分对该目标发音单元的声学得分进行声学补偿处理,得到补偿后的该目标发音单元的声学得分。

s112、采用补偿后的该目标发音单元的声学得分更新该目标发音单元集合,得到声学补偿处理后的目标发音单元集合。

在步骤s111~s112中,在该声学识别处理完成后,检测到目标发音单元集合满足声学补偿条件时,可对目标发音单元集合进行声学补偿处理。具体的,可采用该目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分对该目标发音单元的声学得分进行声学补偿处理,得到补偿后的该目标发音单元的声学得分。在一个实施例中,可采用该目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分的平均声学得分、最大值声学得分,对该目标发音单元的声学得分进行声学补偿处理得到补偿后的该目标发音单元的声学得分。在另一个实施例中,可从该目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分中随机选取一个声学得分对该目标发音单元的声学得分进行声学补偿处理,得到补偿后的该目标发音单元的声学得分。进一步,采用补偿后的该目标发音单元的声学得分更新该目标发音单元集合,得到声学补偿处理后的目标发音单元集合。这里仅对目标发音单元集合中被发音不充分或被发音不准确的发音单元进行补偿,可提高目标发音单元集合中的发音单元的声学得分,可提高对目标发音单元集合进行声学补偿的准确度。

在此实施例中,步骤s111包括如下步骤s211~s214。

s211、计算该目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分的第二平均值。

s212、获取该目标发音单元的声学得分小于该预设声学得分阈值的概率。

s213、根据该第二平均值及该概率确定对该目标发音单元的补偿声学得分。

s214、将该目标发音单元的声学得分与该补偿声学得分之和确定为补偿后的该目标发音单元的声学得分。

在步骤s211~s214中,音频识别设备可采用目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分的平均值对该目标发音单元的声学得分进行声学补偿处理,得到补偿后的该目标发音单元的声学得分。具体的,音频识别设备可采用预设平均算法计算该目标发音单元集合中除该目标发音单元以外的其他发音单元的声学得分的第二平均值。进一步,获取该目标发音单元的声学得分小于该预设声学得分阈值的概率,根据该第二平均值及该概率确定对该目标发音单元的补偿声学得分;并将该目标发音单元的声学得分与该补偿声学得分之和确定为补偿后的该目标发音单元的声学得分。补偿后的该目标发音单元的声学得分可采用如下公式(2)表示。

Figure BDA0002266059900000191

在公式(2)中,xi表示目标发音单元集合中的第i个发音单元,即xi为目标发音单元。P(xi)表示目标发音单元的声学得分,Pprior(xi)表示该目标发音单元的声学得分小于该预设声学得分阈值的概率,

Figure BDA0002266059900000192

表示第二平均值,N表示目标发音单元中的发音单元数量。

Figure BDA0002266059900000193

表示声学补偿得分。P(x′i)表示补偿后的该目标发音单元的声学得分。

在一个实施例中,步骤S104包括如下步骤s311~s313。

s311、对该声学补偿处理后的目标发音单元集合进行文本识别,得到该发音数据对应的候选文本信息,及该候选文本信息的语言得分。

s312、根据该声学补偿处理后的目标发音单元集合中各个发音单元的声学得分确定该目标发音单元集合的声学得分。

s313、若该候选文本信息的声学得分与该语言得分之和大于预设得分阈值,则将该候选文本信息确定为该发音数据对应的文本信息。

在步骤s311~s313中,音频识别设备可通过发音词典查询该声学补偿处理后的目标发音单元集合对应的候选文本信息,并根据语言模型计算该候选文本信息的语言得分。并将声学补偿处理后的目标发音单元集合中各个发音单元的声学得分之积确定为目标发音单元集合的声学得分。若目标发音单元集合的声学得分与该语言得分之和大于预设得分阈值,则将该候选文本信息确定为该发音数据对应的文本信息。

在一个实施例中,步骤S104之后还包括如下步骤s411~s413。

s411、检测该发音数据对应的文本信息中是否包括与操作指令匹配的字段。

s412、若是,根据该发音数据对应的文本信息生成目标操作指令。

s413、将该目标操作指令发送至终端,由该终端执行该目标操作指令。

在步骤s411~s413中,音频识别设备可以根据发音数据对应的文本信息生成操作指令。具体,可检测该发音数据对应的文本信息中是否包括与操作指令匹配的字段,如字段可以包括“打开”、“关闭”、“启动”等。若是,音频识别设备可根据该发音数据对应的文本信息生成目标操作指令,当音频识别设备为服务器时,服务器可将该目标操作指令发送至终端,由终端执行该目标操作指令;当音频识别设备为终端时,终端可执行该目标操作指令。

本申请提供的音频识别方法可以应用于自动翻译、语音搜索、语音输入、语音对话等场景中,下面以该方法应用于语音搜索场景,且音频识别设备为服务器为例,对本申请进行详细介绍。参见图6,图6为本申请提供的一种音频识别方法。

如图6所示,终端包括搜索界面12,该搜索界面12上包括音频控件13和文本输入框14,该搜索界面可以是指浏览器、社交应用程序的用户界面等等;文本输入框允许用户输入待搜索得文本信息。当终端检测到对音频控件13的点击操作,则终端可通过语音装置采集得到用户输入的音频数据,并将该音频数据发送至服务器。

如图6所示,服务器可获取发音数据对应声学特征集合。具体的,可对发音数据进行滤波处理,得到处理后发音数据;并对处理后的发音数据进行分帧处理,得到多帧发音子数据。进一步,对多帧发音子数据中的每帧发音子数据进行频域变换,得到频域的发音子数据,并对频域的每帧发音子数据进行特征提取,得到发音数据对应的声学特征集合。其中,声学特征集合包括多个声学特征,且声学特征集合中的各声学特征按序排列,每个声学特征与一帧发音子数据相对应。

如图6所示,服务器可对该发音数据的声学特征集合进行声学识别处理,得到该发音数据对应的多个候选发音单元集合,该每个候选发音单元集合包括多个发音单元及每个该发音单元的声学得分,此处以三个候选发音单元集合为例,分别为候选发音单元集合1、选发音单元集合2、候选发音单元集合3。并在声学识别处理完成后,根据各个候选发音单元集合中的发音单元的声学得分检测各个候选单元集合是否满足声学补偿条件。即若检测到候选发音单元集合2中各个发音单元的声学得分均小于预设声学得分阈值,则确定候选发音单元集合2不满足声学补偿条件。若检测到候选发音单元集合3中各个发音单元的声学得分均大于或等于预设声学得分阈值,则确定候选发音单元集合3不满足声学补偿条件。若检测到候选发音单元集合1中存在声学得分小于预设声学得分阈值的目标发音单元,且候选发音单元集合1中声学得分大于该预设声学得分阈值的所有发音单元的数量大于第四数量阈值,则确定候选发音单元集合1不满足声学补偿条件。例如,候选发音单元集合1包括发音单元n、e、k、s、t,检测到发音单元t的声学得分小于预设声学得分阈值,其他发音单元的声学得分均大于或等于预设声学得分阈值,则确定候选发音单元集合1满足声学补偿条件。进一步,可计算发音单元n、e、k、s的声学得分的平均值,根据该平均值对发音单元t的声学得分进行声学补偿处理。最后,对声学补偿处理后的发音单元集合1和候选发音单元集合3分别进行文本识别,得到发音数据对应的候选文本信息1和候选文本信息2,及每个候选文本信息的解码得分。从候选文本信息1和候选文本信息2中选择解码得分最高的候选文本信息作为发音数据的文本信息。

如图6所示,服务器可将发音数据对应的文本信息发送至终端,如该文本信息包括next,终端可将文本信息显示在搜索界面中文本输入框14。可选的,服务器还可以根据该文本信息生成搜索指令,将该搜索指令发送至终端,该搜索指令用于指示终端搜索与该文本信息关联的词条。该终端可接收该搜索指令,并执行该搜索指令,并输出多个与该文本信息关联的词条。

本申请实施例提供一种音频识别装置,该音频识别装置可设置于音频识别设备中,例如该音频识别装置可以是音频识别设备中的解码器,或者具备解码功能的应用程序;请参见图7,该装置包括:

获取单元701,用于获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征;

识别单元702,用于对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分;

补偿单元703,用于对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理;

所述识别单元702,还用于对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。

可选的,获取单元701,用于按照所述声学特征集合中的各声学特征的排列顺序,依次对所述声学特征集合中的各声学特征进行识别;每识别出一个所述发音单元,则计算所述发音单元的声学得分;当所述声学特征集合中的每个声学特征均被识别后,得到所述目标发音单元集合;其中,所述目标发音单元集合中的各个发音单元被识别的顺序对应所述各个发音单元的发音顺序。

可选的,判断单元704,用于在所述声学识别处理过程中,根据所述目标发音单元集合中的各个发音单元的声学得分,判断所述目标发音单元集合是否满足声学补偿条件;或者,在所述声学识别处理完成后,根据所述目标发音单元集合中的各个发音单元的声学得分,判断所述目标发音单元集合是否满足声学补偿条件;若满足,则执行所述对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理的步骤。

可选的,判断单元704,具体用于每识别到一个发音单元,判断当前被识别的发音单元是否为第一发音单元,所述第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元;若是,则验证所述当前被识别的发音单元的声学得分是否小于预设声学得分阈值;若小于,则统计所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元与所述预设声学得分阈值之间的大小;若所述统计的数量大于第一数量阈值,且所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于所述预设声学得分阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,判断单元704,具体用于每识别到一个发音单元,则验证当前被识别的发音单元的声学得分是否小于预设声学得分阈值;若小于,则统计所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元与所述预设声学得分阈值之间的大小;若所述统计的数量大于第二数量阈值,且所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于所述预设声学得分阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,补偿单元703,具体用于采用所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分对所述当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的所述当前被识别的发音单元的声学得分;采用补偿后的所述当前被识别的发音单元的声学得分更新所述目标发音单元集合,得到声学补偿处理后的目标发音单元集合。

可选的,补偿单元703,具体用于计算所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分的第一平均值;获取所述当前被识别的发音单元的声学得分小于所述预设声学得分阈值的概率;根据所述第一平均值及所述概率确定对所述当前被识别的发音单元的补偿声学得分;将所述当前被识别的发音单元的声学得分与所述补偿声学得分之和确定为补偿后的所述当前被识别的发音单元的声学得分。

可选的,音频识别装置还包括:判断单元704,具体用于在所述声学识别处理完成后,检测所述目标发音单元集合中是否存在与第一发音单元相同的目标发音单元,所述第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元;若存在,则验证所述目标发音单元的声学得分是否小于预设声学得分阈值;若小于,则统计所述目标发音单元集合中声学得分大于或等于所述预设声学得分阈值的所有发音单元的数量;若所述统计的数量大于第三数量阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,判断单元704,具体用于在所述声学识别处理完成后,判断所述目标发音单元集合中是否存在声学得分小于预设声学得分阈值的目标发音单元;

若存在,统计所述目标发音单元集合中声学得分大于或等于所述预设声学得分阈值的所有发音单元的数量;若所述统计的数量大于第四数量阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,补偿单元703,具体用于采用所述目标发音单元集合中除所述目标发音单元以外的其他发音单元的声学得分对所述目标发音单元的声学得分进行声学补偿处理,得到补偿后的所述目标发音单元的声学得分;采用补偿后的所述目标发音单元的声学得分更新所述目标发音单元集合,得到声学补偿处理后的目标发音单元集合。

可选的,补偿单元703,具体用于计算所述目标发音单元集合中除所述目标发音单元以外的其他发音单元的声学得分的第二平均值;获取所述目标发音单元的声学得分小于所述预设声学得分阈值的概率;根据所述第二平均值及所述概率确定对所述目标发音单元的补偿声学得分;将所述目标发音单元的声学得分与所述补偿声学得分之和确定为补偿后的所述目标发音单元的声学得分。

可选的,识别单元702,具体用于对所述声学补偿处理后的目标发音单元集合进行文本识别,得到所述发音数据对应的候选文本信息,及所述候选文本信息的语言得分;根据所述声学补偿处理后的目标发音单元集合中各个发音单元的声学得分确定所述目标发音单元集合的声学得分;若所述目标发音单元集合的声学得分与所述语言得分之和大于预设得分阈值,则将所述候选文本信息确定为所述发音数据对应的文本信息。

可选的,音频识别装置还包括:生成单元705,用于检测所述发音数据对应的文本信息中是否包括与操作指令匹配的字段;若是,根据所述发音数据对应的文本信息生成目标操作指令,将该目标操作指令发送至终端,由该终端执行该目标操作指令。

本申请实施例中,通过对目标发音单元集合中的发音单元的声学得分进行声学补偿处理,可提高目标发音单元集合中的发音单元的声学得分,可避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分较低的问题。另外,通过对声学补偿处理后的目标发音单元集合进行文本识别得到该发音数据对应的文本信息,可提高识别发音数据的准确度;同时,不影响对其他音频词的发音数据的识别。另外,本申请不需要通过大量训练数据对声学模型进行优化的方式来提高音频识别准确度,即不需要获取大量训练数据,且不需要对声学模型进行大量迭代训练,可降低数据获取的难度,并可节省大量资源。

本申请实施例提供一种音频识别设备,请参见图8。该音频识别设备包括:处理器151、用户接口152、网络接口154以及存储装置155,处理器151、用户接口152、网络接口154以及存储装置155之间通过总线153连接。

用户接口152,用于实现人机交互,用户接口可以包括显示屏或键盘等等。网络接口154,用于与外部设备之间进行通信连接。存储装置155与处理器151耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储装置155可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储装置155可以存储操作系统(下述简称系统),例如ANDROID,IOS,WINDOWS,或者LINUX等嵌入式操作系统。存储装置155还可以存储网络通信程序,该网络通信程序可用于与一个或多个附加设备,一个或多个应用音频识别设备,一个或多个音频识别设备进行通信。存储装置155还可以存储用户接口程序,该用户接口程序可以通过图形化的操作界面将应用程序的内容形象逼真的显示出来,并通过菜单、对话框以及按键等输入控件接收用户对应用程序的控制操作。存储装置155还可以存储声学模型、语言模型以及发音词典等。

在一个实施例中,所述存储装置155可用于存储一条或多条的指令;所述处理器151可以调用所述一条或多条的指令时能够实现音频识别方法,具体地,所述处理器151调用所述一条或多条的指令,执行如下步骤:

获取待识别的发音数据,并提取所述发音数据的声学特征集合,所述声学特征集合包括多个声学特征;

对所述发音数据的声学特征集合进行声学识别处理,得到所述发音数据对应的目标发音单元集合,所述目标发音单元集合包括多个发音单元及每个所述发音单元的声学得分;

对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理;

对声学补偿处理后的目标发音单元集合进行文本识别得到所述发音数据对应的文本信息。

可选的,所述处理器调用指令,执行如下步骤:

所述对所述发音数据的声学特征集合进行声学识别处理,包括:

按照所述声学特征集合中的各声学特征的排列顺序,依次对所述声学特征集合中的各声学特征进行识别;

每识别出一个所述发音单元,则计算所述发音单元的声学得分;

当所述声学特征集合中的每个声学特征均被识别后,得到所述目标发音单元集合;

其中,所述目标发音单元集合中的各个发音单元被识别的顺序对应所述各个发音单元的发音顺序。

可选的,所述处理器调用指令,执行如下步骤:

在所述声学识别处理过程中,根据所述目标发音单元集合中的各个发音单元的声学得分,判断所述目标发音单元集合是否满足声学补偿条件;或者,在所述声学识别处理完成后,根据所述目标发音单元集合中的各个发音单元的声学得分,判断所述目标发音单元集合是否满足声学补偿条件;

若满足,则执行所述对所述目标发音单元集合中的各发音单元的声学得分进行声学补偿处理的步骤。

可选的,所述处理器调用指令,执行如下步骤:

每识别到一个发音单元,判断当前被识别的发音单元是否为第一发音单元,所述第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元;

若是,则验证所述当前被识别的发音单元的声学得分是否小于预设声学得分阈值;

若小于,则统计所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元与所述预设声学得分阈值之间的大小;

若所述统计的数量大于第一数量阈值,且所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于所述预设声学得分阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,所述处理器调用指令,执行如下步骤:

每识别到一个发音单元,则验证当前被识别的发音单元的声学得分是否小于预设声学得分阈值;

若小于,则统计所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的数量,以及比较所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元与所述预设声学得分阈值之间的大小;

若所述统计的数量大于第二数量阈值,且所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的各发音单元的声学得分均大于或等于所述预设声学得分阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,所述处理器调用指令,执行如下步骤:

采用所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分对所述当前被识别的发音单元的声学得分进行声学补偿处理,得到补偿后的所述当前被识别的发音单元的声学得分;

采用补偿后的所述当前被识别的发音单元的声学得分更新所述目标发音单元集合,得到声学补偿处理后的目标发音单元集合。

可选的,所述处理器调用指令,执行如下步骤:

计算所述目标发音单元集合中发音顺序位于所述当前被识别的发音单元的发音顺序之前的所有发音单元的声学得分的第一平均值;

获取所述当前被识别的发音单元的声学得分小于所述预设声学得分阈值的概率;

根据所述第一平均值及所述概率确定对所述当前被识别的发音单元的补偿声学得分;

将所述当前被识别的发音单元的声学得分与所述补偿声学得分之和确定为补偿后的所述当前被识别的发音单元的声学得分。

可选的,所述处理器调用指令,执行如下步骤:

在所述声学识别处理完成后,检测所述目标发音单元集合中是否存在与第一发音单元相同的目标发音单元,所述第一发音单元是在历史音频识别过程中统计得到的待补偿发音单元;

若存在,则验证所述目标发音单元的声学得分是否小于预设声学得分阈值;

若小于,则统计所述目标发音单元集合中声学得分大于或等于所述预设声学得分阈值的所有发音单元的数量;

若所述统计的数量大于第三数量阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,所述处理器调用指令,执行如下步骤:

在所述声学识别处理完成后,判断所述目标发音单元集合中是否存在声学得分小于预设声学得分阈值的目标发音单元;

若存在,统计所述目标发音单元集合中声学得分大于或等于所述预设声学得分阈值的所有发音单元的数量;

若所述统计的数量大于第四数量阈值,则确定所述目标发音单元集合满足声学补偿条件。

可选的,所述处理器调用指令,执行如下步骤:

采用所述目标发音单元集合中除所述目标发音单元以外的其他发音单元的声学得分对所述目标发音单元的声学得分进行声学补偿处理,得到补偿后的所述目标发音单元的声学得分;

采用补偿后的所述目标发音单元的声学得分更新所述目标发音单元集合,得到声学补偿处理后的目标发音单元集合。

可选的,所述处理器调用指令,执行如下步骤:

计算所述目标发音单元集合中除所述目标发音单元以外的其他发音单元的声学得分的第二平均值;

获取所述目标发音单元的声学得分小于所述预设声学得分阈值的概率;

根据所述第二平均值及所述概率确定对所述目标发音单元的补偿声学得分;

将所述目标发音单元的声学得分与所述补偿声学得分之和确定为补偿后的所述目标发音单元的声学得分。

可选的,所述处理器调用指令,执行如下步骤:

对所述声学补偿处理后的目标发音单元集合进行文本识别,得到所述发音数据对应的候选文本信息,及所述候选文本信息的语言得分;

根据所述声学补偿处理后的目标发音单元集合中各个发音单元的声学得分确定所述目标发音单元集合的声学得分;

若所述目标发音单元集合的声学得分与所述语言得分之和大于预设得分阈值,则将所述候选文本信息确定为所述发音数据对应的文本信息。

可选的,所述处理器调用指令,执行如下步骤:

检测所述发音数据对应的文本信息中是否包括与操作指令匹配的字段;

若是,根据所述发音数据对应的文本信息生成目标操作指令,将该目标操作指令发送至终端,由该终端执行该目标操作指令。

本申请实施例中,通过对目标发音单元集合中的发音单元的声学得分进行声学补偿处理,可提高目标发音单元集合中的发音单元的声学得分,可避免发音单元由于发音不准确或发音不充分,导致发音单元的声学得分较低的问题。另外,通过对声学补偿处理后的目标发音单元集合进行文本识别得到该发音数据对应的文本信息,可提高识别发音数据的准确度;同时,不影响对其他音频词的发音数据的识别。另外,本申请不需要通过大量训练数据对声学模型进行优化的方式来提高音频识别准确度,即不需要获取大量训练数据,且不需要对声学模型进行大量迭代训练,可降低数据获取的难度,并可节省大量资源。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序解决问题的实施方式以及有益效果可以参见上述图2所述的一种音频识别方法的实施方式以及有益效果,重复之处不再赘述。

以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

31页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:音乐驱动的舞蹈生成方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!