语音识别方法、装置和电子设备

文档序号:925432 发布日期:2021-03-02 浏览:3次 >En<

阅读说明:本技术 语音识别方法、装置和电子设备 (Voice recognition method and device and electronic equipment ) 是由 宫一尘 于 2020-10-14 设计创作,主要内容包括:本公开提供了一种语音识别方法、装置和电子设备,上述语音识别方法中,在用户进行语音输入时,可以在采集音频的同时,对用户的唇部进行拍摄,然后基于当前帧图像和历史帧图像的至少一个第一唇部区域,获取用户在当前帧图像中的第二唇部区域;并行地,可以基于当前帧音频和历史帧音频的至少一个第一语音特征,获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域,获取当前帧的音素概率分布,进而可以根据上述音素概率分布,获得当前帧音频的语音识别结果,从而可以实现将视频的唇部区域和音频的语音特征相结合,来进行语音识别,大大提高了语音识别在噪声场景下的识别效果。(The disclosure provides a voice recognition method, a voice recognition device and electronic equipment, wherein in the voice recognition method, when a user inputs voice, the lip of the user can be shot while audio is collected, and then a second lip region of the user in a current frame image is obtained based on at least one first lip region of the current frame image and a historical frame image; in parallel, a second speech feature of the current frame audio may be obtained based on at least one first speech feature of the current frame audio and the historical frame audio. And then, the phoneme probability distribution of the current frame can be obtained according to the speech characteristics and the lip region, and then the speech recognition result of the current frame audio can be obtained according to the phoneme probability distribution, so that the speech recognition can be carried out by combining the video lip region with the speech characteristics of the audio, and the recognition effect of the speech recognition in a noise scene is greatly improved.)

语音识别方法、装置和电子设备

技术领域

本公开涉及语音识别技术领域,尤其涉及一种语音识别方法、装置和电子设备。

背景技术

随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别技术,也被称为自动语音识别(automatic speech recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列等。

发明内容

相关技术中,语音识别方案通常包括以下步骤:语音信号降噪、特征提取、音素分类和解码,但是这种语音识别方案在高噪声(即低信噪比)的场景下,语音识别的效果较差。

为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音识别方法、装置和电子设备。

本公开第一方面的实施例提供了一种语音识别方法,包括:获取预设时间段内的视频流和音频流,所述预设时间段内的视频流包括当前帧图像和所述当前帧图像之前的历史帧图像,所述预设时间段内的音频流包括当前帧音频和所述当前帧音频之前的历史帧音频;获取所述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和所述至少一个第一唇部区域,确定用户在所述当前帧图像中的第二唇部区域;以及,获取所述历史帧音频的至少一个第一语音特征,并基于当前帧音频和所述至少一个第一语音特征,获取所述当前帧音频的第二语音特征;其中,所述当前帧图像中的第二唇部区域与所述第二语音特征对应;根据所述至少一个第一唇部区域、所述第二唇部区域、所述至少一个第一语音特征和所述第二语音特征,获取当前帧的音素概率分布;根据所述音素概率分布,获得所述当前帧音频的语音识别结果。

上述语音识别方法中,在用户进行语音输入时,可以在采集音频的同时,对用户的唇部进行拍摄,然后基于当前帧图像和历史帧图像的至少一个第一唇部区域,获取用户在当前帧图像中的第二唇部区域;并行地,可以基于当前帧音频和历史帧音频的至少一个第一语音特征,获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域,获取当前帧的音素概率分布,进而可以根据上述音素概率分布,获得当前帧音频的语音识别结果,从而可以实现将视频的唇部区域和音频的语音特征相结合,来进行语音识别,大大提高了语音识别在噪声场景下的识别效果。

本公开第二方面的实施例提供了一种语音识别装置,包括:获取模块,用于获取预设时间段内的视频流和音频流,所述预设时间段内的视频流包括当前帧图像和所述当前帧图像之前的历史帧图像,所述预设时间段内的音频流包括当前帧音频和所述当前帧音频之前的历史帧音频;获取所述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和所述至少一个第一唇部区域,确定用户在所述当前帧图像中的第二唇部区域;以及,获取所述历史帧音频的至少一个第一语音特征,并基于当前帧音频和所述至少一个第一语音特征,获取所述当前帧音频的第二语音特征;其中,所述当前帧图像中的第二唇部区域与所述第二语音特征对应;识别模块,用于根据所述至少一个第一唇部区域、所述第二唇部区域、所述至少一个第一语音特征和所述第二语音特征,获取当前帧的音素概率分布;解码模块,用于根据所述识别模块获取的音素概率分布,获得所述当前帧音频的语音识别结果。

本公开第三方面的实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行第一方面提供的语音识别方法。

本公开第四方面的实施例提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述第一方面的语音识别方法。

应当理解的是,本公开第二~第四方面的实施例与本公开第一方面的实施例的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。

附图说明

通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1为本公开一示例性实施例提供的语音识别方法的流程图;

图2为本公开另一示例性实施例提供的语音识别方法的流程图;

图3为本公开再一示例性实施例提供的语音识别方法的流程图;

图4为本公开再一示例性实施例提供的语音识别方法的流程图;

图5为本公开一示例性实施例提供的语音识别装置的结构示意图;

图6为本公开另一示例性实施例提供的语音识别装置的结构示意图;

图7为本公开一示例性实施例提供的电子设备的结构示意图。

具体实施方式

下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。

现有相关技术提供的语音识别方案在高噪声(即低信噪比)的场景下,语音识别的效果较差,为解决这个问题,本公开实施例提供一种语音识别方法,结合语音和视频序列双通道信息作为输入,构建声学模型,大大提高了语音识别在噪声场景下的识别效果。

图1为本公开一示例性实施例提供的语音识别方法的流程图,如图1所示,上述语音识别方法可以包括:

步骤101,获取预设时间段内的视频流和音频流,上述预设时间段内的视频流包括当前帧图像和当前帧图像之前的历史帧图像,上述预设时间段内的音频流包括当前帧音频和当前帧音频之前的历史帧音频。

步骤102,获取上述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和至少一个第一唇部区域,确定用户在当前帧图像中的第二唇部区域;以及,获取上述历史帧音频的至少一个第一语音特征,并基于当前帧音频和至少一个第一语音特征,获取当前帧音频的第二语音特征。

其中,当前帧图像中的第二唇部区域与第二语音特征对应,具体地,第二唇部区域与第二语音特征对应可以为:第二唇部区域是从当前帧图像中获取的,第二语音特征是拍摄当前帧图像时采集的音频的语音特征。

具体地,基于当前帧图像和至少一个第一唇部区域,确定用户在上述当前帧图像中的第二唇部区域可以为:对当前帧图像进行人脸检测,定位用户的脸部区域,然后根据至少一个第一唇部区域,对上述用户的脸部区域进行唇部检测,定位上述用户在当前帧图像中的第二唇部区域,从当前帧图像中截取上述第二唇部区域。

进一步地,在从当前帧图像中截取上述第二唇部区域之后,可以插值并改变第二唇部区域的图片大小至指定大小,并缓存。

可以理解的是,在历史帧为当前帧时,历史帧图像的至少一个第一唇部区域,同样是按照上面描述的方式获取的。

具体地,基于当前帧音频和至少一个第一语音特征,获取当前帧音频的第二语音特征可以为:对当前帧音频进行信号处理,降低当前帧音频的噪声,之后根据至少一个第一语音特征,对当前帧音频进行特征提取,获取上述当前帧音频的第二语音特征。

具体实现时,可以采用自适应滤波器、谱减法或维纳滤波法等降噪算法对上述当前帧音频进行信号处理,降低当前帧音频的噪声。在进行特征提取时,可以对降噪后的当前帧音频的波形数据进行短时傅里叶变换,获得频谱特征,然后可以保存频谱特征作为上述当前帧音频的语音特征;或者,可以或采用梅尔频率倒谱系数(mel frequency cepstrumcoefficient,MFCC)或滤波器组(Filter banks,Fbank)等算法对上述频谱特征进行特征提取,获取上述当前帧音频的语音特征。

可以理解的是,在历史帧为当前帧时,历史帧音频的至少一个第一语音特征,同样是按照上面描述的方式获取的。

步骤103,根据至少一个第一唇部区域、第二唇部区域、至少一个第一语音特征和第二语音特征,获取当前帧的音素概率分布。

其中,音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素,例如:[ma]包含[m][a]两个发音动作,是两个音素。

本实施例中,至少一个第一唇部区域与至少一个第一语音特征对应,第二唇部区域与第二语音特征对应,具体实现时,可以将至少一个第一唇部区域和第二唇部区域经特征提取后分别与至少一个第一语音特征和第二语音特征在时间维度上匹配,然后可以将第一唇部区域、第二唇部区域、第一语音特征和第二语音特征一并输入神经网络模型进行预测,在神经网络模型中将第一唇部区域、第二唇部区域、第一语音特征和第二语音特征进行特征融合,利用上述神经网络模型对进行特征融合后获得的特征进行识别,即可获得当前帧的音素概率分布。

步骤104,根据上述音素概率分布,获得当前帧音频的语音识别结果。

具体地,根据上述音素概率分布,获得当前帧音频的语音识别结果可以为:根据上述音素概率分布,通过解码器进行识别,获得当前帧音频的语音识别结果。

具体实现时,可以根据上述音素概率分布,使用基于动态规划搜索的解码器或基于束搜索的解码器进行识别,获得当前帧音频的语音识别结果。

上述语音识别方法中,在用户进行语音输入时,可以在采集音频的同时,对用户的唇部进行拍摄,然后基于当前帧图像和历史帧图像的至少一个第一唇部区域,获取用户在当前帧图像中的第二唇部区域;并行地,可以基于当前帧音频和历史帧音频的至少一个第一语音特征,获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域,获取当前帧的音素概率分布,进而可以根据上述音素概率分布,获得当前帧音频的语音识别结果,从而可以实现将视频的唇部区域和音频的语音特征相结合,来进行语音识别,大大提高了语音识别在噪声场景下的识别效果。

图2为本公开另一示例性实施例提供的语音识别方法的流程图,如图2所示,本公开图1所示实施例中,步骤101之前,还可以包括:

步骤201,对采集到的音频流进行语音端点检测。

具体地,语音端点检测(voice activity detection,VAD)一般用于鉴别音频信号当中的语音出现(speech presence)和语音消失(speech absence)。

一般来说,VAD可以包括以下步骤:

1)将音频信号进行分帧处理;

2)从每一帧数据当中提取特征;

3)在一个已知语音和静默信号区域的数据帧集合上训练一个分类器;

4)根据步骤2)中提取的特征,利用步骤3)中训练好的分类器对未知的分帧数据进行分类,判断其属于语音信号还是静默信号。

步骤202,根据上述语音端点检测的结果,划分预设时间段。

具体地,根据上述语音端点检测的结果,划分预设时间段可以为:从上述语音端点检测的结果中,获得采集到的音频流中每段音频流的起始时间点和与上述起始时间点对应的终止时间点;将上述起始时间点作为上述预设时间段的起始时刻,将上述终止时间点作为上述预设时间段的终止时刻。

本实施例中,对采集到的音频流进行语音端点检测,然后根据端点检测的结果划分预设时间段,这样在进行语音识别时,可以对音频流和视频流进行分段识别,大大降低了单次语音识别所需处理的数据量,提高了处理器的处理性能。

图3为本公开再一示例性实施例提供的语音识别方法的流程图,如图3所示,本公开图1所示实施例中,步骤103可以包括:

步骤301,从至少一个第一唇部区域中提取第一唇部视觉特征,以及从第二唇部区域中提取第二唇部视觉特征。

具体地,可以通过卷积神经网络和池化网络的组合,对输入的唇部区域图片进行处理,使输入的唇部区域图片在空间维度上降维,而在特征维度升维,从而从上述唇部区域中提取出唇部视觉特征。

其中,上述唇部视觉特征可以为尺度不变特征变换(scale-invariant featuretransform,SIFT)算子特征、卷积神经网络提取的特征和/或光流特征等,本实施例对唇部视觉特征的具体类型不作限定。

步骤302,将第一唇部视觉特征与第一语音特征在时间维度上匹配并进行特征融合,以及将第二唇部视觉特征与第二语音特征在时间维度上匹配并进行特征融合。

具体地,可以通过特征拼接、加权求和、门融合或注意力融合等方案,将上述唇部视觉特征与上述语音特征进行特征融合,本实施例对特征融合所采用的方案不作限定。

步骤303,对进行特征融合后获得的特征进行识别,获取当前帧的音素概率分布。

具体地,可以利用卷积神经网络和池化网络的组合对进行特征融合后获得的特征进行识别,获得上述唇部区域对应的音素概率分布。

本实施例中,在进行语音识别时,可以将唇部视觉特征与语音特征进行特征融合,再利用融合后获得的特征进行语音识别,从而可以提高语音识别在噪声场景下的识别精度。

图4为本公开再一示例性实施例提供的语音识别方法的流程图,如图4所示,上述语音识别方法可以包括:

步骤401,对采集到的音频流进行语音端点检测。

步骤402,根据上述语音端点检测的结果,划分预设时间段;然后,获取预设时间段内的视频流和音频流,上述预设时间段内的视频流包括当前帧图像和当前帧图像之前的历史帧图像,上述预设时间段内的音频流包括当前帧音频和当前帧音频之前的历史帧音频。

具体地,可以从上述语音端点检测的结果中,获得采集到的音频流中每段音频流的起始时间点和与上述起始时间点对应的终止时间点;将上述起始时间点作为上述预设时间段的起始时刻,将上述终止时间点作为上述预设时间段的终止时刻。

步骤403,获取上述历史帧图像的至少一个第一唇部区域,并基于当前帧图像和至少一个第一唇部区域,确定用户在当前帧图像中的第二唇部区域。

步骤404,获取上述历史帧音频的至少一个第一语音特征,并基于当前帧音频和至少一个第一语音特征,获取当前帧音频的第二语音特征。

具体实现时,步骤403与步骤404可以并行执行,也可以先后执行,本实施例对步骤403与步骤404的执行顺序不作限定。

步骤405,根据至少一个第一唇部区域、第二唇部区域、至少一个第一语音特征和第二语音特征,获取当前帧的音素概率分布。

具体地,可以将至少一个第一唇部区域、第二唇部区域、至少一个第一语音特征和第二语音特征,输入到卷积神经网络和池化网络的组合,获取当前帧的音素概率分布。

步骤406,根据上述音素概率分布,使用基于动态规划搜索的解码器或基于束搜索的解码器进行识别,获得当前帧音频的语音识别结果。

具体地,一种实现方式中,在使用基于动态规划搜索的解码器进行识别时,动态解码网络仅仅把词典编译为状态网络,构成搜索空间。编译的一般流程为:首先把词典中的所有单词并联构成并联网络;然后把单词替换为音素串;接着把每个音素根据上下文拆分为状态序列;最后把状态网络的首尾根据音素上下文一致的原则进行连接,构成回环。这样编译出来的网络一般称为线性词典,特点是每个单词的状态序列保持严格独立,不同单词的状态之间没有节点共享,因此内存占用比较大,解码过程中的重复计算比较多。

为了克服这些缺点,一般把单词首尾发音相同的部分进行合并,称为树形词典。在树形词典构成的搜索空间中进行动态解码,如果使用N-Gram语言模型,当前词的标识只有在搜索到达树的叶子节点时才能知道。这样,语言模型的概率只有在达到N-Gram中第N个单词的结束状态后才能集成。为了能够应用动态规划准则,常用的做法是采用“树拷贝”(treecopy)的方式来组织搜索空间:对于每个前驱词历史,引入词典树的一份拷贝,这样在搜索的过程中,当单词结束的假设出现时,就能够知道前驱词历史。

基于树拷贝的解码搜索需要用到动态规划(dynamic programming,DP)算法。动态规划的主要意图是把一个全局最优问题的求解分解为小的局部问题并且形成递归联系。

另一种实现方式中,基于束搜索的解码器进行识别的核心思想是,在解码器的每一步,跟踪k个最可能的部分翻译(可以称之为hypotheses假设,类似一种剪枝思想),k是束的大小,k的大小可以在具体实现时自行设定,举例来说,k可以为5~10中的一个数。

假设解码器正在预测的目标句中包括单词y1,y2,…,yt。y1,y2,…,yt有一个分数,即y1,y2,…,yt的对数概率,分数都是负数,分数越高越好,那么可以寻找得分较高的假设,跟踪每一步的top k个翻译。

本公开实施例提供的语音识别方法,在用户进行语音输入时,可以在采集音频的同时,对用户的唇部进行拍摄,然后基于当前帧图像和历史帧图像的至少一个第一唇部区域,获取用户在当前帧图像中的第二唇部区域;并行地,可以基于当前帧音频和历史帧音频的至少一个第一语音特征,获取当前帧音频的第二语音特征。之后可以根据上述语音特征和上述唇部区域,获取当前帧的音素概率分布,进而可以根据上述音素概率分布,获得当前帧音频的语音识别结果,从而可以实现将视频的唇部区域和音频的语音特征相结合,来进行语音识别,大大提高了语音识别在噪声场景下的识别效果。

本公开实施例提供的语音识别方法可以使用通用处理器实现,也可以基于嵌入式边缘人工智能(artificial intelligence,AI)芯片实现,还可以基于云端神经网络加速器,例如:图形处理器(graphics processing unit,GPU)实现。

图5为本公开一示例性实施例提供的语音识别装置的结构示意图,如图5所示,上述语音识别装置可以包括:获取模块51、识别模块52和解码模块53;

其中,获取模块51,用于获取预设时间段内的视频流和音频流,上述预设时间段内的视频流包括当前帧图像和当前帧图像之前的历史帧图像,上述预设时间段内的音频流包括当前帧音频和当前帧音频之前的历史帧音频;获取历史帧图像的至少一个第一唇部区域,并基于当前帧图像和至少一个第一唇部区域,确定用户在当前帧图像中的第二唇部区域;以及,获取历史帧音频的至少一个第一语音特征,并基于当前帧音频和至少一个第一语音特征,获取当前帧音频的第二语音特征;其中,当前帧图像中的第二唇部区域与第二语音特征对应;

识别模块52,用于根据至少一个第一唇部区域、第二唇部区域、至少一个第一语音特征和第二语音特征,获取当前帧的音素概率分布;

解码模块53,用于根据识别模块52获取的音素概率分布,获得当前帧音频的语音识别结果。

图5所示实施例提供的语音识别装置可用于执行本公开图1所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图6为本公开另一示例性实施例提供的语音识别装置的结构示意图,与图5所示的语音识别装置相比,不同之处在于,图6所示的语音识别装置还可以包括:检测模块54和划分模块55;

检测模块54,用于在获取模块51获取预设时间段内的视频流和音频流之前,对采集的音频流进行语音端点检测;

划分模块55,用于根据上述语音端点检测的结果,划分上述预设时间段。

具体地,划分模块55,具体用于从语音端点检测的结果中,获得采集到的音频流中每段音频流的起始时间点和与所述起始时间点对应的终止时间点;将上述起始时间点作为上述预设时间段的起始时刻,将上述终止时间点作为上述预设时间段的终止时刻。

本实施例中,获取模块51可以包括:人脸检测子模块511、唇部检测子模块512和唇部截取子模块513;

其中,人脸检测子模块511,用于对当前帧图像进行人脸检测,定位上述用户的脸部区域;

唇部检测子模块512,用于根据至少一个第一唇部区域,对上述用户的脸部区域进行唇部检测,定位上述用户在当前帧图像中的第二唇部区域;

唇部截取子模块513,用于从上述当前帧图像中截取第二唇部区域。

本实施例中,解码模块53,具体用于根据上述音素概率分布,通过解码器进行识别,获得当前帧音频的语音识别结果。

本实施例中,识别模块52可以包括:视觉特征提取子模块521、特征融合子模块522和特征识别子模块523;

其中,视觉特征提取子模块521,用于从至少一个第一唇部区域中提取第一唇部视觉特征,以及从第二唇部区域中提取第二唇部视觉特征;

特征融合子模块522,用于将第一唇部视觉特征与第一语音特征在时间维度上匹配并进行特征融合,以及将第二唇部视觉特征与第二语音特征在时间维度上匹配并进行特征融合;

特征识别子模块523,用于对进行特征融合后获得的特征进行识别,获取当前帧的音素概率分布。

图6所示实施例提供的语音识别装置可用于执行本公开图1~图4所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

下面,参考图7来描述根据本公开实施例的电子设备。图7为本公开一示例性实施例提供的电子设备的结构示意图。

如图7所示,电子设备10可以包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(central processing unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(random access memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(read only memory,ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

本公开实施例中,输入装置13可以包括麦克风和摄像头,其中,麦克风用于采集音频,摄像头用于拍摄视频。

此外,该输入设备13还可以包括例如键盘和/或鼠标等等。

该输出装置14可以向外部输出各种信息,包括语音识别结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图7中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

除了上述方法和设备以外,本公开的实施例还提供一种计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本公开的实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音识别方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(erasable programmable read only memory,EPROM)或闪存、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:通过帧插入对语音数据进行数据增强

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!