一种语音识别方法、装置、系统、服务器及存储介质

文档序号：1800782 发布日期：2021-11-05 浏览：18次 >En<

阅读说明：本技术 一种语音识别方法、装置、系统、服务器及存储介质 (Voice recognition method, device, system, server and storage medium ) 是由齐昕于 2021-09-08 设计创作，主要内容包括：本发明实施例提供了一种语音识别方法、装置、系统、服务器及存储介质,所述方法包括：获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息,其中,语音信号包括多个发言者同时发言所产生的语音信号,对发言图像进行识别,确定每个发言者的方位信息以及唇动信息,针对每个发言者,将该发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型,得到该发言者对应的文本信息,其中,语音识别模型为基于多用户语音样本训练得到的,多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。由于不需要将语音信号分离,保证了语音信号的完整,提高了语音识别的准确度。(The embodiment of the invention provides a voice recognition method, a voice recognition device, a voice recognition system, a server and a storage medium, wherein the method comprises the following steps: the method comprises the steps of obtaining speaking images, voice signals and voiceprint information of a plurality of speakers in a conference, wherein the voice signals comprise voice signals generated by the speakers speaking at the same time, identifying the speaking images, determining direction information and lip movement information of the speakers, inputting the lip movement information, the voiceprint information, the direction information and the voice signals of the speakers into a pre-trained voice recognition model aiming at each speaker, and obtaining text information corresponding to the speaker, wherein the voice recognition model is obtained based on multi-user voice sample training, and the multi-user voice sample comprises the lip movement information, the voiceprint information, the direction information of each user and the voice signals generated by the multiple users speaking at the same time. Because the voice signals do not need to be separated, the completeness of the voice signals is ensured, and the accuracy of voice recognition is improved.)

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法、装置、系统、服务器及存储介质。

背景技术

目前，视频会议已经成为人们工作生活中一种常见的沟通交流方式。为了对会议内容进行记录等处理，需要对会议中每个人的发言进行收集并识别得到对应的文本信息。但是，会议中难免出现多个用户同时发言的情况，针对这种情况，则需要识别出同时发言的每个人所说的内容。

在目前的语音识别方式中，在获取多个用户同时发言所产生的语音信号后，将多个用户同时发言所产生的语音信号进行语音分离，得到每个用户对应的语音信息，进而对每个用户对应的语音信息分别进行语音识别，得到每个用户所说的内容。

由于在对语音信号进行语音分离的过程中，会对语音信号的频谱造成损伤，因此语音识别的准确度较低。

发明内容

本发明实施例的目的在于提供一种语音识别方法、装置、系统、服务器及存储介质，以实现提高语音识别的准确度，具体技术方案如下：

第一方面，本发明实施例提供了一种语音识别方法，所述方法包括：

获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，所述语音信号包括所述多个发言者同时发言所产生的语音信号；

对所述发言图像进行识别，确定每个发言者的方位信息以及唇动信息；

针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，所述语音识别模型为基于多用户语音样本训练得到的，所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。

可选的，所述语音信号为麦克风阵列所采集的语音信号，所述麦克风阵列包括多个阵元；

所述将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息的步骤，包括：

将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，以使所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息。

可选的，所述语音识别模型包括：残差层、第一拼接层、卷积层、第二拼接层以及识别层；

所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息的步骤，包括：

所述残差层对所述唇动信息进行特征提取，得到唇部特征，并输入所述第二拼接层；

所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接，并将拼接后的结果输入至所述卷积层；

所述卷积层基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征输入所述第二拼接层；

所述第二拼接层将所述语音特征与所述唇部特征进行拼接，并将拼接后的特征输入所述识别层；

所述识别层基于所述拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出所述文本信息。

可选的，在所述获取多个发言者的图像、语音信号以及每个发言者的声纹信息的步骤之前，所述方法还包括：

获取会议中的会议图像，并对所述会议图像进行唇动检测，确定正在发言的目标发言者；

基于预先建立的人脸库，确定所述目标发言者的身份信息；

获取所述目标发言者的语音信号，并提取该语音信号的声纹信息；

将所述声纹信息与所述身份信息对应记录。

可选的，所述对所述发言图像进行识别，确定每个发言者的方位信息的步骤，包括：

对所述发言图像进行识别，确定每个发言者的面部像素点；

针对每个发言者，基于该发言者的所述面部像素点在所述发言图像中位置、预先标定的拍摄所述发言图像的图像采集设备的参数以及语音采集设备的位置，确定该发言者相对于所述语音采集设备的角度信息，作为该发言者的方位信息。

可选的，所述语音识别模型的训练方式，包括：

获取所述多用户语音样本以及初始模型；

将每个多用户语音样本中包括每个用户所对应的文本信息，作为样本标签；

将每个所述多用户语音样本输入所述初始模型，得到预测文本信息；

基于每个所述多用户语音样本对应的预测文本信息与样本标签之间的差异，调整所述初始模型的模型参数，直到所述初始模型收敛，得到所述语音识别模型。

可选的，所述方法还包括：

基于所述每个发言者对应的文本信息，生成会议记录。

第二方面，本发明实施例提供了一种语音识别装置，所述装置包括：

第一获取模块，用于获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，所述语音信号包括所述多个发言者同时发言所产生的语音信号；

第一确定模块，用于对所述发言图像进行识别，确定每个发言者的方位信息以及唇动信息；

识别模块，用于针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，所述语音识别模型为基于多用户语音样本训练得到的，所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。

可选的，所述语音信号为麦克风阵列所采集的语音信号，所述麦克风阵列包括多个阵元；

所述识别模块包括：

第一识别单元，用于将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，以使所述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息。

可选的，所述语音识别模型包括：残差层、第一拼接层、卷积层、第二拼接层以及识别层；

所述第一识别单元包括：

第一提取子单元，用于所述残差层对所述唇动信息进行特征提取，得到唇部特征，并输入所述第二拼接层；

第一拼接子单元，用于所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接，并将拼接后的结果输入至所述卷积层；

第二提取子单元，用于所述卷积层基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征输入所述第二拼接层；

第二拼接子单元，用于所述第二拼接层将所述语音特征与所述唇部特征进行拼接，并将拼接后的特征输入所述识别层；

识别子单元，用于所述识别层基于所述拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出所述文本信息。

可选的，所述装置还包括：

第二获取模块，用于获取会议中的会议图像，并对所述会议图像进行唇动检测，确定正在发言的目标发言者；

第二确定模块，用于基于预先建立的人脸库，确定所述目标发言者的身份信息；

第三获取模块，用于获取所述目标发言者的语音信号，并提取该语音信号的声纹信息；

记录模块，用于将所述声纹信息与所述身份信息对应记录。

可选的，所述第一确定模块包括：

第二识别单元，用于对所述发言图像进行识别，确定每个发言者的面部像素点；

确定单元，用于针对每个发言者，基于该发言者的所述面部像素点在所述发言图像中位置、预先标定的拍摄所述发言图像的图像采集设备的参数以及语音采集设备的位置，确定该发言者相对于所述语音采集设备的角度信息，作为该发言者的方位信息。

可选的，所述语音识别模型通过模型训练模块预先训练得到，所述模型训练模块包括：

样本获取单元，用于获取所述多用户语音样本以及初始模型；

标签确定单元，用于将每个多用户语音样本中包括每个用户所对应的文本信息，作为样本标签；

文本预测单元，用于将每个所述多用户语音样本输入所述初始模型，得到预测文本信息；

参数调整单元，用于基于每个所述多用户语音样本对应的预测文本信息与样本标签之间的差异，调整所述初始模型的模型参数，直到所述初始模型收敛，得到所述语音识别模型。

可选的，所述装置还包括：

生成模块，用于基于所述每个发言者对应的文本信息，生成会议记录。

第三方面，本发明实施例提供了一种语音识别系统，所述系统包括服务器和终端，所述终端设置有图像采集设备以及语音采集设备，其中：

所述图像采集设备，用于在会议中采集图像；

所述语音采集设备，用于在会议中采集语音信号；

所述终端，用于将所述图像和所述语音信号发送至所述服务器；

所述服务器，用于接收所述图像和所述语音信号，并执行上述第一方面任一项所述的方法步骤。

第四方面，本发明实施例提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面任一所述的方法步骤。

第五方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的方案中，服务器可以获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，语音信号包括多个发言者同时发言所产生的语音信号，对发言图像进行识别，确定每个发言者的方位信息以及唇动信息，针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，语音识别模型为基于多用户语音样本训练得到的，多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。通过上述方案，服务器可以将获取到的多个发言者的发言图像、语音信号以及每个发言者的声纹信息输入至语音识别模型中，由于不需要将多个发言者的语音信号按照不同的发言者进行分离，保证了不同发言者的语音信号的频谱完整，从而提高了语音识别的准确度。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例所提供的一种语音识别方法所应用的实施场景示意图；

图2为本发明实施例所提供的一种语音识别方法的流程图；

图3为本发明实施例所提供的语音识别模型进行识别的流程图；

图4为本发明实施例所提供的另一种语音识别方法的流程图；

图5为基于图2所示实施例中步骤S202的一种具体流程图；

图6为本发明实施例所提供的语音识别模型训练的流程图；

图7为本发明实施例所提供的一种语音识别装置的结构示意图；

图8为本发明实施例所提供的另一种语音识别装置的结构示意图；

图9为本发明实施例所提供的另一种语音识别装置的结构示意图；

图10为本发明实施例所提供的一种语音识别系统的结构示意图；

图11为本发明实施例所提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本发明所获得的所有其他实施例，都属于本发明保护的范围。

为了提高语音识别的准确度，本发明实施例提供了一种语音识别方法、装置、系统、服务器、计算机可读存储介质以及计算机程序产品。为了方便理解本发明实施例所提供的一种语音识别方法，下面首先对本发明实施例所提供的一种语音识别方法可以应用的实施场景进行介绍。

图1为本发明实施例所提供的语音识别方法所应用的实施场景的一种示意图。多名与会人员参加视频会议，多名与会人员可以包括与会人员1、与会人员2、与会人员3、与会人员4、与会人员5、与会人员6以及与会人员7，服务器130与终端140之间通信连接，以进行数据传输。终端140可以为具有显示屏幕的电子设备，例如可以为会议平板、触摸一体机等，终端140还可以设置有语音采集设备110以及图像采集设备120，语音采集设备110用于采集与会人员在会议过程中进行发言时所发出的语音信号，图像采集设备120用于采集与会人员在会议过程中的图像，显示屏幕可以展示会议相关信息。

其中，语音采集设备110可以为麦克风阵列，麦克风阵列可以为：一字型阵列、三角形阵、T型阵或均匀圆阵等，图1中以一字型阵列为例。图像采集设备120可以为摄像头等能够进行图像采集的设备，在此不做具体限定。

在会议结束后，终端140可以将会议过程中语音采集设备110采集的语音信号以及图像采集设备120采集的图像发送至服务器130，服务器130便可以获取到包括会议过程中多个发言者的发言图像以及语音信号的会议视频，由于在会议过程中会出现多个发言者同时发言的情况，而目前识别多个发言者同时发言的方式不够准确，针对这种情况，服务器130可以采用本发明实施例所提供的语音识别方法对多个发言者同时发言所产生的语音信号进行识别。下面对本发明实施例所提供的一种语音识别方法进行介绍。

如图2所示，一种语音识别方法，所述方法包括：

S201，获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息；

其中，所述语音信号包括所述多个发言者同时发言所产生的语音信号。

S202，对所述发言图像进行识别，确定每个发言者的方位信息以及唇动信息；

S203，针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息。

其中，所述语音识别模型为基于多用户语音样本训练得到的，所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。

可见，本发明实施例提供的方案中，服务器可以获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，语音信号包括多个发言者同时发言所产生的语音信号，对发言图像进行识别，确定每个发言者的方位信息以及唇动信息，针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，语音识别模型为基于多用户语音样本训练得到的，多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。通过上述方案，服务器可以将获取到的多个发言者的发言图像、语音信号以及每个发言者的声纹信息输入至语音识别模型中，由于不需要将多个发言者的语音信号按照不同的发言者进行分离，保证了不同发言者的语音信号的频谱完整，从而提高了语音识别的准确度。

终端发送至服务器的会议视频中可能会包括会议中的多种发言情况所对应的视频，发言情况可以包括：一个发言者发言或多个发言者同时发言两种情况。

针对多个发言者同时发言的情况，服务器可以从该会议视频中获取多个发言者的发言图像、语音信号以及每个发言者的声纹信息。其中，多个发言者的发言图像可以为该会议视频中图像采集设备所采集到的能够表征发言者唇部动作的多帧图像，其可以是包括所有与会人员的图像，也可以是分别针对每个与会人员的图像，在此不做具体限定。

在一种实施方式中，服务器可以对该会议视频中的会议图像进行识别，确定会议图像中发言者的唇部图像特征，根据发言者唇部图像特征的运动信息，确定当前时刻发言者的数量，当发言者的数量为多个时，服务器便可以将该会议图像作为多个发言者的发言图像，并且获取该发言图像对应的时刻所采集到的语音信号以及每个发言者的声纹信息。

如果发言者的数量为一个，那么服务器便可以获取该发言图像对应的时刻所采集到的语音信号，该语音信号即为该一个发言者所发出的语音信号，进而，服务器便可以采用语音识别算法对语音信号进行语音识别，便可以得到对应的文本信息。

上述多个发言者的语音信号为该会议视频中多个发言者同时发言的时间段内，语音采集设备所采集到的由多个发言者同时发言的而产生的语音信号。其为多个发言者发出的语音信号混合在一起形成的语音信号。

例如，服务器对会议图像进行识别的过程中，提取到会议图像1中的发言者的唇部图像特征，根据唇部图像特征确定会议图像1所对应的时间点有发言者A、发言者B同时发言，服务器继续对会议图像依次进行识别，直到会议图像20，根据其中的唇部图像特征确定会议图像20所对应的时间点只有发言者A在发言，那么，会议图像1所对应的时间点到会议图像20所对应的时间点之间的时间段即为发言者A和发言者B两个发言者同时发言的时间段，该时间段所对应的语音信号也就是发言者A和发言者B两个发言者同时发言所产生的语音信号。针对该语音信号可以采用本发明实施例所提供的方法进行识别。

上述声纹信息即为能够表征发言者的语音频谱特征的信息，为了方便获取声纹信息，服务器可以在会议过程中，各个发言者首次进行单独发言时，获取其声纹信息并存储，进而在需要对多个发言者同时发言所产生的语音信号均进行识别时，基于预先建立的人脸库以及发言图像所确定发言者的身份信息，并基于该发言者的身份信息获取该发言者的声纹信息。

在获取到会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息后，服务器可以执行上述步骤S202，即对发言图像进行识别，确定每个发言者的方位信息以及唇动信息。

服务器可以对上述发言图像进行识别，提取出每个发言者的唇部图像特征，针对每个发言者，可以将任一唇部图像特征作为该发言者在发言图像中的位置，也可以计算该发言者的唇部图像特征的平均值，将该平均值对应的点作为该发言者在发言图像中的位置，这都是合理的。

服务器在确定了发言者在发言图像中的位置后，可以根据预先标定的图像采集设备的外部参数和内部参数，确定该发言者的在会议场景中的实际位置信息，再根据语音采集设备的位置，可以计算得到该发言者与语音采集设备的相对位置关系，也就可以确定该发言者的方位信息。

在一种实施方式中，图像采集设备为摄像机，语音采集设备为麦克风阵列，以麦克风阵列在会议场景中的位置作为三维坐标系原点建立坐标系，X轴与Y轴构成水平平面，服务器可以提取出发言图像1中每个发言者的唇部图像特征，将唇部图像特征A作为发言者A在该帧发言图像中的位置，根据摄像机的内部参数以及摄像机的外部参数，计算得到发言者A在上述以麦克风阵列在会议场景中的位置作为三维坐标系原点所建立的坐标系中的三维坐标(x，y，z)，进而计算tanx/y所对应的角度，即可以得到该发言者的方位信息。

服务器可以对多帧多个发言者同时发言的发言图像进行识别，并从中提取出每个发言者的唇部图像特征，将多帧发言图像中该发言者的唇部图像特征的变化信息作为该发言者的唇动信息。

作为一种实施方式，由于服务器在确定当前同时发言的发言者的数量时，可能需要确定发言图像中每个发言者的唇部图像特征，所以在这种情况下，服务器可以将确定当前同时发言的发言者的数量时所确定的唇部图像特征，作为对应的发言者的唇动信息，而无需再对发言图像进行识别。

接下来，服务器可以执行上述步骤S203，即针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息。

其中，语音信号为多个发言者同时发言而产生的语音信号，即服务器是将该发言者的唇动信息、声纹信息、方位信息以及多个发言者同时发言所产生的语音信号一同输入至预先训练完成的语音识别模型中，进而得到该发言者对应的文本信息，而不是将多个发言者同时发言而产生的语音信号分离成多路语音信号。

语音识别模型为预先基于多用户语音样本训练得到的，多用户语音样本可以包括每个用户的唇动信息、声纹信息、方位信息以及多个用户同时发言所产生的语音信号，即语音识别模型是基于每个用户的唇动信息、声纹信息、方位信息以及多个用户同时发言所产生的语音信号训练而成的。

在训练的过程中，由于多个用户同时发言而产生的语音信号为多个用户发出的语音信号混合在一起形成的语音信号，并未将多个用户同时发言而产生的语音信号按照不同的用户进行分离，语音识别模型可以学习到每个用户的唇动信息、声纹信息、方位信息以及多个用户同时发言所产生的语音信号与该用户对应的文本信息之间的对应关系，进而在语音识别模型的使用过程中，可以对输入的每个发言者的唇动信息、声纹信息、方位信息以及多个发言者同时发言所产生的语音信号进行响应处理，进而得到该发言者对应的文本信息。

针对多个发言者同时发言的情况，服务器可以逐个针对发言者进行语音识别，即遍历同时发言的多个发言者，每遍历一个发言者时，将其对应的唇动信息、声纹信息、方位信息以及语音信号输入至语音识别模型中，这样就可以分别得到每个发言者对应的文本信息，进而完成多个发言者同时发言的语音识别。

例如，服务器确定在2分5秒到5分10秒有发言者A、发言者B和发言者C同时说话，服务器便可以分别获取发言者A、发言者B和发言者C的唇动信息、声纹信息、方位信息以及发言者A、发言者B和发言者C同时发言所产生的语音信号a。进而遍历每个发言者。

具体来说，遍历发言者A，服务器可以将发言者A的唇动信息、声纹信息、方位信息以及语音信号a输入至上述语音识别模型，得到发言者A对应的文本信息。再遍历发言者B，将发言者B的唇动信息、声纹信息、方位信息以及语音信号a输入至上述语音识别模型，得到发言者B对应的文本信息。再遍历发言者C，将发言者C的唇动信息、声纹信息、方位信息以及语音信号a输入至上述语音识别模型，得到发言者C对应的文本信息。

由于语音识别模型是基于每个用户的唇动信息、声纹信息、方位信息以及多个用户同时发言所产生的语音信号训练而成的，并且，在语音识别模型训练的过程中，未将多个用户同时发言而产生的语音信号按照不同的用户进行分离，进而在语音识别模型使用的过程中，服务器将该发言者的唇动信息、声纹信息、方位信息以及多个发言者同时发言所产生的语音信号输入至预先训练完成的语音识别模型中，可以无需将多个发言者同时发言而产生的语音信号按照不同的发言者进行分离，便可以识别得到文本信息，进而保证了不同发言者的语音信号的频谱完整，从而提高了语音识别的准确度。

作为本发明实施例的一种实施方式，上述语音信号可以为麦克风阵列所采集的语音信号，麦克风阵列包括多个阵元。由于麦克风阵列中的各个阵元所在位置不同，所以在同一时刻接收多个发言者的语音信号存在时延，即每个阵元接收到的语音信号的波形的相位特性不同，所以可以利用该特点在不对多个发言者同时发言而产生的语音信号进行分离的情况下，根据语音信号的波形的相位特性准确识别出不同发言者的语音特征。

针对这种情况，上述将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息的步骤，可以包括：

针对上述每个发言者，服务器可以将该发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型，由于麦克风阵列的每个阵元接收到的语音信号的波形的相位特性不同，因此，语音识别模型可以基于方位信息、声纹信息以及多个阵元之间的相位特性，从语音信号中提取该发言者对应的语音特征。唇动信息可以表征该发言者在说话时的唇部图像的特征，将语音特征结合唇动特征进行语音识别，可以提高针对多个发言者同时发言时，语音识别的准确度，进而得到该发言者对应的文本信息。

可见，在本实施例中，服务器可以将每个发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型，以使语音识别模型基于方位信息、声纹信息以及多个阵元之间的相位特性，从语音信号中提取该发言者对应的语音特征，并将语音特征结合唇动信息进行语音识别，得到该发言者对应的文本信息。由于麦克风阵列中多个阵元在同一时刻接收语音信号存在时延，会产生的不同的相位特性，而语音识别模型可以利用该相位特性，在不对多个发言者同时发言而产生的语音信号分离的情况下，准确识别出不同发言者的语音特征。因此保证了每个发言者的语音信号的频谱完整，从而提高了语音识别的准确度。

作为本发明实施例的一种实施方式，如图3所示，上述语音识别模型可以包括：残差层350、第一拼接层340、卷积层330、第二拼接层320以及识别层310。

相应的，上述语音识别模型基于所述方位信息、所述声纹信息以及所述多个阵元之间的相位特性，从所述语音信号中提取该发言者对应的语音特征，并将所述语音特征结合所述唇动信息进行语音识别，得到该发言者对应的文本信息的步骤，可以包括：

残差层350对唇动信息304进行特征提取，得到唇部特征，并输入第二拼接层320，第一拼接层340将语音信号301、方位信息303以及声纹信息302进行拼接，并将拼接后的结果输入至卷积层330，卷积层330基于方位信息303、声纹信息302以及多个阵元之间的相位特性，从语音信号301中提取该发言者对应的语音特征，并将语音特征输入第二拼接层320，第二拼接层320将语音特征与唇部特征进行拼接，并将拼接后的特征输入识别层310，识别层310基于拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出文本信息。

其中，上述卷积层可以采用卷积神经网络(Convolutional Neural Networks,CNN)，上述残差层可以采用残差网络，上述识别层可以采用端到端的自动语音识别(Automatic Speech Recognition，ASR)模块，在此不做具体限定。

其中，上述唇部特征可以表征该发言者在说话时的唇部图像特点，第一拼接层输出的拼接后的结果为多个发言者同时发言的语音信号与该发言者的方位信息以及该发言者的声纹信息拼接到一起的，可以包括该发言者的方位特点、该用户说话的频谱特点以及多用户混合说话时的混合语音信号特点。

由于多个发言者同时发言的语音信号为麦克风阵列采集的，麦克风阵列中的各个阵元所在位置不同，所以在同一时刻接收多个发言者的语音信号存在时延，即每个阵元接收到的语音信号的波形的相位特性不同，因此，卷积层330便可以基于方位信息303、声纹信息302以及多个阵元之间的相位特性，从语音信号301中提取该发言者对应的语音特征，该语音特征与唇部特征在第二拼接层320进行拼接。

此时语音特征以及唇部特征均为该发言者对应的特征，分别从语音特点和图像特点两个维度表征该发言者的特征，进而，将该发言者的语音特征与唇部特征拼接后输入至识别层310，识别层310便可以基于语音特点和图像特点两个维度的融合特征，准确识别得到该发言者的对应的文本信息，并输出文本信息。

可见，在本实施例中，语音识别模型中的残差层对唇动信息进行特征提取，得到唇部特征，并输入第二拼接层，第一拼接层将语音信号、方位信息以及声纹信息进行拼接，并将拼接后的结果输入至卷积层，卷积层基于方位信息、声纹信息以及多个阵元之间的相位特性，从语音信号中提取该发言者对应的语音特征，并将语音特征输入第二拼接层，第二拼接层将语音特征与唇部特征进行拼接，并将拼接后的特征输入识别层，识别层基于拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出文本信息，通过上述结构的语音识别模型可以准确进行语音识别，保证得到的文本信息的准确度。

作为本发明实施例的一种实施方式，如图4所示，在上述获取多个发言者的图像、语音信号以及每个发言者的声纹信息的步骤之前，上述方法还可以包括：

S401，获取会议中的会议图像，并对所述会议图像进行唇动检测，确定正在发言的目标发言者；

服务器可以获取本次会议中的会议图像，会议图像可以为本次会议视频中的图像，会议图像对应本次会议视频中的某个时间点，例如，会议图像A对应该会议视频中的1分13秒时的会议画面。为了进行语音识别，服务器对会议图像进行唇动检测，可以确定出正在发言的目标发言者，其中，目标发言者可以为一个或多个，在此不做具体限定。

S402，基于预先建立的人脸库，确定所述目标发言者的身份信息；

服务器在确定正在发言的目标发言者之后，可以基于预先建立的人脸库以及发言者的人脸图像，确定目标发言者的身份信息。为了方便确定目标发言者的身份信息，可以预先建立人脸库，该人脸库可以存储预先获取的各个人员的人脸模型信息和对应的身份信息，例如，可以为人脸特征与姓名之间的对应关系。

在会议开始前，终端可以获取与会人员的名单，该名单包括与会人员的身份信息，根据与会人员的名单中的身份信息，终端可以从上述人脸库中提取与会人员的人脸特征，并记录与会人员的人脸特征，从而完成与会人员的注册。终端可以将该与会人员的人脸特征与该与会人员的身份信息对应存储于终端本地，或将该人脸特征与该与会人员的身份信息进行对应记录后发送至服务器，这都是合理的。

S403，获取所述目标发言者的语音信号，并提取该语音信号的声纹信息；

在一种实施方式中，目标发言者首次发言时为目标发言者独自发言时，那么，服务器便可以直接获取目标发言者独自发言的时间段内，语音采集设备所采集到的该目标发言者的语音信号，并提取该语音信号的声纹信息。

在另一种实施方式中，目标发言者首次发言时为包含目标发言者的多个人同时发言的情况，那么，服务器可以获取该包含目标发言者的多个人同时发言的时间段内，语音采集设备所采集到的多个发言者的语音信号，根据该目标发言者的唇动信息以及方位信息，从多个发言者的语音信号中提取该目标发言者的语音信号，并提取该语音信号的声纹信息。

上述两种实施方式中，语音采集设备可以为麦克风阵列，麦克风阵列采集到的语音信号可以进行波束形成处理，即波束成型，波束形成是对各阵元的输出进行时延或相位补偿、幅度加权处理，以形成指向特定方向的波束。这样，服务器就可以得到更加精确的目标发言者的语音信号，从而所提取的声纹信息能够更加准确。

其中，上述从语音信号提取声纹信息可以采用时延神经网络(Time Delay NeuralNetwork，TDNN)和概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)等技术，上述波束形成可以采用最小方差无失真响应(Minimum VarianceDistortionless Response，MVDR)，在此不做具体限定。

S404，将所述声纹信息与所述身份信息对应记录。

在确定该目标发言者的身份信息以及获取到该目标发言者的声纹信息后，服务器可以将该目标发言者的身份信息与该目标发言者的声纹信息对应记录，从而获取到本次会议该目标发言者的声纹信息与该目标发言者的对应关系。例如：该目标发言者为目标发言者A，提取出目标发言者A的声纹信息1后，可以对应记录为“目标发言者A-声纹信息1”。对应记录的方式可以为采用表格进行记录等，在此不做具体限定。例如，可以如下表所示：

序号	发言者	声纹信息
			1	目标发言者A	声纹信息1
2	目标发言者B	声纹信息1
			3	目标发言者C	声纹信息3

可见，在本实施例中，服务器可以获取会议中的会议图像，并对会议图像进行唇动检测，确定正在发言的目标发言者，基于预先建立的人脸库，确定目标发言者的身份信息，获取目标发言者的语音信号，并提取该语音信号的声纹信息，将声纹信息与身份信息对应记录。相关技术中，在会议开始前进行与会人员的声纹注册，但是同一个与会人员在声纹注册后，不同的时间段内，声纹信息波动较大，在实际使用过程中，会导致语音识别率低的问题。而本实施例中，无需如相关技术中在会议开始前进行与会人员的声纹注册，而是在提取会议过程中与会人员发出的语音信号，进行声纹信息的注册。从而避免了在会议开始前后环境变化，以及与会人员自身声纹信息波动大导致的预先注册的声纹信息不准确的问题，目标发言者的声纹信息更加准确，从而提高了后续语音识别的准确度。

作为本发明实施例的一种实施方式，如图5所示，上述对所述发言图像进行识别，确定每个发言者的方位信息的步骤，可以包括：

S501，对所述发言图像进行识别，确定每个发言者的面部像素点；

服务器可以对发言图像进行识别，确定出该发言图像中每个发言者的面部像素点，服务器可以选取该面部像素点的任一点作为该发言者的面部像素点位于图像中的位置，也可以计算该面部像素点的平均值，将平均值所对应的点作为该发言者的面部像素点位于图像中的位置，在此不做具体限定。

S502，针对每个发言者，基于该发言者的所述面部像素点在所述发言图像中位置、预先标定的拍摄所述发言图像的图像采集设备的参数以及语音采集设备的位置，确定该发言者相对于所述语音采集设备的角度信息，作为该发言者的方位信息。

在一种实施方式中，在获得该发言者的面部像素点在发言图像中的位置后，服务器可以基于在获得该发言者的面部像素点在发言图像中的位置、预先标定的拍摄该发言图像的图像采集设备的参数，计算得到该发言者位于会议场景中的位置，基于语音采集设备与摄像机的相对位置，从而可以计算得到该发言者相对于语音采集设备的角度信息，作为该发言者的方位信息。

在一种实施方式中，图像采集设备为摄像机，语音采集设备为麦克风阵列，以摄像机在会议场景中的位置作为三维坐标系原点建立坐标系，X轴与Y轴构成水平平面，服务器可以从发言图像1中提取出每个发言者的面部像素点，将面部像素点的平均值对应的点作为该发言者A位置，根据摄像机的内部参数以及摄像机的外部参数，计算得到该发言者在上述以摄像机在会议场景中的位置作为三维坐标系原点建立坐标系中的三维坐标(x1，y1，z1)，而麦克风阵列位于上述以摄像机在会议场景中的位置作为三维坐标系原点建立坐标系中的三维坐标为(x2，y2，z2)，计算tan|x1|+|x2|/|y1|+|y2|所对应的角度，作为该发言者的方位信息。

可见，在本实施例中，服务器可以对发言图像进行识别，确定每个发言者的面部像素点，针对每个发言者，基于该发言者的所述面部像素点在发言图像中位置、预先标定的拍摄发言图像的图像采集设备的参数以及语音采集设备的位置，确定该发言者相对于所述语音采集设备的角度信息，作为该发言者的方位信息，这样，服务器便可以准确确定该发言者的方位信息，进而可以保证后续语音识别的准确度。

作为本发明实施例的一种实施方式，如图6所示，上述语音识别模型的训练方式，可以包括：

S601，获取所述多用户语音样本以及初始模型；

服务器可以获取多用户语音样本以及初始模型，其中，多用户语音样本包含多个用户的唇动信息、声纹信息、方位信息、语音信号以及每个用户所对应的文本信息。初始模型的结构与上述语音识别模型的结构相同，即可以包括：残差层、第一拼接层、卷积层、第二拼接层以及识别层，初始模型的初始参数可以为默认值也可以随机初始化，在此不做具体限定。

S602，将每个多用户语音样本中包括每个用户所对应的文本信息，作为样本标签；

服务器可以获取每个多用户语音样本中包括每个用户所对应的文本信息，该文本信息为人工确定的，也可以预先确定文本信息，进而使多个用户同时按照对应的文本信息发出语音信号，获得上述多用户语音样本。每个多用户语音样本中所对应的文本信息即可以作为该多用户语音样本对应的样本标签。

S603，将每个所述多用户语音样本输入所述初始模型，得到预测文本信息；

针对每个多用户语音样本所包括的用户，可以将该用户的唇动信息输入至初始模型的残差层以对唇动信息进行特征提取，得到唇部特征后输入第二拼接层。将该用户的声纹信息、将该用户的方位信息以及多个用户同时发言的语音信号输入至第一拼接层进行拼接，并将拼接后的结果输入至卷积层。

卷积层可以基于该用户的声纹信息、将该用户的方位信息以及麦克风阵列包括的多个阵元之间的相位特性，从多个用户同时发言的语音信号提取该用户对应的语音特征，并将该语音特征输入第二拼接层。为了保证训练得到的语音识别模型可以对语音信号进行准确处理，该麦克风阵列可以与上述实施例中所说的麦克风阵列相同。

进而，第二拼接层可以将语音特征与唇部特征进行拼接，并将拼接后的特征输入识别层，识别层可以基于拼接后的特征进行语音识别，得到文本信息，作为预测文本信息。

S604，基于每个所述多用户语音样本对应的预测文本信息与样本标签之间的差异，调整所述初始模型的模型参数，直到所述初始模型收敛，得到所述语音识别模型。

由于当前的初始模型可能还不能对语音信号进行准确识别，所以可以基于每个多用户语音样本对应的预测文本信息与样本标签之间的差异，调整初始模型的模型参数，以使初始模型的参数越来越合适，提高语音识别的准确度，直到初始模型收敛。其中，可以采用梯度下降算法、随机梯度下降算法等调整初始模型的参数，在此不做具体限定。

在一种实施方式中，可以基于预测文本信息与样本标签之间的差异计算损失函数的函数值，当函数值达到预设值时，确定当前的初始模型收敛，得到语音识别模型。在一种实施方式中，在多用户语音样本迭代次数达到预设次数后，可以认为初始模型收敛，得到语音识别模型。

可见，在本实施例中，服务器可以获取多用户语音样本以及初始模型，将每个多用户语音样本中包括每个用户所对应的文本信息，作为样本标签，将每个多用户语音样本输入所述初始模型，得到预测文本信息，基于每个多用户语音样本对应的预测文本信息与样本标签之间的差异，调整初始模型的模型参数，直到初始模型收敛，得到语音识别模型。通过该训练方式可以训练得到能够准确对唇动信息、声纹信息、方位信息以及多用户同时说话所产生的语音信号进行识别的模型，从而保证后续语音识别的准确度。

作为本发明实施例的一种实施方式，上述方法还可以包括：

基于所述每个发言者对应的文本信息，生成会议记录。

由于在会议视频中，会有多个发言者同时发言或单个发言者发言的情况，服务器可以将不同情况下，发言者对应的文本信息按照对应的时间顺序进行记录，生成会议记录。

例如，发言者A在时间a时发言所产生的语音信号对应的文本信息为“本次会议内容为上个季度的工作汇报”，在发言者A发言之后的时间b，发言者B和发言者C同时说话，发言者B发言所产生的语音信号对应的文本信息为“上个季度我部门完成了一个项目”，发言者C发言所产生的语音信号对应的文本信息为“我有一个问题想了解下”。那么服务器便可以生成会议记录：时间a：发言者A，本次会议内容为上个季度的工作汇报；时间b：发言者B，上个季度我部门完成了一个项目；发言者C，我有一个问题想了解下。

在一种实施方式中，会议记录中还可以包括会议地点、会议名称等信息，在此不做具体限定。

可见，在本实施例中，服务器可以基于每个发言者对应的文本信息，生成会议记录，由于服务器可以将会议中多个发言者、单个发言者发言的情况按照会议时间顺序进行记录，并且针对多个发言者同时发言的情况，也可以准确进行语音识别得到准确的文本信息，不需要额外配备会议记录人员，节省了人力和成本。

相应与上述一种语音识别方法，本发明实施例还提供了一种语音识别装置，下面对本发明实施例所提供的一种语音识别装置进行介绍。

如图7所示，一种语音识别装置，所述装置可以包括：

第一获取模块710，用于获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，所述语音信号包括所述多个发言者同时发言所产生的语音信号；

第一确定模块720，用于对所述发言图像进行识别，确定每个发言者的方位信息以及唇动信息；

识别模块730，用于针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及所述语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，所述语音识别模型为基于多用户语音样本训练得到的，所述多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。

作为本发明实施例的一种实施方式，上述语音信号可以为麦克风阵列所采集的语音信号，所述麦克风阵列包括多个阵元；

上述识别模块730可以包括：

作为本发明实施例的一种实施方式，上述语音识别模型可以包括：残差层、第一拼接层、卷积层、第二拼接层以及识别层；

所述第一识别单元可以包括：

第一提取子单元，用于所述残差层对所述唇动信息进行特征提取，得到唇部特征，并输入所述第二拼接层；

第一拼接子单元，用于所述第一拼接层将所述语音信号、所述方位信息以及所述声纹信息进行拼接，并将拼接后的结果输入至所述卷积层；

第二拼接子单元，用于所述第二拼接层将所述语音特征与所述唇部特征进行拼接，并将拼接后的特征输入所述识别层；

识别子单元，用于所述识别层基于所述拼接后的特征进行语音识别，得到该发言者的对应的文本信息，并输出所述文本信息。

作为本发明实施例的一种实施方式，如图8所示，上述装置还可以包括：

第二获取模块740，用于获取会议中的会议图像，并对所述会议图像进行唇动检测，确定正在发言的目标发言者；

第二确定模块750，用于基于预先建立的人脸库，确定所述目标发言者的身份信息；

第三获取模块760，用于获取所述目标发言者的语音信号，并提取该语音信号的声纹信息；

记录模块770，用于将所述声纹信息与所述身份信息对应记录。

作为本发明实施例的一种实施方式，上述第一确定模块720可以包括：

第二识别单元，用于对所述发言图像进行识别，确定每个发言者的面部像素点；

作为本发明实施例的一种实施方式，上述语音识别模型通过模型训练模块预先训练得到，所述模型训练模块可以包括：

样本获取单元，用于获取所述多用户语音样本以及初始模型；

标签确定单元，用于将每个多用户语音样本中包括每个用户所对应的文本信息，作为样本标签；

文本预测单元，用于将每个所述多用户语音样本输入所述初始模型，得到预测文本信息；

作为本发明实施例的一种实施方式，如图9所示，上述装置还可以包括：

生成模块780，用于基于所述每个发言者对应的文本信息，生成会议记录。

相应与上述一种语音识别方法，本发明实施例还提供了一种语音识别系统，下面对本发明实施例所提供的一种语音识别系统进行介绍。

如图10所示，一种语音识别系统，所述系统包括服务器1004和终端1003，所述终端设置有图像采集设备1001以及语音采集设备1002，其中：

所述图像采集设备1001，用于在会议中采集图像；

所述语音采集设备1002，用于在会议中采集语音信号；

所述终端1003，用于将所述图像和所述语音信号发送至所述服务器1004；

所述服务器1004，用于接收所述图像和所述语音信号，并上述实施例中任一所述的语音识别方法的步骤

可见，本发明实施例提供的方案中，图像采集设备可以在会议中采集图像，语音采集设备可以在会议中采集语音信号，终端可以将图像和语音信号发送至服务器，服务器可以获取会议中多个发言者的发言图像、语音信号以及每个发言者的声纹信息，其中，语音信号包括多个发言者同时发言所产生的语音信号，对发言图像进行识别，确定每个发言者的方位信息以及唇动信息，针对每个发言者，将该发言者的唇动信息、声纹信息、方位信息以及语音信号输入预先训练完成的语音识别模型，得到该发言者对应的文本信息，其中，语音识别模型为基于多用户语音样本训练得到的，多用户语音样本包括每个用户的唇动信息、声纹信息、方位信息以及多用户同时发言所产生的语音信号。通过上述方案，服务器可以将多个发言者的发言图像、语音信号以及每个发言者的声纹信息输入至语音识别模型中，由于不需要将多个发言者的语音信号按照不同的发言者进行分离，保证了不同发言者的语音信号的频谱完整，从而提高了语音识别的准确度。

本发明实施例还提供了一种服务器，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信，

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现上述任一实施例所述的语音识别方法步骤。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的语音识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于一种语音识别方法、装置、系统、服务器、计算机可读存储介质以及计算机程序产品而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

28页详细技术资料下载

一种语音识别方法、装置、系统、服务器及存储介质

相关技术

网友询问留言