身份识别方法及设备

文档序号：1420105 发布日期：2020-03-13 浏览：17次 >En<

阅读说明：本技术 身份识别方法及设备 (Identity recognition method and equipment ) 是由张立斌于 2018-09-05 设计创作，主要内容包括：本申请公开了一种身份识别方法及设备。所述方法包括：获取说话者的至少一个初始语音数据段；从声源维度和/或信道维度对每个初始语音数据段进行数据变换,得到至少一个扩展语音数据段；对所述至少一个初始语音数据段和所述至少一个扩展语音数据段分别进行声纹特征提取,得到至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段；将所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段与所述说话者的身份标识对应存储到身份识别设备中。本申请实施例的技术方案,能够增大所存储的声纹特征数据段的覆盖范围,进而,提高声纹特征数据比对时的容错率,提高身份识别的准确率。(The application discloses an identity recognition method and identity recognition equipment. The method comprises the following steps: obtaining at least one initial speech data segment of a speaker; performing data transformation on each initial voice data segment from a sound source dimension and/or a channel dimension to obtain at least one expanded voice data segment; respectively carrying out voiceprint feature extraction on the at least one initial voice data segment and the at least one expanded voice data segment to obtain at least one initial voiceprint feature data segment and at least one expanded voiceprint feature data segment; and storing the at least one initial voiceprint feature data segment and the at least one expanded voiceprint feature data segment in the identity recognition device corresponding to the identity of the speaker. According to the technical scheme, the coverage range of the stored voiceprint characteristic data segment can be enlarged, and further the fault tolerance rate of voiceprint characteristic data comparison is improved, and the accuracy rate of identity recognition is improved.)

身份识别方法及设备

技术领域

本申请实施例涉及身份识别技术领域，尤其涉及一种身份识别方法及设备。

背景技术

声纹(voice print)是说话者特有的生物属性(类似指纹)，从而，可以根据声纹识别说话者的身份。根据声纹识别身份的过程主要包括声纹特征数据(voice print featuredata)注册和声纹特征数据比对两部分。声纹特征数据注册是声纹特征数据库的创建工作，包括采集各候选说话者的语音数据，分别从每段语音数据提取出声纹特征数据，分别作为各候选说话者的声纹特征数据存储起来。声纹特征数据比对是接收到待识别说话者输入的语音数据，从中提取出声纹特征数据，得到待识别声纹特征数据。若待识别声纹特征数据与某一已注册声纹特征数据的差别或距离小于预设阈值，则确定该待识别声纹特征数据与该已注册声纹特征数据属于同一说话者，从而可以将该待识别说话者识别为该已注册声纹数据对应的说话者。

由于很难保证说话者在注册时的说话状态和/或采集环境与身份识别时完全相同，从而可能造成同一说话者待识别声纹特征数据和已注册声纹特征数据存在较大区别，进而导致身份识别错误，降低身份识别的准确率。

发明内容

本申请实施例提供了一种身份识别方法及设备，能够在说话者注册时的说话状态和/或采集环境与身份识别时不相同时，正确识别说话者的身份，从而提高身份识别的准确率。

第一方面，本申请实施例提供了一种身份识别方法，该方法包括，

获取第一说话者的至少一个初始语音数据段；

从声源维度和/或信道维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到至少一个扩展语音数据段；

对所述至少一个初始语音数据段和所述至少一个扩展语音数据段分别进行声纹特征提取，得到至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段；

将所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段与所述第一说话者的身份标识对应存储到存储设备中。

其中，一种典型的身份识别方法中，在声纹特征数据注册阶段，对应一个说话者，身份识别设备仅获取一个语音数据段。本申请实施例的技术方案，所述身份识别设备可以获取所述说话者一个及一个以上的语音数据段。并且所述至少一个初始语音数据段，分别对应所述说话者的一种说话状态以及采集环境状态。

由于能够使声纹特征数据发生变化的因素包括声源和信道的多项属性信息。基于此，本申请实施例对所述至少一个初始语音数据段中每个初始语音数据段，从声源维度和/或信道维度进行数据变换，扩展得到声源维度和/或信道维度影响之后的至少一个扩展语音数据段，从而得到说话者在各种可能的环境下的语音数据。

采用本实现方式，身份识别设备将说话者输入语音数据段时的说话状态(如正常语速状态)下和/或信道环境(如安静的信道环境)下的语音数据段作为初始语音数据段，通过数据变换模拟出该说话者在多种不同说话状态(如高语速状态、高语调状态等)下和/或多种不同信道环境(如嘈杂的环境)下的至少一个扩展语音数据段。从而能够模拟出该说话者在多种不同说话状态下和/或受到多种不同信道环境影响下的声纹特征数据段，进而，能够拓宽说话者所注册的声纹特征数据段的覆盖范围，最终提高身份识别的准确率。

一种可选的设计中，在将所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段与所述说话者的身份标识对应存储到身份识别设备中之后，还包括：

获取第二说话者输入的待识别语音数据段；

对所述待识别语音数据段进行声纹特征提取，得到待识别声纹特征数据段；

计算特征距离值，所述特征距离值为所述待识别声纹特征数据段与所述存储设备中与所述第一说话者身份标识对应存储的所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段之间的距离值；

根据所述特征距离值，确定所述第二说话者与所述第一说话者是否相同。

其中，在存储所述第一说话者的多条声纹特征数段之后，所述身份识别设备可以接收第二说话者(待识别说话者)的语音数据段，进而，提取所述语音数据段对应的待识别声纹特征数据段。然后，所述身份识别设备计算所述待识别声纹特征数据段与已存储的每条声纹特征数据段的距离值，并根据所述距离值与预设阈值的关系，确定所述第二说话者(待识别说话者)与相应已存储声纹特征数据段对应的说话者(所述第一说话者)是否相同。

采用本实现方式，已存储的声纹特征数据段包含所述说话者在任何说话状态下和/或多种不同信道环境下的声纹特征数据段，因此，所述身份识别设备能够正确识别所述待识别说话者的身份，提高身份识别的准确率。

一种可选的设计中，所述计算所述特征距离值包括：

针对所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段，分别计算其中每一个特征数据段与所述待识别声纹特征数据段的距离值，得到多个距离值；

选择所述多个距离值中的最小值作为所述特征距离值。

一种可选的设计中，所述计算所述特征距离值包括：

计算所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段的平均值，得到平均特征数据段；

计算所述平均特征数据段与所述待识别特征数据段的距离值，将该距离值作为所述特征距离值。

一种可选的设计中，所述根据所述特征距离值，确定所述第二说话者与所述第第一说话者是否相同包括：

若所述特征距离值小于预设阈值，确定所述第二说话者与所述第一说话者相同；

若所述特征距离值大于或等于所述预设阈值，确定所述第二说话者与所述第二说话者不同。

一种可选的设计中，所述从声源维度和/或信道维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到至少一个扩展语音数据段，具体包括：

从所述声源维度和/或信道维度中选择出M个子维度，所述M为正整数；

从所述M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述至少一个扩展语音数据段。

其中，声源和信道中每种属性信息例如是一个子维度。基于此，所述身份识别设备可以从声源维度和/或信道维度中选择出M个不同子维度，然后，从所述M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述至少一个扩展语音数据段。

采用本实现方式，所述身份识别设备能够模拟出所述说话者对应的受到任意一个子维度种影响之后的声纹特征数据段。从而，在识别所述说话者时，即使所述说话者输入的待识别语音数据段相对于所述说话者注册声纹特征数据段时输入的语音数据段，在语速、声调、频宽、编解码、噪声和混响至少一方面不一致，所述身份识别设备仍可以准确的识别出所述说话者，提高身份识别的准确率。

一种可选的设计中，所述从所述M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述至少一个扩展语音数据段，包括：

分别从所述M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述每个初始语音数据段对应的至少M个变换数据段；

将所述每个初始语音数据段对应的至少M个变换数据段确定为所述至少一个扩展语音数据段中的扩展语音数据段。

采用本实现方式，所述身份识别设备能够模拟出所述说话者受到任意一个子维度的影响之后的至少一个声纹特征数据段。从而在识别所述说话者时，即使所述说话者输入的待识别语音数据段相对于所述说话者注册声纹特征数据段时输入的语音数据段，在语速、声调、频宽、编解码、噪声和混响中任意一个方面不一致，所述身份识别设备仍可以准确的识别出所述说话者，提高身份识别的准确率。

一种可选的设计中，所述从所述M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述至少一个扩展语音数据段，还包括：

将所述M个子维度中的每一个子维度确定为目标子维度；

从所述目标子维度对每一个目标已变换数据段进行数据变换，得到若干个组合变换数据段，所述目标已变换数据段是指已从M-1个子维度进行数据变换后的语音数据段，所述M-1个子维度是指所述M个子维度中除了所述目标子维度之外的子维度；

将所述若干个组合变换数据段确定为所述至少一个扩展语音数据段中的扩展语音数据段。

采用本实施的实现方式，所述身份识别设备能够从M个子维度中每个子维度对所述至少一个初始语音数据段中的每个初始语音数据段执行一次数据变换，模拟出受任意多个子维度影响的扩展语音数据段。从而在识别所述说话者时，即使所述说话者输入的待识别语音数据段相对于所述说话者注册声纹特征数据段时输入的语音数据段，在语速、声调、频宽、编解码、噪声和混响任意多个方面不一致，所述身份识别设备仍可以准确的识别出所述说话者，提高身份识别的准确率。

一种可选的设计中，从所述M个子维度中的任一子维度对待变换数据段进行数据变换，包括：

获取所述子维度对应的至少一个变换参数，所述变换参数指示所述子维度对应的数据变换量；

根据所述至少一个变换参数中每个变换参数对待变换数据段进行数据变换。

所述声源维度和所述信道维度中的部分子维度对应的属性参数可能会上下浮动。为了使扩展语音数据段覆盖的更广泛，所述身份识别设备对应所述属性参数上下浮动的子维度设置多个变换参数。进而，所述身份识别设备从M个子维度中任一子维度对待变换数据段进行数据变换时，可以根据相应子维度对应的每个变换参数对待变换数据段进行数据变换。

采用本实施例的实现方式，所述身份识别设备能够分别模拟出一个子维度多种影响程度下的语音数据段。从而在识别所述说话者时，即使所述说话者输入的待识别语音数据段相对于所述说话者注册声纹特征数据段时输入的语音数据段，在语速、声调、频宽、编解码、噪声和混响中任一方面存在不同程度的不一致，所述身份识别设备仍可以准确的识别出所述说话者，提高身份识别的准确率。

一种可选的设计中，所述声源维度包括语速子维度和声调子维度，所述信道维度包括频宽子维度、编解码子维度、噪声子维度和混响子维度。

第二方面，本申请实施例提供了一种身份识别设备，包括用于执行第一方面及第一方面各实现方式的中方法步骤的模块。

第三方面，本申请实施例提供了一种身份识别设备，包括收发器，处理器以及存储器。其中，收发器、处理器以及所述存储器之间可以通过总线系统相连。该存储器用于存储程序、指令或代码，所述处理器用于执行所述存储器中的程序、指令或代码，完成第一方面，或第一方面的任意一种可能的设计中的方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面或第一方面任意可能的设计中的方法。

为了解决身份识别的准确率低的问题，本申请实施例在声纹特征数据注册阶段，身份识别设备将说话者输入的至少一个初始语音数据段中的每个初始语音数据段，从声源维度和/或信道维度进行数据变换，分别得到该说话者至少一种说话状态和/或采集环境下的扩展语音数据段。基于此，身份识别设备能够提取并存储该说话者在至少一种说话状态和/或采集环境下对应的全部声纹特征数据段。从而，在声纹特征数据比对阶段，即使待识别说话者的声纹特征数据段受到说话状态和/或采集环境的影响，身份识别设备依然能够根据所存储的声纹特征数据段准确的识别待识别说话者的身份。由此可见，本申请实施例的技术方案，在声纹特征数据注册阶段，通过模拟说话者在多种说话状态和/或采集环境下的声纹特征数据段，能够存储所述说话者多种说话状态和/或采集环境下的声纹特征数据段，从而能够增大所存储的声纹特征数据段的覆盖范围，进而，提高声纹特征数据比对时的容错率，提高身份识别的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的身份识别方法的方法流程图；

图2是本申请实施例提供的窄带语音数据段的频谱示意图；

图3是图2所示的窄带语音数据段在频宽子维度变换后的频谱示意图；

图4是本申请实施例提供的实时会议场景的场景示意图；

图5是本申请实施例提供的宽带编解码器的连接结构示意图；

图6是本申请实施例提供的身份识别设备的一种实施方式的结构示意图；

图7是本申请实施例提供的身份识别设备的另一种实施方式的结构示意图。

具体实施方式

本申请实施例所述的技术方案，保护一种身份识别方法及设备。所述身份识别方法是一种通过声纹来识别用户身份的方法，可以应用在例如实时会议、智能家居、门禁、黑名单、远程监控以及检索等场景中。所述身份识别方法应用在不同的场景中时，所述身份识别设备可以适应性设置在相应场景提供的系统中。例如，所述身份识别方法应用在实时会议场景中时，所述身份识别设备可以设置在会议系统中；所述身份识别方法应用在智能家居场景中时，所述身份识别设备可以设置在所述智能家居对应的智能系统中；所述身份识别方法应用在门禁场景中时，所述身份识别设备可以设置在门禁系统中；所述身份识别方法应用在黑名单、远程监控或者检索场景中时，所述身份识别设备可以设置在通信系统中。

以实时会议场景为例，所述实时会议场景包括3位与会者。所述身份识别设备将所述3位与会者中每位与会者的身份标识和所述与会者的声纹特征数据对应存储。在会议进行过程中，所述身份识别设备获取到任意一位与会者的语音数据，根据所述语音数据对应的声纹特征数据与所述身份识别设备中已存储的每条声纹特征数据的距离，确定所述与会者是否是所述3位与会者中的一位，如果所述与会者是所述3位与会者中的一位，可以确定并显示相应与会者的信息。

其中，本申请实施例中，存储所述3位与会者中每位与会者的身份标识和所述与会者的声纹特征数据的过程包括：所述身份识别设备从声源维度和/或信道维度扩展所述与会者输入的初始语音数据段，得到至少一个扩展语音数据段。进而，所述身份识别设备从上述每个语音数据段中提取出相应的声纹特征数据段，然后，将所提取的全部声纹特征数据段与所述与会者的身份标识对应存储。

由此可见，本申请实施例的技术方案，在声纹特征数据注册阶段，通过模拟说话者在多种说话状态和/或采集环境下的声纹特征数据段，能够存储所述说话者多种说话状态和/或采集环境下的声纹特征数据段，进而，能够提高声纹特征数据比对时的容错率，提高身份识别的准确率。

因此，身份识别设备中所述说话者的身份标识仅对应一个声纹特征数据段。其中，声纹特征数据受说话者的说话状态以及所述语音数据采集环境的影响会发生变化。基于此，所述身份识别设备中每个说话者的身份标识对应的声纹特征数据段，可以认为是所述说话者的一种说话状态影响下，且在一种采集环境影响下的声纹特征数据。

下面结合附图，对本申请实施例进行描述。

实施例一

实施例一提供了一种身份识别方法。图1是本申请实施例提供的身份识别方法的方法流程图。图1所示的身份识别方法包括以下步骤：

步骤S101，身份识别设备获取第一说话者的至少一个初始语音数据段。

其中，初始语音数据段(voice segment)是指，身份识别设备从所述第一说话者处获取的语音数据段。所述语音数据段，可以由所述身份识别设备直接从所述第一说话者处采集得到，也可以由所述第一说话者的设备(如手机、平板电脑、个人电脑(PersonalComputer)、会议终端等)直接从所述第一说话者处采集，并经过互联网传输得到。

应理解，一种典型的身份识别方法中，在声纹特征数据注册阶段，对应一个说话者，身份识别设备仅获取一个语音数据段。本申请实施例的技术方案，所述身份识别设备可以获取所述第一说话者一个及一个以上的语音数据段。身份识别设备获取所述第一说话者的至少一个初始语音数据段的处理可以包括步骤S1011和步骤S1012。

步骤S1011,身份识别设备采集第一说话者的至少一条语音信息。

其中，所述身份识别设备可以通过手机、固定电话、个人电脑(personalcomputer，PC)和话筒中的至少一种设备，采集所述第一说话者的语音信息。通常，所述身份识别设备通过手机、固定电话和话筒等设备采集到的语音信息，是模拟语音信息。

为了得到尽可能多的说话状态以及采集环境下的语音数据段，本实施例中，所述第一说话者输入每条语音信息时，采用的语速和语调均不同。并且，所述第一说话者输入每条语音信息采用的硬件设备均不相同。

步骤S1012，身份识别设备对所述至少一条语音信息分别执行数字化，得到所述第一说话者的至少一个初始语音数据段。

其中，在采集得到所述至少一条语音信息之后，所述身份识别设备需要将所述至少一条语音信息中的每条语音信息从采集功能模块传输到所述身份识别设备中的其他功能模块，以执行后续操作。

根据步骤S1011所述，所述至少一条语音信息均是模拟信息，而模拟信息不便于存储、传输以及声纹特征提取等处理。基于此，所述身份识别设备对所述至少一条语音信息中的每条语音信息进行数字化(digitalize)处理，得到所述至少一个初始语音数据段。

根据步骤S1011的描述，所述至少一个初始语音数据段，分别对应所述第一说话者的一种说话状态以及采集环境状态。

在本申请的一种可选实施方式中，所述数字化处理是指通过采样量化的方式将每条语音信息转换为语音数据段。

步骤S102，身份识别设备从声源维度和/或信道维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到至少一个扩展语音数据段。

其中，能够使声纹特征发生变化的因素包括声源维度和信道维度中的多项因素。基于此，本申请实施例中，所述身份识别设备从声源维度和/或信道维度，对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，从而根据初始语音数据段模拟出受到声源维度和/或信道维度影响的语音数据段。

具体的，声源和信道中每种属性信息例如是一个子维度。所述身份识别设备可以从声源维度和/或信道维度中选择出M个子维度，然后，从所述M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述至少一个扩展语音数据段。其中，M为正整数，所述M个子维度中每个子维度均能够触发声纹特征改变。在本申请的一个可选示例中，声源维度包括语速子维度和声调子维度，信道维度包括频宽子维度、编解码子维度、噪声子维度和混响子维度。

应理解，身份识别设备对应所述M个子维度的每个子维度，均设置有初始参数。所述身份识别设备可以根据M个子维度中每个子维度的初始参数，预先确定相应子维度的数据变换方法。基于此，所述身份识别设备从M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，具体可以是，按照预设的数据变换方法对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换。

以频宽子维度为例，在一个可选示例中，身份识别设备的采样频带宽度是宽带，则所述身份识别设备将宽带数据确定为频宽子维度的初始参数。进而，所述身份识别设备确定将初始语音数据段从宽带变换为窄带的方法，得到频宽子维度的变换方法。在另一个可选示例中，身份识别设备的采样频带宽度是窄带，所述身份识别设备将初始语音数据段从窄带变换为宽带的方法确定为频宽子维度的变换方法。当然，其他子维度数据变换方法的确定，与上述可选示例类似，本申请实施例此处不再详述。

此外，需要说明的，所述声源维度和/或所述信道维度中的部分子维度对应的属性参数可能会上下浮动。例如噪声子维度中，噪声可能会变大，也可能会变小。语速子维度中，语速可能会变快，也可能会变慢。基于此，为了模拟出更多场景下的扩展语音数据段，所述身份识别设备对应属性参数上下浮动的子维度，可以设置多个变换参数。其中，所述变换参数指示相应子维度对应的数据变换量。

步骤S103，身份识别设备对所述至少一个初始语音数据段和所述至少一个扩展语音数据段分别进行声纹特征提取，得到至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段。

其中，声纹特征数据段是声纹特征向量或者声纹特征矢量。

每个语音数据段对应承载着一条声纹特征。所述声纹特征包括多项特征数据，例如包括音强、共振峰频率、走向、波形、波长以及多个相同字、词或句的语图等信息。对于该多项特征数据中的部分特征数据，例如，共振峰频率、波形和波长，身份识别设备可以从相应语音数据段中直接读取。无法从语音数据段中直接读取的特征数据，例如，多个相同字、词或句的语图，身份识别设备可以根据所述语音数据段中的相应数据确定。本实施例此处不再详述。

其中，声纹特征所包含的多项特征数据中每项特征数据指示一种特征，身份识别设备难以根据两条声纹特征中的特征数据确定所述两条声纹特征的接近程度。基于此，身份识别设备可以将声纹特征的多项特征数据，转换成所述声纹特征对应的特征向量或者特征矢量。进而，身份识别设备可以通过计算声纹特征对应的特征向量，计算所述两条声纹特征之间的距离值。身份识别设备可以通过计算声纹特征对应的特征矢量，计算所述两条声纹特征之间的距离值。本方案可以将声纹特征对应的特征向量称为声纹特征向量，将声纹特征对应的特征矢量称为声纹特征矢量。

在本申请的一个可选示例中，身份识别设备可以通过预设的声纹特征向量模型将声纹特征的多项特征数据转换为声纹特征向量。在本申请的一个可选示例中，身份识别设备可以通过预设的声纹特征矢量模型将声纹特征的多项特征数据转换为声纹特征矢量。其中，所述声纹特征向量模型和所述声纹特征矢量模型，可以预先使用大量不同说话者以及不同采集环境下得到的声纹特征训练得到。

应理解，在本申请一种可能的实现方式中，身份识别设备中仅设置一个声纹特征模型，所述声纹特征模型是声纹特征向量模型或者声纹特征矢量模型。基于此，身份识别设备对所获取的每个语音数据段进行声纹特征提取，均得到相同参数属性的声纹特征数据段。

例如，本申请的一个可选示例中，身份识别设备中设置声纹特征向量模型。基于此，本步骤中，身份识别设备对所述至少一个初始语音数据段和所述至少一个扩展语音数据段中每个语音数据段，均通过声纹特征向量模型处理。进而，身份识别设备所得到的至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段，均是声纹特征向量。

步骤S104，身份识别设备将所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段与所述第一说话者的身份标识对应存储到存储设备中。

其中，身份识别设备可以为所述第一说话者设置身份标识，以标识所述第一说话者的身份。所述身份标识可以是身份证号码、手机号码和邮箱标识中的任意一项。说话者身份标识还可以是其他能标识说话者身份的信息，本申请实施例不作限定。

其中，所述存储设备可以与所述身份识别设备部署在同一个物理设备上，也可以部署在不同的物理设备上。当所述存储设备与所述身份识别设备部署在不同的物理设备上时，需要使得所述身份识别设备能够访问所述存储设备。

在步骤S103得到所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段之后，身份识别设备将所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段均与所述第一说话者的身份标识对应存储，至此，完成对所述第一说话者的声纹特征数据的注册。

在本申请的一个实施例中，说话者的身份标识和声纹特征数据段的对应存储，可以如表1所示。

表1

说话者身份标识	声纹特征数据段
		UID001	声纹特征数据段1
UID001	声纹特征数据段2
		UID001	声纹特征数据段3
UID002	声纹特征数据段4
		……	……
UIDxyz	声纹特征数据段n

其中，“UIDxyz”中的“xyz”根据实际应用的需求，按照类似“001”和“002”的规则适应性顺次增大。n是正整数，根据实际应用的需求设置。“UIDxyz”表示相应注册用户的身份标识，如上述的身份证标识。

本申请的一个可选示例中，声纹特征数据段1至声纹特征数据段n均是声纹特征向量。

实施例一使得身份识别设备可以将说话者在单一说话状态(如正常语速状态)下和/或信道环境(如安静的信道环境)下输入的语音数据段作为初始语音数据段，通过数据变换模拟出该说话者在多种不同说话状态(如高语速状态、高语调状态等)下和/或多种不同信道环境(如嘈杂的环境)下的至少一个扩展语音数据段，从而能够模拟出该说话者在多种不同说话状态下和/或受到多种不同信道环境影响下的声纹特征数据段，进而，能够拓宽说话者所注册的声纹特征数据段的覆盖范围，有助于提高身份识别的准确率。下面通过实施例二进一步说明如何利用扩展语音数据段进行身份识别。

实施例二

通过执行实施例一，身份识别设备对应存储了所述第一说话者的声纹特征数据段(包括至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段)与所述第一说话者的身份标识。基于此，实施例二描述身份识别设备通过比对声纹特征数据段来识别第二说话者与所述第一说话者是否相同的实现过程。具体如下：

身份识别设备接收到所述第二说话者输入的待识别语音信息后，对所述待识别语音信息执行数字化处理，得到待识别语音数据段。然后，身份识别设备对所述待识别语音数据段执行声纹特征提取，得到待识别声纹特征数据段。

实施例二中，身份识别设备将待识别语音信息转换为待识别语音数据段的方法，以及身份识别设备从待识别语音数据段提取得到声纹特征数据段的方法，与实施例一类似，具体可以参考实施例一步骤S101、S1011、S1012和S103中的描述。实施例二不再详述。实施例二中，待识别声纹特征数据段是声纹特征向量或者声纹特征矢量。在实施例二的一种可选实现方式中，待识别声纹特征数据段是声纹特征向量。

进一步的，身份识别设备计算特征距离值，所述特征距离值为所述待识别声纹特征数据段与所述第一说话者身份标识对应存储的至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段之间的距离值，然后，身份识别设备根据所述特征距离值，确定所述第二说话者与所述第一说话者是否相同。

具体地，身份识别设备可以通过下面的方式计算所述特征距离值：

针对所述第一说话者对应存储的至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段，分别计算其中每一个特征数据段与所述待识别声纹特征数据段的距离值，得到多个距离值；

选择所述多个距离值中的最小值作为所述特征距离值。

具体地，身份识别设备还可以通过下面的方式计算所述特征距离值：

计算所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段的平均值，得到平均特征数据段；

计算所述平均特征数据段与所述待识别特征数据段的距离值，将该距离值作为所述特征距离值。

应理解，本申请实施例关于两个特征数据段之间的距离值，是指两个特征数据段对应的特征向量或者特征矢量之间的距离值，例如，欧式空间距离。本申请实施例后续不再赘述。

具体地，身份识别设备根据所述特征距离值，确定所述第二说话者与所述第一说话者是否相同，可以为：

若所述特征距离值小于预设阈值，确定所述第二说话者与所述第一说话者相同(即相同的人或相同的身份)；

若所述特征距离值大于或等于所述预设阈值，确定所述第二说话者与所述第二说话者不同(即不同的人或不同的身份)。

其中，所述预设阈值是为身份识别设备预先设置或存储的一个门限值。身份识别设备也可以根据身份识别准确率动态调整所述预设阈值的大小，以提高识别的正确率。

应理解，所述第二说话者的待识别声纹特征数据段与所述第一说话者对应存储的至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段的距离值越小，表明该待识别声纹特征数据段对应的特征矢量或特征向量与该已存储的声纹特征数据段对应的特征矢量或特征向量越接近，则所述第二说话者与所述第一说话者越可能是同一个人。基于此，若所述特征距离值小于所述预设阈值，身份识别设备可以确定所述第二说话者与所述第一说话者相同；反之，若所述距离值大于或等于所述预设阈值，身份识别设备可以确定所述第一说话者与所述第二说话者不同。

应理解，身份识别设备中对应所述第一说话者的身份标识存储有多个声纹特征数据段(至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段)，只要所述第二说话者的待识别声纹特征数据段与其中一个声纹特征数据段的距离值小于所述预设阈值，身份识别设备也可以确定所述第二说话者与所述第一说话者相同。

下面通过举例进行说明。假设所述预设阈值是5；身份识别设备分别计算所述第二说话者的待识别声纹特征数据段与表1中身份标识为“UID001”对应的每个声纹特征数据段的距离值；假设距离值分别为：

所述待识别声纹特征数据段与表1中“声纹特征数据段1”的距离值是2，

所述待识别声纹特征数据段与表1中“声纹特征数据段2”的距离值是5，

所述待识别声纹特征数据段与表1中“声纹特征数据段3”的距离值是6。

由此，身份识别设备可以计算特征距离值为2(因为2是本例子中距离值2、5和6中最小者)，并将该特征距离值2与前面假设的预设阈值5进行比较，确定其小于预设阈值，则确定第二说话者与身份标识为“UID001”的说话者相同。

身份识别设备也可以先计算出上述“声纹特征数据段1”、“声纹特征数据段2”和“声纹特征数据段3”的平均值，得到平均声纹特征数据段，再计算所述待识别声纹特征数据段与所述平均声纹特征数据段之间的距离值，作为所述特征距离值。

应理解，上述过程假设仅存储了一个说话者(即所述第一说话者)的声纹特征数据段(含扩展的声纹特征数据段)，而实际应用中会对应存储多个说话者的声纹特征数据段(含扩展的声纹特征数据段)，在这种情况下，应该针对每一个说话者按上述方法分别计算特征距离值，得到多个特征距离值，并在所述多个特征距离值中选择最小者与所述预设阈值进行比较，并判断所述第二说话者(待识别说话者)与最小特征距离值对应的说话者是否相同。

继续以表1为例，假设预设阈值时5，且：

身份标识为“UID001”的说话者与所述第二说话者的待识别声纹特征数据段的特征距离是2；

身份标识为“UID002”的说话者与所述第二说话者的待识别声纹特征数据段的特征距离是3；

……

身份标识为“UIDxyz”的说话者与所述第二说话者的待识别声纹特征数据段的特征距离是6。

则可以得出最小特征距离是2，其值小于预设阈值5，则可以确定，其对应的说话者，即身份标识为“UID001”的说话者，与所述第二说话者相同。

实施例二使得身份识别设备可以利用已模拟出的说话者在多种说话状态下和/或多种信道环境下的声纹特征数据段进行身份识别，能够减小受说话状态、说话环境因素影响的程度，从而可以提高身份识别的准确率。

实施例三

实施例三从声源维度描述实施例一步骤S102的具体实现过程。

应理解，实施例三是对实施例一步骤S102细节的描述，实施例三中涉及到的声纹特征数据注册过程的其他执行步骤，与实施例一的描述相同，此处不再赘述。

根据实施例一的描述可知，声源维度包括语速子维度和声调子维度。下面分别描述从语速子维度和声调子维度执行数据变换的具体操作。

从语速子维度执行数据变换：

实施例三中，身份识别设备可以预先设置至少一个语音时长，该至少一个语音时长各不相同。在一个可选实施方式中，身份识别设备将该至少一个语音时长中的一个语音时长确定为目标语音时长，该目标语音时长大于待变换语音数据段的语音时长。身份识别设备从语速子维度执行数据变换，具体包括，身份识别设备对待变换语音数据段执行分帧操作，得到fn个语音帧。身份识别设备在fn个语音帧中插值得到fn1个语音帧，其中，fn1是目标语音时长对应的语音帧数，fn1大于fn。身份识别设备调整fn1个语音帧中每两个相邻语音帧之间距离。身份识别设备将fn1个语音帧中每两个相邻语音帧之间进行平滑处理。然后，身份识别设备合成平滑处理后的fn1个语音帧，得到扩展语音数据段。

在另一个可选实施方式中，目标语音时长小于待变换语音数据的语音时长，身份识别设备删掉上述过程中fn个语音帧中的部分语音，得到fn2个语音帧。该fn2是本实施例中目标语音时长对应的语音帧数。身份识别设备的其他处理过程与上述过程相同，此处不再赘述。

从声调子维度执行数据变换：

其中，声调的高低实质上由语音数据中的基频决定。基频是指声带振动的频率，基频越高，声调越高，基频越低，声调也越低。基于此，本实施例中，身份识别设备可以预先设置至少一个基频参数。

身份识别设备从声调子维度执行数据变换，具体包括，身份识别设备对待变换语音数据段执行线性预测编码(linear predictive coding，LPC)，得到待变换语音数据段的LPC系数以及基频参数。身份识别设备将待变换语音数据段的基频参数调整为预置基频参数。然后，身份识别设备根据调整后的基频参数获取语音数据段的激励参数。身份识别设备使用该激励参数反向激励待变换语音数据段的LPC系数，得到该预置基频参数对应的扩展语音数据段。

应理解，上述调整过程中，若预置基频参数大于待变换语音数据的基频参数，则相应扩展语音数据段对应的语音声调高于待变换语音数据段对应的语音声调。若预置基频参数小于待变换语音数据的基频参数，则相应扩展语音数据段对应的语音声调低于待变换语音数据段对应的语音声调。

应理解，本实施例中所述的待变换语音数据段包括，至少一个初始语音数据段中的每个初始语音数据段，以及已经从其他子维度执行过数据变换的语音数据段。

由此可见，采用本实施例的实施方式，身份识别设备能够模拟出说话者在不同说话状态下的声纹特征数据，并将其作为所述说话者的声纹特征数据段。从而，后续对该说话者进行身份识别时，即使所述说话者输入的语音数据段相对于注册时输入的语音数据段在语速和/或声调不一致时，身份识别设备仍可以正确识别该说话者的身份，从而能提高身份识别的准确率。

实施例四

实施例四从信道维度描述实施例一步骤S102的具体实现过程。

应理解，实施例四是对实施例一步骤S102细节的描述，实施例四中涉及到的声纹特征数据注册过程的其他执行步骤，与实施例一的描述相同，此处不再赘述。

根据实施例一的描述可知，信道维度包括频宽子维度、编解码子维度、噪声子维度和混响子维度。下面分别描述从信道各子维度执行数据变换的具体操作。

从频宽子维度执行数据变换：

当待变换语音数据段的频带宽度是0～4kHz(窄带)时，将该待变换语音数据段变换为频带宽度是0～8kHz(宽带)的语音数据段。

一种可选的将窄带语音数据段变换为宽带语音数据段的方式是：身份识别设备将窄带语音数据段从时域变换到频域。所述频域的窄带语音数据段的频谱如图2中实线部分所示。图2中实线部分是低频部分(0～4kHz)。然后，身份识别设备将窄带语音数据段从低频部分直接复制到高频部分(4～8kHz)。复制到高频部分的语音数据段的频谱如图2中虚线部分所示。身份识别设备将高频部分的语音数据段的频谱，按照窄带语音数据段的频率进行整形后，得到如图3所示的频域的宽带语音数据段(0～8kHz)。身份识别设备将频域的宽带语音数据段变换到时域，得到频带扩展后的宽带语音数据段。

当待变换语音数据段的频带宽度是0～8kHz(宽带)时，身份识别设备将该待变换语音数据段变换为频带宽度是0～4kHz(窄带)的语音数据段。一种可选的将宽带语音数据段变换为窄带语音数据段的方式是：身份识别设备对宽带的待变换语音数据段执行低通滤波，相应低通滤波器的频宽为0～4kHz，得到变换后的窄带语音数据段。

从编解码子维度执行数据变换：

身份识别设备对待变换语音数据段通过目标编码方式执行编码，得到编码数据，然后，身份识别设备对该编码数据通过目标解码方式执行解码，得到变换后的扩展语音数据段。其中，目标解码方式和与目标编码方式相对应。

应理解，执行编解码操作的设备是编解码器。编解码器包括窄带语音编解码器和宽带语音编解编码器。其中，待变换语音数据段是窄带语音数据段时，身份识别设备应当使用窄带语音编解码器，例如G.729、G.723.1和G.726语音编解码器。待变换语音数据段是宽带语音数据段时，身份识别设备应当使用宽带语音编解码器，例如G.718和G.722语音编解码器。

从噪声子维度执行数据变换：

本实施例中，身份识别设备可以预先设置至少一个语音与噪声的信噪比，该至少一个信噪比之间各不相等。以预设的至少一个信噪比中的一个信噪比为例，在从噪声子维度变换待变换语音数据段时，身份识别设备按照该信噪比调整参考噪声数据对应的音量参数，得到目标噪声数据段。然后，身份识别设备将目标噪声数据段与待变换语音数据段混合，得到该信噪比对应的扩展语音数据段。身份识别设备对应该至少一个信噪比中的每一个信噪比执行该操作，分别得到每个信噪比对应的扩展语音数据段。

其中，在一种可选实施方式中，身份识别设备预先获取参考噪声数据段。在另一种可选实施方式中，身份识别设备实时获取参考噪声数据段。身份识别设备获取参考噪声数据段的方式与获取初始语音数据段的方式类似，此处不再详述。

此外，不同场景下参考噪声数据段对应的声音内容不同，例如，会议场景下，参考噪声数据段的声音内容包括键盘声、***、桌椅挪动声、会场其他人说话声等。再如，家居场景下，背景音乐声、外部街道声、小孩说话声等。

从混响子维度执行数据变换：

声波在室内传播过程中，要被墙壁、天花板和地板等障碍物反射，并且，每反射一次声波的能量都要被障碍物吸收一部分。基于此，当声源停止发声后，声波还要经过多次反射和吸收才能消失。声源停止发声之后，声波多次反射造成的若干个声波混合在一起的现象称为混响，混合声波延续的时长称为混响时间。

本实施例中，身份识别设备可以预先设置至少一个混响数据段，该至少一个混响数据段对应的音量和混响时长各不相同。以预设的至少一个混响数据段中的一个混响数据段为例，从混响子维度执行数据变换，具体可以是，身份识别设备将该混响数据段与待变换语音数据段混合，得到该混响数据段对应的扩展语音数据段。身份识别设备该至少一个混响数据段中的每一个混响数据段执行该操作，分别得到每个混响数据段对应的扩展语音数据段。

由此可见，采用本实施例的实施方式，身份识别设备能够模拟出说话者在不同采集环境下的声纹特征数据，并将其作为所述说话者的声纹特征数据段。从而，后续对该说话者进行身份识别时，即使所述说话者输入的语音数据段相对于注册时输入的语音数据段在频宽、编解码、噪声和混响中至少一项不一致时，身份识别设备仍可以正确识别该说话者的身份，从而能提高身份识别的准确率。

实施例五

实施例五描述“从M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换”的一种实现方式。

应理解，实施例五是对实施例一步骤S102细节的描述，实施例五中涉及到的声纹特征数据注册过程的其他执行步骤，与实施例一的描述相同，此处不再赘述。

实施例五中，身份识别设备分别从M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到所述每个初始语音数据段对应的至少M个变换数据段。进而，身份识别设备将所述每个初始语音数据段对应的至少M个变换数据段确定为所述至少一个扩展语音数据段中的扩展语音数据段。

一种可能的实现方式中，以所述至少一个初始语音数据段中的任一初始语音数据段为例，M个子维度例如是语速子维度、频宽子维度和编解码子维度。身份识别设备从语速子维度对所述初始语音数据段进行数据变换，得到第一条变换数据段；从频宽子维度对初始语音数据段进行数据变换，得到第二条变换数据段；从编解码子维度对初始语音数据段进行数据变换，得到第三条变换数据段。该第一条变换数据段、第二条变换数据段和第三条变换数据段，分别是三条扩展语音数据段。

应理解，上述仅以语速子维度、频宽子维度和编解码子维度为例，对所述至少一个初始语音数据段中的一个初始语音数据段的扩展进行的描述。实施例五所述的方案，适用于实施例三和实施例四所述的任意多个子维度。且，实施例五所述的方案，应用于所述至少一个初始语音数据段中的每一个初始语音数据段。

应理解，实施例五中涉及到声源维度中子维度的数据变换，参见实施例三的描述。实施例五中涉及到信道维度中子维度的数据变换，参见实施例四的描述。本实施例此处不再赘述。

实施例六

实施例六描述“从M个子维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换”的另一种实现方式。

应理解，实施例六是对实施例一步骤S102细节的描述，实施例六中涉及到的声纹特征数据注册过程的其他执行步骤，与实施例一的描述相同，此处不再赘述。

实施例六中，身份识别设备将M个子维度中的每一个子维度确定为目标子维度，从目标子维度对每一个目标已变换数据段进行数据变换，得到若干个组合变换数据段。然后，身份识别设备将该若干个组合变换数据段确定为所述至少一个扩展语音数据段中的扩展语音数据段。其中，目标已变换数据段是指已从M-1个子维度进行数据变换后的语音数据段。所述M-1个子维度是指所述M个子维度中除了所述目标子维度之外的子维度。

应理解，在一种可能的实现方式中，目标已变换数据段是所述至少一个初始语音数据段中的每一个初始语音数据段，从M-1个子维度分别进行数据变换后的语音数据段。在另一种可能的实现方式中，目标已变换数据段是所述至少一个初始语音数据段中的每一个初始语音数据段，从M-1个子维度中的任意k个子维度顺次进行数据变换后的语音数据段。其中，k是整数2至M-1中任意一个整数，k个子维度的组数量满足排列组合关系

M个子维度例如是语速子维度、声调子维度、频宽子维度和编解码子维度。在一个可选实施方式中，身份识别设备将语速子维度作为目标子维度，则目标已变换数据段是指对从声调子维度、频宽子维度和编解码子维度进行数据变换后的语音数据段。在另一个可选实施方式中，身份识别设备将声调子维度作为目标子维度，则目标已变换数据段是指对从语速子维度、频宽子维度和编解码子维度进行数据变换后的语音数据段。本申请的其他实施场景，与上述两个可选实施方式类似，此处不再赘述。

进一步的，在一个可选实施方式中，身份识别设备将语速子维度作为目标子维度。则在本实施方式中，目标已变换数据段包括，身份识别设备对所述至少一个初始语音数据段中的每一个初始语音数据段分别从声调子维度、频宽子维度和编解码子维度执行数据变换后的语音数据段。和/或，身份识别设备将声调子维度、频宽子维度和编解码子维度按照

组合。然后，身份识别设备从每个组合对应的k个子维度顺次对所述至少一个初始语音数据段中的每一个初始语音数据段执行数据变换后的语音数据段。其中，k是2或者3。

应理解，身份识别设备从k个子维度顺次对初始语音数据段进行数据变换，不受所述K个子维度顺序的影响。

当k是2时，身份识别设备得到三个组合。所述三个组合包括声调子维度和频宽子维度的组合，频宽子维度和编解码子维度的组合，以及声调子维度和编解码子维度的组合。身份识别设备对所述至少一个初始语音数据段中的每一个初始语音数据段，分别按照该三个组合中每个组合的两个子维度顺次进行数据变换，得到目标已变换数据段。

以频宽子维度和编解码子维度的组合为例，一种实施方式中，身份识别设备可以从频宽子维度对所述初始语音数据段进行数据变换，得到变换后的语音数据段。然后，身份识别设备从编解码子维度对所述变换后的语音数据段执行数据变换，得到目标已变换数据段。以频宽子维度和编解码子维度的组合为例的另一种实施方式中，身份识别设备可以从编解码子维度对所述初始语音数据段进行数据变换，得到变换后的语音数据段。然后，身份识别设备再从频宽子维度对所述变换后的语音数据段执行数据变换，得到目标已变换数据段。身份识别设备按照其他两个组合中每个组合的两个子维度顺次进行数据变换，与该描述类似，此处不再赘述。

当k是3时，身份识别设备得到一个组合。所述一个组合包括声调子维度、频宽子维度和编解码子维度的组合。

一种实施方式中，身份识别设备从声调子维度对所述至少一个初始语音数据段中的一个初始语音数据段进行数据变换，得到第一变换语音数据段。身份识别设备从频宽子维度对所述第一变换语音数据段进行数据变换，得到第二变换语音数据段。身份识别设备从编解码子维度对所述第二变换语音数据段进行数据变换，得到目标已变换数据段。

第二种实施方式中，身份识别设备从频宽子维度对所述至少一个初始语音数据段中的一个初始语音数据段进行数据变换，得到第一变换语音数据段。身份识别设备从声调子维度对所述第一变换语音数据段进行数据变换，得到第二变换语音数据段。身份识别设备从编解码子维度对所述第二变换语音数据段进行数据变换，得到目标已变换数据段。

第二种实施方式中，身份识别设备从编解码子维度对所述至少一个初始语音数据段中的一个初始语音数据段进行数据变换，得到第一变换语音数据段。身份识别设备从声调子维度对所述第一变换语音数据段进行数据变换，得到第二变换语音数据段。身份识别设备从频宽子维度对所述第二变换语音数据段进行数据变换，得到目标已变换数据段。

应理解，上述k是3时，身份识别设备还可以按照所述3个子维度的其他顺序，对初始语音数据段顺次进行数据变换。此处不再一一描述。

应理解，实施例六中涉及到声源维度中子维度的数据变换，参见实施例三的描述。实施例六中涉及到信道维度中子维度的数据变换，参见实施例四的描述。本实施例此处不再赘述。

采用本实施的实现方式，身份识别设备能够从M个子维度中每个子维度对所述至少一个初始语音数据段中的每个初始语音数据段执行一次数据变换，模拟出受任意多个子维度影响的扩展语音数据段。从而在识别所述说话者时，即使所述说话者输入的待识别语音数据段相对于所述说话者注册声纹特征数据段时输入的语音数据段，在语速、声调、频宽、编解码、噪声和混响任意多个方面不一致，所述身份识别设备仍可以准确的识别出所述说话者，提高身份识别的准确率。

实施例七

实施例七对实施例三至实施例六中，从任意一个子维度执行数据变换的具体操作进行描述。

应理解，实施例七是对实施例三至实施例六更具体的描述，所以，实施例七涉及到的声纹特征数据注册过程的其他执行步骤，与实施例一相同，可参见实施例一的描述。

根据实施例一的描述，声源维度和/或所述信道维度中的部分子维度对应的属性参数可能会上下浮动，身份识别设备对应属性参数上下浮动的子维度，可以设置多个变换参数。有鉴于此，实施例三至实施例六中，身份识别设备从M个子维度中任一子维度对待变换数据段进行数据变换时，获取该子维度对应的至少一个变换参数。然后，身份识别设备根据所述至少一个变换参数中每个变换参数对待变换数据段进行数据变换。

一种可选实施方式中，以从噪声子维度对待变换数据段进行数据变换为例。身份识别设备以初始语音数据段的信噪比为参考参数，预先设置两个信噪比。待变换语音数据段的信噪比例如是A，身份识别设备设置数据变换后的第一信噪比是A+a，设置数据变换后的第二信噪比是A-a。身份识别设备从噪声子维度对待变换语音数据段执行数据变换包括，身份识别设备对待变换语音数据段执行数据变换得到信噪比是A+a的扩展语音数据段。以及，身份识别设备对待变换语音数据段执行数据变换得到信噪比是A-a的扩展语音数据段。其中，A，A+a和A-a是说话者的合理的信噪比值，可以根据实际使用环境灵活设置。

应理解，上述对应噪声子维度设置两个信噪比的实施方式，仅是本申请的一个可选实施例。在实施使用中，身份识别设备可以对应噪声子维度设置其他数量的信噪比。例如，在另一种可选实施方式中，设置3个信噪比。

应理解，上述仅以噪声子维度的示例对本申请实施例进行说明，对本申请实施例不构成限制。身份识别设备对应声调子维度、语速子维度和混响子维度中每个子维度，均可以设置多个变换参数。其中，变换参数的值以及设置方式，身份识别设备可以结合相应子维度的属性确定。

应理解，本申请实施例应用于说话者的各种发声环境，身份识别设备所获取的也是说话者不同说话状态和语音采集环境下的语音数据。基于此，身份识别设备对应每个子维度设置的多个变换参数，必然符合说话者的说话场景。例如，身份识别设备设置的信噪比是说话者的话音对应的信噪比，而不是其他场景的信噪比，例如电磁波传输的信噪比。

由此可见，采用本实施例的实现方式，所述身份识别设备能够分别模拟出一个子维度多种影响程度下的语音数据段。从而在识别所述说话者时，即使所述说话者输入的待识别语音数据段相对于所述说话者注册声纹特征数据段时输入的语音数据段，在语速、声调、频宽、编解码、噪声和混响中任一方面存在不同程度的不一致，所述身份识别设备仍可以准确的识别出所述说话者，提高身份识别的准确率。

实施例八

实施例八结合一个具体的实施场景，对本方案进行描述。

参见图4，图4是本申请实施例提供的实时会议场景的场景示意图。本实施例提供的会议场景中，参与会议的人员包括与会者1、与会者2、与会者3、与会者4和与会者5，会议系统包括会议服务器(包含身份识别设备)、与会者1接入会议所用的手机、与会者2接入会议所用的台式机(PC,personal computer)、与会者3接入会议所用的平板电脑(tablet)、与会者4接入会议所用的电话会议终端和与会者5接入会议所用的电话座机。为确保会议安全，所述会议服务器中设置身份识别设备，以便在每个与会者接入会议过程中，能够通过声纹特征识别每一个与会者的身份。

所述身份识别设备通过声纹特征识别与会者身份过程包括：

声纹特征数据注册部分：事先让所述5位与会者通过各自接入会议的设备或者其他设备向所述身份识别设备注册声纹特征；

声纹特征数据比对部分：在会议开始阶段，所述5位与会者可以通过各自接入会议所用的设备，向所述身份识别设备提供自己的语音(比如说一句话)，所述身份识别设备提取个与会者语音数据的声纹特征，并通过比对各与会者的声纹特征数据与已注册声纹特征数据，确定各个与会者的身份。

其中，所述身份识别设备中预先设置声纹特征向量模型。所述身份识别设备从每个语音数据段中提取声纹特征。然后，所述身份识别设备通过所述声纹特征向量模型计算得到相应声纹特征的特征向量，并作为所述语音数据段对应的声纹特征数据段。

基于此，下面从声纹特征数据注册和声纹特征数据比对两部分，对所述身份识别设备识别未知与会者的过程进行描述。

声纹特征数据注册部分：

所述身份识别设备注册与会者1、与会者2、与会者3、与会者4和与会者5中每位与会者声纹特征数据的方法均类似。下面以所述身份识别设备注册与会者1的声纹特征数据为例，进行描述。所述身份识别设备注册其他四位与会者的声纹特征数据的过程，可参考所述身份识别设备注册与会者1的声纹特征数据的过程。

所述身份识别设备通过手机接收与会者1的第一语音信息和第二语音信息。所述第一语音信息和得到第二语音信息均是模拟信息。然后，所述身份识别设备对所述第一语音信息采样量化，得到第一语音数据段。所述身份识别设备对所述第二语音信息采样量化，得到第二语音数据段。进而，所述身份识别设备分别对所述第一语音数据段和第二语音数据段进行数据变换，得到多条扩展语音数据段。

应理解，此处提及的“第一”以及“第二”等序数词用于对多个对象进行区分，不用于限定多个对象的顺序。

其中，所述身份识别设备对所述第一语音数据段的数据变换方法，和对所述第二语音数据段的数据变换方法相同。下面以所述身份识别设备对所述第一语音数据段的数据变换方法为例进行描述。所述身份识别设备对所述第二语音数据段的数据变换方法，可以参考下述过程。

与会者1进行声纹特征数据注册时，向身份识别设备输入语音信息的场景例如是会议室。假设与会者1参与会议时在非会议室的场景。这种情况下，与会者1参与会议时的语速和声调，相对于声纹特征数据注册时不同。与会者1参与会议时所输入的语音在传输时的频宽、编解码、噪声和混响，相对于声纹特征数据注册时也不同。基于此，所述身份识别设备从语速子维度、声调子维度、频宽子维度、编解码子维度、噪声子维度和混响子维度，对所述第一语音数据段执行数据变换。

基于此，身份识别设备预先获取一个噪声数据段和一段混响数据段。该噪声数据段和该混响数据段的声音内容例如是键盘声、***和桌椅挪动声。

其中，所述身份识别设备采样的频带宽度例如是0～8kHz。基于此，所述身份识别设备设置频带宽度是0～4kHz的低通滤波器。当从频宽子维度对第一语音数据段进行数据变换时，所述身份识别设备将所述第一语音数据段从宽频变换得到窄频的扩展语音数据段。相应的，所述身份识别设备设置宽带编解码器，以对所述第一语音数据段从编解码子维度进行数据变换。所述宽带编解码器的连接结构如图4所示，宽带编码器的输入端用于接收第一语音数据。所述宽带编码器输出端连接宽带解码器的输入端。所述宽带解码器输出端输出变换后的扩展语音数据段。此外，所述身份识别设备预先设置2个信噪比和一套信号加噪算法。对应混响子维度，所述身份识别设备预先设置一个混响数据段和一套混响数据与语音数据混合的算法。对应语速子维度，所述身份识别设备预先设置一个语音时长差值和调整语速的算法。对应声调子维度，所述身份识别设备预先设置一个基频参数差值和调整声调的算法。

所述身份识别设备分别从语速子维度、声调子维度、频宽子维度、编解码子维度、噪声子维度和混响子维度对第一语音数据段执行数据变换，得到例如是8个扩展语音数据段。

所述身份识别设备从频宽子维度执行数据变换具体包括：所述身份识别设备将所述第一语音数据段输入低通滤波器，经低通滤波输出一个频带宽度为0～4kHz的扩展语音数据段。

所述身份识别设备从编解码子维度执行数据变换具体包括：所述身份识别设备将所述第一语音数据段输入图5中示出的宽带编码器。经所述宽带编码器输出的编码数据段输入宽带解码器。所述宽带解码器输出一个扩展语音数据段。

所述身份识别设备从语速子维度执行数据变换具体包括：在一个可选实施例中，所述身份识别设备在第一语音数据段对应的语音时长的基础上增加语音时长差值，得到目标语音时长。所述身份识别设备按照语音帧插值的方式，将第一语音数据段对应的语音时长增加到目标语音时长，得到一个扩展语音数据段。在另一个可选实施例中，所述身份识别设备在第一语音数据段对应的语音时长的基础上减少语音时长差值，得到目标语音时长。所述身份识别设备按照删除语音帧的方式，将第一语音数据段对应的语音时长缩减到目标语音时长，得到一个扩展语音数据段。

所述身份识别设备从声调子维度执行数据变换具体包括：所述身份识别设备对第一语音数据段执行LPC，得到初始基频参数。然后，所述身份识别设备在该初始基频参数基础上增加基频参数差值。进而，所述身份识别设备对应调整调高的基频参数对应的其他参数，得到一个变换后的扩展语音数据段。

所述身份识别设备从噪声子维度执行数据变换具体包括：在一个可选实施例中，所述身份识别设备计算第一语音数据段与预先输入的噪声数据段的噪声比达到第一个信噪比时，噪声数据段对应的音量。所述身份识别设备按照该音量调整噪声数据段，得到第一目标噪声数据段。所述身份识别设备按照预设的加噪算法，将第一目标噪声数据段与第一语音数据段混合，得到第一个信噪比对应的扩展语音数据段。在一个可选实施例中，所述身份识别设备计算初始语音数据段与预先输入的噪声数据段的噪声比达到第二个信噪比时，噪声数据段对应的音量。所述身份识别设备按照该音量调整噪声数据段，得到第二目标噪声数据段。所述身份识别设备按照预设的加噪算法，将第二目标噪声数据段与第一语音数据段混合，得到第二个信噪比对应的扩展语音数据段。

所述身份识别设备从混响子维度执行数据变换具体包括：所述身份识别设备按照预设的混响数据段与语音数据段混合的算法，将预设的混响数据段与第一语音数据段混合，得到一个扩展语音数据段。

应理解，上述数据变换的过程仅是本实施例的一种可选实施方式。在上述实现的基础上，所述身份识别设备还可以将所述几个子维度两两任意组合，得到包含两个子维度的多个组合。然后，所述身份识别设备顺次从每个组合中的两个子维度执行数据变换，得到多个扩展语音数据段。当然，所述身份识别设备还可以将所述几个子维度按照其他方式任意组合。然后，所述身份识别设备顺次从每个组合中的子维度执行数据变换，得到多个扩展语音数据段。此处不再详述。

相应的，所述身份识别设备对所述第二语音数据段执行数据变换，得到10个扩展语音数据段。所述身份识别设备对所述第二语音数据段执行数据变换的过程与上述描述类似，此处不再详述。

应理解，上述不同子维度的变换参数以及相应硬件的设置，仅是所述身份识别设备对应上述可选实现方式对应的场景设置的。所述身份识别设备在其他可选实现方式对应的场景中，可以按照实施场景适应性调整各子维度的变换参数和以及对应的硬件。例如，若从编解码子维度进行数据变换的是频带宽度为0～4kHz的语音数据段，则编解码器应当是窄带编码器。

进一步的，所述身份识别设备对第一语音数据段、第二语音数据段以及18个扩展语音数据段分别执行声纹特征提取，得到所述与会者1对应的20个声纹特征数据段。然后，所述身份识别设备将所述与会者1的身份标识与所述20个声纹特征数据段对应存储。至此，所述身份识别设备完成对所述与会者1的声纹特征数据的注册。

对于与会者2、与会者3、与会者4和与会者5，所述身份识别设备通过手机获取与会者3和与会者4的语音信息，所述身份识别设备通过PC获取与会者2和与会者5的语音信息。所述身份识别设备对与会者2、与会者3、与会者4和与会者5中每个与会者，执行声纹特征数据注册的其他过程，参考上述描述，此处不再详述。

所述身份识别设备中，与会者1、与会者2、与会者3、与会者4和与会者5的身份标识与声纹特征数据段的对应关系，如实施例一中表1所示。此处不再重复表述。

声纹特征数据比对部分：

在会议进行过程中，所述身份识别设备实时根据未知与会者的声纹特征识别每位未知与会者的身份。下面以一位未知与会者为例进行描述。

所述身份识别设备接收到未知与会者的一条语音信息。然后，所述身份识别设备对该语音信息进行数字化，得到一个待识别语音数据段。所述身份识别设备对所述待识别语音数据段执行声纹特征提取，得到所述未知与会者的待识别声纹特征数据段。

其中，所述身份识别设备将所述未知与会者的语音信息转换为待识别语音数据段的方法，以及所述身份识别设备从待识别语音数据段提取得到声纹特征数据段的方法，参见上述相关描述。此处不再详述。

进一步的，所述身份识别设备计算待识别声纹特征数据段与声纹特征数据注册得到的每一个声纹特征数据段的距离值。然后，所述身份识别设备根据每个距离值与预设阈值的关系确定未知与会者的身份。

一种可选实现方式中，声纹特征数据段X与与会者3的身份标识对应，以待识别声纹特征数据段与声纹特征数据段X的距离值为例。所述身份识别设备判断该距离值是否小于预设阈值。若该距离值小于预设阈值，所述身份识别设备判定所述未知与会者是声纹特征数据段X对应的身份标识所标识的与会者。即，所述未知与会者是与会者3。若该距离值大于预设阈值，所述身份识别设备判定所述未知与会者不是声纹特征数据段X对应的身份标识所标识的与会者。即，所述未知与会者不是与会者3。

应理解，每位与会者注册有多个声纹特征数据段。基于此，若未知与会者是上述5位与会者之一，所述身份识别设备能够得到多个小于预设阈值的距离值。并且，该多个距离值对应的声纹特征数据段，应当对应同一个身份标识。相应的，若未知与会者不是上述5位与会者之一，所述身份识别设备计算得到的距离值，均大于预设阈值。

例如，若未知与会者是与会者1。与会者1对应注册了20个声纹特征数据段。基于此，所述身份识别设备能够计算得到例如8个小于预设阈值的距离值。该8个距离值对应的声纹特征数据段，均对应与会者1的身份标识。再如，若未知与会者是与会者6。所述身份识别设备中未存储所述与会者6的声纹特征数据段。基于此，所述身份识别设备计算得到待识别声纹特征数据段与每个声纹特征数据段的距离值，均大于预设阈值。

应理解，实施例八仅是以实时会议场景为例，对本申请身份识别方法的描述。本申请实施例所述的身份识别方法，同样适用于其他通过声纹特征识别说话者身份的场景。例如，智能家居、门禁、黑名单、远程监控以及检索等场景。此处不再详述。

应理解，实施例一至实施例八中每个实施例，均是为了支持本方案进行的示例性介绍，对本申请实施例的技术方案并不构成限制。本领域普通技术人员可知，随着声纹识别技术的演变和新维度的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

综合上述，为了解决身份识别的准确率低的问题，本申请实施例在声纹特征数据注册阶段，身份识别设备将说话者输入的至少一个初始语音数据段中的每个初始语音数据段，从声源维度和/或信道维度进行数据变换，分别得到该说话者至少一种说话状态和/或采集环境下的扩展语音数据段。基于此，身份识别设备能够提取并存储该说话者在至少一种说话状态和/或采集环境下对应的全部声纹特征数据段。从而，在声纹特征数据比对阶段，即使待识别说话者的声纹特征数据段受到说话状态和/或采集环境的影响，身份识别设备依然能够根据所存储的声纹特征数据段准确的识别待识别说话者的身份。由此可见，本申请实施例的技术方案，在声纹特征数据注册阶段，通过模拟说话者在多种说话状态和/或采集环境下的声纹特征数据段，能够存储所述说话者多种说话状态和/或采集环境下的声纹特征数据段，从而能够增大所存储的声纹特征数据段的覆盖范围，进而，提高声纹特征数据比对时的容错率，提高身份识别的准确率。

实施例九

本实施例提供了一种身份识别设备。

参见图6，图6是本申请实施例提供的身份识别设备的一种实施方式的结构示意图。该身份识别设备用于执行实施例一至实施例八中所述的声纹特征数据注册和声纹特征数据比对方法。如图6所示，该身份识别设备包括获取模块501、数据变换模块502、提取模块503、存储模块504、距离计算模块505和比对判断模块506。其中：

获取模块501，具体可以用于上述执行上述实施例一至实施例八中，声纹特征数据注册阶段或声纹特征数据比对阶段中获取说话者语音数据的操作；

数据变换模块502，具体可以用于执行上述实施例一至实施例八中，声纹特征数据注册阶段中对初始语音数据段进行变换的操作(以获得扩展语音数据段)；

提取模块503，具体可以用于执行上述实施例一至实施例八中，声纹特征数据注册阶段或声纹特征数据比对阶段中从语音数据段(初始语音数据段或者扩展语音数据段)提取声纹特征的操作(以获得初始声纹特征数据段和扩展声纹特征数据段)；

存储模块504，具体可以用于执行上述实施例一至实施例八中，声纹特征数据注册阶段或声纹特征数据比对阶段中存取说话者的声纹特征数据段，可以存储在身份识别设备本地，也可以存储在身份识别设备能够访问到的远程设备；

距离计算模块505，具体可以用于执行上述实施例一至实施例八中，声纹特征数据比对阶段中计算待识别说话者(实施例二的第二说话者)的待识别声纹特征数据段与存储模块504所存储的已注册说话者(实施例二的第一说话者)的声纹特征数据段(含初始声纹特征数据段和扩展声纹特征数据段)之间的特征距离值；

比对判断模块506，具体可以用于执行上述实施例一至实施例八中，声纹特征数据比对阶段中根据距离计算模块505计算出的特征距离值判断或确定待识别说话者(实施例二的第二说话者)与已注册说话者(实施例二的第一说话者)是否相同。

例如，该获取模块501可以用于获取说话者的至少一个初始语音数据段。该数据变换模块502可以用于从声源维度和/或信道维度对所述至少一个初始语音数据段中的每个初始语音数据段进行数据变换，得到至少一个扩展语音数据段。该提取模块503可以用于对所述至少一个初始语音数据段和所述至少一个扩展语音数据段分别进行声纹特征提取，得到至少一个初始声纹特征数据段和至少一个扩展声纹特征数据段。该存储模块504可以用于将所述至少一个初始声纹特征数据段和所述至少一个扩展声纹特征数据段与所述说话者的身份标识对应存储到身份识别设备中。

具体内容可以参考实施例一至实施例八中相关部分的描述，此处不再赘述。

实施例十

实施例九所述的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。本实施例中，获取模块501可以由收发器实现，数据变换模块502、提取模块503和存储模块504可以由处理器实现。如图7所示，图7是本申请实施例提供的身份识别设备的另一种实施方式的结构示意图。身份识别设备可以包括处理器601、收发器602和存储器603。其中，存储器603可以用于存储身份识别设备出厂时预装的程序/代码，也可以存储用于处理器601执行时的代码等。

应理解，本实施例的身份识别设备可对应于实施例一至实施例八中所述的身份识别设备，其中收发器602用于执行实施例一至实施例八中所述的语音信息的采集，处理器601用于执行实施例一至实施例八中除数据收发之外的其他处理。在此不再赘述。

本实施例中，收发器可以是有线收发器，无线收发器或其组合。有线收发器例如可以为以太网接口。以太网接口可以是光接口，电接口或其组合。无线收发器例如可以为无线局域网收发器，蜂窝网络收发器或其组合。处理器可以是中央处理器(central processingunit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integratedcircuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。存储器可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

图7中还可以包括总线接口，总线接口可以包括任意数量的互联的总线和桥，具体由处理器代表的一个或多个处理器和存储器代表的存储器的各种电路链接在一起。总线接口还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发器提供用于在传输介质上与各种其他设备通信的单元。处理器负责管理总线架构和通常的处理，存储器可以存储处理器在执行操作时所使用的数据。

本领域技术人员还可以了解到本申请实施例列出的各种说明性逻辑块(illustrative logical block)和步骤(step)可以通过电子硬件、电脑软件，或两者的结合进行实现。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本申请实施例保护的范围。

本申请实施例中所描述的各种说明性的逻辑单元和电路可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本申请实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件单元、或者这两者的结合。软件单元可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于UE中。可选地，处理器和存储媒介也可以设置于UE中的不同的部件中。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对实施例的实施过程构成任何限定。

实施例十一

对应实施例十所述的身份识别设备，本实施例提供一种计算机存储介质。其中，设置在身份识别设备中的计算机存储介质可存储有程序，该程序执行时，可实施包括实施例一至实施例八提供的身份识别方法的部分或全部步骤。身份识别设备中的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random accessmemory，RAM)等。

实施例十二

在实施例九至实施例十一中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘)等。

本说明书的各个部分均采用递进的方式进行描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点介绍的都是与其他实施例不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例部分的说明即可。

另外，除非有相反的说明，本申请实施例提及“第一”以及“第二”等序数词用于对多个对象进行区分，不用于限定多个对象的顺序。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

29页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：语音交互系统及方法

身份识别方法及设备

相关技术

网友询问留言