说话者识别系统及其使用方法

文档序号：157362 发布日期：2021-10-26 浏览：19次 >En<

阅读说明：本技术 说话者识别系统及其使用方法 (Speaker recognition system and method of use ) 是由王琼琼冈部浩司越仲孝文于 2020-02-05 设计创作，主要内容包括：一种说话者识别系统,其包括被配置成存储指令的非暂时性计算机可读介质。所述说话者识别系统进一步包括处理器,所述处理器连接至非暂时性计算机可读介质。处理器被配置成执行有关从输入语音数据中的多个帧中的每个帧提取声学特征的指令。处理器被配置成基于提取的声学特征而使用第一神经网络(NN)来执行有关计算多个帧中的每个帧的显著性值的指令,其中,第一NN是使用说话者后验的经训练的NN。处理器被配置成执行有关使用多个帧中的每个帧的显著性值来提取说话者特征的指令。(A speaker recognition system includes a non-transitory computer-readable medium configured to store instructions. The speaker recognition system further includes a processor connected to a non-transitory computer-readable medium. The processor is configured to execute instructions related to extracting acoustic features from each of a plurality of frames in the input speech data. The processor is configured to perform instructions on computing a saliency value for each of a plurality of frames using a first Neural Network (NN) based on the extracted acoustic features, wherein the first NN is a trained NN using a speaker posterior. The processor is configured to execute instructions related to using the saliency value for each of the plurality of frames to extract speaker features.)

说话者识别系统及其使用方法

背景技术

在说话者识别中，一种系统接收具有可变数目的帧的一系列原始特征，也称为声学特征。帧是一段时间，其中特征包括数据。原始特征是帧级特征，其意味着信息是基于时间段进行分割的。系统预期在说话者标识方案中输出说话者身份，或在说话者验证方案中输出本人/冒名顶替者的结果。输出的说话者身份和本人/冒名顶替者结果两者是在话语级别确定的，其意味着分析了可能包括许多帧的整个信息集。要从帧级输入产生此类话语级输出，在一些说话者识别系统中使用了对所有有效帧的池化过程。通常使用同等加权池化，这意味着无论帧中信息的品质如何，原始特征的每一帧都被赋予相同的重要性。

说话者识别方法包括基于i向量的方法和基于DNN的说话者嵌入方法。这两种方法为此使用同等加权池化i，从而从帧级信息中获得话语级说话者识别结果的输出。

在基于i向量的方法中，从具有L帧特征序列{y₁，y₂，·...，·y_L}的话语中，根据下式提取话语级特征x

M＝μ+Tx，

其中超向量M是通过连接所有M_C生成的，

c是GMM-UBM中高斯分量的指数。所有帧都被同等对待，仅通过对所有帧求和的方式。

在基于DNN的方法中，平均池化层对每一帧都赋予相同的重要性。

发明内容

本公开的至少一个实施例涉及一种使用说话者显著性图的神经网络，以使得每个帧的说话者显著性被用于对从帧级到话语级的池化特征进行加权。与基于i向量和DNN的方法中的同等加权池化不同，说话者显著性图以不同的方式对原始特征的不同帧进行加权。在说话者识别中更有益的帧，即说话者辨别的，在池化过程中将比其他帧具有更多的权重。

附图说明

附图与详细描述一起用于帮助解释本发明的语音识别系统和方法的原理。附图是为了说明而不是限制本技术的应用。

图1是根据至少一个实施例的说话者识别系统的配置的框图。

图2是由根据至少一个实施例的由说话者识别系统进行的操作的流程图。

图3是用于训练根据至少一个实施例的说话者识别系统的操作的流程图。

图4是用于提取根据至少一个实施例的说话者特征的操作的流程图。

图5是根据至少一个实施例的说话者识别系统的配置的框图。

图6是由根据至少一个实施例的说话者识别系统进行的操作的流程图。

图7是用于训练根据至少一个实施例的说话者识别系统的操作的流程图。

图8是用于提取根据至少一个实施例的说话者特征的操作的流程图。

图9是用于实施根据至少一个实施例的说话者识别系统的计算设备的框图。

熟练的技术人员将了解，附图中的元件是为了简单和清楚而图示的并且不一定按比例绘制。例如，附图中图示集成电路架构的元件中的一些的尺寸可能相对于其他元件被夸大，以帮助提高对本示例实施例和替代示例实施例的理解。

具体实施方式

下面将参考附图描述实施例。以下具体实施方式仅是示例性的，并且不意在限制本公开或本公开的应用和使用。此外，不意在受本发明的前述背景或以下具体实施方式中提出的任何理论的束缚。

图1是根据至少一个实施例的说话者识别系统100的配置的框图。说话者识别系统100包括被配置成接收和处理原始特征的训练部120。说话者识别系统还包括说话者特征提取部130，该说话者特征提取部130被配置成基于来自训练部120的信息来接收输入数据并输出说话者特征。

训练部120包括声学特征提取器102_a，该声学特征提取器被配置成从自训练数据存储装置101接收到的训练数据中提取声学特征，以确定训练数据的帧中的每个中的声学信息。说话者辨别神经网络(NN)训练器104被配置成从声学特征提取器102_a接收声学特征，并且从说话者ID存储装置103中接收说话者ID信息。说话者辨别NN训练器104输出说话者辨别NN参数，以存储在说话者辨别NN参数存储装置105。

任何类型的神经网络都可用于说话者辨别NN训练器104，例如延时神经网络(TDNN)、卷积神经网络(CNN)、LSTM或门控复发单元(GRU)。

说话者后验提取器106被配置成使用存储在说话者辨别NN参数存储装置105中的说话者辨别NN参数来为训练数据存储装置101中的每个语音话语提取目标说话者后验。由说话者后验提取器106提取的说话者后验被存储在说话者后验存储装置107中。在至少一个实施例中，由说话者后验提取器106提取的说话者后验是在从0到1的范围内的标量值。

注意力NN训练器108被配置成从声学特征提取器102_a接收声学特征，并且从说话者后验存储装置107接收对应的说话者后验。注意力NN训练器108被配置成训练注意力NN并输出注意力NN参数。在至少一个实施例中，注意力NN具有单个输出节点。注意力NN参数存储装置109被配置成存储由注意力NN训练器108产生的注意力NN参数。

任何类型的神经网络都适用于注意力NN，例如，延时神经网络(TDNN)、卷积神经网络(CNN)、LSTM或门控复发单元(GRU)。在至少一个实施例中，用于注意力NN训练器108的神经网络类型与用于说话者辨别NN训练器104的神经网络类型相同。在至少一个实施例中，用于注意力NN训练器108的神经网络类型是一种不同于用于说话者辨别NN训练器104的神经网络类型。

存储在注意力NN参数存储装置109中的注意力NN参数是训练部120分析来自训练数据存储装置101的训练数据的结果。注意力NN参数可用于使用说话者特征提取部130分析输入数据，以便确定输入数据的说话者的身份和/或确认输入数据的说话者是否是冒名顶替者。

说话者特征提取部130包括声学特征提取器102_b，该声学特征提取器102_b被配置成从输入数据提取声学特征以标识输入数据的帧中的每个的声学特征。声学特征提取器102_a和声学特征提取器102_b具有相同的功能。在至少一个实施例中，使用相同的设备来进行声学特征提取器102_a和声学特征提取器102_b两者的功能。在至少一个实施例中，不同的设备用于进行声学特征提取器102_a和声学特征提取器102_b的功能。

来自输入数据的声学特征被输入到说话者显著性计算器110。说话者显著性计算器110被配置成使用存储在注意力NN参数存储装置109中的注意力NN参数来计算输入数据的每个帧的说话者显著性。说话者显著性计算器110为输入数据的每个帧提供加权因子。加权因子基于输入数据的每个帧中的有用信息量。至少一个帧的加权因子不同于至少一个其他帧的加权因子。在至少一个实施例中，输入数据的每个帧具有不同的加权因子。在至少一个实施例中，输入数据的至少一个帧具有与输入数据的至少一个其他帧相同的加权因子。具有大量有用信息的帧的示例包括以下帧：包括长持续时间的连续语音，在帧内使用不同措辞，或具有很少或没有背景噪声的帧。具有少量有用数据的帧的示例包括以下帧：语音是混乱的、语音持续时间短、多个说话者同时说话或具有大量背景噪声的帧。说话者显著性计算器110为具有更大量有用信息的帧指派更高的权重。在至少一个实施例中，输入数据的每一帧具有相同的持续时间。在至少一个实施例中，输入数据的至少一个帧与输入数据的至少一个其他帧具有不同的持续时间。

说话者特征提取器112在池化过程期间利用来自显著性计算器110的显著性，以便标识说话者特征。说话者特征提取器112还从说话者特征提取器存储装置111接收说话者特征参数以用于池化过程。通过在说话者特征提取器112内包括池化过程，避免了固定NN参数的使用。因此，说话者特征提取器112能够适应具有不同帧的多种输入数据，所述不同帧具有不同的可用数据量。在至少一个实施例中，说话者特征是输入数据的说话者的身份。在至少一个实施例中，说话者特征是基于输入数据与存储的说话者特征参数的比较的对说话者的认证。

说话者特征提取器112是能够进行至少一个池化过程的任何类型的特征提取器。在至少一个实施例中，说话者特征提取器112是深度说话者特征提取器。在至少一个实施例中，说话者特征提取器112是i向量提取器。

与不包括显著性计算器110的其他方法相比，说话者识别系统100能够提供具有更高准确度的结果。通过以不同的方式对数据的不同帧进行加权，包括更多可用数据的帧被赋予更高的重要性。因此，与其他系统相比，说话者识别系统100能够减少说话者的错误肯定、错误否定和不正确标识的实例。

说话者显著性计算器110确定要应用于输入数据的不同帧的权重。输入语音话语x＝(x₁,…,x_L)被输入到注意力NN，该注意力NN基于对应帧中的可用数据量来为输入数据的每个帧输出一个标量分值S。分值相对于帧的声学特征的梯度为其中x_i是帧i(i＝1,…,L)处的声学特征向量；L是语音话语中的帧的总数目，x是L特征向量的矩阵；W是由注意力NN训练器108训练并且存储在注意力NN参数存储装置109中的注意力NN参数。帧i的显著性被计算为梯度向量的p范数，其中g_ij是梯度g_i的第j个元素；p是待确定的参数。在至少一个实施例中，p是正无穷大，而显著性是梯度向量的所有维度上的最大元素。使用NN参数W和输入声学特征x_i，计算了输入数据的帧中的每个的显著性。

在其他说话者特征提取器中，其中统计池化层从可变长度的帧级特征向量中取得固定维度的话语级表示：其中h_i是帧级的瓶颈特征，是池化层之前的层的输出。相反，说话者特征提取器112计算加权平均其中w_i通过显著性计算器110确定。结果是说话者特征提取器112能够增加置于具有更多信息的帧上的重要性，导致以更高的准确度和更高的置信度更快地确定说话者特征。

说话者识别系统100在显著性计算期间为对于说话者识别更重要的帧指派更高的权重。作为目标说话者或一组说话者候选者的语音话语的后验被用于训练注意力NN。因此，注意力NN参数相对于帧的梯度表示帧对目标说话者后验的贡献，即该帧对说话者识别的重要性。在加权池化的情况下，预期得出的说话者特征能更好地识别说话者。因此，预期说话者识别将更准确并在确定的说话者特征中提供更高的置信度。

图2是由根据至少一个实施例的说话者识别系统进行的操作的流程图。在至少一个实施例中，由说话者识别系统100(图1)进行图2的操作。在操作A01中，训练了NN。在操作A02中，基于来自操作A01的NN的训练而提取说话者特征。

在至少一个实施例中，针对单次迭代进行了NN训练。在至少一个实施例中，对多次迭代进行NN训练。在至少一个实施例中，在说话者特征提取之前并且此外在说话者特征提取之后使用更新的数据进行NN训练。

图3是用于训练根据至少一个实施例的说话者识别系统的操作的流程图。在至少一个实施例中，图3的操作由说话者识别系统100的训练部120进行。在至少一个实施例中，图3的操作是图2的NN训练A01的细节。以下描述使用训练部120作为图3的操作的非限制性示例。

在操作B01中，声学特征提取器102_a读取存储在训练数据存储装置101中的语音数据。在至少一个实施例中，语音数据是标准语音数据，例如NIST 2006说话者识别评估(SRE)或2008SRE。在至少一个实施例中，语音数据是用户基于说话者特征候选者预先提供的语音数据。在至少一个实施例中，当添加了额外说话者特征候选者时，周期性地更新语音数据。在至少一个实施例中，声学特征提取器102_a经由无线通信接收语音数据。在至少一个实施例中，声学特征提取器102_a经由有线连接接收语音数据。在至少一个实施例中，声学特征提取器102_a从远离训练部120的服务器接收语音数据。

在操作B02中，声学特征提取器102_a从语音数据中提取声学特征。

在操作B03中，说话者辨别NN训练器104读取存储在说话者ID存储装置103中的说话者ID。在至少一个实施例中，当包括新的说话者候选者时，周期性地更新说话者ID。在至少一个实施例中，说话者ID与语音数据存储在同一设备中。在至少一个实施例中，将说话者ID存储在与存储语音数据的设备分开的设备中。在至少一个实施例中，说话者辨别NN训练器104经由无线通信接收说话者ID。在至少一个实施例中，说话者辨别NN训练器104经由有线连接接收说话者ID。在至少一个实施例中，说话者辨别NN训练器104从远离训练部120的服务器接收说话者ID。

在操作B04中，说话者辨别NN训练器104训练说话者辨别NN。说话者特征判别NN训练器104通过基于读取的说话者ID以及从语音数据提取的声学特征而确定具有说话者辨别NN的节点的参数来训练说话者辨别NN。在至少一个实施例中，说话者辨别NN是TDNN、CNN、LSTM、GRU或另一合适的NN。在至少一个实施例中，基于对说话者ID存储装置103的更新和/或对训练数据存储装置101的更新来重复操作B04。

在操作B05中，将由说话者辨别NN训练器104生成的说话者辨别NN参数存储在说话者辨别NN参数存储装置105中。在至少一个实施例中，将说话者辨别NN参数与说话者ID和语音数据存储在同一设备中。在至少一个实施例中，将说话者辨别NN参数存储在与存储说话者ID或语音数据中的至少一个的设备分开的设备中。

在操作B06中，说话者后验提取器106提取语音数据的说话者后验。说话者后验提取器106使用基于存储在说话者辨别NN参数存储装置105中的参数的说话者辨别NN，基于从声学特征提取器102_a提取的语音数据的声学特征来提取说话者后验。在至少一个实施例中，由说话者后验提取器106提取的说话者后验是在从0到1的范围内的标量值。

在操作B07中，将来自说话者后验提取器106的说话者后验存储在说话者后验存储装置107中。在至少一个实施例中，将说话者后验与说话者辨别NN参数、说话者ID和语音数据存储在同一设备中。在至少一个实施例中，将说话者后验存储在与存储说话者辨别NN参数、说话者ID或语音数据中的至少一个的设备分开的设备中。

在操作B08中，注意力NN训练器108训练注意力NN。注意力NN训练器使用由声学特征提取器102_a提取的声学特征和来自说话者后验存储装置107的存储的说话者后验来训练注意力NN。在至少一个实施例中，注意力NN是TDNN、CNN、LSTM、GRU或另一合适的NN。在至少一个实施例中，注意力NN是与说话者辨别NN相同类型的NN。在至少一个实施例中，注意力NN是与说话者辨别NN不同类型的NN。

在步骤B09中，将注意力NN参数存储在注意力NN存储装置109中。在至少一个实施例中，将注意力NN参数与说话者后验、说话者辨别NN参数、说话者ID和语音数据存储在同一设备中。在至少一个实施例中，将注意力NN参数存储在与存储说话者后验、说话者辨别NN参数、说话者ID或语音数据中的至少一个的设备分开的设备中。

在至少一个实施例中，改变了图3中的操作顺序。例如，在至少一个实施例中，操作B03在操作B01之前发生。在至少一个实施例中，与另一个操作同时进行图3中的至少一个操作。例如，在至少一个实施例中，与操作B03同时进行操作B02。在至少一个实施例中，在图3中的操作之前进行至少一个操作。例如，在至少一个实施例中，在图3中的操作之前将语音数据存储在训练数据存储装置101中。在至少一个实施例中，在图3中的操作之后进行至少一个操作。例如，在至少一个实施例中，确定是否在操作B09之后更新语音数据或说话者ID信息。

图4是用于提取根据至少一个实施例的说话者特征的操作的流程图。在至少一个实施例中，由说话者识别系统100的说话者特征提取部130进行图4的操作。在至少一个实施例中，图4的操作是图2的说话者特征提取A02的细节。以下描述使用说话者特征提取部130作为图4的操作的非限制性示例。

在操作C01中，声学特征提取器102_b从输入数据中读取输入语音数据。在至少一个实施例中，接收输入数据作为实况话语。在至少一个实施例中，将输入数据存储在非暂时性可记录介质中以用于分析。在至少一个实施例中，输入数据包括一个以上话语。

在操作C02中，声学特征提取器102_b从输入语音数据中提取声学特征。在至少一个实施例中，使用同一设备来进行操作C02和操作B02(图3)。在至少一个实施例中，用于进行操作C02的设备不同于用于进行操作B02的设备。

在操作C03中，显著性计算器110从注意力NN参数存储装置109中读取注意力NN参数。在至少一个实施例中，显著性计算器110经由无线通信接收注意力NN参数。在至少一个实施例中，显著性计算器110经由有线连接接收注意力NN参数。在至少一个实施例中，显著性计算器110从远离说话者特征提取部130的服务器接收注意力NN参数。

在操作C04中，显著性计算器110计算输入语音数据的每个帧的显著性。如上所述，根据至少一个实施例，显著性计算器110向输入语音数据的每个帧指派权重。通过为输入语音数据的不同帧计算不同的权重，图4中的操作与说话者识别的其他方法相比，能够在提取说话者特征方面达成更高的准确度和更高的置信度。

在操作C05中，说话者特征提取器112读取存储在说话者特征提取器存储装置111中的说话者特征提取器数据。在至少一个实施例中，说话者特征提取器112经由无线通信接收说话者特征提取器数据。在至少一个实施例中，将说话者特征提取器数据与注意力NN参数、说话者后验、说话者辨别NN参数、说话者ID和语音数据存储在同一设备中。在至少一个实施例中，将说话者特征提取器数据存储在与存储注意力NN参数、说话者后验、说话者辨别NN参数、说话者ID或语音数据中的至少一个的设备分开的设备中。在至少一个实施例中，说话者特征提取器112经由有线连接接收说话者特征提取器数据。在至少一个实施例中，说话者特征提取器112从远离说话者特征提取部130的服务器接收说话者特征提取器数据。

在操作C06中，说话者特征提取器112使用来自显著性计算器110的权重和来自说话者特征提取器存储装置111的说话者特征提取器数据来提取说话者特征。如上所述，说话者特征提取器112根据至少一个实施例提取说话者特征。在至少一个实施例中，说话者特征是输入数据的说话者的身份。在至少一个实施例中，说话者特征是基于已知说话者ID与输入数据的说话者的已确定身份的比较的对说话者的认证。

在至少一个实施例中，改变了图4中的操作顺序。例如，在至少一个实施例中，操作C05在操作C04之前发生。在至少一个实施例中，与另一操作同时进行图4中的至少一个操作。例如，在至少一个实施例中，与操作C05同时进行操作C03。在至少一个实施例中，在图4中的操作之前进行至少一个操作。例如，在至少一个实施例中，在图4中的操作之前将输入数据存储在非暂时性计算机可读介质中。在至少一个实施例中，在图4中的操作之后进行至少一个操作。例如，在至少一个实施例中，基于通过图4中的操作确定的说话者特征来控制外部设备。

在至少一个实施例中，说话者识别系统100和/或图2至图4中的操作可用于控制外部设备(未示出)。例如，在说话者识别系统100用于认证说话者的情况下，向经认证的用户提供对计算机系统或物理位置的访问；而拒绝未经认证的用户访问计算机系统或物理位置。在至少一个实施例中，说话者识别系统100被配置成经由有线或无线通信远程控制外部设备。在至少一个实施例中，说话者识别系统100响应于未经认证用户的尝试访问而控制外部设备以发出警报。通过基于帧内的有用信息而以不同方式对帧进行加权，降低了未经授权访问计算机系统或物理位置的风险。另外，通过使用说话者识别系统100的加权方案减少或避免错误地阻止对经授权用户的访问。

在至少一个实施例中，说话者识别系统100和/或图2至图4中的操作可用于针对用户识别相关说话者。例如，在用户欣赏语音的情况下，用户能够利用说话者识别系统100来标识说话者，从而使用户能够更多地了解说话者。在至少一个实施例中，说话者识别系统100可用于识别说话者以用于调查说话者的目的。通过基于帧内的有用信息来以不同方式对帧进行加权，提高了搜索功能的准确度。另外，通过使用说话者识别系统100的加权方案提高了调查的精度。

图5是根据至少一个实施例的说话者识别系统200的配置的框图。说话者识别系统200包括被配置成接收和处理原始特征的训练部220。说话者识别系统200还包括说话者特征提取部230，该说话者特征提取部230被配置成基于来自训练部220的信息来接收输入数据并输出说话者特征。说话者识别系统200与说话者识别系统100(图1)相似，并且相似的元件具有相同的参考编号。为简洁起见，此处省略了来自说话者识别系统100的相同元件的细节。

训练部220与说话者识别系统100(图1)的训练部120相似。与训练部120相比，训练部220包括分类器215，该分类器215被配置成从说话者后验存储装置107接收说话者后验。分类器215将说话者后验分类成类别。在至少一个实施例中，分类器215将说话者后验分类为两个类别，例如涉及具有有用数据的帧的类别0和涉及缺乏有用数据的帧的类别1。在至少一个实施例中，分类器215基于帧中的有用数据的量而将说话者后验归类为两个以上的类别。分类器215基于与至少一个预定阈值的比较来对说话者后验进行归类。预定阈值的数目基于分类器215将说话者后验归类成的类别的数目。

注意力NN训练器108利用来自分类器215的类别来训练注意力NN。在至少一个实施例中，说话者识别系统200中的注意力NN只有两个输出节点，对应于类别0和类别1。通过将存储在说话者后验存储装置207中的说话者后验与预定阈值进行比较，训练部220能够通过强调具有大量有用信息的帧来更精确地训练注意力NN。因此，提供给说话者特征提取部230的信息与其他方法相比更准确。

图6是由根据至少一个实施例的说话者识别系统进行的操作的流程图。在至少一个实施例中，由说话者识别系统200(图5)进行图6的操作。在操作D01中，训练了NN。在操作D02中，基于来自操作D01的NN的训练来提取说话者特征。

图7是根据至少一个实施例的用于训练说话者识别系统的操作的流程图。图7的操作与图3的操作相似。与图3中的操作相比，图7包括用于将数据分类成类别E07和存储类别E08的标签的操作。操作E01至E06与图3的操作B01至B06相似，因此为简洁起见，省略了对这些操作的描述。以下描述使用训练部220作为图7的操作的非限制性示例。

在操作E07中，分类器215将后验分类成类别。在至少一个实施例中，分类器215将后验分类成为两个类别，例如等于或高于阈值的后验的类别0，以及低于阈值的后验的类别1。在至少一个实施例中，分类器215将后验分类成两个以上的类别。将归类用于区分具有大量有用信息的帧和具有很少或没有有用信息的帧。

在步骤E08中，分类器215存储类别标签。在一些实施例中，分类器215将类别标签作为信息的一部分存储在说话者后验存储装置107中。在至少一个实施例中，将类别标签与说话者后验、说话者辨别NN参数、说话者ID和语音数据存储在同一设备中。在至少一个实施例中，将类别标签存储在与存储说话者后验、说话者辨别NN参数、说话者ID或语音数据中的至少一个的设备分开的设备中。

在步骤E09中，注意力NN训练器108训练注意力NN。注意力NN训练器108使用来自分类器215的类别标签以及使用由声学特征提取器102_a提取的声学特征和来自说话者后验存储装置107的存储的说话者后验来训练注意力NN。在至少一个实施例中，注意力NN是TDNN、CNN、LSTM、GRU或另一合适的NN。在至少一个实施例中，注意力NN是与说话者辨别NN相同类型的NN。在至少一个实施例中，注意力NN是与说话者辨别NN不同类型的NN。通过使用类别标签来训练注意力NN，更重要的是具有更多有用信息的帧。因此，经训练的注意力NN可由显著性计算器(例如，显著性计算器110)更有效地使用以增加说话者识别系统中的准确度和置信度。

在步骤E10中，注意力NN训练器209将注意力NN参数存储在存储装置210中。在至少一个实施例中，将注意力NN参数与类别标签、说话者后验、说话者辨别NN参数、说话者ID和语音数据存储在同一设备中。在至少一个实施例中，将注意力NN参数存储在与存储类别标签、说话者后验、说话者辨别NN参数、说话者ID或语音数据中的至少一个的设备分开的设备中。

在至少一个实施例中，改变了图7中的操作顺序。例如，在至少一个实施例中，操作E03在操作E01之前发生。在至少一个实施例中，与另一个操作同时进行图7中的至少一个操作。例如，在至少一个实施例中，与操作E03同时进行操作E02。在至少一个实施例中，在图7中的操作之前进行至少一个操作。例如，在至少一个实施例中，在图7中的操作之前将语音数据存储在训练数据存储装置101中。在至少一个实施例中，在图7中的操作之后进行至少一个操作。例如，在至少一个实施例中，确定是否在操作E10之后更新语音数据或说话者ID信息。

图8是用于提取根据至少一个实施例的说话者特征的操作的流程图。图8的操作与图4的操作相似。操作F01至F06与图4的操作C01至C06相似，因此为了简洁起见，省略了对这些操作的描述。

在至少一个实施例中，改变了图8中的操作顺序。例如，在至少一个实施例中，操作F05在操作F04之前发生。在至少一个实施例中，与另一操作同时进行图8中的至少一个操作。例如，在至少一个实施例中，与操作F05同时进行操作F03。在至少一个实施例中，在图8中的操作之前进行至少一个操作。例如，在至少一个实施例中，在图8中的操作之前将输入数据存储在非暂时性计算机可读介质中。在至少一个实施例中，在图8中的操作之后进行至少一个操作。例如，在至少一个实施例中，基于通过图8中的操作确定的说话者特征来控制外部设备。

在至少一个实施例中，说话者识别系统200和/或图6至图8中的操作可用于控制外部设备(未示出)。例如，在说话者识别系统200用于认证说话者的情况下，向经认证的用户提供对计算机系统或物理位置的访问；而拒绝未经认证的用户访问计算机系统或物理位置。在至少一个实施例中，说话者识别系统200被配置成经由有线或无线通信远程控制外部设备。在至少一个实施例中，说话者识别系统200响应于未经认证用户的尝试访问而控制外部设备发出警报。通过基于帧内的有用信息来以不同方式对帧进行加权，降低了未经授权访问计算机系统或物理位置的风险。另外，通过使用说话者识别系统200的加权方案减少或避免错误地阻止对经授权用户的访问。

在至少一个实施例中，说话者识别系统200和/或图6至图8中的操作可用于针对用户识别相关说话者。例如，在用户欣赏语音的情况下，用户能够利用说话者识别系统200来标识说话者，以使用户能够更多地了解说话者。在至少一个实施例中，说话者识别系统200可用于识别说话者以用于调查说话者的目的。通过基于帧内的有用信息来以不同方式对帧进行加权，提高了搜索功能的准确度。另外，通过使用说话者识别系统200的加权方案提高了调查的精度。

图9是用于实施根据至少一个实施例的说话者识别系统的计算设备的框图。系统900包括硬件处理器902和非暂时性计算机可读存储介质904，该非暂时性计算机可读存储介质904编码有(即，存储)参数906，即用于实施说话者识别系统的任务的可执行指令的集合。计算机可读存储介质904还编码有有关与被利用来实施说话者识别系统的外部设备或其他系统介接的指令907。处理器902经由总线908电气地耦合至计算机可读存储介质904。处理器902还通过总线908电气地耦合至I/O接口910。网络接口912也经由总线908电气地连接至处理器902。网络接口912连接至网络914，以使得处理器902和计算机可读存储介质904能够经由网络914连接至外部元件。处理器902被配置成执行指令，并使用计算机可读存储介质904中的参数906，以便致使系统900可用于进行说话者识别系统的一部分或全部操作。

在至少一个实施例中，处理器902是中央处理单元(CPU)、多处理器、分布式处理系统、专用集成电路(ASIC)和/或合适的处理单元。

在至少一个实施例中，计算机可读存储介质904是电子、磁、光、电磁、红外和/或半导体系统(或装置或设备)。例如，计算机可读存储介质904包括半导体或固态存储器、磁带、可移除计算机软盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和/或光盘。在使用光盘的至少一个实施例中，计算机可读存储介质904包括光盘只读存储器(CD-ROM)、光盘读/写(CD-R/W)和/或数字视频光盘(DVD)。

在至少一个实施例中，存储介质904存储参数906，该参数906被配置成致使系统900进行说话者识别系统的操作。在至少一个实施例中，存储介质904还存储作为说话者识别系统进行所需的信息以及在操作期间生成的信息，诸如训练数据916、说话者ID 918、说话者辨别NN参数920、说话者后验922、注意力NN参数924、输入数据926、说话者特征信息928、类别信息930和/或可执行指令的集合，以进行说话者识别系统的操作。

在至少一个实施例中，存储介质904存储有关与用于实施说话者识别系统的外部设备或其他系统介接的指令907。指令907使处理器902能够生成外部设备或其他系统可读的指令，以有效地实施说话者识别系统的操作。

系统900包括I/O接口910。I/O接口910耦合至外部电路。在至少一个实施例中，I/O接口910包括用于向处理器902传达信息和命令的键盘、小键盘、鼠标、轨迹球、轨迹板和/或光标方向键。

系统900还包括耦合至处理器902的网络接口912。网络接口912允许系统900与网络914通信，一个或多个其他计算机系统连接至该网络914。网络接口912包括诸如蓝牙、WIFI、WIMAX、GPRS、WCDMA等无线网络接口；或诸如ETHERNET、USB或IEEE-1394等有线网络接口。在至少一个实施例中，在两个或更多个系统900中实施说话者识别系统，并且经由网络914在不同的系统900之间交换诸如存储器类型、存储器阵列布局、I/O电压、I/O引脚位置和电荷泵等信息。

本描述的一个方面涉及说话者识别系统。说话者识别系统包括非暂时性计算机可读介质，该非暂时性计算机可读介质被配置成存储指令。说话者识别系统还包括处理器，所述处理器连接至非暂时性计算机可读介质的。所述处理器被配置成执行有关从输入语音数据中的多个帧中的每个帧提取声学特征的指令。处理器被配置成执行有关基于提取的声学特征而使用第一神经网络(NN)来计算多个帧中的每个帧的显著性值的指令，其中，第一NN是使用说话者后验的经训练的NN。处理器被配置成执行有关使用多个帧中的每个帧的显著性值来提取说话者特征的指令。

本描述的一个方面涉及说话者识别方法。说话者识别方法包括接收输入语音数据。说话者识别方法包括从输入语音数据中的多个帧中的每个帧中提取声学特征。说话者识别方法包括基于提取的声学特征而使用第一神经网络(NN)来计算多个帧中的每个帧的显著性值，其中，第一NN是使用说话者后验的经训练的NN。说话者识别方法包括使用多个帧中的每个帧的显著性值来提取说话者特征。

前述内容概述了几个实施例的特征，以使得本领域技术人员可以更好地理解本公开的各方面。本领域技术人员应当了解，他们可以容易地使用本公开作为设计或修改其他过程和结构的基础，以实施与本文介绍的实施例相同的目的和/或达成相同的优点。本领域技术人员还应该意识到，此类等效构造并不脱离本公开的精神和范围，并且在不脱离本公开的精神和范围的情况下，可以对本文做出各种改变、替换和变更。

还可以通过以下附记来全部或部分地描述上述示例性实施例，而不限于以下附记。

(附记1)

一种说话者识别系统，包括：

非暂时性计算机可读介质，该非暂时性计算机可读介质被配置成存储指令；以及

处理器，该处理器连接至非暂时性计算机可读介质，其中，处理器被配置成执行用于以下操作的指令：

从输入语音数据中的多个帧中的每个帧提取声学特征；

基于所提取的声学特征，使用第一神经网络(NN)来计算多个帧中的每个帧的显著性值，其中，第一NN是使用说话者后验的经训练的NN；以及

使用多个帧中的每个帧的显著性值来提取说话者特征。

(附记2)