语音分离方法、系统、装置和存储介质

文档序号：170874 发布日期：2021-10-29 浏览：45次 >En<

阅读说明：本技术 语音分离方法、系统、装置和存储介质 (Voice separation method, system, device and storage medium ) 是由刘博卿王健宗张之勇于 2021-07-24 设计创作，主要内容包括：本发明公开了一种语音分离方法、系统、装置和存储介质,语音分离方法包括对语音信号进行分割,得到多个语音片段,将语音片段映射到时域特征空间,得到时域向量；对时域向量迭代进行多轮识别处理,直至执行识别处理所得的置信度小于阈值后停止执行识别处理,获取目标说话人的语音特征向量,根据时域向量、目标说话人的语音特征向量以及各轮识别处理中所识别到的说话人的语音特征向量,确定目标说话人对应的语音活跃值等步骤。本发明语音分离方法所获得的语音活跃值可以表示目标说话人在语音信号中的某个时刻是否说了话,从而容易清晰地区分说话人的说话顺序,改善了顺序模糊的问题。本发明可广泛应用于语音处理技术领域。(The invention discloses a voice separation method, a system, a device and a storage medium, wherein the voice separation method comprises the steps of segmenting a voice signal to obtain a plurality of voice segments, and mapping the voice segments to a time domain feature space to obtain a time domain vector; and performing multiple rounds of identification processing on the time domain vector iteration until the confidence coefficient obtained by executing the identification processing is smaller than a threshold value, stopping executing the identification processing, acquiring the voice characteristic vector of the target speaker, and determining the voice activity value corresponding to the target speaker according to the time domain vector, the voice characteristic vector of the target speaker and the voice characteristic vector of the speaker identified in each round of identification processing. The voice activity value obtained by the voice separation method can represent whether the target speaker speaks at a certain moment in the voice signal, so that the speaking sequence of the speaker can be distinguished easily and clearly, and the problem of sequence ambiguity is solved. The invention can be widely applied to the technical field of voice processing.)

语音分离方法、系统、装置和存储介质

技术领域

本发明涉及语音处理技术领域，尤其是一种语音分离方法、系统、计算机装置和存储介质。

背景技术

语音分离技术可以从一段语音信号识别出目标说话人的发言，也就是可以解决“语音信号中谁讲了话”的问题。目前一些相关的语音分离技术使用神经网络执行语音分离任务，要求预先使用目标说话人的说话语音来训练神经网络，才能使神经网络具有识别目标说话人是否说话的能力。然而，相关语音分离技术识别出的目标说话人发言存在顺序模糊的问题，例如识别出一段语音信号中甲和乙说了话，但是难以区分甲和乙的说话顺序。

发明内容

针对上述技术问题，本发明的目的在于提供一种语音分离方法、系统、计算机装置和存储介质，以提升语音信号识别的精度。

一方面，本发明实施例提供一种语音分离方法，包括：

获取语音片段；

将所述语音片段映射到时域特征空间，得到时域向量；

对所述时域向量进行多轮识别处理，直至满足迭代停止条件；在第一轮的所述识别处理中，识别所述时域向量中包含的说话人的语音特征向量以及相应的置信度；在除了第一轮之外的每一轮的所述识别处理中，识别出上一轮的所述识别处理的处理结果中包含的新说话人的语音特征向量以及相应的置信度，所述新说话人为在之前各轮的所述识别处理中识别出相应语音特征向量的说话人；所述迭代停止条件为执行所述识别处理所得的置信度小于阈值；

获取目标说话人的语音特征向量；

根据所述时域向量、所述目标说话人的语音特征向量以及各轮所述识别处理中所识别到的说话人的语音特征向量，确定所述目标说话人对应的语音活跃值。

进一步地，所述获取语音片段，包括：

获取语音信号；

对所述语音信号进行分割，得到多个所述语音片段。

进一步地，所述将所述语音片段映射到时域特征空间，得到时域向量，包括：

将各所述语音片段输入至时域编码器；

通过所述时域编码器对每个所述语音片段进行降采样并映射到所述时域特征空间，得到相应的一个时域子向量；

将各所述时域子向量按照所对应的所述语音片段在所述语音信号中的时间顺序进行拼接，得到所述时域向量。

进一步地，所述识别出上一轮的所述识别处理的处理结果中包含的新说话人的语音特征向量以及相应的置信度，包括：

获取第一平均值；所述第一平均值为上一轮所述识别处理所识别出的说话人的语音特征向量的平均值；

将所述第一平均值与所述时域向量输入至分类器；

由所述分类器根据所述平均值和所述时域向量进行分类处理，确定事件种类以及相应的置信度；所述事件种类包括以下之一：所述语音片段中仅存在所述新说话人的语音；所述语音片段中仅存在所述新说话人以外的说话人的语音；所述语音片段中既存在所述新说话人的语音，也存在所述新说话人以外的说话人的语音；所述语音片段中不存在任何说话人的语音；

当所确定的事件种类为所述语音片段中仅存在所述新说话人的语音，返回相应的置信度，从所述语音片段中解析出所述新说话人的语音特征向量。

进一步地，所述根据所述时域向量、所述目标说话人的语音特征向量以及各轮所述识别处理中所识别到的说话人的语音特征向量，确定所述目标说话人对应的语音活跃值，包括：

获取第二平均值；所述第二平均值为各轮所述识别处理中所识别到的全部说话人的语音特征向量的平均值；

将所述第二平均值与所述目标说话人的语音特征向量拼接，得到拼接向量；

将所述拼接向量输入至第一全连接网络，由所述第一全连接网络映射得到第一映射值；

将所述时域向量输入至第二全连接网络，由所述第二全连接网络映射得到第二映射值；

将所述第一映射值与所述第一映射值相乘得到所述语音活跃值。

进一步地，所述语音分离方法还包括联合训练时域编码器、分类器、第一全连接网络和第二全连接网络的步骤。

进一步地，所述联合训练时域编码器、分类器、第一全连接网络和第二全连接网络的步骤中，所述分类器对应的损失函数为其中，L_selector(h,μ)为所述分类器对应的损失函数，h为所述时域向量，μ为上一轮所述识别处理所识别出的说话人的语音特征向量的第一平均值，T表示所述语音片段的个数，N表示进行训练时当前所在轮数，t表示时刻，h_t表示时刻t对应的所述时域向量，e_t表示与所述时域向量h_t对应的事件种类，i为轮数编号，μ_i表示第i轮对应的所述第一平均值；

所述第一全连接网络和所述第二全连接网络对应的损失函数为其中，为所述第一全连接网络和所述第二全连接网络对应的损失函数，表示所述语音活跃值，y_i,t表示进行训练时所用的训练样本中的标签值，B_r表示设定的容错时间。

另一方面，本发明实施例还提供一种语音分离系统，包括：

第一模块，用于获取语音片段；

第二模块，用于将所述语音片段映射到时域特征空间，得到时域向量；

第三模块，用于对所述时域向量进行多轮识别处理，直至满足迭代停止条件；在第一轮的所述识别处理中，识别所述时域向量中包含的说话人的语音特征向量以及相应的置信度；在除了第一轮之外的每一轮的所述识别处理中，识别出上一轮的所述识别处理的处理结果中包含的新说话人的语音特征向量以及相应的置信度，所述新说话人为在之前各轮的所述识别处理中识别出相应语音特征向量的说话人；所述迭代停止条件为执行所述识别处理所得的置信度小于阈值；

第四模块，用于获取目标说话人的语音特征向量；

第五模块，用于根据所述时域向量、所述目标说话人的语音特征向量以及各轮所述识别处理中所识别到的说话人的语音特征向量，确定所述目标说话人对应的语音活跃值。

另一方面，本发明实施例还提供一种计算机装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行本发明的实施例中的语音分离方法。

另一方面，本发明实施例还提供一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行本发明的实施例中的语音分离方法。

本发明的有益效果包括：实施例中的语音分离方法，能确定语音片段中目标说话人对应的语音活跃值，通过该语音活跃值可以清晰地表示目标说话人在语音信号中的某个时刻是否说了话，从而容易清晰地区分说话人的说话顺序，改善了顺序模糊的问题，提升了语音识别的精度。

附图说明

图1为本发明的实施例中语音分离方法的流程图；

图2为本发明的实施例中语音分离方法的原理图；

图3为本发明的实施例中执行语音分离方法的计算机装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

参照图1，本申请实施例提供了一种语音分离方法，包括以下步骤：

S1.获取语音信号；

S2.对语音信号进行分割，得到多个语音片段；

S3.语音片段映射到时域特征空间，获得时域子向量；

S4.对时域子向量进行拼接，得到时域向量；

S5.对时域向量进行多轮识别处理，直至满足迭代停止条件；

S6.获取目标说话人的语音特征向量；

S7.获取第二平均值；其中，第二平均值是所有识别处理中所识别到的全部语音特征向量的平均值；

S8.根据时域向量、目标说话人的语音特征向量以及第二平均值，确定目标说话人对应的语音活跃值。

本实施例中，步骤S1-S8的原理如图2所示。

步骤S1中，可以通过现场录制或者从现有的音频或视频中截取的方式，获取一段较长的语音信号x，语音信号x的长度为L，步骤S2中，使用定长的窗口对语音信号x进行采样，每次采样能获得一个语音片段x_j，从而得到T个语音片段x₁、x₂……x_T。

步骤S3和S4中，将T个语音片段x₁、x₂……x_T分别输入至时域编码器进行处理。本实施例中，所使用的时域编码器可以由具有残差结构的空洞一维CNN(Convolutional NeuralNetworks，卷积神经网络)叠加组成，使用PReLU作为激活函数，并且对卷积神经网络使用了层标准化，另外在残差结构中间引入1D平均池化层，从而使得时域编码器可以对输入的语音片段进行降采样。

参照图2，步骤S3中，对于每个语音片段，由时域编码器进行降采样并映射到时域特征空间，得到相应的一个时域子向量。如果把时域编码器记为h，那么时域编码器对语音片段x_j进行降采样并映射所得的时域子向量可以表示为h(x_j)∈R^D，所得到的时域子向量的维度为D。步骤S4中，将各时域子向量h(x₁)、h(x₂)……h(x_T)按照所对应的语音片段x₁、x₂……x_T在语音信号x中的时间顺序进行拼接，得到时域向量h(x)∈R^T×D，所得到的时域向量的维度为T×D。

通过步骤S1-S4中对时间长度较长的语音信号进行定长窗口采样处理，所得到的语音片段便是对语音信号进行分割所得的结果。所得到的语音片段分别用时域编码器处理得到时域子向量，最后将时域子向量拼接成时域向量，只需要设置合适的窗口长度和采样频率，无论语音信号是长度是多少，对不同长度的语音信号可以采样得到相同长度的语音片段，相应地得到相同维度的时域向量，从而提高对不同长度的语音信号的适应能力，并且在对时域编码器的训练阶段，能够使用不同长度的语音信号对时域编码器进行训练，提高用于训练时域编码器的训练样本的多样性。

参照图2，步骤S5中，可使用softmax线性分类器作为分类器，对时域向量h(x)迭代进行多轮识别处理，直至满足停止条件后不再进行识别处理。本实施例中，所使用的softmax线性分类器可以包括两个全连接网络，即g_μ和g_h。softmax线性分类器被构造成为一个四分类的分类器，从而使输入到softmax线性分类器中的时域向量h(x)和相关数据被softmax线性分类器分类成为第一事件、第二事件、第三事件或第四事件。其中，第一事件表示：时域向量h(x)对应的语音片段中仅存在新说话人的语音；第二事件表示：语音片段中仅存在新说话人以外的说话人的语音；第三事件表示：语音片段中既存在新说话人的语音，也存在新说话人以外的说话人的语音；第四事件表示：语音片段中不存在任何说话人的语音。其中，新说话人是指未在之前各轮识别处理中，被识别出相应语音特征向量的说话人，也就是说，新说话人是指在本轮识别处理中首次被识别出相应语音特征向量的说话人。

softmax线性分类器将输入到softmax线性分类器中的时域向量h(x)和相关数据分类成第一事件、第二事件、第三事件或第四事件，输出第一置信度、第二置信度、第三置信度和第四置信度来表示输入到softmax线性分类器中的时域向量h(x)和相关数据所属事件的概率。本实施例中，softmax线性分类器输出的第一置信度表示输入到softmax线性分类器中的时域向量h(x)和相关数据属于第一事件的概率，第二置信度表示输入到softmax线性分类器中的时域向量h(x)和相关数据属于第二事件的概率，第三置信度表示输入到softmax线性分类器中的时域向量h(x)和相关数据属于第三事件的概率，第四置信度表示输入到softmax线性分类器中的时域向量h(x)和相关数据属于第四事件的概率。

在第1轮识别处理中，softmax线性分类器识别时域向量h(x)中包含的说话人的语音特征向量以及相应的置信度。具体地，时域向量h(x)被输入到全连接网络g_h中。本实施例中，将语音分离任务明确为检测各说话人在t时刻是否在语音信号中说话，因此可以将时域向量h(x)标记为h_t，那么全连接网络g_h对h_t进行处理，得到g_h(h_t)；全连接网络g_μ用于对上一轮识别处理所得结果进行处理，由于当前是第1轮识别处理，并不存在上一轮识别处理，因此可以设定全连接网络g_μ处理一个0向量的初始值。softmax线性分类器对输入的时域向量h_t进行处理，从而将h_t映射到一个事件种类e_t。本实施例中，事件种类e_t有四个不同取值，分别表示第一事件、第二事件、第三事件和第四事件。将h_t映射到e_t的意义是识别时域向量h_t对应的语音片段中所包含的说话人语音的情况。在第1轮识别处理中，softmax线性分类器的处理过程可以表示为：

P(e_th_t,μ_i)＝softmax(g_μ(0)g_h(h_t))。

在第1轮识别处理中，如果从语音片段中识别到存在说话人甲的语音，那么其中的说话人甲相对于第1轮识别处理来说属于新说话人，softmax线性分类器映射为第一事件并输出相应的置信度，其中置信度可以表示为一个新说话人出现的最大置信度，即在执行完第1轮识别处理后，可以获取说话人甲的语音特征向量并保存下来，然后判断本轮识别处理所获得的置信度是否大于阈值，该阈值可以设置一个比较小的值，使得置信度大于该阈值，“第1轮识别处理中softmax线性分类器所判断的说话人甲属于新说话人”可被认为是可靠的，那么可以继续执行下一轮识别处理即第2轮识别处理；而如果置信度小于该阈值，“第1轮识别处理中softmax线性分类器所判断的说话人甲属于新说话人”可被认为是不可靠的，也就是第1轮识别处理并未发现新说话人，那么可以终止执行识别处理，也就是不再执行下一轮识别处理，跳转到执行步骤S6。

在第2轮识别处理中，softmax线性分类器识别时域向量h(x)中包含的说话人的语音特征向量以及相应的置信度。具体地，时域向量h(x)被输入到全连接网络g_h中。本实施例中，全连接网络g_h对h_t进行处理，得到g_h(h_t)；全连接网络g_μ用于对第一平均值μ_i进行处理，其中第一平均值μ_i为上一轮识别处理所识别出的说话人的语音特征向量的平均值，对于第2轮识别处理来说，第一平均值μ_i为第1轮识别处理所识别出的说话人的语音特征向量的平均值。在第2轮识别处理中，softmax线性分类器的处理过程可以表示为：

P(e_t|h_t,μ_i)＝softmax(g_μ(μ_i)g_h(h_t))。

在第2轮识别处理中，如果从语音片段中识别到存在说话人甲的语音，那么由于其中的说话人甲在第1轮识别处理中已被识别到，因此说话人甲相对于第2轮识别处理来说不属于新说话人。如果从语音片段中识别到存在说话人乙的语音，那么由于其中的说话人乙在第1轮识别处理中未被识别到，因此说话人乙相对于第2轮识别处理来说属于新说话人。softmax线性分类器将“仅识别到说话人甲的语音”、“仅识别到说话人乙的语音”、“既识别到说话人甲的语音，又识别到说话人乙的语音”或“没有识别到任何说话人的语音”等情况，分别映射为第一事件、第二事件、第三事件或第四事件，并输出相应的置信度，其中置信度可以表示为一个新说话人出现的最大置信度，即在执行完第2轮识别处理后，如果所得结果是第一事件，可以获取说话人乙的语音特征向量并保存下来，然后判断本轮识别处理所获得的置信度是否大于阈值，该阈值可以设置一个比较小的值，使得置信度大于该阈值，“第2轮识别处理中softmax线性分类器所判断的说话人乙属于新说话人”可被认为是可靠的，那么可以继续执行下一轮识别处理即第3轮识别处理；而如果置信度小于该阈值，“第2轮识别处理中softmax线性分类器所判断的说话人乙属于新说话人”可被认为是不可靠的，也就是第2轮识别处理并未发现新说话人，那么可以终止执行识别处理，也就是不再执行下一轮识别处理，跳转到执行步骤S6。

在第2轮之后的每个第i轮识别处理，其步骤都与第2轮识别处理相似。softmax线性分类器识别时域向量h(x)中包含的说话人的语音特征向量以及相应的置信度。具体地，时域向量h(x)被输入到全连接网络g_h中，全连接网络g_h对h_t进行处理，得到g_h(h_t)；全连接网络g_μ用于对第一平均值μ_i进行处理，对于第i轮识别处理来说，第一平均值μ_i为第i-1轮识别处理所识别出的说话人的语音特征向量的平均值。在第i轮识别处理中，softmax线性分类器的处理过程可以表示为：

P(e_t|h_t,μ_i)＝softmax(g_μ(μ_i)g_h(h_t))。

在第i轮识别处理中，如果从语音片段中识别到存在说话人甲和乙的语音，那么由于其中的说话人甲在第1轮识别处理中已被识别到，说话人乙在第2轮识别处理中已被识别到，因此说话人甲和乙相对于第i轮识别处理来说不属于新说话人。如果从语音片段中识别到存在说话人丙的语音，而且说话人丙在前第i-1轮识别处理中都未被识别到，那么说话人丙相对于第i轮识别处理来说属于新说话人。softmax线性分类器将“仅识别到说话人甲的语音”、“仅识别到说话人乙的语音”、“既识别到说话人甲的语音，又识别到说话人乙的语音”或“没有识别到任何说话人的语音”等情况，分别映射为第一事件、第二事件、第三事件或第四事件，并输出相应的置信度，其中置信度可以表示为一个新说话人出现的最大置信度，即在执行完第i轮识别处理后，如果所得结果是第一事件，可以获取说话人丙的语音特征向量并保存下来，然后判断本轮识别处理所获得的置信度是否大于阈值，该阈值可以设置一个比较小的值，使得置信度大于该阈值，“第i轮识别处理中softmax线性分类器所判断的说话人丙属于新说话人”可被认为是可靠的，那么可以继续执行下一轮识别处理即第i+1轮识别处理；而如果置信度小于该阈值，“第i轮识别处理中softmax线性分类器所判断的说话人丙属于新说话人”可被认为是不可靠的，也就是第i轮识别处理并未发现新说话人，那么可以终止执行识别处理，也就是不再执行下一轮识别处理，跳转到执行步骤S6。

通过执行步骤S5中的多轮识别处理，可以识别出多个语音片段中包含的甲、乙、丙等不同说话人的语音特征向量，结合步骤S1-S4中对语音信号分段获得多个语音片段，根据各语音片段在语音信号中的时间位置，可以确定甲、乙、丙等不同说话人在语音信号中的发言时间。

步骤S6中，可以先确定目标说话人，即希望了解在语音信号中什么时候说了话的对象。例如，可以将甲确定为目标说话人，即希望了解甲在语音信号中什么时候说了话。步骤S4中，可以通过采集目标说话人甲的声音并进行分析，从而获取目标说话人甲的语音特征向量s_甲。同样，可以获取各轮识别处理中所识别到的说话人的语音特征向量，包括说话人乙的语音特征向量s_乙和说话人丙的语音特征向量s_丙等。

步骤S7和S8中，根据时域向量、目标说话人的语音特征向量以及各轮识别处理中所识别到的说话人的语音特征向量，确定语音片段中目标说话人对应的语音活跃值。具体地，可以先通过步骤S7，计算各轮识别处理中所识别到的全部说话人的语音特征向量的平均值，得到第二平均值，例如在本实施例中各轮识别处理中所识别到的说话人为甲、乙和丙，那么第二平均值为将第二平均值s与目标说话人甲的语音特征向量s_甲拼接，得到拼接向量接着，在步骤S8中，使用语音检测器进行处理。本实施例中的语音检测器包括第一全连接网络f_s和第二全连接网络f_h，第一全连接网络f_s和第二全连接网络f_h都使用PReLU作为激活函数，并采用层归一化，除了最后一层之外其余各层都是线性映射。第一全连接网络f_s和第二全连接网络f_h将拼接向量和当前的时域向量h(x)∈R^T ^×D分别进行映射，具体地，将拼接向量输入至第一全连接网络f_s，由第一全连接网络f_s映射得到第一映射值将时域向量h(x)输入至第二全连接网络f_h，由第二全连接网络f_h映射得到第二映射值f_h(h_t)^T；根据第一映射值和第一映射值f_h(h_t)^T，确定语音活跃值

本实施例中，执行步骤S8所得的语音活跃值其中表示目标说话人在语音信号中的t时刻说了话，表示目标说话人在语音信号中的t时刻没有说话。语音活跃值可以清晰地表示目标说话人在语音信号中的某个时刻是否说了话，通过切换不同的目标说话人，可以确定每个说话人在语音信号中的某个时刻是否说了话，从而区分说话人的说话顺序，改善了顺序模糊的问题。

本实施例中，在执行步骤S1-S8之前，还可以对步骤S1-S8所要使用的时域编码器、分类器、第一全连接网络和第二全连接网络进行联合训练，也就是将时域编码器、分类器、第一全连接网络和第二全连接网络按照步骤S1-S8所确定的顺序连接成一个系统，整个系统在训练过程中的损失函数设定位时域编码器、分类器、第一全连接网络和第二全连接网络所用的损失函数之和。

具体地，在联合训练中，分类器对应的损失函数为第一全连接网络和第二全连接网络对应的损失函数为其中，T表示语音片段的个数，N表示进行训练时当前所在轮数，h_t表示其中一个时域向量，e_t表示与时域向量h_t对应的事件种类，μ_i表示第一平均值，表示语音活跃值，y_i,t表示进行训练时所用的训练样本中的标签值，B_r表示设定的容错时间。设定t≠B_r的意义是，使用DER对系统进行评估时，需要对说话人边界的判断上加上一些容忍度，从而使系统不要对小的标志错误进行惩罚，一般是说话人转变处左右各250ms的容错时间。由于在使用DER评估时采用了这种策略，那么在训练时也最好考虑到这个容错时间，所以在训练中计算语音检测器，也就是第一全连接网络和第二全连接网络的损失函数时，去掉一定时间范围内的那些帧的损失，这个时间范围就是B_r。

整个系统的损失函数L_total为分类器对应的损失函数L_selector与第一全连接网络和第二全连接网络对应的损失函数之和，也就是

上述联合训练的好处是：一些相关技术中，为了使神经网络具有识别甲和乙是否说话的能力，需要预先使用甲和乙的说话语音来训练神经网络，但在大多数场合难以预先取得要识别的目标说话人的相关信息，这限制了相关语音分离技术的应用。而本实施例的联合训练，在对时域编码器、分类器、第一全连接网络和第二全连接网络按组成的系统的训练过程中，所使用的训练集和测试集无需相对目标说话人具有特异性，也就是要求预先使用目标说话人的说话语音来训练系统。例如，可以使用需要预先使用甲和乙等的说话语音来训练系统，系统也具有识别丙是否在语音信号中说话的能力，从而减少了语音分离技术在应用时受到的限制，应用范围更大。

本实施例中语音分离方法的一个应用场景是：由甲、乙、丙三人在时间段[t1,t2]内随意发言，在时间段[t1,t2]内进行录音，得到语音信号，那么这段语音信号被播放出来后，在[t1,t2]内的不同时刻可能有“只听到甲说话，其他人不说话”、“甲和乙同时说话，丙不说话”、“甲、乙和丙同时说话”、“没有人说话”等情况。通过执行步骤S1和S2，可以对语音信号采样获得语音片段；通过执行步骤S3-S5，可以从语音片段中识别出甲、乙、丙三人中说了话的人的语音特征向量(例如如果一个语音片段中只有甲说话，那么将输出甲的语音特征向量；如果一个语音片段中只有甲和丙说话，那么将输出甲的语音特征向量和丙的语音特征向量)；通过执行步骤S6，获得想要识别的目标说话人的语音特征向量(例如如果想要识别甲是否在语音片段中说话，则以甲为目标说话人，获取甲的语音特征向量)；通过执行步骤S7和S8，可以获得目标说话人的语音活跃值，即表示目标说话人在t时刻的语音片段中是否说了话，从而完成语音分离任务。

本领域技术人员可以理解的是，上述应用场景仅仅是本申请实施例语音分离方法应用场景的一个示例，本申请实施例的语音分离方法也可以采用上述示例类似的方式应用于有更多说话人参与的场景，在此不再赘述。

本实施例中，还提供一种语音分离系统，该语音分离系统包括：

第一模块，用于获取语音信号；

第二模块，用于对所述语音信号进行分割，得到多个语音片段；

第三模块，用于将所述语音片段映射到时域特征空间，获得时域子向量；

第四模块，用于对所述时域子向量进行拼接，得到时域向量；

第五模块，用于对所述时域向量进行多轮识别处理，直至满足迭代停止条件；在第1轮的识别处理中，识别所述时域向量中包含的说话人的语音特征向量；在第i轮的识别处理中，其中i∈N且i>1，识别所述时域向量中包含的说话人的语音特征向量，将所述时域向量与第i-1轮识别处理识别出的语音特征向量输入至分类器，获取所述分类器输出的第一置信度，所述第一置信度用于表征第i轮识别处理识别出的语音特征向量来自新说话人的概率；所述新说话人为在第i轮之前各轮识别处理中未识别出相应语音特征向量的说话人；所述迭代停止条件为执行所述识别处理所得的第一置信度小于阈值；

第六模块，用于获取目标说话人的语音特征向量；

第七模块，用于获取第二平均值；所述第二平均值为所有识别处理中所识别到的全部语音特征向量的平均值；

第八模块，用于根据所述时域向量、所述目标说话人的语音特征向量以及所述第二平均值，确定所述目标说话人对应的语音活跃值。

本实施例中，语音分离系统包括第一模块、第二模块、第三模块、第四模块、第五模块、第六模块、第七模块和第八模块，其中第一模块、第二模块、第三模块、第四模块、第五模块、第六模块、第七模块和第八模块均可以是具有相应功能的硬件模块、软件模块或者硬件和软件的组合。其中，第一模块可以用于执行本实施例中语音分离方法中的步骤S1，第二模块可以用于执行本实施例中语音分离方法中的步骤S2，第三模块可以用于执行本实施例中语音分离方法中的步骤S3，第四模块可以用于执行本实施例中语音分离方法中的步骤S4，第五模块可以用于执行本实施例中语音分离方法中的步骤S5，第六模块可以用于执行本实施例中语音分离方法中的步骤S6，第七模块可以用于执行本实施例中语音分离方法中的步骤S7，第八模块可以用于执行本实施例中语音分离方法中的步骤S8。因此，通过运行语音分离系统，可以执行语音分离方法，使得语音分离系统能够实现与语音分离方法相同的技术效果。

本发明的实施例中，可以使用具有图3所示结构的计算机装置来执行步骤S1-S8，其中，计算机装置包括存储器6001和处理器6002，其中存储器6001用于存储至少一个程序，处理器6002用于加载至少一个程序以执行本发明实施例中的语音分离方法。通过运行该计算机装置，可以实现与本发明实施例中的语音分离方法相同的技术效果。

本发明的实施例中，提供一种存储介质，其中存储有处理器可执行的程序，其中处理器可执行的程序在由处理器执行时用于执行本发明实施例中的语音分离方法。通过使用该存储介质，可以实现与本发明实施例中的语音分离方法相同的技术效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

17页详细技术资料下载

语音分离方法、系统、装置和存储介质

相关技术

网友询问留言