用于语音分离的方法和系统

文档序号：157363 发布日期：2021-10-26 浏览：13次 >En<

阅读说明：本技术 用于语音分离的方法和系统 (Method and system for voice separation ) 是由毕相如张青山于 2019-03-07 设计创作，主要内容包括：本公开涉及一种使用滑动窗口的语音分离方法和系统。该方法包括：由至少一个传声器从至少一个用户获取至少一个语音并且将至少一个语音作为语音信号存储在声音记录模块中；通过滑动窗口从声音记录模块提取语音信号并且处理所提取语音信号；以及将所处理语音信号传输到DUET模块进行语音分离。(The present disclosure relates to a voice separation method and system using a sliding window. The method comprises the following steps: acquiring, by at least one microphone, at least one voice from at least one user and storing the at least one voice as a voice signal in a sound recording module; extracting a voice signal from the sound recording module through a sliding window and processing the extracted voice signal; and transmitting the processed voice signals to the DUET module for voice separation.)

用于语音分离的方法和系统

技术领域

本发明涉及一种用于语音分离的系统以及一种在所述系统中执行的方法，并且具体地涉及一种用于通过滑动窗口改进语音分离性能的系统和方法。

背景技术

近年来，越来越多车辆具有语音识别功能。然而，当多于一个人在车辆中同时讲话时，车辆的主机将无法从多个语音快速识别来自驾驶员的声音，使得对应操作无法根据驾驶员的指令准确且及时地执行，并且容易造成错误操作。

当前，主要存在两种执行语音分离的方式。第一种是创建传声器阵列进行语音增强，并且第二种是使用算法进行语音分离。用于语音分离的各种算法可包括FDICA(频域独立分量分析)、DUET(退化分离估计技术)或它们的扩展算法。

DUET盲源分离方法可使用仅两种混合来分离任何数量的语音源。当源是W不相交正交时，即当混合中的信号的窗口傅里叶变换的支持是不相交的时，方法是有效的。对于衰减和延迟源的消声混合，方法允许通过对从混合时频表示的比率提取的相对衰减延迟对进行聚类来估计混合参数。然后使用混合参数的估计来划分一种混合的时频表示，以恢复原始来源。

图1示出包括两个传声器、声音记录模块和DUET模块的常规语音分离系统。例如，两个传声器首先同时打开，使得两个传声器开始记录。当两个人开始谈话时，声音记录模块负责接收和存储来自两个传声器的语音信号。在图1所示的示例中，第一声音(声音1)属于第一人(人1)并且第二声音(声音2)属于第二人(人2)。DUET模块从声音记录模块接收信号，然后对信号进行分析和分离以恢复原始声音来源。

实际上，例如，如果语音的分段的时间是4秒(诸如图2(a)所示)，则DUET模块将直接处理4秒语音分段。由于DUET算法的复杂性，处理语音数据将花费较长时间。通常，语音信号是稀疏的，并且在极短时间段内集中大量信息。大多时间，在所接收信号中不存在语音信号。然而，由于DUET算法的复杂性，DUET模块仍等待一定时间段(诸如整个语音分段，4s)并且花费较长时间来处理所接收信号。

因此，需要开发一种可迅速执行语音分离以便快速回复原始声音来源的改进的语音分离系统和方法。

发明内容

在一个或多个说明性实施方案中，提供了一种用于语音分离的方法。所述方法使用至少一个传声器从至少一个用户获取至少一个语音并且将所述至少一个语音作为语音信号存储在声音记录模块中。所述方法通过滑动窗口进一步从所述声音记录模块提取所述语音信号并且处理所提取语音信号，并且将所处理语音信号传输到DUET模块进行语音分离。

优选地，在一个实施方案中，所述方法通过以下方式来使用滑动窗口：遍历所提取语音信号来确定所述语音信号的最大振幅；确定所述滑动窗口的起始位置，所述滑动窗口的所述起始位置是从所述语音信号的开始所述语音信号的振幅第一次超过所述最大振幅的预定比例的位置；确定所述滑动窗口的结束位置，所述滑动窗口的所述结束位置是从所述语音信号的结束回到所述语音信号的开始所述语音信号的振幅第一次超过所述最大振幅的预定比例的位置；以及选择所述语音信号的位于所述滑动窗口的所述起始位置与所述滑动窗口的所述结束位置之间的分段作为所处理语音信号进行语音分离。

优选地，在另一实施方案中，所述方法通过以下方式来使用滑动窗口：遍历所提取语音信号以确定所述语音信号的平均振幅；确定所述滑动窗口的起始位置，所述滑动窗口的所述起始位置是从所述语音信号的开始所述语音信号的振幅第一次超过所述平均振幅的位置；确定所述滑动窗口的结束位置，所述滑动窗口的所述结束位置是从所述语音信号的结束回到所述语音信号的开始所述语音信号的振幅第一次超过所述平均振幅的位置；选择所述语音信号的位于所述滑动窗口的所述起始位置与所述滑动窗口的所述结束位置之间的分段作为所处理语音信号进行语音分离。

在一个或多个说明性实施方案中，提供了一种用于语音分离的系统。用于语音分离的系统包括：至少一个传声器，所述至少一个传声器用于从至少一个用户获取至少一个语音；声音记录模块，所述声音记录模块用于将所述至少一个语音存储为语音信号；滑动窗口，所述滑动窗口用于从所述声音记录模块提取所述语音信号并且处理所提取语音信号；以及DUET模块，所述DUET模块用于接收所处理语音信号以进行语音分离。

优选地，在一个实施方案中，所述滑动窗口被配置为：遍历所提取语音信号以确定所述语音信号的最大振幅；确定所述滑动窗口的起始位置，所述滑动窗口的所述起始位置是从所述语音信号的开始所述语音信号的振幅第一次超过所述最大振幅的预定比例的位置；确定所述滑动窗口的结束位置，所述滑动窗口的所述结束位置是从所述语音信号的结束回到所述语音信号的开始所述语音信号的振幅第一次超过所述最大振幅的预定比例的位置；选择所述语音信号的位于所述滑动窗口的所述起始位置与所述滑动窗口的所述结束位置之间的分段作为所处理语音信号进行语音分离。

优选地，在另一实施方案中，所述滑动窗口被配置为：遍历所提取语音信号以确定所述语音信号的平均振幅；确定所述滑动窗口的起始位置，所述滑动窗口的所述起始位置是从所述语音信号的开始所述语音信号的振幅第一次超过所述平均振幅的位置；确定所述滑动窗口的结束位置，所述滑动窗口的所述结束位置是从所述语音信号的结束回到所述语音信号的开始所述语音信号的振幅第一次超过所述平均振幅的位置；选择所述语音信号的位于所述滑动窗口的所述起始位置与所述滑动窗口的所述结束位置之间的分段作为所处理语音信号进行语音分离。

提供了一种具有计算机可执行指令的计算机可读介质，所述指令用于执行前述方法。

有利地，所公开语音分离系统和方法可通过使用滑动窗口来改进DUET的实时性能。

本领域技术人员将在查阅以下附图和详细描述后明白或变得明白所述系统、方法、特征和优点。意图所有此类另外的系统、方法、特征和优点包括在本说明书内，在本发明的范围内。

附图说明

参考以下附图和描述可更好地理解本申请的特征、本质和优点。附图中的部件不一定按比例绘制，而是重点放在说明本发明的原理上。此外，在附图中，相同的附图标记在所有不同视图中表示对应部分。

图1是常规语音分离系统的示意图。

图2示出根据本发明的一个实施方案的语音分离系统的示意图。

图3示意性地示出在根据本发明的一个实施方案的语音分离系统中使用的滑动窗口。

图4示意性地示出在根据本发明的另一个实施方案的语音分离系统中使用的滑动窗口。

图5示出根据本发明的一个实施方案的语音分离方法的流程图。

具体实施方式

应理解，以下实现方式示例的描述仅处于说明目的给出，并且不应视为限制意义。附图中以功能块、模块或单元对示例的划分不应理解为指示这些功能块、模块或单元必需实现为物理上分离的单元。示出或描述的功能块、模块或单元可实现为单独单元、电路、芯片、功能、模块或电路元件。一个或多个功能块或单元也可在共同电路、芯片、电路元件或单元中实现。

图2示出根据本发明的一个实施方案的语音分离系统的示意图。语音分离系统可在车辆中使用，并且可包括至少一个传声器、声音记录模块、滑动窗口模块以及DUET模块。为了易于解释，图2仅示出两个传声器(传声器1和传声器2)和两个人(人1和人2)，但本领域技术人员可理解系统可包括更多传声器。两个传声器可从至少一个用户获取至少一个语音。图2示出两个人作为示例。例如，两个人可以是驾驶员和乘员。

当系统工作时，例如如图2所示，两个传声器中的每一个从两个人获取语音。例如，第一传声器(传声器1)可收集来自第一人的第一语音(声音1)和来自第二人的第二语音(声音2)，然后将它们传输到声音记录模块以用于记录为混合来自两个声音来源的信息的语音信号。同样，第二传声器(传声器1)可收集来自第一人的第一语音(声音1)和来自第二人的第二语音(声音2)，然后将它们传输到声音记录模块以用于记录为包括来自两个声音来源的信息的语音信号。

滑动窗口模块可从声音记录模块提取语音信号并且由滑动窗口处理所提取语音信号。然后将所处理语音信号传输到DUET模块进行语音分离。最后，不同语音来源可得以分离。例如，所处理语音信号可最终分离成来自第一人的第一语音(声音1)和来自第二人的第二语音(声音2)。

滑动窗口将参考图3和图4来说明。图3示意性地示出在根据本发明的一个实施方案的语音分离系统中使用的滑动窗口。

例如，所提取语音信号可持续四秒，如图3所示。首先，遍历所提取语音信号，以确定语音信号的最大振幅。然后，将确定滑动窗口的起始位置和滑动窗口的结束位置。从语音信号的开始，找到点(诸如，如图3所示的点X1)。在点X1处，语音信号的振幅第一次超过最大振幅的预定比例。优选地，预定比例可大于或等于1/4并且小于或等于1/2。然后，将此点X1确定为滑动窗口的起始位置。接下来，从语音信号的结束到语音信号的开始，找到点(诸如，如图3所示的点X2)。在点X2处，从语音信号的结束，语音信号的振幅第一次超过最大振幅的预定比例。然后，将此点X2确定为滑动窗口的结束位置。滑动窗口的窗口长度可基于滑动窗口的起始位置和滑动窗口的结束位置来确定，即，窗口长度等于X2-X1(如图3中x所示)。接下来，选择语音信号的位于滑动窗口的起始位置与结束位置之间的片段(即，滑动窗口内的片段)作为所处理语音信号并且将其发送到DUET进行语音分离。

图4示意性地示出在根据本发明的另一个实施方案的语音分离系统中使用的滑动窗口。

例如，图4示出也可持续四秒的所提取语音信号。首先，通过遍历所提取语音信号来确定语音信号的平均振幅。然后，将确定滑动窗口的起始位置和滑动窗口的结束位置。从语音信号的开始，找到点(诸如，如图4所示的点X3)。在点X3处，语音信号的振幅第一次超过语音信号的平均振幅。然后，将此点X3确定为滑动窗口的起始位置。接下来，从语音信号的结束到语音信号的开始，找到点(诸如，如图4所示的点X4)。在点X4处，从语音信号的结束，语音信号的振幅第一次超过平均振幅。然后，将此点X4确定为滑动窗口的结束位置。滑动窗口的窗口长度可基于滑动窗口的起始位置和滑动窗口的结束位置来确定，即，窗口长度等于X4-X3(如图4中x所示)。接下来，选择语音信号的位于滑动窗口的起始位置与结束位置之间的片段(即，滑动窗口内的片段)作为所处理语音信号并且将其发送到DUET进行语音分离。

图5示出根据本发明的一个实施方案的语音分离方法的流程图。

如图5所示，在步骤501处，由至少一个传声器获取来自至少一个用户的至少一个语音，然后将其作为语音信号存储在声音记录模块中。在步骤502处，使用滑动窗口进一步处理从声音记录模块传输的语音信号，之后将其发送到DUET模块进行语音分离。在步骤503处，将所处理语音信号传输到DUET模块。

步骤502处使用滑动窗口进行处理可包括确定滑动窗口的窗口长度并且选择语音信号的位于滑动窗口的窗口长度内的片段作为所处理语音信号进行进一步语音分离。

根据本发明的一个实施方案，确定滑动窗口的窗口长度可包括遍历所提取语音信号以确定语音信号的最大振幅。然后，确定滑动窗口的起始位置和滑动窗口的结束位置以获得滑动窗口的窗口长度。滑动窗口的起始位置是从语音信号的开始语音信号的振幅第一次超过最大振幅的预定比例的位置。滑动窗口的结束位置是从语音信号的结束回到所述语音信号的开始语音信号的振幅第一次超过最大振幅的预定比例的位置。优选地，预定比例可大于或等于1/4并且小于或等于1/2。

根据本发明的另一实施方案，确定滑动窗口的窗口长度可包括遍历所提取语音信号以确定语音信号的平均振幅。然后，确定滑动窗口的起始位置和滑动窗口的结束位置以获得滑动窗口的窗口长度。例如，滑动窗口的起始位置是从语音信号的开始语音信号的振幅第一次超过平均振幅的位置。滑动窗口的结束位置是从语音信号的结束回到语音信号的开始语音信号的振幅第一次超过平均振幅的位置。

本发明的语音分离方法和系统引入滑动窗口来预处理数据，之后将由传声器收集的数据发送到DUET模块进行处理。通过提取信号的片段中语音信息的相对集中部分并去除片段信号的不必要部分，DUET算法需要处理的数据量得以减少，从而减少了DUET算法的运行时间，从而改进了总体语音分离系统的工作效率。

术语“模块”可被定义为包括多个可执行模块。模块可包括可由处理器执行的软件、硬件、固件或它们的某种组合。软件模块可包括存储在存储器或另一存储装置中的可能够由处理器或其他处理器执行的指令。硬件模块可包括可由处理器执行、引导和/或控制以用于执行的各种装置、部件、电路、门、电路板等。

程序产品的一个或多个程序限定实施方案的功能(包括本文描述的方法)，并且可包含在多种计算机可读存储介质上。说明性计算机可读存储介质包括但不限于：(i)信息永久地存储在其上的不可写存储介质(例如，计算机内的只读存储器装置，诸如可由CD-ROM驱动器读取的光盘只读存储器(CD-ROM)磁盘、闪存存储器、只读存储器(ROM)芯片或任何类型的固态非易失性半导体存储器)；以及(ii)可更改信息存储在其上的可写存储介质(例如，软盘驱动器或硬盘驱动器内的软盘或任何类型的固态随机存取半导体存储器)。

本发明已在上文参考具体实施方案加以描述。然而，本领域普通技术人员应理解，在不背离如随附权利要求中阐述的本发明的更广泛精神和范围的情况下，可对所述具体实施方案做出各种修改和变化。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于磁存储介质的恒定密度写入

用于语音分离的方法和系统

相关技术

网友询问留言