针对目标说话人的语音提取方法、装置、设备及介质

文档序号：662569 发布日期：2021-04-27 浏览：9次 >En<

阅读说明：本技术 针对目标说话人的语音提取方法、装置、设备及介质 (Voice extraction method, device, equipment and medium for target speaker ) 是由张舒婷赖众程杨念慈何利斌李会璟王小红刘彦国于 2020-12-23 设计创作，主要内容包括：本申请涉及人工智能技术领域,揭示了一种针对目标说话人的语音提取方法、装置、设备及介质,其中方法包括：采用预设分段方法根据第一方向的第一待处理的语音数据确定多个第一待提取语音数据段；根据多个第一待提取语音数据段对第二方向的第二待处理的语音数据进行分段提取得到多个第二待提取语音数据段；对多个第一待提取语音数据段和多个第二待提取语音数据段进行相同时间的数据提取得到多个待提取语音数据段对；分别将每个待提取语音数据段对输入单一说话人语音提取模型进行语音提取得到多个目标说话人语音数据段,然后按时间顺序进行拼接得到目标说话人的目标语音数据。从而降低了业务素质评估的成本,提高了业务素质评估的全面性。(The application relates to the technical field of artificial intelligence, and discloses a method, a device, equipment and a medium for extracting voice of a target speaker, wherein the method comprises the following steps: determining a plurality of first voice data segments to be extracted according to first voice data to be processed in a first direction by adopting a preset segmentation method; carrying out segmentation extraction on second to-be-processed voice data in a second direction according to the first to-be-extracted voice data sections to obtain a plurality of second to-be-extracted voice data sections; carrying out data extraction on the plurality of first voice data segments to be extracted and the plurality of second voice data segments to be extracted at the same time to obtain a plurality of voice data segment pairs to be extracted; and respectively carrying out voice extraction on each voice data segment to be extracted by inputting a single speaker voice extraction model to obtain a plurality of target speaker voice data segments, and then splicing the target speaker voice data segments according to the time sequence to obtain the target voice data of the target speaker. Therefore, the cost of business quality evaluation is reduced, and the comprehensiveness of the business quality evaluation is improved.)

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种针对目标说话人的语音提取方法、装置、设备及介质。

背景技术

目前服务人员的业务素质参差不齐，存在服务话术不规范及态度不友好的问题。为了提高服务人员的服务质量，通过人工抽检和暗访抽查的方式进行业务素质评估，消耗大量人力和财力的，导致成本较高；而且抽检和抽查只能体现部分时刻的服务情况，导致得到的业务素质评估具有片面性。

发明内容

本申请的主要目的为提供一种针对目标说话人的语音提取方法、装置、设备及介质，旨在解决现有技术的服务行业通过人工抽检和暗访抽查的方式进行业务素质评估，导致成本较高和得到的业务素质评估具有片面性的技术问题。

为了实现上述发明目的，本申请提出一种针对目标说话人的语音提取方法，所述方法包括：

获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据；

采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段；

根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段；

对所述多个第一待提取语音数据段和所述多个第二待提取语音数据段进行相同时间的数据提取，得到多个待提取语音数据段对；

分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段，所述单一说话人语音提取模型包括：第一编码变换模块、第二编码变换模块、说话人分离学习模块、解码变换模块，所述单一说话人语音提取模型是基于TasNet网络训练得到的模型；

按时间顺序对所述多个目标说话人语音数据段进行拼接，得到所述目标说话人的目标语音数据。

进一步的，所述获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据的步骤，包括：

获取所述目标说话人在同一时间段内的所述第一方向的语音信号和所述第二方向的语音信号；

采用第一预设时长对所述第一方向的语音信号进行分段处理，得到多个分段后的第一方向语音信号段；

分别将每个所述分段后的第一方向语音信号段输入数字滤波器，得到多个滤波后的第一方向语音信号段；

分别将每个所述滤波后的第一方向语音信号段进行离散傅立叶变换，得到多个变换后的第一方向语音信号段；

对所述多个变换后的第一方向语音信号段进行离散傅立叶反变换，得到降噪后的第一方向语音数据；

采用所述第一预设时长对所述第二方向的语音信号进行分段处理，得到多个分段后的第二方向语音信号段；

分别将每个所述分段后的第二方向语音信号段输入数字滤波器，得到多个滤波后的第二方向语音信号段；

分别将每个所述滤波后的第二方向语音信号段进行离散傅立叶变换，得到多个变换后的第二方向语音信号段；

对所述多个变换后的第二方向语音信号段进行离散傅立叶反变换，得到降噪后的第二方向语音数据；

对所述降噪后的第一方向语音数据进行预加重处理，得到所述第一待处理的语音数据；

对所述降噪后的第二方向语音数据进行预加重处理，得到所述第二待处理的语音数据。

进一步的，，所述采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段的步骤，包括：

采用第二预设时长对所述第一待处理的语音数据进行分帧处理，得到多个第一待处理语音数据帧；

分别对每个所述第一待处理语音数据帧进行语音能量计算，得到所述多个第一待处理语音数据帧各自对应的第一语音能量；

按预设数量从所述多个第一待处理语音数据帧各自对应的所述第一语音能量中从头进行所述第一语音能量提取，得到多个第一开头语音能量；

对所述多个第一开头语音能量进行均值计算，得到所述多个第一待处理语音数据帧对应的第一背景语音能量；

分别将每个所述第一待处理语音数据帧对应的所述第一语音能量与所述第一背景语音能量进行相减计算，得到所述多个第一待处理语音数据帧各自对应的第一语音能量差值；

分别将每个所述第一待处理语音数据帧对应的所述第一语音能量差值与语音能量阈值进行对比；

当存在所述第一待处理语音数据帧对应的所述第一语音能量差值大于所述语音能量阈值时，确定所述第一语音能量差值对应的所述第一待处理语音数据帧的静音类别为非静音帧；

当存在所述第一待处理语音数据帧对应的第一语音能量差值小于或等于所述语音能量阈值时，确定所述第一语音能量差值对应的所述第一待处理语音数据帧的静音类别为静音帧；

采用静音帧数量阈值和所述静音类别对所述多个第一待处理语音数据帧进行静音帧删除处理，得到所述多个第一待提取语音数据段。

进一步的，，所述采用静音帧数量阈值和所述静音类别对所述多个第一待处理语音数据帧进行静音帧删除处理，得到所述多个第一待提取语音数据段的步骤，包括：

对所述多个第一待处理语音数据帧按时间连续的所述静音帧的数量进行计算，得到多个第一连续静音帧数量；

分别将每个所述第一连续静音帧数量与上述静音帧数量阈值进行对比；

当所述第一连续静音帧数量大于所述静音帧数量阈值时，将大于所述静音帧数量阈值的所有所述第一连续静音帧数量各自对应的所述第一待处理语音数据帧从所述多个第一待处理语音数据帧中进行删除，得到上述多个第一待提取语音数据段。

进一步的，所述根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段的步骤，包括：

分别对每个所述第一待提取语音数据段进行开始时间和结束时间提取，得到所述多个第一待提取语音数据段各自对应的第一开始时间和第一结束时间；

分别采用每个所述第一待提取语音数据段对应的第一开始时间和第一结束时间从所述第二待处理的语音数据中进行分段提取，得到所述多个第二待提取语音数据段。

进一步的，所述分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段的步骤，包括：

将所述待提取语音数据段对的所述第一待提取语音数据段输入所述单一说话人语音提取模型的所述第一编码变换模块进行编码变换，得到第一编码变换结果；

将所述待提取语音数据段对的所述第二待提取语音数据段输入所述单一说话人语音提取模型的所述第二编码变换模块进行编码变换，得到第二编码变换结果；

调用所述单一说话人语音提取模型的所述说话人分离学习模块将所述第一编码变换结果和所述第二编码变换结果进行说话人分离学习，得到目标遮罩矩阵；

调用所述单一说话人语音提取模型的所述解码变换模块对所述目标遮罩矩阵进行解码变换，得到所述待提取语音数据段对对应的所述目标说话人语音数据段；

重复执行所述将所述待提取语音数据段对的所述第一待提取语音数据段输入所述单一说话人语音提取模型的所述第一编码变换模块进行编码变换，得到第一编码变换结果的步骤，直至完成所有所述待提取语音数据段对各自对应的所述目标说话人语音数据段。

进一步的，所述分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段的步骤之前，包括：

获取多个训练样本，所述训练样本包括：第一方向的语音样本数据、第二方向的语音样本数据、语音标定数据；

将所述训练样本的所述第一方向的语音样本数据输入待训练的语音提取模型的第一待训练的编码变换模块和所述第二方向的语音样本数据输入所述待训练的语音提取模型的第二待训练的编码变换模块，获取所述待训练的语音提取模型输出的单一说话人训练数据，所述待训练的语音提取模型是基于所述TasNet网络改造得到的模式；

将所述语音标定数据和所述单一说话人训练数据输入损失函数进行计算，得到所述待训练的语音提取模型的损失值，根据所述损失值更新所述待训练的语音提取模型的参数，更新后的所述待训练的语音提取模型被用于下一次计算所述单一说话人训练数据；

重复执行上述方法步骤直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件，将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的语音提取模型，确定为所述单一说话人语音提取模型。

本申请还提出了一种针对目标说话人的语音提取装置，所述装置包括：

语音数据获取模块，用于获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据；

第一分段处理模块，用于采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段；

第二分段提取模块，用于根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段；

待提取语音数据段对确定模块，用于对所述多个第一待提取语音数据段和所述多个第二待提取语音数据段进行相同时间的数据提取，得到多个待提取语音数据段对；

目标说话人语音数据段确定模块，用于分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段，所述单一说话人语音提取模型包括：第一编码变换模块、第二编码变换模块、说话人分离学习模块、解码变换模块，所述单一说话人语音提取模型是基于TasNet网络训练得到的模型；

目标语音数据确定模块，用于按时间顺序对所述多个目标说话人语音数据段进行拼接，得到所述目标说话人的目标语音数据。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述中任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的针对目标说话人的语音提取方法、装置、设备及介质，通过对目标说话人在同一时间段内的第一方向的第一待处理的语音数据和第二方向的第二待处理的语音数据进行分段处理和相同时间的数据提取得到多个第二待提取语音数据段，然后将第二待提取语音数据段输入单一说话人语音提取模型进行语音提取得到多个目标说话人语音数据段，单一说话人语音提取模型是基于TasNet网络训练得到的模型，最后将按时间顺序对多个目标说话人语音数据段进行拼接得到目标说话人的目标语音数据，从而实现了快速、准确、自动的提取出目标说话人的说话语音，降低了业务素质评估的成本，通过目标说话人完整的语音数据提高了业务素质评估的全面性，有利于保护其他说话人的声音数据的隐私安全。

附图说明

图1为本申请一实施例的针对目标说话人的语音提取方法的流程示意图；

图2为本申请一实施例的针对目标说话人的语音提取装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术的服务行业通过人工抽检和暗访抽查的方式进行业务素质评估，导致成本较高和得到的业务素质评估具有片面性的技术问题，本申请提出了一种针对目标说话人的语音提取方法，所述方法应用于人工智能技术领域。所述针对目标说话人的语音提取方法通过将目标说话人不同方向的语音进行分段处理，然后输入基于TasNet网络训练得到的单一说话人语音提取模型进行语音提取，将提取出的语音按时间顺序进拼接，得到只包含目标说话人的声音的语音数据，从而实现了快速、准确、自动的提取出目标说话人的说话语音，降低了业务素质评估的成本，通过目标说话人完整的语音数据提高了业务素质评估的全面性，有利于保护其他说话人的声音数据的隐私安全。

参照图1，本申请实施例中提供一种针对目标说话人的语音提取方法，所述方法包括：

S1：获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据；

S2：采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段；

S3：根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段；

S4：对所述多个第一待提取语音数据段和所述多个第二待提取语音数据段进行相同时间的数据提取，得到多个待提取语音数据段对；

S5：分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段，所述单一说话人语音提取模型包括：第一编码变换模块、第二编码变换模块、说话人分离学习模块、解码变换模块，所述单一说话人语音提取模型是基于TasNet网络训练得到的模型；

S6：按时间顺序对所述多个目标说话人语音数据段进行拼接，得到所述目标说话人的目标语音数据。

本实施例通过对目标说话人在同一时间段内的第一方向的第一待处理的语音数据和第二方向的第二待处理的语音数据进行分段处理和相同时间的数据提取得到多个第二待提取语音数据段，然后将第二待提取语音数据段输入单一说话人语音提取模型进行语音提取得到多个目标说话人语音数据段，单一说话人语音提取模型是基于TasNet网络训练得到的模型，最后将按时间顺序对多个目标说话人语音数据段进行拼接得到目标说话人的目标语音数据，从而实现了快速、准确、自动的提取出目标说话人的说话语音，降低了业务素质评估的成本，通过目标说话人完整的语音数据提高了业务素质评估的全面性，有利于保护其他说话人的声音数据的隐私安全。

对于S1，可以从数据库中获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，也可以直接获取录音设备录取的目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据。

其中，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据，第一方向和第二方向是不同的方向。

第一待处理的语音数据和第二待处理的语音数据是目标说话人在同一时间段内，也就是说，第一方向的语音信号和第二方向的语音信号是同时录取的语音信号，第一方向的语音信号的录制时长和第二方向的语音信号的录制时长相同。

对于S2，采用预设分段方法将所述第一待处理的语音数据划分成多段小的语音数据，将每段小的语音数据作为一个第一待提取语音数据段。

对于S3，采用与所述多个第一待提取语音数据段相同的起始时间和结束时间将所述第二待处理的语音数据划分成多段小的语音数据，将每段小的语音数据作为一个第二待提取语音数据段。

可以理解的是，也可以先对第二待处理的语音数据进行进行分段处理，然后采用分段处理结果对所述第一待处理的语音数据进行分段提取，在此不做具体限定。

可以理解的是，步骤S3也可以直接采用步骤S2的方法进行分段处理，在此不做具体限定。

对于S4，将所述多个第一待提取语音数据段和所述多个第二待提取语音数据段中的相同开始时间和结束时间的待提取语音数据段的组成一个待提取语音数据段对。也就是说，每个待提取语音数据段对中包括一个第一待提取语音数据段和一个第二待提取语音数据段。同一待提取语音数据段对中的第一待提取语音数据段的开始时间和第二待提取语音数据段的开始时间相同，同一待提取语音数据段对中的第一待提取语音数据段的结束时间和第二待提取语音数据段的结束时间相同。

比如，待提取语音数据段对D1中，第一待提取语音数据段的开始时间为1小时0分0秒和结束时间为2小时0分0秒，则第二待提取语音数据段的开始时间也为1小时0分0秒和结束时间也为2小时0分0秒，在此举例不做具体限定。

对于S5，分别将每个所述待提取语音数据段对对应的第一待提取语音数据段和第二待提取语音数据段同时输入单一说话人语音提取模型进行语音提取，获取单一说话人语音提取模型输出的多个目标说话人语音数据段。也就是说，目标说话人语音数据段中只有目标说话人的语音数据，每个所述待提取语音数据段对经过单一说话人语音提取模型的语音提取得到一个目标说话人语音数据段。

所述第一编码变换模块和所述第二编码变换模块输出数据到所述说话人分离学习模块，所述说话人分离学习模块输出数据到所述解码变换模块。

可以理解的是，所述单一说话人语音提取模型的第一编码变换模块和第二编码变换模块的结构相同，所述单一说话人语音提取模型的第一编码变换模块和第二编码变换模块的参数相同。

其中，第一编码变换模块是基于TasNet(单通道实时语音分离)网络的Encoder模块训练得到的模块，第二编码变换模块是基于TasNet网络的Encoder模块训练得到的模块，说话人分离学习模块是基于TasNet网络的Separation模块训练得到的模块，解码变换模块是基于TasNet网络的Decoder模块训练得到的模块。

其中，第一编码变换模块用于进行编码变换。第二编码变换模块用于进行编码变换。说话人分离学习模块用于进行说话人分离学习。解码变换模块用于进行解码变换。

对于S6，按时间的先后顺序将所述多个目标说话人语音数据段中每个目标说话人语音数据段进行拼接，将拼接得到的语音数据作为所述目标说话人的目标语音数据。所述目标说话人的目标语音数据只包含目标说话人的语音数据，而且是目标说话人在步骤S1的同一时间段内的完整的语音数据，从而提高了业务素质评估的全面性，实现了将其他说话人的声音数据进行剔除，有利于保护其他说话人的隐私安全。

在一个实施例中，上述获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据的步骤，包括：

S101：获取所述目标说话人在同一时间段内的所述第一方向的语音信号和所述第二方向的语音信号；

S102：采用第一预设时长对所述第一方向的语音信号进行分段处理，得到多个分段后的第一方向语音信号段；

S103：分别将每个所述分段后的第一方向语音信号段输入数字滤波器，得到多个滤波后的第一方向语音信号段；

S104：分别将每个所述滤波后的第一方向语音信号段进行离散傅立叶变换，得到多个变换后的第一方向语音信号段；

S105：对所述多个变换后的第一方向语音信号段进行离散傅立叶反变换，得到降噪后的第一方向语音数据；

S106：采用所述第一预设时长对所述第二方向的语音信号进行分段处理，得到多个分段后的第二方向语音信号段；

S107：分别将每个所述分段后的第二方向语音信号段输入数字滤波器，得到多个滤波后的第二方向语音信号段；

S108：分别将每个所述滤波后的第二方向语音信号段进行离散傅立叶变换，得到多个变换后的第二方向语音信号段；

S109：对所述多个变换后的第二方向语音信号段进行离散傅立叶反变换，得到降噪后的第二方向语音数据；

S110：对所述降噪后的第一方向语音数据进行预加重处理，得到所述第一待处理的语音数据；

S111：对所述降噪后的第二方向语音数据进行预加重处理，得到所述第二待处理的语音数据。

本实施例实现了对语音信号进行分段滤波、离散傅立叶变换、离散傅立叶反变换、预加重处理，从而提高了得到的第一待处理的语音数据和第二待处理的语音数据的语音数据质量，提高了确定的目标说话人的目标语音数据的准确性。

对于S101，所述第一方向的语音信号是第一方向的录音设备对所述目标说话人录制的语音信号。所述第二方向的语音信号是第二方向的录音设备对所述目标说话人录制的语音信号。

第一方向的录音设备和第二方向的录音设备可以独立设置，也可以集成在同一电子设备上。比如，将第一方向的录音设备和第二方向的录音设备集成在智能胸卡中，第一方向的录音设备朝向目标说话人的嘴部，第二方向的录音设备朝向目标说话人的正前方，在此举例不做具体限定。

对于S102，采用第一预设时长将所述第一方向的语音信号划分成多段小的语音信号，将每段小的语音信号作为一个分段后的第一方向语音信号段。

可选的，第一预设时长采用20ms。

对于S103，数字滤波器可以从现有技术中选择可以去掉加性噪音的滤波器，在此不做赘述。

对于S104，对所述滤波后的第一方向语音信号段进行离散傅立叶变换，离散傅立叶变换后的所述滤波后的第一方向语音信号段作为变换后的第一方向语音信号段。

对于S105，按时间先后顺序将所述多个变换后的第一方向语音信号段进行排序，将排序后的所述多个变换后的第一方向语音信号段进行离散傅立叶反变换，离散傅立叶反变换后得到降噪后的第一方向语音数据。降噪后的第一方向语音数据是纯净的语音数据。

对于S106，采用第一预设时长将所述第二方向的语音信号划分成多段小的语音信号，将每段小的语音信号作为一个分段后的第二方向语音信号段。

对于S107，数字滤波器可以从现有技术中选择可以去掉加性噪音的滤波器，在此不做赘述。

对于S108，对所述滤波后的第二方向语音信号段进行离散傅立叶变换，离散傅立叶变换后的所述滤波后的第二方向语音信号段作为变换后的第二方向语音信号段。

对于S109，按时间先后顺序将所述多个变换后的第二方向语音信号段进行排序，将排序后的所述多个变换后的第二方向语音信号段进行离散傅立叶反变换，离散傅立叶反变换后得到降噪后的第二方向语音数据。降噪后的第二方向语音数据是纯净的语音数据。

对于S110，预加重，是一种对输入信号高频分量进行补偿的信号处理方式，以补偿高频分量在传输过程中的过大衰减。

其中，采用一阶FIR高通数字滤波器对所述第一方向降噪后的语音数据进行预加重处理，得到所述第一待处理的语音数据。

可选的，一阶FIR高通数字滤波器的预加重系数为0.9<α<1.0。

可选的，一阶FIR高通数字滤波器的预加重系数为0.97。

对于S111，其中，采用一阶FIR高通数字滤波器对所述第二方向降噪后的语音数据进行预加重处理，得到所述第二待处理的语音数据。

可选的，一阶FIR高通数字滤波器的预加重系数为0.9<α<1.0。

可选的，一阶FIR高通数字滤波器的预加重系数为0.97。

在一个实施例中，上述采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段的步骤，包括：

S21：采用第二预设时长对所述第一待处理的语音数据进行分帧处理，得到多个第一待处理语音数据帧；

S22：分别对每个所述第一待处理语音数据帧进行语音能量计算，得到所述多个第一待处理语音数据帧各自对应的第一语音能量；

S23：按预设数量从所述多个第一待处理语音数据帧各自对应的所述第一语音能量中从头进行所述第一语音能量提取，得到多个第一开头语音能量；

S24：对所述多个第一开头语音能量进行均值计算，得到所述多个第一待处理语音数据帧对应的第一背景语音能量；

S25：分别将每个所述第一待处理语音数据帧对应的所述第一语音能量与所述第一背景语音能量进行相减计算，得到所述多个第一待处理语音数据帧各自对应的第一语音能量差值；

S26：分别将每个所述第一待处理语音数据帧对应的所述第一语音能量差值与语音能量阈值进行对比；

S27：当存在所述第一待处理语音数据帧对应的所述第一语音能量差值大于所述语音能量阈值时，确定所述第一语音能量差值对应的所述第一待处理语音数据帧的静音类别为非静音帧；

S28：当存在所述第一待处理语音数据帧对应的第一语音能量差值小于或等于所述语音能量阈值时，确定所述第一语音能量差值对应的所述第一待处理语音数据帧的静音类别为静音帧；

S29：采用静音帧数量阈值和所述静音类别对所述多个第一待处理语音数据帧进行静音帧删除处理，得到所述多个第一待提取语音数据段。

本实施例实现了先分帧，然后根据每帧的语音能量确定每帧的静音类别，最后根据静音类别删除静音帧得到多个第一待提取语音数据段，减少了输入单一说话人语音提取模型的语音数据段的数量，提高了语音提取的效率，减少了最终得到的目标说话人的目标语音数据中的静音的时长，有利于提高基于目标说话人的目标语音数据进行业务素质评估的效率。

对于S21，采用第二预设时长将所述第一待处理的语音数据划分成多帧语音数据，将每帧语音数据作为一个第一待处理语音数据帧。通过划分语音数据帧，减少后续删除静音帧的误差，有利于进一步提高目标说话人的目标语音数据的准确性。

可选的，第二预设时长采用30ms。

对于S22，对所述第一待处理语音数据帧进行语音能量计算，将计算得到的语音能量作为所述第一待处理语音数据帧对应的第一语音能量。

第一语音能量计算公式E_n为：

式中，x(m)是第一待处理语音数据帧，w(m)是窗口函数(一个第一待处理语音数据帧对应的长方形函数)，这里的窗口是一种方窗，即语音能量等于每一帧中所有语音数据的平方和。

对于S23，从所述多个第一待处理语音数据帧的开头开始提取预设数量的第一待处理语音数据帧，将提取出的预设数量的第一待处理语音数据帧作为多个背景待处理语音数据帧；将每个背景待处理语音数据帧各自对应的第一语音能量作为一个第一开头语音能量。

可选的，预设数量为10。

对于S24，对所述多个第一开头语音能量进行语音能量的均值计算，将计算得到的语音能量的均值作为所述多个第一待处理语音数据帧对应的第一背景语音能量。

对于S25，将所述第一待处理语音数据帧对应的所述第一语音能量减去所述第一背景语音能量得到语音能量差值，将得到的语音能量差值作为所述第一待处理语音数据帧对应的第一语音能量差值。

对于S26，获取语音能量阈值；将所述多个第一待处理语音数据帧各自对应的第一语音能量差值中每个所述第一待处理语音数据帧对应的所述第一语音能量差值与语音能量阈值进行单独对比。

对于S27，当存在所述第一待处理语音数据帧对应的所述第一语音能量差值大于所述语音能量阈值时，意味着所述第一语音能量差值对应的所述第一待处理语音数据帧与第一背景语音能量对应的背景语音相差较大，此时目标说话人和/或其他说话人正在说话，因此可以确定所述第一语音能量差值对应的所述第一待处理语音数据帧的静音类别为非静音帧。

对于S28，当存在所述第一待处理语音数据帧对应的第一语音能量差值小于或等于所述语音能量阈值时，意味着所述第一语音能量差值对应的所述第一待处理语音数据帧与第一背景语音能量对应的背景语音相差不大，此时目标说话人和其他说话人没有说话，因此可以确定所述第一语音能量差值对应的所述第一待处理语音数据帧的静音类别为静音帧。

对于S29，将满足静音帧数量阈值的连续多个静音类别为静音帧的第一待处理语音数据帧进行删除，根据完成删除后的所述多个第一待处理语音数据帧确定所述多个第一待提取语音数据段。也就是说，所述多个第一待提取语音数据段的语音数据总时长小于或等于所述多个第一待处理语音数据帧的语音数据总时长。

可选的，采用静音帧数量阈值和所述静音类别对所述多个第一待处理语音数据帧进行静音帧删除处理，得到多个待组合的第一待处理语音数据帧；按时间顺序将多个待组合的第一待处理语音数据帧进行相邻语音数据帧的组合，得到所述多个第一待提取语音数据段。从而进一步减少了输入单一说话人语音提取模型的语音数据段的数量，提高了语音提取的效率。比如，按时间先后顺序排序的所述多个第一待处理语音数据帧的语音数据帧1、语音数据帧2、语音数据帧3、语音数据帧4、语音数据帧5、语音数据帧6、语音数据帧7中的语音数据帧3和语音数据帧4删除后，得到多个待组合的第一待处理语音数据帧为语音数据帧1、语音数据帧2、语音数据帧5、语音数据帧6、语音数据帧7中，此时按时间顺序将多个待组合的第一待处理语音数据帧进行相邻语音数据帧的组合，就是将相邻的语音数据帧1、语音数据帧2进行组合，将相邻的语音数据帧5、语音数据帧6、语音数据帧7进行组合，得到两个第一待提取语音数据段，第一个第一待提取语音数据段包括语音数据帧1、语音数据帧2，第二个第一待提取语音数据段包括语音数据帧5、语音数据帧6、语音数据帧7，在此举例不做具体限定。

在一个实施例中，上述采用静音帧数量阈值和所述静音类别对所述多个第一待处理语音数据帧进行静音帧删除处理，得到所述多个第一待提取语音数据段的步骤，包括：

S291：对所述多个第一待处理语音数据帧按时间连续的所述静音帧的数量进行计算，得到多个第一连续静音帧数量；

S292：分别将每个所述第一连续静音帧数量与上述静音帧数量阈值进行对比；

S293：当所述第一连续静音帧数量大于所述静音帧数量阈值时，将大于所述静音帧数量阈值的所有所述第一连续静音帧数量各自对应的所述第一待处理语音数据帧从所述多个第一待处理语音数据帧中进行删除，得到上述多个第一待提取语音数据段。

本实施例实现了根据静音类别删除静音帧得到多个第一待提取语音数据段，减少了输入单一说话人语音提取模型的语音数据段的数量，提高了语音提取的效率，减少了最终得到的目标说话人的目标语音数据中的静音的时长，有利于提高基于目标说话人的目标语音数据进行业务素质评估的效率。

对于S291，将所述多个第一待处理语音数据帧按时间先后顺序进行排序；将排序后的所述多个第一待处理语音数据帧进行连续的所述静音帧的数量进行计算，得到多个第一连续静音帧数量。

比如，按时间先后顺序排序的所述多个第一待处理语音数据帧的语音数据帧1、语音数据帧2、语音数据帧3、语音数据帧4、语音数据帧5、语音数据帧6、语音数据帧7，其中，语音数据帧3、语音数据帧4、语音数据帧6的静音类别为静音帧，则得到第一个第一连续静音帧数量为2(也就是语音数据帧1、语音数据帧2)，第二个第一连续静音帧数量为1(也就是语音数据帧5)，第三个第一连续静音帧数量为1(也就是语音数据帧7)，在此举例不做具体限定。

对于S292，分别将每个所述第一连续静音帧数量与静音帧数量阈值进行单独对比。

对于S293，当所述第一连续静音帧数量大于所述静音帧数量阈值时，意味着所述第一连续静音帧数量对应的第一待处理语音数据帧的数量达到删除条件，将大于所述静音帧数量阈值的所有所述第一连续静音帧数量各自对应的所述第一待处理语音数据帧从所述多个第一待处理语音数据帧中进行删除，根据删除处理后的所述多个第一待处理语音数据帧得到所述多个第一待提取语音数据段。

其中，当所述第一连续静音帧数量小于或等于所述静音帧数量阈值时，不需进行处理，从而避免过渡删除改变了目标语音数据中目标说话人的语速。

在一个实施例中，上述根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段的步骤，包括：

S31：分别对每个所述第一待提取语音数据段进行开始时间和结束时间提取，得到所述多个第一待提取语音数据段各自对应的第一开始时间和第一结束时间；

S32：分别采用每个所述第一待提取语音数据段对应的第一开始时间和第一结束时间从所述第二待处理的语音数据中进行分段提取，得到所述多个第二待提取语音数据段。

本实施例实现了根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，从而为提取待提取语音数据段对提供了数据基础。

对于S31，从所述多个第一待提取语音数据段提取出一个第一待提取语音数据段作为目标第一待提取语音数据段；获取目标第一待提取语音数据段的开始时间作为目标第一待提取语音数据段对应的第一开始时间，获取目标第一待提取语音数据段的结束时间作为目标第一待提取语音数据段对应的第一结束时间；重复执行从所述多个第一待提取语音数据段提取出一个第一待提取语音数据段作为目标第一待提取语音数据段的步骤，直至确定所述多个第一待提取语音数据段各自对应的第一开始时间和第一结束时间。

对于S32，从所述多个第一待提取语音数据段提取出一个第一待提取语音数据段作为目标第一待提取语音数据段；根据目标第一待提取语音数据段对应的第一开始时间和第一结束时间从所述第二待处理的语音数据中进行分段提取，将分段提取得到的语音数据作为目标第一待提取语音数据段对应的第二待提取语音数据段；重复执行所述从所述多个第一待提取语音数据段提取出一个第一待提取语音数据段作为目标第一待提取语音数据段的步骤，直至确定所述多个第一待提取语音数据段各自对应的第二待提取语音数据段。

在一个实施例中，上述分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段的步骤，包括：

S51：将所述待提取语音数据段对的所述第一待提取语音数据段输入所述单一说话人语音提取模型的所述第一编码变换模块进行编码变换，得到第一编码变换结果；

S52：将所述待提取语音数据段对的所述第二待提取语音数据段输入所述单一说话人语音提取模型的所述第二编码变换模块进行编码变换，得到第二编码变换结果；

S53：调用所述单一说话人语音提取模型的所述说话人分离学习模块将所述第一编码变换结果和所述第二编码变换结果进行说话人分离学习，得到目标遮罩矩阵；

S54：调用所述单一说话人语音提取模型的所述解码变换模块对所述目标遮罩矩阵进行解码变换，得到所述待提取语音数据段对对应的所述目标说话人语音数据段；

S55：重复执行所述将所述待提取语音数据段对的所述第一待提取语音数据段输入所述单一说话人语音提取模型的所述第一编码变换模块进行编码变换，得到第一编码变换结果的步骤，直至完成所有所述待提取语音数据段对各自对应的所述目标说话人语音数据段。

本实施例实现了同时将所述待提取语音数据段对的所述第一待提取语音数据段和所述第二待提取语音数据段输入所述单一说话人语音提取模型进行语音提取，从而实现了快速、准确、自动的提取出目标说话人的说话语音。

对于S51，将所述待提取语音数据段对的所述第一待提取语音数据段输入所述单一说话人语音提取模型的所述第一编码变换模块进行编码变换，得到第一编码变换结果，也就是说，训练所述单一说话人语音提取模型的所述第一编码变换模块采用的是第一方向的语音信号。

对于S52，将所述待提取语音数据段对的所述第二待提取语音数据段输入所述单一说话人语音提取模型的所述第二编码变换模块进行编码变换，得到第二编码变换结果，也就是说，训练所述单一说话人语音提取模型的所述第二编码变换模块采用的是第二方向的语音信号。

对于S53，目标遮罩矩阵是指目标说话人的遮罩矩阵。

对于S54，调用所述单一说话人语音提取模型的所述解码变换模块对所述目标遮罩矩阵进行解码变换以实现还原，得到所述待提取语音数据段对对应的所述目标说话人语音数据段。

对于S55，重复执行步骤S51至步骤S55，直至确定所有所述待提取语音数据段对各自对应的所述目标说话人语音数据段。

在一个实施例中，上述分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段的步骤之前，包括：

S051：获取多个训练样本，所述训练样本包括：第一方向的语音样本数据、第二方向的语音样本数据、语音标定数据；

S052：将所述训练样本的所述第一方向的语音样本数据输入待训练的语音提取模型的第一待训练的编码变换模块和所述第二方向的语音样本数据输入所述待训练的语音提取模型的第二待训练的编码变换模块，获取所述待训练的语音提取模型输出的单一说话人训练数据，所述待训练的语音提取模型是基于所述TasNet网络改造得到的模式；

S053：将所述语音标定数据和所述单一说话人训练数据输入损失函数进行计算，得到所述待训练的语音提取模型的损失值，根据所述损失值更新所述待训练的语音提取模型的参数，更新后的所述待训练的语音提取模型被用于下一次计算所述单一说话人训练数据；

S054：重复执行上述方法步骤直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件，将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的语音提取模型，确定为所述单一说话人语音提取模型。

本实施例实现了基于TasNet网络训练得到单一说话人语音提取模型，为后续进行单一说话人的语音数据分离提供了基础。

对于S051，每个所述训练样本包括一个第一方向的语音样本数据、一个第二方向的语音样本数据、一个语音标定数据。

语音标定数据是对第一方向的语音样本数据、第二方向的语音样本数据标定出的单一说话人的语音数据。

第一方向的语音样本数据、第二方向的语音样本数据、语音标定数据都是时域的语音数据。

对于S052，所述待训练的语音提取模型包括：第一待训练的编码变换模块、所述第二待训练的编码变换模块、待训练的说话人分离学习模块和待训练的解码变换模块；所述第一待训练的编码变换模块和所述第二待训练的编码变换模块与所述待训练的说话人分离学习模块连接，所述待训练的说话人分离学习模块与所述待训练的解码变换模块连接。

可选的，所述第一待训练的编码变换模块和所述第二待训练的编码变换模块都采用所述TasNet网络的Encoder模块，所述待训练的说话人分离学习模块采用所述TasNet网络的Separation模块，所述待训练的解码变换模块采用所述TasNet网络的Decoder模块。

TasNet网络的Encoder模块包括：卷积核为1*1的卷积层、正则化层、全连接层。

对于S053，损失函数SI-SNR为：

其中，代表所述单一说话人训练数据，s代表所述语音标定数据，是将向量和向量进行点乘，log()是指对数函数，||s||是指所述语音标定数据的第二范数，||S_starget||是S_starget的第二范数，||e_noise||是e_noise的第二范数。

对于S054，重复执行步骤S052至步骤S054直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件，将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的语音提取模型，确定为所述单一说话人语音提取模型.

所述第一收敛条件是指相邻两次计算的损失值的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数达到第二收敛条件是指所述待训练的语音提取模型被用于计算所述单一说话人训练数据的次数，也就是说，计算一次，迭代次数增加1。

参照图2，本申请还提出了一种针对目标说话人的语音提取装置，所述装置包括：

语音数据获取模块100，用于获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据；

第一分段处理模块200，用于采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段；

第二分段提取模块300，用于根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段；

待提取语音数据段对确定模块400，用于对所述多个第一待提取语音数据段和所述多个第二待提取语音数据段进行相同时间的数据提取，得到多个待提取语音数据段对；

目标说话人语音数据段确定模块500，用于分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段，所述单一说话人语音提取模型包括：第一编码变换模块、第二编码变换模块、说话人分离学习模块、解码变换模块，所述单一说话人语音提取模型是基于TasNet网络训练得到的模型；

目标语音数据确定模块600，用于按时间顺序对所述多个目标说话人语音数据段进行拼接，得到所述目标说话人的目标语音数据。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存针对目标说话人的语音提取方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种针对目标说话人的语音提取方法。所述针对目标说话人的语音提取方法，包括：获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据；采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段；根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段；对所述多个第一待提取语音数据段和所述多个第二待提取语音数据段进行相同时间的数据提取，得到多个待提取语音数据段对；分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段，所述单一说话人语音提取模型包括：第一编码变换模块、第二编码变换模块、说话人分离学习模块、解码变换模块，所述单一说话人语音提取模型是基于TasNet网络训练得到的模型；按时间顺序对所述多个目标说话人语音数据段进行拼接，得到所述目标说话人的目标语音数据。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种针对目标说话人的语音提取方法，包括步骤：获取目标说话人在同一时间段内的第一待处理的语音数据和第二待处理的语音数据，所述第一待处理的语音数据是根据第一方向的语音信号得到的语音数据，所述第二待处理的语音数据是根据第二方向的语音信号得到的语音数据；采用预设分段方法对所述第一待处理的语音数据进行分段处理，得到多个第一待提取语音数据段；根据所述多个第一待提取语音数据段对所述第二待处理的语音数据进行分段提取，得到多个第二待提取语音数据段；对所述多个第一待提取语音数据段和所述多个第二待提取语音数据段进行相同时间的数据提取，得到多个待提取语音数据段对；分别将每个所述待提取语音数据段对输入单一说话人语音提取模型进行语音提取，得到多个目标说话人语音数据段，所述单一说话人语音提取模型包括：第一编码变换模块、第二编码变换模块、说话人分离学习模块、解码变换模块，所述单一说话人语音提取模型是基于TasNet网络训练得到的模型；按时间顺序对所述多个目标说话人语音数据段进行拼接，得到所述目标说话人的目标语音数据。

上述执行的针对目标说话人的语音提取方法，通过对目标说话人在同一时间段内的第一方向的第一待处理的语音数据和第二方向的第二待处理的语音数据进行分段处理和相同时间的数据提取得到多个第二待提取语音数据段，然后将第二待提取语音数据段输入单一说话人语音提取模型进行语音提取得到多个目标说话人语音数据段，单一说话人语音提取模型是基于TasNet网络训练得到的模型，最后将按时间顺序对多个目标说话人语音数据段进行拼接得到目标说话人的目标语音数据，从而实现了快速、准确、自动的提取出目标说话人的说话语音，降低了业务素质评估的成本，通过目标说话人完整的语音数据提高了业务素质评估的全面性，有利于保护其他说话人的声音数据的隐私安全。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

24页详细技术资料下载

针对目标说话人的语音提取方法、装置、设备及介质

相关技术

网友询问留言