一种基于联合优化网络的目标声源定位方法及系统

文档序号:189013 发布日期:2021-11-02 浏览:30次 >En<

阅读说明:本技术 一种基于联合优化网络的目标声源定位方法及系统 (Target sound source positioning method and system based on joint optimization network ) 是由 刘忆森 周松斌 万智勇 于 2021-09-29 设计创作,主要内容包括:本发明提供了一种基于联合优化网络的目标声源定位方法及系统。该方案包括通过在监测位置放置的麦克风阵列采集所有的目标声源信号,获取声音数据集;将声音数据集划分为训练集和验证集;对训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型;将验证集进行预处理后,送入目标声源定位模型,计算目标声检测模块对于训练集和验证集的余弦相似度,并确定目标声源检测阈值;实施获取声音数据,利用余弦相似度和目标声源检测阈值确定目标声源的方位预测。该方案通过基于联合优化网络的目标声源定位,只需采集包含目标声源的高信噪比声音信号进行训练建模,可同时进行目标声源检测和端到端系统定位。(The invention provides a target sound source positioning method and system based on a joint optimization network. The method comprises the steps that all target sound source signals are collected through a microphone array arranged at a monitoring position, and a sound data set is obtained; dividing a sound data set into a training set and a verification set; after preprocessing the training set, sending the training set into a preset target sound detection and positioning combined network to obtain a target sound source positioning model; preprocessing the verification set, sending the preprocessed verification set into a target sound source positioning model, calculating the cosine similarity of a target sound detection module to the training set and the verification set, and determining a target sound source detection threshold; and acquiring sound data, and determining the azimuth prediction of the target sound source by using the cosine similarity and the target sound source detection threshold. According to the scheme, through target sound source positioning based on a joint optimization network, only high signal-to-noise ratio sound signals containing a target sound source are collected to carry out training modeling, and target sound source detection and end-to-end system positioning can be carried out simultaneously.)

一种基于联合优化网络的目标声源定位方法及系统

技术领域

本发明涉及声源定位技术领域,更具体地,涉及一种基于联合优化网络的目标声源定位方法及系统。

背景技术

目标声源检测定位可以根据拾音系统接收到的声源信号进行目标检测以及定位跟踪,因此在交通鸣笛监控、音视频监控和盲视觉导航系统中都有很多的应用。

在本发明技术之前,传统声源定位包括2种:第一种是算法波束形成方法,因此该声源定位算法无法针对目标声进行定位,且定位算法在环境混响复杂和声源多的场景下不能够准确定位;第二种是基于机器学习算法的声源目标检测定位方法,该方法将系统分成声源检测子任务和声源定位子任务,存在模型训练时训练数据无法穷举非目标声源场景,系统非端到端的问题。

发明内容

鉴于上述问题,本发明提出了一种基于联合优化网络的目标声源定位方法及系统,其可以实现通过基于联合优化网络的目标声源定位,只需采集包含目标声源的高信噪比声音信号进行训练建模,可同时进行目标声源检测和端到端系统定位。

根据本发明实施例第一方面,提供一种基于联合优化网络的目标声源定位方法。

在一个或多个实施例中,优选地,所述一种基于联合优化网络的目标声源定位方法包括:

通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集;

将所述声音数据集划分为训练集和验证集;

对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块;

将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值;

实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测。

在一个或多个实施例中,优选地,所述通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集,具体包括:

以所述麦克风阵列为原点,建立直角坐标系;

将所述监测位置划分为至少一个监测区域位置子块;

获取所有的监测区域位置子块中心坐标;

根据所述监测区域位置子块中心坐标计算麦克风阵列方位角;

采集所有的监测区域位置子块的声源信号,存储为初始声源信号;

对所述初始声源信号以预设的固定时间间隔进行保存;

获取预设的采样频率;

利用第一计算公式获取数据长度;

将所述数据长度的对应的所述初始声源信号存储为所述声音数据集;

所述第一计算公式为:

N=t 0*f c

其中,N为所述数据长度,t 0为所述固定时间间隔,f c 为所述预设的采样频率。

在一个或多个实施例中,优选地,所述将所述声音数据集划分为训练集和验证集,具体包括:

获取所述声音数据集,并将所述声音数据集划分为训练集和所述验证集;

获取所有的所述麦克风阵列方位角映射为单位直角坐标系中的目标坐标;

将所有的目标坐标标记到所述训练集和所述验证集中。

在一个或多个实施例中,优选地,所述对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块,具体包括:

获取所述训练集中的训练声音数据;

获取窗口帧长度,其中,所述窗口帧长度为1024;

根据第二计算公式对所述训练声音数据进行分帧,生成加窗分帧数据;

对所述加窗分帧数据进行短时傅里叶变换得到声音数据的时频能量谱和时频相位谱;

将所述时频能量谱和所述时频相位谱合并作为声音数据的特征数据;

将目标声源检测与定位联合优化网络分级为时频特征提取模块、所述目标声检测模块和所述声源坐标回归预测模块,其中,时频特征提取模块为双向循环网络,所述目标声检测模块为卷积自编码器,所述声源坐标回归预测模块为卷积网络;

将所述编码特征通过所述声源坐标回归预测模块进行声源方位的预测;

将所述目标声源检测与定位联合优化网络的损失函数由所述目标声检测模块的损失函数和声源坐标回归预测模块的损失函数组成;

将所述目标声检测模块的损失函数和所述声源坐标回归预测模块的损失函数采用梯度下降方法进行同时优化,得到所述目标声源定位模型;

所述第二计算公式:

其中,W为窗序列,n为第n个点,h为所述窗口帧长度。

在一个或多个实施例中,优选地,所述将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值,具体包括:

获取所述验证集中的数据和所述训练集中的数据,送入所述目标声源定位模型;

利用所述目标声源检测与定位联合优化网络中的所述时频特征提取模块获取第 一重建特征

利用所述目标声源检测与定位联合优化网络中的所述目标声检测模块获取第二 重建特征

利用第三计算公式获得所述目标声源检测阈值;

利用判断余弦相似度的最大值是否大于所述目标声源检测阈值;

所述第三计算公式为:

其中,max为取所有的余弦相似度中的最大值,为训练样本个数,为第个 所述训练集通过所述时频特征提取模块后的输出,为第j个所述验证集通过所述时 频特征提取模块后的输出,为第j个验证数据与所有所述训练集数据的余弦相似度的均 值。

在一个或多个实施例中,优选地,所述实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测,具体包括:

实时检测时,将采集到的声音数据进行加窗分帧后,做短时傅里叶变换得到包含声音数据的所述时频能量谱和所述时频相位谱的特征数据;

实施采集声音数据进行加窗分帧的第一实时数据;

对所述第一实时数据进行短时的傅里叶变换获得包含声音数据的所述时频能量谱和所述时频相位谱;

获得所述时频能量谱和所述时频相位谱的所述特征数据,将所述特征数据送入所述目标声源检测与定位联合优化网络,计算余弦相似度;

与预设的所述目标声源检测阈值进行对比,若所述余弦相似度小于所述目标声源检测阈值,则此次检测无目标声音;

若所述余弦相似度不小于所述目标声源检测阈值,则此次检测目标声音,并将所述声源坐标回归预测模块的输出作为目标声源定位结果。

根据本发明实施例第二方面,提供一种基于联合优化网络的目标声源定位系统。

在一个或多个实施例中,优选地,所述一种基于联合优化网络的目标声源定位系统包括:

数据采集模块,用于通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集;

样本划分模块,用于将所述声音数据集划分为训练集和验证集;

模块训练模块,用于对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块;

阈值确定模块,用于将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值;

实施检测模块,用于实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测。

在一个或多个实施例中,优选地,所述一种基于联合优化网络的目标声源定位系统还包括模型运算子模块,所述模型运算子模块用于:

将目标声源检测与定位联合优化网络的损失函数L由所述目标声检测模块损失函数L E 和所述声源坐标回归预测模块损失函数L P 组成;其中,L E 为时频特征的L 2范式复原误差,L P 为方位坐标的L 2范式预测误差,具体的,所述目标声源检测与定位联合优化网络的损失函数L的计算公式为:

其中,为所述训练集样本经过时频特征提取模块得到的时频特征,为经 过所述目标声检测模块得到的重建时频特征,依次为第i个样本的方位的横坐标 和纵坐标,N为训练样本个数,为取值在(0,1]的常系数,为系统对轴的预 测值,为系统对轴的预测值。

根据本发明实施例第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。

根据本发明实施例第四方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现本发明实施例第一方面中任一项所述的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果:

1)本发明实施例中,通过获得目标声检测与定位网络实现对于目标声源的特征提取和声音坐标预测。

2)本发明实施例中,通过提供一种目标声判定阈值计算的方法, 能够实现通过训练获得具体的目标声音阈值而并非利用经验。

3)本发明实施例中,通过实时监测结合余弦相似度和阈值对比获得快速的目标声源定位结果。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于联合优化网络的目标声源定位方法的流程图。

图2是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集的流程图。

图3是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的将所述声音数据集划分为训练集和验证集的流程图。

图4是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块的流程图。

图5是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值的流程图。

图6是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测的流程图。

图7是本发明一个实施例的一种基于联合优化网络的目标声源定位系统的结构图。

图8是本发明一个实施例中的目标声源定位示意图。

图9是本发明一个实施例中一种电子设备的结构图。

具体实施方式

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目标声源检测定位可以根据拾音系统接收到的声源信号进行目标检测以及定位跟踪,因此在交通鸣笛监控、音视频监控和盲视觉导航系统中都有很多的应用。

在本发明技术之前,传统声源定位包括2种:第一种是算法波束形成方法,因此该声源定位算法无法针对目标声进行定位,且定位算法在环境混响复杂和声源多的场景下不能够准确定位;第二种是基于机器学习算法的声源目标检测定位方法,该方法将系统分成声源检测子任务和声源定位子任务,存在模型训练时训练数据无法穷举非目标声源场景,系统非端到端的问题。

本发明实施例中,提供了一种基于联合优化网络的目标声源定位方法及系统。该方案可实现通过基于联合优化网络的目标声源定位,只需采集包含目标声源的高信噪比声音信号进行训练建模,可同时进行目标声源检测和端到端系统定位。

根据本发明实施例第一方面,提供一种基于联合优化网络的目标声源定位方法。

图1是本发明一个实施例的一种基于联合优化网络的目标声源定位方法的流程图。

如图1所示,在一个或多个实施例中,优选地,所述一种基于联合优化网络的目标声源定位方法包括:

S101、通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集;

S102、将所述声音数据集划分为训练集和验证集;

S103、对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块;

S104、将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值;

S105、实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测。

在本发明实施例中,在获得待监测处放置麦克风阵列后,通过对于原始的声音特征矩阵进行特征提取,进而通过声音检测和声源坐标的预测最终生成在损失函数最低时的目标声源方位。

图2是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集的流程图。

如图2所示,在一个或多个实施例中,优选地,所述通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集,具体包括:

S201、以所述麦克风阵列为原点,建立直角坐标系;

S202、将所述监测位置划分为至少一个监测区域位置子块;

S203、获取所有的监测区域位置子块中心坐标;

S204、根据所述监测区域位置子块中心坐标计算麦克风阵列方位角;

S205、采集所有的监测区域位置子块的声源信号,存储为初始声源信号;

S206、对所述初始声源信号以预设的固定时间间隔进行保存;

S207、获取预设的采样频率;

S208、利用第一计算公式获取数据长度;

S209、将所述数据长度的对应的所述初始声源信号存储为所述声音数据集;

所述第一计算公式为:

N=t 0*f c

其中,N为所述数据长度,t 0为所述固定时间间隔,f c 为所述预设的采样频率。

在本发明实施例中,在待监测处放置麦克风阵列后,以麦克风阵列位置为坐标原 点,建立直角坐标系。将监测区域划分成若干个位置子块,得到每个子 块的中心坐标并计算每个子块相对麦 克风阵列的方位角;采集每个子块中的目标声源信号。并以时间间隔t 0 进行保存,采样频率为f c ,采集到的数据长度为N=t 0*f c 。得到多方位的目标声源信号数据D T

图3是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的将所述声音数据集划分为训练集和验证集的流程图。

如图3所示,在一个或多个实施例中,优选地,所述将所述声音数据集划分为训练集和验证集,具体包括:

S301、获取所述声音数据集,并将所述声音数据集划分为训练集和所述验证集;

S302、获取所有的所述麦克风阵列方位角映射为单位直角坐标系中的目标坐标;

S303、将所有的目标坐标标记到所述训练集和所述验证集中。

在本发明实施中,将采集到的声音数据DT划分为训练集T和验证集V,并将所有的 方位角映射到以麦克风阵列为原点的单位直角坐标系中,并得到 相应的坐标

此外,训练集记为, 验证集记为, 其中t表示声音数据,训练集3600个,验证集2400个,表示与之对应的位置坐标标签,训练集 数据。

图4是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块的流程图。

如图4所示,在一个或多个实施例中,优选地,所述对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块,具体包括:

S401、获取所述训练集中的训练声音数据;

S402、获取窗口帧长度;

其中,所述窗口帧长度为1024;

S403、根据第二计算公式对所述训练声音数据进行分帧,生成加窗分帧数据;

S404、对所述加窗分帧数据进行短时傅里叶变换得到声音数据的时频能量谱和时频相位谱;

S405、将所述时频能量谱和所述时频相位谱合并作为声音数据的特征数据;

S406、将目标声源检测与定位联合优化网络分级为时频特征提取模块、所述目标声检测模块和所述声源坐标回归预测模块,其中,时频特征提取模块为双向循环网络,所述目标声检测模块为卷积自编码器,所述声源坐标回归预测模块为卷积网络;

S407、将所述编码特征通过所述声源坐标回归预测模块进行声源方位的预测;

S408、将所述目标声源检测与定位联合优化网络的损失函数由所述目标声检测模块的损失函数和声源坐标回归预测模块的损失函数组成;

S409、将所述目标声检测模块的损失函数和所述声源坐标回归预测模块的损失函数采用梯度下降方法进行同时优化,得到所述目标声源定位模型;

所述第二计算公式:

其中,W为窗序列,n为第n个点,h为所述窗口帧长度。

在本发明实施例中,对每个声音数据进行加窗分帧,每帧长度为1024,窗序列如下:

式中:为窗序列,n为第n个点;

加窗分帧后对数据进行短时傅里叶变换得到声音数据的时频能量谱Denergy和时频相位谱Dphase。并将两者合并作为声音数据的特征数据送入联合网络中训练。

目标声源检测与定位联合优化网络分为时频特征提取模块F,目标声检测模块E以及声源坐标回归预测模块P。时频特征提取模块为双向循环网络,目标声检测模块为卷积自编码器,声源坐标回归预测模块为卷积网络。

时频能量谱Denergy和时频相位谱Dphase作为输入首先一起进入时频特征提取模块中,强化输入数据的时间上下文关系,得到的特征向量z作为输入,进入目标声检测模块中,在目标声检测模块中被压缩得到编码特征c,再经过网络解码得到重建特征,该编码特征c作为输入进入声源坐标回归预测模块中,进行声源方位的预测。

目标声源检测与定位联合优化网络的损失函数由目标声检测模块损失函数LE以及声源坐标回归预测模块损失函数LP两个部分组成。其中LE为时频特征的L2范式复原误差,LP为方位坐标的L2范式预测误差:

其中为训练集样本经过时频特征提取模块得到的时频特征, 为经过目 标声检测模块得到的重建时频特征,()为样本方位坐标,N为训练样本个数,为取值在(0,1]的常系数;

训练过程中将两个损失采用梯度下降方法进行同时优化,得到目标声源定位模型M。

图5是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值的流程图。

如图5所示,在一个或多个实施例中,优选地,所述将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值,具体包括:

S501、获取所述验证集中的数据和所述训练集中的数据,送入所述目标声源定位模型;

S502、利用所述目标声源检测与定位联合优化网络中的所述时频特征提取模块获 取第一重建特征

S503、利用所述目标声源检测与定位联合优化网络中的所述目标声检测模块获取 第二重建特征

S504、利用第三计算公式获得所述目标声源检测阈值;

S505、利用判断余弦相似度的最大值是否大于所述目标声源检测阈值;

所述第三计算公式为:

其中,max为取所有的余弦相似度中的最大值,为训练样本个数,为第个 所述训练集通过所述时频特征提取模块后的输出,为第j个所述验证集通过所述时 频特征提取模块后的输出,为第j个验证数据与所有所述训练集数据的余弦相似度的均 值。

在本发明实施例中,将训练集T和验证集V分别送入训练好的联合网络中,先后通 过时频特征提取模块与目标声检测模块,得到重建特征,计算验证数据与所 有训练集数据的余弦相似度的均值Cj,并以Cj的最大值为判定是否为目标声的阈值:

图6是本发明一个实施例的一种基于联合优化网络的目标声源定位方法中的实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测的流程图。

如图6所示,在一个或多个实施例中,优选地,所述实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测,具体包括:

S601、实时检测时,将采集到的声音数据进行加窗分帧后,做短时傅里叶变换得到包含声音数据的所述时频能量谱和所述时频相位谱的特征数据;

S602、实施采集声音数据进行加窗分帧的第一实时数据;

S603、对所述第一实时数据进行短时的傅里叶变换获得包含声音数据的所述时频能量谱和所述时频相位谱;

S604、获得所述时频能量谱和所述时频相位谱的所述特征数据,将所述特征数据送入所述目标声源检测与定位联合优化网络,计算余弦相似度;

S605、与预设的所述目标声源检测阈值进行对比,若所述余弦相似度小于所述目标声源检测阈值,则此次检测无目标声音;

S606、若所述余弦相似度不小于所述目标声源检测阈值,则此次检测目标声音,并将所述声源坐标回归预测模块的输出作为目标声源定位结果。

在本发明实施例中,将采集到的0.5s声音数据进行每1024长度数据加窗分帧后,做短时傅里叶变换得到该声音信号的时频谱。进一步得,对时频谱取模和求相位后将其合并成一个包含声音数据的时频能量谱和时频相位谱的特征数据矩阵;将特征数据送入提前训练好的联合网络中,计算该声音数据得到的目标声检测模块输出与训练数据的目标声检测模块输出的平均余弦相似度ct,与预先设置好的阈值th进行比较,若小于阈值时,此次检测无目标声音,忽略声源坐标回归预测模块的输出。若大于阈值时,则此次有检测到目标声音,声源坐标回归预测模块的输出即为该次目标声源定位结果。

根据本发明实施例第二方面,提供一种基于联合优化网络的目标声源定位系统。

图7是本发明一个实施例的一种基于联合优化网络的目标声源定位系统的结构图。

如图7所示,在一个或多个实施例中,优选地,所述一种基于联合优化网络的目标声源定位系统包括:

数据采集模块701,用于通过在监测位置放置的麦克风阵列采集所有的目标声源信号,并将所述目标声源信号按照坐标标签和声音数据一起存储到声音数据集;

样本划分模块702,用于将所述声音数据集划分为训练集和验证集;

模块训练模块703,用于对所述训练集进行预处理后,送入预设的目标声检测和定位联合网络,获取目标声源定位模型,其中,所述目标声检测和定位联合网络包括时序特征提取模块、目标声检测模块和声源坐标回归预测模块;

阈值确定模块704,用于将所述验证集进行预处理后,送入所述目标声源定位模型,计算所述目标声检测模块对于所述训练集和所述验证集的余弦相似度,并确定目标声源检测阈值;

实施检测模块705,用于实时获取声音数据,利用所述余弦相似度和所述目标声源检测阈值确定目标声源的方位预测。

在一个或多个实施例中,优选地,所述一种基于联合优化网络的目标声源定位系统还包括模型运算子模块706,所述模型运算子模块用于:

将目标声源检测与定位联合优化网络的损失函数L由所述目标声检测模块损失函数L E 和所述声源坐标回归预测模块损失函数L P 组成;其中,L E 为时频特征的L 2范式复原误差,L P 为方位坐标的L 2范式预测误差,具体的,所述目标声源检测与定位联合优化网络的损失函数L的计算公式为:

其中,为所述训练集样本经过时频特征提取模块得到的时频特征,为经 过所述目标声检测模块得到的重建时频特征,依次为第i个样本的方位的横坐标 和纵坐标,N为训练样本个数,为取值在(0,1]的常系数,为系统对轴的预 测值,为系统对轴的预测值。

图8是本发明一个实施例中的目标声源定位示意图。

如图8所示,在获取声音特征矩阵户,经过时频特征提取、声源坐标回归预测和目标声检测,进而通过损失函数进行联合优化损失获得目标声。

根据本发明实施例第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如本发明实施例第一方面中任一项所述的方法。

根据本发明实施例第四方面,提供一种电子设备。图9是本发明一个实施例中一种电子设备的结构图。图9所示的电子设备为通用声源定位装置,其包括通用的计算机硬件结构,其至少包括处理器901和存储器902。处理器901和存储器902通过总线903连接。存储器902适于存储处理器901可执行的指令或程序。处理器901可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器901通过执行存储器902所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线903将上述多个组件连接在一起,同时将上述组件连接到显示控制器904和显示装置以及输入/输出(I/O)装置905。输入/输出(I/O)装置905可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置905通过输入/输出(I/O)控制器906与系统相连。

本发明的实施例提供的技术方案可以包括以下有益效果:

1)本发明实施例中,通过获得目标声检测与定位网络实现对于目标声源的特征提取和声音坐标预测。

2)本发明实施例中,通过提供一种目标声判定阈值计算的方法, 能够实现通过训练获得具体的目标声音阈值而并非利用经验。

3)本发明实施例中,通过实时监测结合余弦相似度和阈值对比获得快速的目标声源定位结果。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于声波的多手机定位方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!