一种基于单源点检测的欠定盲源语音信号分离的方法

文档序号:1398266 发布日期:2020-03-03 浏览:41次 >En<

阅读说明:本技术 一种基于单源点检测的欠定盲源语音信号分离的方法 (Underdetermined blind source voice signal separation method based on single source point detection ) 是由 李一兵 王一凡 田园 郭小晨 吴静 叶方 孙骞 赵彤 于 2018-08-24 设计创作,主要内容包括:本发明提供了一种基于单源点检测的欠定盲源语音信号分离的方法,包括以下步骤:首先将线型麦克风阵列放于源信号的远场,得到多组接收信号数据;然后将接收信号数据进行时频域分析,构建时频域信号散点图;对每个点的横纵坐标作比值得到一组数据,进行聚类得到幅度的衰减参数;利用势函数聚类方法,得到势函数—衰减参数—时延参数三维散点图。利用子空间映射的方法,混合矩阵下完成源语音信号的恢复。本发明的核心内容在于利用盲源分离中的稀疏成分分析技术提出一种基于单源点检测的欠定盲源语音信号分离的方法,应用本发明可以在一定含噪环境下,对无回响时延混合模型的语音信号混叠进行有效的分离。该方法计算量较少,复杂度低,估计精度高,能达到预期目标。(The invention provides a method for separating underdetermined blind source voice signals based on single source point detection, which comprises the following steps: firstly, placing a linear microphone array in a far field of a source signal to obtain a plurality of groups of received signal data; then, carrying out time-frequency domain analysis on the received signal data to construct a time-frequency domain signal scatter diagram; taking a ratio of the horizontal coordinate and the vertical coordinate of each point to obtain a group of data, and clustering to obtain attenuation parameters of the amplitude; and obtaining a potential function-attenuation parameter-time delay parameter three-dimensional scatter diagram by using a potential function clustering method. And recovering the source speech signal under the mixed matrix by utilizing a subspace mapping method. The core content of the invention lies in that a method for underdetermined blind source voice signal separation based on single source point detection is provided by utilizing a sparse component analysis technology in blind source separation, and the application of the method can effectively separate voice signal aliasing of a non-echo time delay mixed model in a certain noisy environment. The method has the advantages of less calculation amount, low complexity and high estimation precision, and can achieve the expected target.)

一种基于单源点检测的欠定盲源语音信号分离的方法

技术领域

本发明属于语音信号处理技术领域,具体涉及一种基于单源点检测的欠定盲源语音信号分离的方法。

背景技术

在人类社会发展的浩瀚历史中,语言的出现可以说是里程碑式的时刻,从此人类科技文明迎来了黄金发展时期。而在当今世界,随着语音信号处理技术以及相关技术的快速发展,越来越多的语音产品走入了我们的日常生活。在特定的环境下,如何从各个传感器中分离采集得到的混叠的语音信号可以说是语音信号处理技术的重要环节。因此采用盲源分离技术来分离混叠的语音信号可以说是一件极具研究价值的工作。

目前国内外专家学者利用盲源分离技术解决语音信号分离问题已经进行了一系列研究。其中在实际生活中最为常见的情况就是混合信号数目少于源信号的情况,在此类条件下的盲源信号分离称之为欠定盲源分离。最初的方法需要源信号在时域或时频域具备充分的稀疏性,经典的算法如DUET算法。但是随着源信号数目的增加,源信号的充分稀疏性假设更加难以满足。后来就出现了一类基于单源活跃区间检测的混合参数估计算法,如TIFROM算法和TIFCORR(Time-frequency Correlation,TIFCORR)算法,这类算法的关键在于单源区间的检测。后来又有学者提出了单源点的概念,进而放宽了源信号的稀疏性假设,只要每个源信号都存在一些离散的单源时频点,就能够实现对混合矩阵的估计,但现有的单源点检测算法大多仅适应于瞬时线性混合模型。而本发明针对的是无回响线性时延混合模型,提出一种基于单源点检测的欠定盲源语音信号的分离方法。

发明内容

本发明的目的是提出一种基于单源点检测的欠定盲源语音信号分离的方法,该方法不仅考虑到了信号的幅度衰减同时也考虑到了传输过程中的时间延迟。首先通过单源点检测的准则选取符合条件的单源时频点,随后进行聚类分析得到混合矩阵中的衰减,通过单源点的三维散点图将估计得到的衰减参数附近的单源点映射到二维图中,再次进行聚类得到时延参数,实现衰减参数与时延参数的自动匹配,从而完成混合矩阵的估计,最后通过子空间投影完成源信号的恢复。在获得的源信号先验信息不足的情况下,准确有效的完成对源语音信号的分离过程,从而完成对语音信号处理的预处理目的。

本发明的技术方案是:一种基于单源点检测的欠定盲源语音信号分离的方法,包括以下步骤:

步骤一:首先将线型麦克风阵列放于源信号的远场,作为传感器接收声音信号,得到多组接收信号数据;

步骤二:然后将接收信号数据进行时频域分析,构建时频域信号散点图,再通过单源点检测准则筛选得到满足条件的非低能量单源时频点;

步骤三:由于衰减系数的值对应于时频域散点图上每个单源点的斜率,因此对每个点的横纵坐标作比值得到一组数据,进行聚类得到幅度的衰减参数;

步骤四:利用势函数聚类方法,得到势函数—衰减参数—时延参数三维散点图,利用步骤三估计得到的衰减参数进行映射得到势函数—时延参数二维散点图,聚类得到时延参数的估计。

步骤五:利用子空间映射的方法,在步骤四得到估计的混合矩阵下完成源语音信号的恢复。

本发明的核心内容在于利用盲源分离中的稀疏成分分析技术提出一种基于单源点检测的欠定盲源语音信号分离的方法,应用本发明可以在一定含噪环境下,对无回响时延混合模型的语音信号混叠进行有效的分离。该方法计算量较少,复杂度低,估计精度高,能达到预期目标。

下面结合附图和具体实施例对本发明进行详细地说明。

附图说明

图1欠定盲源语音信号分离流程图。

图2单源点检测后的空间时频分布二维散点图。

图3势函数

Figure BDA0001777247090000021

的三维散点图。

图4相移参数的二维投影散点图。

图5相移参数的二维投影散点图。

具体实施方式

本实施例提供基于单源点检测的欠定盲源语音信号分离的方法,其流程图如图1所示,具体包括以下步骤:

步骤一:首先将线型麦克风阵列放于源信号的远场,作为传感器接收声音信号,得到多组接收信号数据。由于我们的目标是在未获得任何先验信息的情况下对混叠的语音信号进行分离,因此将进行一系列信号处理,具体流程如图1所示。为了在说明书中方便说明,本文中麦克风阵列中传感器数目设置为2。

Figure BDA0001777247090000031

Figure BDA0001777247090000032

其中,x1(t)和x2(t)分别表示第1,2个传感器接收到的混合信号,sk(t)表示第k个源信号。αk(k=1,2,L,N),τk(k=1,2,L,N)分别表示第k个源信号到第2个接收阵元的相对衰减和相对时延,

Figure BDA0001777247090000034

为相移参数。矩阵A∈C2×N表示为混合矩阵。

步骤二:由于接收到的混合信号在噪声因素的影响下混叠情况严重,稀疏性较差,所以需要然后将接收信号数据通过魏格纳分布进行时频域分析。

Figure BDA0001777247090000035

Figure BDA0001777247090000036

其中,Ws(t,f)和Wx(t,f)分别表示源信号和混合信号的空间时频分布。

Figure BDA0001777247090000037

构建时频域两路混合信号

Figure BDA0001777247090000038

的二维散点图。通过式(4),(5),(6)可得到单源点的检测准则式(7),根据此式筛选得到满足条件的非低能量单源时频点。

Figure BDA0001777247090000041

为了降低低能量时频点对聚类特性的负面作用,通过式(8)除去低能量单源点。

Figure BDA0001777247090000042

完成步骤三后的二维散点图如图2所示。

步骤三:由于衰减系数的值对应于散点图上每个单源点的斜率。

Figure BDA0001777247090000043

因此对每个点的横纵坐标作比值得到一组数据,进行DBSCAN聚类得到幅度的衰减参数即聚类中心。

步骤四:通过式(10)、(11)得到势函数—衰减参数—时延参数三维散点图如图3所示。

Figure BDA0001777247090000044

Figure BDA0001777247090000045

利用步骤三估计得到的衰减参数进行映射得到势函数—时延参数二维散点图如图4所示,聚类得到时延参数的估计。

步骤五:利用子空间映射的方法,计算各个时频点混合信号矢量到混合矩阵各个列矢量组合张成子空间的最短距离,当最短距离低于阈值时,子空间的各个列矢量就是该时频点对应的混合矩阵的列矢量。通过求此时频点混合矩阵的伪逆就可以完成源语音信号的恢复。初始源信号和恢复源信号对比图如图5所示。

从附图5我们可以发现,此方法在未获得足够的先验信息的情况下可以很好的把语音信号进行分离。

最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种音频信号缩放处理方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!