一种结合视频信号的多通道卷积混叠语音信道估计算法

文档序号:1546329 发布日期:2020-01-17 浏览:26次 >En<

阅读说明:本技术 一种结合视频信号的多通道卷积混叠语音信道估计算法 (Multi-channel convolution aliasing voice channel estimation algorithm combined with video signal ) 是由 杨俊杰 杨祖元 谢胜利 杨超 解元 于 2019-08-30 设计创作,主要内容包括:本发明公开了一种结合视频信号的多通道卷积混叠语音信道估计算法,引进新型数学工具和分析方法,融合视音频信号信息,实现卷积语音混叠信道的有效估计。该方法借助说话人嘴部区域视频信号,通过非负矩阵分解提取说话人嘴型特征数据;利用密度聚类方法检测说话人嘴部特征数据的聚类中心,检测出说话人嘴部处于静默状态的图像帧,进一步提取单一说话人发声主导的所有时间窗口。根据局部主导时间窗口信息,从时频域观测语音信号成分计算局部主导协方差矩阵,通过特征值分解提取出主导特征向量,从而实现混叠语音信道估计。对比当前较为流行的单模态音频下的混叠语音信道估计方法,从数值实验上证明了所提方法的优越性。(The invention discloses a multi-channel convolution aliasing voice channel estimation algorithm combined with a video signal, introduces a novel mathematical tool and an analysis method, fuses video and audio signal information, and realizes effective estimation of a convolution voice aliasing channel. The method extracts speaker mouth shape characteristic data through non-negative matrix factorization by means of speaker mouth region video signals; and detecting a clustering center of the speaker mouth characteristic data by using a density clustering method, detecting an image frame of the speaker mouth in a silent state, and further extracting all time windows dominated by the single speaker voice. And according to the local dominant time window information, calculating a local dominant covariance matrix from the time-frequency domain observation voice signal components, and extracting a dominant eigenvector through eigenvalue decomposition, thereby realizing aliasing voice channel estimation. Compared with the aliasing voice channel estimation method under the current popular single-mode audio, the method proves the superiority of the method from numerical experiments.)

一种结合视频信号的多通道卷积混叠语音信道估计算法

技术领域

本发明涉及语音信号处理领域,具体涉及一种结合视频信号的多通道卷积混叠语音信道估计算法。

背景技术

语音分离(Audio Speech Separation,ASS)的任务是通过信号处理的方式,从麦克风接收到的多个说话人混合语音信号中分离出目标说话人的声音。在信号处理领域中,这是极具挑战性的课题。在实现语音完全分离之前,获取混叠信道信息是语音分离问题中的一个关键性环节。在现实情况下,通过视频信号辅助处理语音问题可以克服背景噪声的干扰,获取更为准确的说话人发声状态信息,弥补单模态音频信号在噪声、高混响环境中处理混合语音信号的不足。

在实际录音情况中,语音信号受到室内混响效应以及背景噪声的干扰影响,录制语音往往是多衰落路径混叠合成的结果,数学上可描述为卷积混叠模型。由于现实情况中存在高混响,高背景噪声等因素的影响,导致室内语音卷积混合系统复杂,混叠信道信息难以获取,给后续的语音分离带来很大的困难。在单模态音频信号方面,为了解决混响和噪声环境下的混叠信道估计问题,目前比较流行的是将观测语音信号转换到时频域进行批量处理的方法,例如,当前流行的PARAFA-SC算法,以及Bayes Ris-Min算法。但是,针对现实情况中出现的高混响、高噪声问题,现有技术容易出现信号源相互串扰的问题,导致最终的混叠信道估计不够理想。

发明内容

本发明的目的是提供以一种结合视频信号的多通道卷积混叠语音信道估计算法,可以解决现有算法对混叠信道估计性能不够理想的问题。

为了实现上述任务,本发明采用以下技术方案:

一种结合视频信号的多通道卷积混叠语音信道估计算法,包括以下步骤:

采集多个说话人的视频数据,并剪辑出说话人嘴部区域的视频图像,构成视频数据库;与此同时,录制每个说话人的语音信号,构建音频数据库;利用音频数据库合成多个多通道卷积混叠语音信号;

对说话人嘴部区域视频图像的向量化表示矩阵进行非负矩阵分解,分别得到图像特征矩阵和图像表示矩阵;通过短时傅里叶变换在时频域对多通道卷积混叠语音信号进行数学建模;

对单个说话人的图像表示矩阵逐列进行密度聚类,搜寻出最大密度聚类中心,并设置阈值以获取最大密度聚类中心的近邻数据点下标集合,将其作为说话人嘴部保持静默状态数据集,将该数据集的补集作为该说话人发声状态数据集;对多个说话人的静默状态数据集、发声状态数据集进行联合交集运算,检测出单一说话人的局部主导集;

根据单一说话人的局部主导集,分别计算出对应的时间窗口所对应的时频域二阶协方差矩阵序列,从各阶协方差矩阵中以此提取主导特征向量,组成估计混叠信道。

进一步地,所述的采集多个说话人的视频数据,并剪辑出说话人嘴部区域的视频图像,构成视频数据库;与此同时,录制每个说话人的语音信号,构建音频数据库,包括:

通过摄像机录制多个说话人正面说话视频,说话人念完每句时保持一定的停顿,剪辑出说话人嘴部区域视频图像,构成视频数据库;录制视频的同时,通过麦克风录制说话人的纯净语音信号,构建音频数据库。

进一步地,所述的对说话人嘴部区域视频图像的向量化表示矩阵进行非负矩阵分解,分别得到图像特征矩阵和图像表示矩阵,表示为:

Vi=WiHi

其中,Vi表示说话人嘴部区域视频图像的向量化表示矩阵,图像特征矩阵为Wi=[wi,1,...,wi,K]∈(R+)P×K,图像表示矩阵为Hi=[hi,1,...,hi,Q]∈(R+)K×Q,其中,i表示第i个说话人,P为视频帧的总像素值,K为图像特征矩阵列数,Q为图像表示矩阵的列数,R为实数集,K<<Q,Hi中所有列的模长为单位长度,即

Figure BDA0002186518530000021

进一步地,所述的通过短时傅里叶变换在时频域对多通道卷积混叠语音信号进行数学建模,表示为:

xf,d=Afsf,d+ef,d

其中Af是复数域频点f上的混叠信道,sf,d是时频点(f,d)上的语音源成分,ef,d是高斯噪声。

进一步地,所述的对单个说话人的图像表示矩阵逐列进行密度聚类时,计算第i个说话人的局部密度值评价指标ρiq表示为:

Figure BDA0002186518530000031

其中,φi,qk定义为图像表示矩阵Hi特征列hi,q与hi,k之间的欧式距离,

Figure BDA0002186518530000032

为预先设置的欧式距离阈值。

进一步地,所述的设置阈值以获取最大密度聚类中心的近邻数据点下标集合,包括:

设置距离阈值μ,将所有距离最大密度聚类中心低于阈值的图像表示向量数据点下标集合标记为Φi

进一步地,所述的分别计算出对应的时间窗口所对应的时频域二阶协方差矩阵序列,表示为:

Figure BDA0002186518530000033

其中g(Ψi)为单一说话人局部主导集Ψi转换为对应的语音时频帧集合时的映射函数。

进一步地,所述的主导特征向量为最大特征值所对应的特征向量。

本发明与现有技术相比具有以下技术特点:

本发明借助说话人嘴部区域视频图像检测,引用数学工具(非负矩阵分解以及密度聚类方法)检测出视频图像中单一说话人局部主导时间窗口,同时从音频信号构造时频域语音局部协方差统计矩阵,提取出主导特征向量,从而估计出混叠信道;系列实验验证了本发明算法比其他单音频模态算法具有更好的估计性能。

附图说明

图1为纯净语音信号图;

图2为混叠语音信号图;

图3的(a)、(b)分别为说话人1、说话人2的嘴部图像;

图4为说话人1嘴部图像特征数据的密度聚类效果示意图;

图5为基于嘴部表示矩阵的单一说话人局部主导检测效果示意图;

图6为本发明方法的流程示意图。

具体实施方式

本发明提出了一种结合视频信号的多通道卷积混叠语音信道估计算法,借助视频嘴部区域状态检测,利用视频图像提取出多个说话人嘴部保持静默状态关键帧,基于此检测出仅有一个说话人发声的所有时间窗口,同时结合观测音频信号估计出卷积语音混叠信道。在视频中,N个说话人的嘴部区域视频信号表示为V1,...,VN,其中Vi∈RP×Q为第i个人嘴部区域视频的向量化表示,P为视频帧的总像素值,Q表示视频帧总数,i=1,…,N。在音频中,卷积语音混叠系统为x(t)=A*s(t)+e(t),其中x(t)∈RM代表M个麦克风采集的观测语音信号,A∈RM×N×L为混响条件下的L阶次混叠信道矩阵,*表示卷积符号,s(t)∈RN为纯净语音信号,e(t)∈RM为系统噪声;本发明的目的是结合视音频信号估计出卷积混叠语音信道A。

步骤1,采集多个说话人的视频数据,并剪辑出说话人嘴部区域的视频图像,构成视频数据库;与此同时,录制每个说话人的语音信号,构建音频数据库;利用音频数据库合成多个多通道卷积混叠语音信号。

首先,通过摄像机录制多个说话人正面说话视频,说话人念完每句时保持一定的停顿,剪辑出嘴部区域视频图像,构成视频数据库;录制视频的同时,通过麦克风录制说话人的纯净语音信号,构建音频数据库。

从音频数据库中合成多个多通道卷积混叠语音信号,本实施例中合成三种语音混叠方案,麦克数目M分别为2、3,说话人数目N分别为2、3、4,标记为(M,N)=(2,2)、(M,N)=(3,3)、(M,N)=(3,4)。录制语音采样率为fs=8000,采集长度为40秒。另外,麦克风间距设置为0.05米,说话人的间距设置为0.4米,麦克风中心距离说话人中心距离设置为1.2米,混响时间分别设置为:RT60=100ms,150ms,200ms,250ms,房间脉冲响应函数由Image-basedRIR算法生成(J.Allen and D.Berkley,Image method for efficiently simulatingsmall room acoustics[J],J.Acoust.Soc.Amer.,65(4),1979.)。采用三星I9100手机录制多个说话人视频,采样率为fps=25,每幅图像大小为90乘以110像素点;短时傅里叶窗函数长度设置为2048。

步骤2,对说话人嘴部区域视频图像的向量化表示矩阵进行非负矩阵分解,分别得到图像特征矩阵和图像表示矩阵,以提取说话人嘴部视频图像特征;通过短时傅里叶变换在时频域对多通道卷积混叠语音信号进行数学建模。

由于视频图像阵列较大,在图像域直接处理计算量大,增加算法复杂度。本方案通过非负矩阵分解获取视频图像特征信息,实现嘴部区域图像维度的约简。

说话人嘴部区域视频图像的向量化表示矩阵Vi进行非负矩阵分解,表示为:

Vi=WiHi

其中,图像特征矩阵为Wi=[wi,1,...,wi,K]∈(R+)P×K,图像表示矩阵为Hi=[hi,1,...,hi,Q]∈(R+)K×Q,其中,i表示第i个说话人,P为视频帧的总像素值,K为图像特征矩阵列数,Q为图像表示矩阵的列数,R为实数集,K<<Q。Hi中所有列的模长为单位长度,即

Figure BDA0002186518530000051

利用短时傅里叶变换,在时频域对多通道卷积混叠语音信号x(t)进行数学建模:

有N个信号(N=2,3,4),被M个麦克风接收产生混叠(M=2,3),则在时频点(f,d)中的混叠语音信号成分xf,d表示为:

xf,d=Afsf,d+ef,d

其中Af=[af,1,...,af,N]是复数域频点f上的混叠信道,sf,d是时频点(f,d)上的语音源成分,ef,d是高斯噪声。

步骤3,对单个说话人i的图像表示矩阵Hi逐列进行密度聚类,搜寻出最大密度聚类中心,并设置阈值μ以获取最大密度聚类中心的近邻数据点集合Φi,将其作为说话人i嘴部保持静默状态数据集,将该数据集的补集作为该说话人发声状态数据集

Figure BDA0002186518530000052

对N个说话人的静默状态数据集、发声状态数据集进行联合交集运算,检测出单一说话人的局部主导集,标记为Ψ1,...,ΨN

该步骤中,计算第i个说话人的局部密度值评价指标为:ρiq,q=1,...,Q,表示为:

其中,φi,qk定义为图像表示矩阵Hi特征列hi,q与hi,k之间的欧式距离,

Figure BDA0002186518530000062

为预先设置的欧式距离阈值,如从距离集{φi,qk}q,k=1,...,Q(按从小到大排列)中提取前6%-8%距离值作为阈值;针对每个说话人,提取上述局部密度值指标为ρi1,...,ρiN,i=1,…,N。

搜寻出最大密度聚类中心以及设置距离阈值μ获取说话人嘴部保持静默状态数据集Φi,本实施例中,μ≈0.3,将所有距离最大密度聚类中心低于阈值的图像表示向量数据点下标集合标记为Φi(即静默状态数据集),另外标记说话人i发声状态数据集为Φi的补集,记为

Figure BDA0002186518530000063

通过交集运算检测出单一说话人局部主导集为:

Figure BDA0002186518530000064

jl∈{1,...,i-1,i+1,...N},l=1,...,N-1。

步骤4,根据单一说话人的局部主导集,分别计算出对应的时间窗口所对应的时频域二阶协方差矩阵序列,从各阶协方差矩阵中以此提取主导特征向量,组成估计混叠信道。

利用步骤2中多通道卷积混叠语音信号建模得到的时频域混叠语音信号成分xf,d,构造局部二阶协方差矩阵如下:

其中g(Ψi)为单一说话人局部主导集Ψi转换为对应的语音时频帧集合时的映射函数。

对上述的局部二阶协方差矩阵进行特征值分解,提取最大特征值所对应的特征向量(主导特征向量)标记为从而构造估计混叠信道

Figure BDA0002186518530000067

实现混叠信道估计。

下面通过三个具体仿真实验来说明该算法的可行性与优越性,所有实验是在MacBook Air,Intel Core i5,CPU 1.8GHz,macOS 10.13.6,Matlab R2018b编程环境下实现。首先,本方案采用David Dov等人提供的视音频数据集作为测试集(David Dov,RonenTalmon,and Israel Cohen,Audio-visual voice activity detection using diffusionmaps[J].IEEE/ACM Trans.Audio,Speech,Lang.Process.,23(4),2015:732-745)。在该数据集中,本方案各选取4个说话人的嘴部运动视频以及相应语音数据,按照步骤一所述构造视音频测试数据集。语音纯净信号波形如下图1所示,混叠语音波形如下图2所示。视频采集说话人嘴部区域图像如下图3所示,通过步骤三检测密度聚类中心效果图如下图4所示,通过步骤四检测单一说话人局部主导时间窗如下图5所示。

另外,本方案将估计混叠信道精度作为性能比较:

Figure BDA0002186518530000071

误差值越小则估计精度越高。

本方案考虑不同混响RT60下的卷积语音混叠信道估计问题,与现今比较流行的两种基于音频信号的卷积混叠信道估计算法即Bayes-RisMin和PARAFAC-SC进行对比,混叠信道估计性能结果如下表1所示。显然,本方案所提出的卷积混叠信道估计算法性能更加优越。

表1不同混响RT60下的混叠信道估计精度(MSEs)

Figure BDA0002186518530000072

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种语音识别方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!