语音信号的特征获取方法及装置

文档序号：36644 发布日期：2021-09-24 浏览：39次 >En<

阅读说明：本技术 语音信号的特征获取方法及装置 (Method and device for acquiring characteristics of voice signal ) 是由张涛林丽琴孙浩于 2021-06-24 设计创作，主要内容包括：本公开实施例公开了一种语音信号的特征获取方法及装置,方法包括：对待分析的语音信号进行时频化处理,获取语音信号的语谱图；统计获取语谱图内各能量点的方向信息；根据语谱图内各能量点的方向信息,基于核密度估计算法建立形式背景,形式背景以能量点作为对象,能量点所含有的方向区间作为属性,用于描述语谱图中能量点与其所含有的方向区间之间的对应关系；根据形式背景,建立语音信号的方向共生属性拓扑图,方向共生属性拓扑图用于描述形式背景中属性对之间的共生关系。本技术方案可以用图的形式显示语音信号更加详细的方向信息,检测精度高,可解释性强,能有效分析语音信号的语谱图内能量点的方向值复杂多变的情况。(The embodiment of the disclosure discloses a method and a device for acquiring characteristics of a voice signal, wherein the method comprises the following steps: performing time-frequency processing on a voice signal to be analyzed to obtain a spectrogram of the voice signal; counting direction information of each energy point in the acquired spectrogram; establishing a form background based on a nuclear density estimation algorithm according to direction information of each energy point in a spectrogram, wherein the form background takes the energy point as an object, and a direction interval contained in the energy point is used as an attribute for describing a corresponding relation between the energy point in the spectrogram and the direction interval contained in the spectrogram; and establishing a directional symbiotic attribute topological graph of the voice signal according to the form background, wherein the directional symbiotic attribute topological graph is used for describing the symbiotic relationship between attribute pairs in the form background. The technical scheme can display more detailed direction information of the voice signal in a graph form, has high detection precision and strong interpretability, and can effectively analyze the condition that the direction value of the energy point in the spectrogram of the voice signal is complex and changeable.)

语音信号的特征获取方法及装置

技术领域

本公开涉及数据处理

技术领域

，具体涉及一种语音信号的特征获取方法及装置。

背景技术

语音作为人与人之间交流最普遍的方式，包含了说话人性别、年龄、情感、稳定与否等许多有效且重要的信息。由于语音中包含丰富的信息，并且语音数据采集的可行性较高，提取语音中的不同特征以表示所需要的信息，在当前人工智能、医学诊断等多个领域都具有可观的应用前景。尤其在医疗领域，语音检测方法具有采集方便、非接触、无创等优点，在操作和采集上与其他信号相比有着明显的优势，因此通过语音诊断相关病症备受瞩目。

在目前现有的能够表征语音信号深层信息的特征中，传统声学特征虽然物理意义明确、可解释性强，但由于传统声学特征只针对时域或者频域提取特征，从而忽略了语音中其它因素带来的直接影响，导致检测精度不高。而基于深度学习获取的语音信号特征虽然检测精度高，但深度学习存在可解释性差、模型的黑盒问题，而且医学领域普遍存在数据集规模较小的局限性，基于深度学习进行语音分析研究，存在过拟合的风险。

发明内容

本公开实施例提供一种语音信号的特征获取方法及装置。

第一方面，本公开实施例中提供了一种语音信号的特征获取方法，包括：

对待分析的语音信号进行时频化处理，获取所述语音信号的语谱图；

统计获取所述语谱图内各能量点的方向信息；

根据所述语谱图内各能量点的方向信息，基于核密度估计算法建立形式背景，所述形式背景以能量点作为对象，能量点所含有的方向区间作为属性，用于描述所述语谱图中能量点与其所含有的方向区间之间的对应关系；

根据所述形式背景，建立所述语音信号的方向共生属性拓扑图，所述方向共生属性拓扑图用于描述所述形式背景中属性对之间的共生关系。

进一步的，所述对待分析的语音信号进行时频化处理，获取所述语音信号的语谱图，包括：

按照以下公式对所述语音信号进行短时傅立叶变换：

其中，x(u)为语音信号，w(u-t)为窗函数，t表示时间，f表示频率，u-t∈[0,L-1]，所述L为所述窗函数的步长；

以P(t,f)作为所述语音信号的语谱图的表达式，按照以下公式计算P(t,f)：

P(t,f)＝|STFT(t,f)|²；

所述P(t,f)表示在时刻t和频率f下的能量值。

进一步的，所述w(u-t)为汉明窗的窗函数。

进一步的，所述统计获取所述语谱图内各能量点的方向信息，包括：

对所述语谱图按照以下公式如下进行滑窗处理：

P(t,f)＝[P₁(t,f),P₂(t,f),…,P_n(t,f)]；

其中，n为所述语谱图中子区域窗口的数量，P_i(t,f)表示所述语谱图的第i个子区域窗口；

按照以下公式计算子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向变化率

其中，所述l表示所述子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向，表示在子区域窗口下时频混合域内(t₀,f₀)处的能量点(t₀,f₀)的时间变化率，表示在子区域窗口下的时频混合域内(t₀,f₀)处的能量点(t₀,f₀)的频率变化率，所述为所述语谱图内时频平面坐标轴到(t₀,f₀)处能量点的方向l的夹角。

进一步的，所述根据所述语谱图内各能量点的方向信息，基于核密度估计算法建立形式背景，包括：

按照以下公式，对子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向变化率值分布进行核概率密度估计，得到(t₀,f₀)处能量点方向变化率的近似分布函数

其中，为独立同分布里的a_r个样本点，a_r为子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的所有方向变化率的数量，h＞0为一个平滑系数，k_el(·)为核函数；

按照以下公式，对子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向值分布进行核概率密度估计，得到(t₀,f₀)处能量点的方向值的近似分布函数

其中，为独立同分布里的a_f个样本点，a_f为子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的所有方向值的数量；

按照以下公式计算能量点与其所含有的方向区间的对应关系：

其中，所述为通过近似分布函数和近似分布函数得出的方向值的期望，σ为方向值的方差，g_p表示子区域窗口P_i(t,f)下第p个能量点即(t₀,f₀)处能量点，所述p取值为1，2，......，d，所述d为子区域窗口P_i(t,f)内的能量点的数量；ψ_q是子区域窗口P_i(t,f)下所有能量点的所有方向值的值域等间隔大小量化后的方向区间，ψ_q表示能量点g_p所含有的的属性，q取值为1，2，......，b，所述b为等间隔量化的方向区间的数量，I为对象与属性之间的关系，所述g_pIψ_q表示能量点g_p与能量点g_p所含属性ψ_q之间的对应关系；

以以子区域窗口P_i(t,f)下的能量点为对象，所述子区域窗口P_i(t,f)下所有能量点的所有方向值的值域等间隔大小量化后的方向区间为属性建立形式背景K＝(G,M,I)，其中，G表示子区域窗口P_i(t,f)内所有能量点的集合，M为子区域窗口P_i(t,f)内所有能量点方向值的值域等间隔量化后的方向区间的集合。

进一步的，所述根据所述形式背景，建立所述语音信号的方向共生属性拓扑图，包括：

按照以下公式计算所述形式背景中属性对之间边上的共生强度矩阵Edge_i(ψ_u,ψ_v)：

其中，g(ψ_u)为在所述形式背景中与方向区间ψ_u的对应关系为1的能量点集合，g(ψ_v)为在所述形式背景中与方向区间ψ_v的对应关系为1的能量点集合；#(g(ψ_u))表示g(ψ_u)中的能量点数量；#(g(ψ_u)∩g(ψ_v))表示g(ψ_u)∩g(ψ_v)中的能量点数量，u，v取值为1，2，.......，b；

根据所述Edge_i(ψ_u,ψ_v)构建所述语音信号的方向共生属性拓扑图。

第二方面，本公开实施例中提供了一种语音信号的特征获取装置，包括：

获取模块，被配置为对待分析的语音信号进行时频化处理，获取所述语音信号的语谱图；

统计模块，被配置为统计获取所述语谱图内各能量点的方向信息；

第一建立模块，被配置为根据所述语谱图内各能量点的方向信息，基于核密度估计算法建立形式背景，所述形式背景以能量点作为对象，能量点所含有的方向区间作为属性，用于描述所述语谱图中能量点与其所含有的方向区间之间的对应关系；

第二建立模块，被配置根据所述形式背景，建立所述语音信号的方向共生属性拓扑图，所述方向共生属性拓扑图用于描述所述形式背景中属性对之间的共生关系。

本公开实施例提供的技术方案可以包括以下有益效果：

上述技术方案可以采用对不同时频混合域内的能量点方向进行统计的方法，提取到待分析的语音信号中丰富的方向信息及各方向之间的共生关系，保证了信息的完整性，并通过基于核密度估计的形式背景建立方法，实现了语音信号到属性拓扑的转换，可视化的表示语音信号的方向属性对之间的共生关系。通过将语音信号转换成图的形式进行表示，可以表示出语音信号更加详细的方向信息，检测精度高，可解释性强，解决了传统声学特征与深度学习特征的技术缺陷，能有效分析语音信号的语谱图内能量点的方向值复杂多变的情况。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的一种语音信号的特征获取方法的流程图；

图2示出根据本公开一实施方式的一种形式背景的示意图；

图3是示出根据本公开一实施方式的一种方向共生属性拓扑图的示意图；

图4示出根据本公开一实施方式的一种语音信号的特征获取装置的结构框图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出根据本公开一实施方式的一种语音信号的特征获取方法的流程图，如图1所示，所述语音信号的特征获取方法可以包括以下步骤S101-S103：

在步骤S101中，对待分析的语音信号进行时频化处理，获取所述语音信号的语谱图；

在步骤S102中，统计获取所述语谱图内各能量点的方向信息；

在步骤S103中，根据所述语谱图内各能量点的方向信息，基于核密度估计算法建立形式背景，所述形式背景以能量点作为对象，能量点所含有的方向区间作为属性，用于描述所述语谱图中能量点与其所含有的方向区间之间的对应关系；

在步骤S104中，根据所述形式背景，建立所述语音信号的方向共生属性拓扑图，所述方向共生属性拓扑图用于描述所述形式背景中属性对之间的共生关系。

在本公开一实施方式中，语谱图是表示语音能量值随频率、时间变化的图形，它表达三维信息，其时频坐标轴中的纵轴为频率，横轴为时间，垂直于该时频坐标轴的Z轴为能量值，该语谱图用来表示时频混合域下给定时间和给定频率时的能量点对应的能量值。

在本公开一实施方式中，可以采用对不同时频混合域内的能量点方向进行统计的方法，提取到待分析的语音信号中丰富的方向信息及各方向之间的共生关系，保证了信息的完整性，并通过基于核密度估计的形式背景建立方法，实现了语音信号到其方向属性拓扑的转换，可视化的表示语音信号的方向属性对之间的共生关系。通过将语音信号转换成图的形式进行表示，可以表示出语音信号更加详细的方向信息，检测精度高，可解释性强，解决了传统声学特征与深度学习特征的技术缺陷，能有效分析语音信号的语谱图内能量点的方向值复杂多变的情况。

在本公开一实施方式中，上述方法中的步骤101，即所述对待分析的语音信号进行时频化处理，获取所述语音信号的语谱图，可以包括以下步骤A1和A2。

在步骤A1中，按照以下公式对所述语音信号进行短时傅立叶变换：

其中，x(u)为语音信号，w(u-t)为窗函数，t表示时间，f表示频率，u-t∈[0,L-1]，所述L为所述窗函数的步长；示例的，x(u)可以是一段时长为1秒的待分析语音信号，L可以取值为256，则u-t∈[0,255]。

在步骤A2中，以P(t,f)作为所述语音信号的语谱图的表达式，按照以下公式计算P(t,f)：

P(t,f)＝STFT(t,f)²；

所述P(t,f)表示在时刻t和频率f下的能量值。

在该实施方式中，该窗函数可以包括汉明窗、汉宁窗、矩形窗、三角窗、布莱克曼窗、指数窗等多种窗函数。

在本公开一实施方式中，为防止泄露，所述w(u-t)为汉明窗的窗函数，该汉明窗的窗函数表达式如下所示：

其中，L可取典型值为256，当然L也可以取其他值，在此不做限制。

在本公开一实施方式中，上述方法中的步骤102，即获取所述语谱图内各能量点的方向信息，可以包括以下步骤B1和B2。

在步骤B1中，对所述语谱图进行滑窗处理，公式如下:

P(t,f)＝[P₁(t,f),P₂(t,f),…,P_n(t,f)]

其中，P_i(t,f)表示所述语谱图的第i个子区域窗口，i可以取值1,2，……n，n为所述语谱图中子区域窗口的数量，该n的值为大于1的整数，由所述语谱图的横向滑窗参数与纵向滑窗参数的乘积决定，示例的，假设所述语谱图的横向滑窗参数为12，纵向滑窗参数为16，则该n的值可以是12×16＝192，此时对该语音信号的语谱图进行滑窗处理，就会将该语谱图划分为192个子区域窗口，该语谱图可以表示如下：

在步骤B2中，按照以下公式计算子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向变化率

在该实施方式中，该时频混合域内(t₀,f₀)处的能量点是指时间t₀和频率f₀处的能量点，按照上述公式就可以计算得到子区域窗口P_i(t,f)下时频混合域内的所有能量点的方向变化率，示例的，可以用表示在子区域窗口P_i(t,f)下的时频混合域内所有能量点方向变化率的集合，假设子区域窗口P_i(t,f)下的时频混合域的范围为t₀∈(0,5.21)ms，f₀∈(0,500)Hz，则可以用以下公式表示：

在该实施方式中，可以针对语谱图中的每个子区域窗口，计算该子区域窗口下时频混合域内所有能量点方向变化率，如此就可以计算得到该语谱图内所有能量点的方向变化率。

在本公开一实施方式中，上述方法中的步骤103，所述根据所述语谱图内各能量点的方向信息，基于核密度估计算法建立形式背景，包括以下步骤C1至C4。

在步骤C1中，按照以下公式，对子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向变化率值分布进行核概率密度估计，得到(t₀,f₀)处能量点方向变化率的近似分布函数f_h

其中，为独立同分布里的a_r个样本点，a_r为子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的所有方向变化率的数量，h＞0为一个平滑系数，称作带宽，由数据自适应取得。k_el(·)为核函数；该子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向变化率有很多个值，这些方向变化率值有的相等有的不等，共有a_r个不同的方向变化率值。

在步骤C2中，按照以下公式，对子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的方向值分布进行核概率密度估计，得到(t₀,f₀)处能量点的方向值的近似分布函数

其中，为独立同分布里的a_f个样本点，a_f为子区域窗口P_i(t,f)下时频混合域内(t₀,f₀)处能量点的所有方向值的数量；所述语谱图内时频平面坐标轴到(t₀,f₀)处能量点的方向l的夹角即为(t₀,f₀)处能量点的方向值，该(t₀,f₀)处能量点的方向值有很多个，这些方向值有的相等有的不等，共有a_f个不同的方向值。

在该实施方式中，核函数k_el(·)的函数表达式为：其中，x为被估计的数据，在步骤C1中，该x为在步骤C2中，该x为

在步骤C3中，按照以下公式计算能量点与其所含有的方向区间的对应关系：

其中，所述为通过近似分布函数和近似分布函数得出的方向值的期望，σ为方向值的方差，具体的计算过程为本领域人员所熟知，在此不再详述。为根据期望与方差确定的典型方向区间，g_p表示子区域窗口P_i(t,f)下第p个能量点即(t₀,f₀)处能量点，所述p取值为1，2，......，d，所述d为子区域窗口P_i(t,f)内的能量点的数量；ψ_q是子区域窗口P_i(t,f)下所有能量点的所有方向值的值域等间隔大小量化后的方向区间，ψ_q表示能量点g_p所含有的属性，q取值为1，2，......，b，所述b为等间隔量化的方向区间的数量，I为对象与属性之间的关系，所述g_pIψ_q表示能量点g_p与能量点g_p所含属性ψ_q之间的对应关系；

在步骤C4中，以子区域窗口P_i(t,f)下的能量点为对象，所述子区域窗口P_i(t,f)下所有能量点的所有方向值的值域等间隔大小量化后的方向区间为属性建立形式背景K＝(G,M,I)，其中，G表示子区域窗口P_i(t,f)内所有能量点的集合，M为子区域窗口P_i(t,f)内所有能量点方向值的值域等间隔量化后的方向区间的集合。

在该实施例中，该形式背景K＝(G,M,I)中的G表示子区域窗口P_i(t,f)内所有能量点的集合，假设共有64个能量点，则G＝{1,2,3,......,63,64}。M为所有能量点方向值的值域等间隔量化后的方向区间属性的集合，假设所有能量点方向值的值域为0°-180°，将其等间隔量化为9个方向区间，则可以得到M：M＝{ψ₁,ψ₂,ψ₃,ψ₄,ψ₅,ψ₆,ψ₇,ψ₈,ψ₉}＝{0°-20°,20°-40°,40°-60°,60°-80°,80°-100°,100°-120°,120°-140°,140°-160°,160°-180°}，I为对象与属性之间的关系。

示例的，图2示出根据本公开一实施方式的一种形式背景的示意图，假设该G＝{1,2,3,......,7,8}，M＝{ψ₁,ψ₂,ψ₃,ψ₄,ψ₅,ψ₆,ψ₇,ψ₈}＝{0°-20°,20°-40°,40°-60°,60°-80°,80°-100°,100°-120°,120°-140°,140°-160°}，按照步骤C1至C3计算出的该第p个能量点g_p的典型方向区间为20°-60°，则该第p个能量点g_p所含有的属性就是集合M中的8个方向区间ψ₁,ψ₂,ψ₃,ψ₄,ψ₅,ψ₆,ψ₇,ψ₈，ψ₁为0°-20°不在典型方向区间20°-60°内，故g₁Iψ₁＝0，ψ₂为20°-40°在典型方向区间20°-60°内，ψ₃为20°-40°在典型方向区间40°-60°内，故g₁Iψ₂＝1，g₁Iψ₃＝1，ψ₄,ψ₅,ψ₆,ψ₇,ψ₈均不在典型方向区间40°-60°内，故g₁Iψ₄＝0，g₁Iψ₅＝0，g₁Iψ₆＝0，g₁Iψ₇＝0，g₁Iψ₈＝0。可以按照上述过程类推得到G＝{1,2,3,......,7,8}内8个能量点与其所含有属性的对应关系，并据此建立图2所示的形式背景K＝(G,M,I)。

在该实施例中，针对每个子区域窗口，可以按照上述步骤建立一个形式背景K＝(G,M,I)，假设有192个子区域窗口，就会建立192个形式背景。

在本公开一实施方式中，上述方法中的步骤S104，即所述根据所述形式背景，建立所述语音信号的方向共生属性拓扑图，包括以下步骤D1至D2。

在步骤D1中，按照以下公式计算所述形式背景中属性对之间边上的共生强度矩阵Edge_i(ψ_u,ψ_v)：

示例的，仍以图2所示的形式背景为例进行说明，在u＝1，v＝2时，方向区间ψ₁内的能量点为1，2，3，5和6，在方向区间ψ₂内的能量点为3，4，6，7和8，则(g(ψ₁)∩g(ψ₂))＝3,6，#(g(ψ₁)∩g(ψ₂))＝2，以此类推，可以计算出子区域窗口P_i(t,f)对应的Edge_i(ψ_u,ψ_v)为：

在步骤D2中，根据所述Edge_i(ψ_u,ψ_v)构建所述语音信号的方向共生属性拓扑图。

图3是示出根据本公开一实施方式的一种方向共生属性拓扑图的示意图，图3是根据所述构建的方向共生属性拓扑图。通过图3所示的方向共生属性拓扑图可以可视化的表示语音信号方向属性对之间的共生关系。

在该实施例中，可以根据每个子区域窗口的形式背景，建立一个共生属性拓扑图，假设有192个子区域窗口，则可以建立192个共生属性拓扑图。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图4示出根据本公开一实施方式的一种语音信号的特征获取装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示，所述获取装置包括：

获取模块401，被配置为对待分析的语音信号进行时频化处理，获取所述语音信号的语谱图；

统计模块402，被配置为统计获取所述语谱图内各能量点的方向信息；

第一建立模块403，被配置为根据所述语谱图内各能量点的方向信息，基于核密度估计算法建立形式背景，所述形式背景以能量点作为对象，其所属方向区间作为属性，用于描述所述语谱图中能量点与其所属方向区间之间的对应关系；

第二建立模块404，被配置根据所述形式背景，建立所述语音信号的方向共生属性拓扑图，所述方向共生属性拓扑图用于描述所述形式背景中属性对之间的共生关系。

具体的，该语音信号的特征获取装置中的各模块的实现可以参考上述语音信号的特征获取方法中的描述，在此不再一一赘述。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

15页详细技术资料下载

语音信号的特征获取方法及装置

相关技术

网友询问留言